הסטטיסטיקה מבוססת על מדגמים. מדגם לא מייצג מוביל בדרך כלל להטיה בנתונים הנאספים ולמסקנות שאינן תקפות.
לרוב אין זה מעשי לאסוף את כל הנתונים הדרושים למחקר מסויים ((למשל נתוני השכר של כל אזרחי מדינת ישראל)), ולכן יש להסתפק במדגם – כלומר בנתונים חלקיים. המדגם צריך לאפשר הסקה לגבי כלל הנתונים. אם המדגם אכן מאפשר זאת, המדגם הוא מייצג. מדגם לא מייצג, ברוב המקרים, לא מאפשר הסקה אמינה.
במקום לתת הסברים טכניים, אציג כאן מספר דוגמאות. רובן עוסקות בסקרים, אך הבעיות עלולות לצוץ בכל מיני יישומים אחרים (למשל דגימה של מוצרים מפס הייצור לצורך בקרת איכות, או ביצוע AB testing בקרב משתמשים, למשל עלי ידי הכללה של משתמשים חדשים בלבד).
נתחיל בסקרי בחירות. שתי דוגמאות מפורסמות הן סקרי הבחירות לנשיאות ארצות הברית ב-1936 (רוזוולט נגד לנדון) וב-1948 (טרומן נגד דיואי) .
ב-1936 ערך העיתון Literary Digest סקר שהקיף 2.4 מיליון משתתפים. זהו הסקר הגדול ביותר שנערך אי פעם. למעשה נשלחו 10 מיליון שאלונים, אך רק רבע מהנמענים השיבו. הסקר חזה ניצחון מוחץ ללנדון, אך רוזוולט הוא זה שנבחר. התברר שהמדגם לא היה מייצג. במדגם היו שתי בעיות. השאלונים נשלחו לאנשים שהופיעו ברשימות של חברי מועדונים ו/או בספרי טלפונים. ב-1936, רוב מוחלט של האנשים האלה היו עשירים. הסקר דגם אנשים עשירים באופן שיטתי. אנשים עשירים תמכו בלנדון. העניים, שהיו רבים יותר מן העשירים, תמכו ברוזוולט. בעיה נוספת בסקר הייתה שכשלושה רבעים מהאנשים אליהם נשלחו השאלונים לא השיבו. האנשים שלא השיבו שונים מאלה שהשיבו (הם הרי לא השיבו). ייתכן מאוד כי הם נבדלו מהמשיבים גם בהעדפותיהם הפוליטיות.
יש לציין כי סקרים קודמים שהעיתון ערך בשיטה זו חזו את המנצחים בבחירות, למרות שהמדגמים לא היו מייצגים ((גם אז הם דגמו יותר עשירים באופן שיטתי)). זה קרה מכיוון שהנושאים המרכזיים בבחירות קודמות היו מדיניים ולא כלכליים, ובנושאים אלה אין הבדלים מהותיים בין עניים ועשירים.
מסקנה חשובה מהסקר של 1936: מדגם גדול לא עוזר להתגבר על הטיה באיסוף הנתונים. להיפך – הוא מעצים את ההטיה.
עם זאת, היה מי שחזה היטב את התוצאות ששל הבחירות האלה – ג’ורג’ גאלופ, והוא עשה זו בעזרת מדגם של 50,000 נסקרים בלבד. גאלופ השתמש בשיטת דגימה שנקראת Quota Sampling. הסוקרים שלו יצאו לשטח וראיינו בעלי זכות בחירה. כך נמנע חלק גדול מבעיית חוסר ההשבה. כמו כן, הסוקרים קיבלו הוראות מדוייקות איך לדגום את המרואיינים. למשל, סוקר שנשלח לראיין 13 איש, הונחה לראיין 7 גברים ו-6 נשים. את 7 הגברים היה עליו לבחור כך ש-3 מהם יהיו מתחת לגיל 40 ו-4 מעל גיל 40, וכולי. כך קיבל גאלופ מדגם שייצג את אוכלוסיית הבוחרים בכל הפרמטרים שלפיהם נבנתה תכנית הדגימה: מין, גיל ופרמטרים נוספים. השיטה הזו עבדה יפה עד 1948. ב-1948 חזה גאלופ, על פי השיטה הזו, כי בבחירות לנשיאות המועמד הרפובליקני, דיואי, יביס את המועמד הדמוקרטי, טרומן. טרומן ניצח. מה קרה פה? הוראות הדגימה לא כללו פילוח לפי העדפה מפלגתית – הרי זה מה שהסקר ניסה לחזות. התברר כי לסוקרים היה הרבה יותר נוח לדגום רפובליקאים (בלי שיהיו מודעים לכך, כמובן). הסקר היה מוטה לטובת הרפובליקאים.
מה קרה בבחירות 2016, בהן הסקרים והמודלים חזו כי הילארי קלינטון תנצח את טראמפ בבחירות לנשיאות? ((טראמפ ניצח, לידיעת מי שהדחיק)) התשובה עדיין לא ברורה. החיזוי נעשה על פי מודלים ששקללו מספר רב של סקרי בחירות, מעין מטה-אנליזה. המודלים האלה פותחו לקראת בחירות 2012, וחזו בדייקנות את נצחונו של אובמה על רומני. הם כשלו ב-2016. יש ויכוח בין המומחים האם המודל היה מוטה כבר ב-2012, וחזה את ניצחון אובמה למרות ההטיה, או שמא המודל נפל קורבן להטיה ספציפית ב-2016.
ראינו קודם בעיה בסקר שנגרמה, בין השאר, כיוון שרוב הנסקרים הפוטנציאליים לא השיבו לשאלות הסקר. יכולה להיות גם בעיה הפוכה – אנשים שנלהבים להשיב לסקר. כך, למשל, קרה לבעלת הטור אן לנדרס, ששאלה את קוראיה שהינם הורים לילדים שאלה פשוטה: “לו הייתם חיים שוב את חייכם, האם שוב הייתם מביאים ילדים לעולם?” (קישור לקובץ pdf). היא קיבלה כ-10000 תגובות לסקר. 70% אמרו שלא. בסקר דומה שנערך על ידי המגזין Good Housekeeping, מספר חודשים לאחר מכן, שיעור משיבי ה-“לא” היה 95%. אני חושב שכאן ברור שהמדגם לא מייצג. סביר להניח שציבור הקוראים אינו מייצג את כל האוכלוסייה (מדובר בטור במדור שמיועד לנשים, ובמגזין לנשים). כמו כן, המשיבים לסקר לא נדגמו מתוך האוכלוסייה הכללית. הם בחרו להשיב לסקר. ייתכן מאוד כי בעלי הדיעה הקיצונית, משיבי ה-“לא”, היו נלהבים יותר להשיב לסקר.
דוגמה היסטורית נוספת – מחקריו של אלפרד קינזי על מיניות האדם. אני חושב שאין חולק על כך שקינזי היה פורץ דרך במחקר תחום שנחשב בזמנו לטאבו. גם ממצאיו האיכותניים עדיין נחשבים כמשמעותיים, גם כאשר עברו יותר מ-60 שנה מאז פירסם את הדו”ח שלו על מיניות האדם. עם זאת, שיטות המחקר שלו היו שנויות במחלוקת, בלשון המעטה. אני אתייחס כאן רק למחקר הכמותי שביצע. קינזי הכיר בקיומה של הומוסקסואליות, גם אצל גברים וגם אצל נשים, ואף הבחין כי מדובר ברצף, ובנה סולם בן 7 דרגות, כך שרמת הנטייה המינית של כל אדם מבוטאת על ידי דרגה בסולם, שעדיין נמצא בשימוש. שאלה מעניינת, עד עצם היום הזה, היא איזה אחוז מהאוכלוסייה נמצא בכל שלב של הסולם? הנמצאים בשתי הדרגות של הסולם נחשבים כהומוסקסואלים (או לסביות). קינזי הגיע למסקנה כי 13% מהנשים ו-7% מהגברים נמצאים בדרגות האלה. ((הנתון הידוע, הטוען כי שיעור ההומוסקסואלים ו/או לסביות באוכלוסייה הוא 10%, הגיע מחישוב הממוצע של 7 ו-13)) אולם המדגם של קינזי לא היה מייצג, ככל הנראה במודע. היה בו ייצוג יתר לאסירים ולזונות ממין זכר. גם העובדה כי רוב הנסקרים (והנסקרות) שלו היו מתנדבים הפחיתה מרמת הייצוג של הסקרים שלו. עקב כך, ממצאיו הכמותיים שנויים במחלוקת.
הדוגמה האחרונה שאביא היא מהמחקר שפירסם משרד האוצר בשנת 2004 על מה שכינה “שכר המינימום ונזקיו”. החלק הכמותי/אקונומטרי של המחקר עסק בנתונים מתקופה של 11 שנים, מ-1993 ל-2003, וזאת למרות ששכר המינימום הונהג בישראל בראשית שנות ה-70. ה-“מדגם” שלהם לא מייצג, וזה נעשה במודע. החוקרים ((שלא היו מספיק אמיצים כדי לחתום על המחקר בשמם)) הסבירו כי “תקופת המדגם נבחרה כך שלא תכלול את השינויים המבניים הגדולים שהתרחשו בתחילת שנות ה-90”. במילים אחרת, הם התעלמו במכוון מתקופה של כ-20 שנה בהן היה נהוג שכר מינימום, ומהתובנות שעשויות לעלות מהנתונים הכלכליים של התקופה ההיא. אפשר לחשוב על הרבה סיבות נוספות לבחירה שלהם, מלבד הסיבה שהם סיפקו. לא אכנס כאן לספקולציות. כמו כן, עדיין לא ניתן לקבוע בבירור האם הם צדקו במסקנותיהם. שכר המינימום כמעט ולא השתנה באופן ריאלי בין 2004 ל-2014. עם זאת, מאז 2014 חלה עליה ריאלית משמעותית בשכר המינימום, והאסונות שנחזו בדו”ח (שהיו אמורים להיות מיידיים) עדיין לא אירעו.
אז איך עורכים מדגם לא מייצג?
נסביר תחילה איך עורכים מדגם מייצג, כפי שמלמדים בקורס הבסיסי בדגימה בשנה ג’ של לימודי הסטטיסטיקה. קודם כל צריכים לערוך רשימה של כל המועמדים להיכלל במדגם. זוהי מסגרת הדגימה. כעת אפשר לבחור את שיטת הדגימה.
הבסיס לכל השיטות היא דגימה הסתברותית – לכל פרט באוכלוסייה נקבעת ההסתברות כי ייכלל במדגם.
הדרך הפשוטה ביותר היא לערוך מדגם מקרי פשוט – לכל הפרטים יש את אותה ההסתברות להיכלל במדגם. כדי לקבוע מי יידגם, מכניסים לתוך כובע גדול פתקים, כשלכל פרט באוכלוסייה יש פתק עליו כתוב השם (או מזהה אחר) הפרט. מערבבים היטב את כל הפתקים, ומוציאים מהכובע מספר פתקים על פי גודל המדגם הדרוש. אפשר, כמובן, לבצע את התהליך הזה באופן ממוחשב.
יש וריאציות יותר מתקדמות. אם האוכלוסייה מתחלקת למספר שכבות אשר שונות זו מזו באופן מהותי (למשל דתיים וחילוניים), אפשר לבצע מדגם נפרד בתוך כל שכבה ולאחר מכן לשקלל את התוצאות. אם לעומת זאת, האוכלוסייה מורכבת מאשכולות אשר לא שונים זה מזה באופן מהותי (דוגמה היפותטית: אוכלוסיית הקיבוצים), אפשר לדגום רק מספר אשכולות (קיבוצים) מתוך רשימת הקיבוצים, ובעזרת מודל מתמטי לא מורכב להסיק ממדגם זה על האוכלוסייה כולה.
אבל יש גם דרכים לקבל מדגם לא מייצג. ציינתי חלק מהן בדוגמאות שהבאתי. אציין כמה מהשיטות הפופולריות.
המקרה הנפוץ הוא להשתמש במסגרת דגימה השונה באופן מהותי מהאוכלוסייה הנחקרת. זה עשוי לקרות בטעות, כפי שקרה בסקר הבחירות בארה”ב ב-1936, או במודע, כפי שנעשה במחקר המדובר של משרד האוצר. מסגרת דגימה לא ראויה עלולה לגרום לייצוג יתר של חלק מהאוכלוסייה, וייצוג חסר של חלקים אחרים. ייתכן גם כי יידגמו פרטים שאינם נכללים באוכלוסייה (למשל, נער בן 16 העונה לסוקר טלפוני לשאלה בעד מי יצביע בבחירות הקרובות).
גם כאשר בונים היטב את מסגרת הדגימה, המדגם שמתקבל עשוי להיות מוטה ובלתי מייצג עקב שיעורי השתתפות נמוכים של הנדגמים במדגם עצמו.
מדגם נוחות, בו החוקר בוחר את המדגם באופן הנוח לו (למשל, חוקר באוניברסיטה שבמחקר שלו משתתפים הסטודנטים שלו) הוא מתכון כמעט בטוח למדגם לא מייצג.
שליחת שאלונים לכל מי שאפשר (כמו בבחירות 1936 בארצות הברית) גורמת בדרך כלל גם היא לחוסר ייצוג. לפרטים שונים באוכלוסייה יש הסתברויות שונות להכללות במדגם, אולם איש אינו יודע מה ההסתברויות האלה, ולכן אין אפשרות סבירה לסיכום התוצאות.
מדגם המבוסס על מתנדבים יביא גם הוא לחוסר ייצוג, כפי שלמדנו מהמקרה של אן לנדרס. אנשים המעוניינים להיות חלק מהמדגם (נניח, מוכנים להשיב לסקר כלשהו) שונים באופן מהותי מאלה שאינם מעוניינים. זו בעיה די שכיחה בטכניקה של הפצת שאלונים באינטרנט, למשל.
המתודולוגיה של הפצת שאלונים (כיום בעיקר דרך האינטרנט) כאשר מצורפת אליהם הבקשה “אנא שתפו עם חבריכם” ידועה בשם “מדגם כדור השלג”. מספר ראשוני קטן של נדגמים מפיצים את השאלון בקרב חבריהם, ואלה בתורם מפיצים את השאלון הלאה. התוצאה: הנדגמים יהיו כולם שייכים לרשת חברתית מסויימת, שקרוב לוודאי תהיה שונה באופן מהותי מכלל האוכלוסייה ולא תייצג אותה.
לסיכום – יש להחליט על הדרך בה ייאספו הנתונים שישמשו לאחר מכן כבסיס לניתוח סטטיסטי בכובד ראש, וזאת כדי להמנע מהכשלים והבעיות שנימנו כאן. מדגם לא מייצג יוביל כמעט תמיד לתוצאות לא תקפות.
רשימות נוספות בסדרה:
לגבי 2016, נייט סילבר דווקא די דייק. הוא נתן לקלינטון 70% סיכוי לנצח, משהו שהיה גבוה מ50% אבל נמוך משמעותית ממודלים של אחרים. הבעייה היא שכששומעים מספר כמו 70%, אנשים נוטים לפרש אותו ככמעט וודאי למרות שהוא לא כזה.
סילבר (ואחרים) גם דייקו כשחזו שקלינטון תנצח במניין הקולות הכללי. הבעייה היא שהניצחון שלה היה קטן מהצפוי 2% כשהם חזו לפחות 3%. אם היה 3% אז רוב הסיכויים שהייתה מנצחת גם בשיטת האלקטורים. בסך הכל ההפרשים בכמה מדינות מפתח היו קטנים מאוד, ובמסגרת טעות המדגם ולכן הם הרבה יותר קשים לחיזוי.