חיפוש באתר

קישורים

RSS סטטיסטיקה ברשת

עמודים

קטגוריות

תגיות

כמה הערות מאוחרות בנושא פרסום ציוני המיצב

ביום חמישי האחרון (23.5.13) השתתפתי בכנס האיגוד הישראלי לסטטיסטיקה. במושב הסיום של הכנס נערך פאנל בו השתתפה, בין היתר, פרופ' מיכל בלר, המנכ"ל הפורשת של הרשות הארצית למדידה והערכה (ראמ"ה). הפאנל היה אמור לעסוק ב-"אתגרים בפרסום פומבי של נתונים על מערכות ציבוריות", אולם בפועל הוקדש רובו להתלהמות חוצבת להבות של פרופ' בלר כנגד ההחלטה להנגיש לציבור את תוצאות מבחני המיצב. ההחלטה התקבלה, אגב, על ידי שופטי בית המשפט העליון של מדינת ישראל, שכמובן אינם מומחים לחינוך כמו פרופ' בלר עצמה. אני ממליץ לקוראים לקרוא את סקירת החלטת בית המשפט העליון בנושא שכתבה קרן ילין-מור, שהופיעה בבלוג "הטרקלין".

הנושא הוא אכן ישן. החלטת בית המשפט התקבלה לפני שבעה חודשים, ותוצאות המיצ"ב פורסמו לציבור הרחב לפני יותר מחצי שנה. מלים רבות נכתבו על כך מאז, ולכן אתייחס רק למספר קטן של טענות שהועלו במהלך הדיון בפאנל.

טענה מרכזית של פרופ' בלר היא שפרסום הציונים, ובעקבותיהם פרסומים בעיתונות ודירוגי בתי ספר שהופיעו באתר מדלן, גורמים ויגרמו להונאות בבחינות/תהליך המדידה מצד בתי הספר, המורים והתלמידים. טענה זו שגויה ומטעה, והסיבה היחידה שאני יכול להעלות בדעתי לכך היא שפרופ' בלר אינה מבחינה בין סיבה ו-… לא ברור מה.

הסיבה להונאות בבחינות היא קיום הבחינות עצמן, והחשש של בתי הספר והמורים כי ייפגעו עקב תוצאות הבחינות. גורלם של מנהלי בתי הספר ומוריהם נתון בידי משרד החינוך, לא בידי הציבור.

גם התמקדות של אנשי מערכת החינוך בשיפור המדדים ולא בשיפור התופעות שגרמו למדדים מספריים אינה קשורה בעצם הפרסום, אלא בעצם קיום המדידה. זו בעיה שהיה צריך לצפות מייד עם ההחלטה על קיום מבחני המיצב, ובמקביל היה צריך לחשוב על דרכים להתמודדות איתה. אני מניח, או לפחות רוצה לקוות, שחשיבה כזו נעשתה.

טענה שניה שהועלתה היא העובדה שאתרים מסוג אתר מדלן (שמפעיליו הם חבורה של סטודנטים למדעי המחשב שאינה מבינה בחינוך, לדעת בלר), פרסמו "טבלאות ליגה" בה ערכו השוואה ארצית בין בתי הספר. זה היה יכול להמנע, לדעת בלר, לו לא פורסמו התוצאות.

ובכן, השוואה ארצית ("טבלת ליגה" כפי שמכנה זו בלר) נערכה על ידי ראמ"ה עצמה, ותוצאות השוואה זו מופיעה בדוחות עצמם שפורסמו לציבור. הרי בדו"ח עצמו מופיע ממוצע הציון במבחן מול הממוצע הארצי (וגם סטיות התקן), וכן מופיע העשירון בו נמצא בית הספר. האם זו אינה השוואה? ההשוואה והדירוג כבר נעשו, על ידי ראמ"ה בכבודה ובעצמה, אבל בכל דו"ח בית ספרי מופיעה רק פיסת מידע קטנה מטבלת הליגה. בלר אכן ניסתה למנוע את הצגת התמונה השלמה על ידי כך שהגישה לדו"חות המפורסמים היא קשה יחסית, ניתן להוריד רק דו"ח של בית ספר אחד בכל פעם, והנתונים מופיעים בקובצי PDF, שאינם מאפשרים קריאה נוחה של נתונים. מזל שיש כמה סטודנטים למדעי המחשב שיכולים להתמודד עם המכשולים האלה ולהביא לציבור את התמונה השלמה.

טענה נוספת שהועלתה במובלע היא שהערכת בית ספר אינה צריכה להיות תלויה רק בנתונים כמותיים של תוצאות מבחנים, אלא במכלול, שחלקו מורכב מנתונים שאינם ניתנים לכימות. נכון, אז מה? פרסמו נא לציבור גם את הנתונים הבלתי כמותיים.

עם טענה אחת אני בכל זאת מסכים: אנשי אתר מדלן נתנו לכל בית ספר דירוג שהוא ממוצע העשירונים במקצועות הליבה השונים מוכפל ב-10. לדוגמא, לבית ספר שדורג בעשירון 8 במבחן האנגלית ו-7 במבחן מתמטיקה, דירוג מדלן הינו 75. בלר, וגם ד"ר חגית גליקמן, הסטטיסטיקאית של ראמ"ה, טענו כי מדד זה בעייתי מבחינה מתודולוגית. אני מסכים – מיצוע עשירונים הוא בעייתי, חסר ביסוס תיאורטי סטטיסטי, ופרדוקס סימפסון עלול להרים את ראשו. אבל מכאן ועד הטענה שלמדד דירוג מדלן אין כל משמעות הדרך רחוקה. זו היוריסטיקה סבירה בהחלט לדעתי, גם אם המתודולוגיה לקויה. אפשר כמובן לעשות טוב יותר. אני מקווה שראמ"ה תפרסם, כפי שהציע טל גלילי, את כל הנתונים בפורמט נוח להורדה ועיבוד, וכך יתאפשר לציבור לנסות גישות אחרות להשוואה בין בתי הספר. מאחר ובציבור הרחב יש גם סטטיסטיקאים, אני מניח שחלקם מכירים שיטות סטטיסטיות (ניתוח מרכיבים ראשיים, factor analysis, MDS הם כמה דוגמאות) שיתנו מדד השוואתי טוב יותר, וכך גם אנשי ראמ"ה שטענו כי "בלתי אפשרי" לבנות מדד משולב כזה ילמדו משהו.

הטענות של בלר בפאנל הן לא יותר מאשר בכי על כך שהסוסים ברחו מהאורווה, וזאת לאחר שבלר עצמה, כמנכ"ל ראמ"ה, פתחה את דלתות האורווה והאיצה בסוסים לצאת ממנה. ברגע שמעמידים את כלל התלמידים בבתי הספר בארץ בפני מבחן אחיד כמבחן המיצ"ב, נעשתה ההשוואה בין בתי הספר, והופנתה תשומת הלב של בתי הספר וצוותיהם מהשגת מטרות חינוכיות אל שיפור תוצאות המדדים הכמותיים. הנזק נעשה. השאלה היא רק האם יש לפרסם את התוצאות לציבור או לא, וכאן בהחלט צריך להעדיף את העקרון הדמוקטי של שקיפות הממשלה לציבור על פני דעתה של בלר וראמ"ה. בלר אמרה כי בעקבות הוראת בית המשפט העליון נשקל ביטול מבחני המיצ"ב. לו יהי.

פרופ' יוסי הוכברג הלך לעולמו

פרופ' יוסי הוכברג, מהחוג לסטטיסטיקה באוניברסיטת תל אביב, והנשיא השביעי של האיגוד הישראלי לסטטיסטיקה, נפטר אתמול. בשנים האחרונות לחייו פרש הוכברג ממחקר עקב מחלתו. הוכברג היה בין החוקרים המובילים בעולם בתחום בדיקת ההשערות המרובות, והיה שותפו של פרופ' יואב בנימיני לכתיבת מאמרים רבים בתחום, ובכלל זה המאמר פורץ הדרך שהציג את שיטת ה-False Discover Rate משנת 1995, (FDR), מתודולוגיה המאפשרת לשלוט בתוחלת מספר התגליות השגויות במחקרים מדעיים. עבור מחקר זה והישגים אחרים, זכה יואב בנימיני בפרס ישראל בשנת 2012.

לא הכרתי את הוכברג אישית, אולם הייתה לי ההזדמנות להיות נוכח במספר הרצאות שנתן. יהי זכרו ברוך.

 

הערות על הבדלי תוחלת חיים ותהליך קבלת ההחלטות של שרת הבריאות

פייסבוק, כידוע, מהווה נדבך מרכזי בפוליטיקה החדשה שהפציעה במקומותינו. מדי כמה ימים הארץ סוערת בעקבות פוסט כזה או אחר של שר האוצר יאיר לפיד, וגם שר החינוך שי פירון זכה לכמה דקות תהילה מפוקפקת בעקבות טעות משעשעת (אך נטולת חשיבות אמיתית) בסטטוס שפירסם. הסטטוסים של שרת הבריאות יעל גרמן, לעומת זאת, עוברים עד כה מתחת לרדר הציבורי. זה גם מה שקרה לסטטוס שלה מתאריך 2.4.13, שעסק בהבדלי תוחלת החיים בין גברים ונשים. הוא לא זכה להתייחסות מחוץ לרשתות החברתיות, למרות 367 לייקים, 22 שיתופים ו-96 תגובות, נכון לרגע כתיבת שורות אלה.

כדי להבין למה נזעקתי לכתוב רשימה על הפוסט הזה תיאלצו לקרוא עד הסוף (או לדלג לסוף, אם כי אני לא ממליץ על כך). אני רוצה להתייחס קודם לפוסט עצמו, בו נאמרו הדברים הבאים:

 

מה הפוסט של גרמן מכיל? נתונים, פרשנות לנתונים, מקור מידע, וציון מטרה לפעולה.

נתחיל בנתונים: "תוחלת החיים של גברים בישראל (לשנת 2010), היא במקום השני בעולם, בעוד שתוחלת החיים של נשים בישראל היא במקום שמיני בעולם".

לפי נתוני הלשכה המרכזית לסטטיסטיקה, תוחלת החיים של גברים בישראל (מרגע לידתם) היא 79.0 שנים, והנתון המקביל לנשים הוא 82.8 שנים (הקישורים – לקבצי pdf). ב-2011 כבר עלו הנתונים ל-80.0 ו-83.6, בהתאמה).

איך הנתונים האלה מתייחסים לנתונים במדינות אחרות? על השאלה הזו מעט יותר קשה לענות. מקור ראשוני לחיפוש הוא ויקיפדיה. הערך על תוחלת חיים ויקיפדיה הוביל אותי לשני מקורות: המחלקה לכלכלה ועניינים חברתיים של האו"ם, וכן ה-CIA שלא סומך על האו"ם ומפרסם נתונים משלו. חברי  דובי הפנה אותי בטוויטר למקור שלישי, אתר בשם World Life Expectany .

הנה כל הנתונים מרוכזים בטבלה

מקור

הלשכה המרכזית לסטטיסטיקה

האו"ם

ה-CIA

אתר World Life Expectancy

תוחלת חיים גברים בישראל

79.0

78.4

78.8

78.6

דירוג בעולם

-

9

14

6

המדינה עם תוחלת החיים הגבוהה ביותר לגברים

-

איסלנד

מונקו

אנדורה

תוחלת החיים לגברים במדינה זו

-

79.5

85.8

80.3

תוחלת חיים נשים בישראל

82.8

82.9

83.2

83.0

דירוג בעולם

-

11

21

13

המדינה עם תוחלת החיים הגבוהה ביותר לנשים

-

יפן

מונקו

סן מרינו

תוחלת החיים לנשים במדינה זו

-

86.1

93.7

85.7

שנת הנתונים

2010

2010

2011

לא נתון

הלמ"ס לא מפרסמת דירוג, אלא השוואה לנתוני ה-OECD (קישור לקובץ pdf) ומספר מדינות נבחרות נוספות.

ובכן, הנתונים של גרמן לא ממש מדוייקים, אבל גם לא רחוקים כל כך מהאמת. הבה לא נהיה קטנוניים בנושא. נעבור לפרשנות של הנתונים.

אפשר ללמוד מטבלה זו הרבה דברים, אבל המסר החשוב לצורך הדיון הוא שהקשר בין הדירוג העולמי ובין המצב הבריאותי כפי שהוא מתבטא בתוחלת החיים רופף ביותר. באיזה מדינה מעדיפה גרמן לחיות: בישראל של ה-CIA, בה תוחלת החיים לנשים היא 83.2 אבל מדורגת במקום ה-21 בעולם? או בישראל שבה תוחלת החיים לנשים נמוכה יותר ועומדת על 82.8 שנים, אבל מדורגת במקום "יוקרתי יותר", נניח מקום שמיני?

מה עוד אפשר ללמוד על ההבדל בין רמת הטיפול הרפואי לגברים ולנשים מהנתונים האלה? ראשית, ניתן להצביע על העובדה שתוחלת החיים של נשים בישראל, לא משנה על איזה מארבעת המקורות מסתמכים, גבוהה מתוחלת החיים של הגברים בכל מדינה אחרת בעולם, פרט לנסיכות מונקו (המדינה השניה בדירוג תוחלת החיים לגברים של ה-CIA היא המושבה הפורטוגזית/סינית מקאו, שם תוחלת החיים לגברים היא 81.5 שנים).

מעניין יותר להתבונן בהפרשים בין תוחלות החיים, לגברים ונשים, בין ישראל ובין המדינות שמדורגות מעליה. אם מתעלמים מהמדינות הזערוריות כמו אנדורה, סן מרינו, מונקו ודומותיהן מגלים כי בסך הכל ההפרשים דומים. בישראל יש לנשים יתרון של 3-4 שנים בתוחלת החיים על פני הגברים, ומצב דומה יש בשוויץ (כ-5 שנים), אוסטרליה (כ-4 שנים), איטליה (כ-5 שנים), שוודיה (כ-3 שנים) וקנדה (כ-4 שנים). יוצאת הדופן היא יפן, המדינה הגדולה ביותר בצמרת דירוג תוחלות החיים, עם יתרון של 7 שנים לנשים על פני הגברים. מכיוון שבאופן כללי תוחלת החיים של נשים גבוה יותר מזו של גברים (רק במספר מדינות אפריקניות לגברים יש תוחלת חיים גבוהה יותר), ניתן להסיק כי אין הבדלים משמעותיים ברמת הטיפול הרפואי לגברים ונשים בישראל. מעניין לציין כי יש מדינות בהן תוחלת החיים של נשים גבוהה באופן יוצא דופן לעומת הגברים, למשל: רוסיה (74 לנשים, 61.6 לגברים) או עירק (71.7 לנשים, 63.4 לגברים). אני מקווה ששרת הבריאות לא תשאף להגיע למצב כזה גם במדינתנו.

אם רוצה גברת גרמן, חברת מרץ עד לא מזמן, חומר למחשבה המבוסס על תוחלת חיים, אולי עדיף שתעיין בלוח תוחלת חיים לפי מין, דת וקבוצת אוכלוסייה (קישור לקובץ pdf). שם תגלה כי תוחלת החיים של גברים יהודים בישראל היא 80.7 שנים, ושל גברים ערבים רק 76.5. תוחלת החיים של נשים יהודיות היא 83.9, של נשים ערביות רק 80.9. הייתי שמח לו הלמ"ס פירסמה גם נתוני תוחלת חיים בישראל לפי חלוקה גיאוגרפית, כפי שהיא מפרסמת מדדים בריאותיים אחרים (לידות חי, פטירות ופטירות תינוקות, לפי מחוז ונפה, קבוצת אוכלוסייה ודת – קישור לקובץ pdf). אולי גרמן תוכל להשיג אותם וללמוד מהם משהו. רצוי גם שתתייעץ עם הסטטיסטיקאים המצויינים שעובדים במשרדה לגבי פרשנות הנתונים.

נעבור לנושא הבא: מהו מקור המידע של גרמן בקשר לנתונים הנ"ל? גרמן מציינת אותו: "דנה ויינברג כתבה לי מכתב גלוי בנושא". מיהי דנה ויינברג? ובכן, דנה ויינברג היא מייסדת ומנכ"לית עמותת "נשים לגופן". המכתב הגלוי שלה לשרת הבריאות החדשה פורסם באתר סלונה (תודה לחברתי שרון שהפנתה אותי אליו). אין בו התייחסות לנושא הבדלי דירוג תוחלת החיים, אך אני חייב לציין כי בהרצאה ששמעתי לפני כשנה מפי פעילה אחרת בעמותה זו, טל תמיר, הטיעון הזה הועלה גם הועלה. דנה ויינברג כן מביאה במכתבה, ללא כל הפניות למקורות, מבחר של נתונים סטטיסטיים אחרים, וטענה כי "שיעורי התחלואה והתמותה של נשים בישראל גבוהים ביחס לנשים במדינות המערב". אני מצטט טיעון זה כיוון שהוא עומד בסתירה גמורה לנתוני תוחלת החיים שהבאתי כאן. לגבי הטיעונים האחרים של ווינברג, כל שאני יכול לומר הוא שיש לבדוק אותם היטב ולראות האם יש להם ביסוס. לאחר שפירטה את כל טענותיה, מביאה ווינברג בפני השרה מספר המלצות שיישומן יביא לקידום בריאותן של נשים ונערות. קראתי את ההמלצות, אני ממליץ גם לכם לקרוא אותן בעיון. אני מסכים עם כל המלצה והמלצה, וסבור כי רוב הקוראים יסכימו כי אלה המלצות חשובות שיש ליישם, כיוון שיישומן יביא לשיפור במצב הבריאותי של כלל האוכלוסיה, נשים וגברים. אז למה, דנה, למה להביא נתונים סטטיסטיים תמוהים ולתת להם פרשנות שגויה? למה לשקר בעזרת סטטיסטיקה כשבכלל אין צורך בכך?

הרשימה תסתיים בהבעת דיעה אישית/פוליטית: מדוע נזעקתי לכתוב רשימה על כל הדברים האלה באיחור של כמעט שבועיים? גרמן כתבה בסוף הפוסט שלה כי תפעל לשפר את הבריאות של הנשים בארץ. אני לא מתנגד לכך באופן עקרוני, אם כי לא ברור כלל האם אכן הטיפול בבריאות הנשים בארץ אכן לקוי לעומת הטיפול בבריאות הגברים. אבל גרמן ראתה נתונים לא ברורים עם פרשנות מטעה, החליטה, ותפעל. האם מדובר במקרה חד פעמי או בתופעה? ביום חמישי אחר הצהריים פורסמו שתי ידיעות שדיווחו על פעולות של שרת הבריאות. באחת דווח כי שרת בריאות החליטה להפסיק את הפלרת מי השתיה, בניגוד לדעת אנשי מקצוע במשרדה. בשניה דווח כי החליטה להקים צוות חשיבה שיבחן דרכים לחיזוק הרפואה הציבורית – כולל אפשרות של הפעלת שר"פ (שירותי רפואה פרטית) בבתי חולים ציבוריים. סביר למדי שועדה שהשרה ממנה ומבקשת ממנה לבחון אפשרות של הפעלת שר"פ תמליץ על הפעלת שר"פ. לא ברור לי על סמך מה קיבלה גרמן את ההחלטות האלו. אני לא מטיל ספק בזכותה לקבל החלטות אלה מתוקף תפקידה, וכן, זכותה גם לקבל את ההחלטות מתוך האידיאולוגיה בה היא תומכת. בעניין ההפלרה, לא ברור לי איזה אידיאולוגיה מנחה אותה בנושא שלכל היותר שנוי במחלוקת מדעית, אם כי, ככל הידוע לי, יש רוב בקהילה המדעית לתומכי ההפלרה. אני תוהה מי הזין את השרה (עוד בהיותה ראש עירית הרצליה מטעם מרצ) בנתונים אודות הפלרת מי השתיה, מה היו הנתונים האלה ועד כמה הם היו מבוססים. וכן, אני גם מקווה שאותו פוסט בפייסבוק לא משקף את תהליך קבלת ההחלטות שלה השרה.

רק שנהיה בריאים.

עוגה לשבת

היום הוא היום הגדול – היום האחרון לפני הבחירות בו מותר לפרסם תוצאות סקרים. אתמול בלילה (בשעה שאחרי חצות) עלה הסקר המסכם של עיתון הארץ לאתר. לכתבה צורפה דיאגרמת עוגה לפיה גוש השמאל זוכה ב-57% מהמנדטים/קולות, ומפסיד בבחירות. מבולבלים?

בשעה שבע בבוקר הטעות כבר תוקנה.

תודה לאיתי אשר ששלח לי את צילום המסך.

מהי טעות הדגימה?

הקדמה – מדגמים וטעויות

רשימה זו נכתבת שבוע לפני הבחירות לכנסת, אירוע המניב כמות גדולה למדי של סקרי דעת קהל. עם זאת, סקרי דעת קהל ומחקרים סטטיסטיים אחרים נפוצים למדי בכל ימות השנה. ברוב הסקרים המתפרסמים בעיתונות יש מידע כלשהו על "טעות הדגימה", או "טעות הדגימה המירבית". כך למשל, בסקר שבוצע על ידי חברת דיאלוג בפיקוח פרופסור קמיל פוקס ופורסם באתר עיתון "הארץ" נאמר כי "שיעור הטעות המקרית לכל שאלה בנפרד היא 3.9%". בסקר אחר שנערך על ידי מכון דחף בניהולה של ד"ר מינה צמח ופורסם באתר Ynet  נמסר כי "טעות הדגימה: בין 0.8  מנדטים למפלגה עם שני מנדטים לבין 3 מנדטים לערך למפלגה עם 33 מנדטים". מכאן שעל פי סקר מכון דחף, טעות הדגימה נעה בין 9 ל-40 אחוזים. סקר דחף, אגב התבסס על מדגם של 1000 משיבים, בעוד שסקר מכון דיאלוג הסתמך על מדגם קטן יותר של 666 נבדקים.

מבולבלים? אנסה לעשות קצת סדר בדברים.

ראשית, אזכיר לכם מהו מדגם. אנו מעוניינים לדעת תכונה מסויימת של אוכלוסיה מסויימת, כמו למשל, שיעור האזרחים המתכוונים להצביע עבור מפלגה מסויימת בבחירות הקרובות. אפשר כמובן, לפנות לכל אחד מהאזרחים בעלי זכות ההצבעה ולשאול אותם, אבל זו דרך בלתי יעילה (בלשון המעטה). אפשרות אחרת היא לבחור קבוצה חלקית של האוכלוסיה, ולשאול את חברי הקבוצה הזו לגבי כוונת הצבעתם בבחירות. הקבוצה הזו נקראת "מדגם". לאחר שיש בידינו את הנתונים מהמדגם, אנו מנסים להסיק מהפרט (קבוצת המדגם) אל הכלל (כלל האוכלוסיה). שלב זה הוא שלב ההסקה הסטטיסטית, וזו למעשה כל התורה הסטטיסטית על רגל אחת.

הבעיה במדגם היא שיכולות לקרות טעויות, ועקב כך, הנתונים שאספנו במדגם לא משקפים את התכונות האמיתיות של האוכלוסיה. כל הטעויות האלה נכללות תחת המטריה של "טעות הדגימה". למעוניינים בהגדרה מדויקת: טעות הדגימה היא אי הדיוק באמידה של פרמטר באוכלוסיה הנגרמת עקב מדידתו בקבוצה חלקית בלבד של האוכלוסיה.

ניתן לחלק את כל הטעויות האפשריות לשני סוגים: טעויות שיטתיות וטעויות מקריות. טעות הדגימה היא סך שני סוגי הטעויות – השיטתיות והמקריות.

טעויות שיטתיות

טעויות שיטתיות הן טעויות הנובעות מתכנון וביצוע לקוי של הדגימה. הן מביאות לכך שנתוני המדגם שונים באופן אינהרנטי מנתוני האוכלוסיה, או, במלים יותר עממיות: המדגם אינו מייצג את האוכלוסיה. הנה מספר דוגמאות מפורסמות של טעויות שיטתיות בסקרי בחירות:

  • בבחירות לנשיאות ארצות הברית ב-1936, חזה סקר ה-Literary Digest ניצחון למועמד הרפובליקני לנדון שהתמודד מול הנשיא המכהן רוזוולט. שאלון הסקר נשלח בדואר אל בעלי טלפונים וחברי מועדונים, כלומר תת אוכלוסיה של אנשים אמידים בזמן משבר כלכלי קשה. בעוד שהאמידים נטו לתמוך בלנדון, מעוטי היכולת, שהיו רוב גדול בקרב הבוחרים, תמכו ברוזוולט. הסקר דגם באופן שיטתי יותר תומכי לנדון מתומכי רוזוולט.  בעיה נוספת בסקר זה הייתה השיעור הגבוה של נסקרים שלא השיבו לשאלון הסקר – 76%. בניסיון שהצטבר מאז התברר כי יש הבדלים משמעותיים בין המשיבים לשאלות הסוקרים ובין אלה שבוחרים לא להשתתף במדגם.
  • בבחירות לנשיאות ארצות הברית ב-1948, חזו כל הסקרים ניצחון למועמד הרפובליקני דיואי שהתמודד מול הנשיא המכהן טרומן. חלק מהסקרים היו טלפוניים, בתקופה בה מכשיר הטלפון עדיין לא היה נפוץ כבימינו. בעלי מכשיר טלפון היו באופן טבעי אמידים יותר מאלה שאין ברשותם מכשיר, וגם תומכים ברפובליקנים. בסקרים אחרים, שהתבצעו על ידי מראיינים בשטח, המראיינים יכלו לבחור את הנסקרים כרצונם, ומטבע הדברים פנו לחפש אותם באזורים "נוחים" – שכונות טובות, יותר עשירים, יותר רפובליקנים. בעיה נוספת הייתה שרוב הסקרים נערכו כחודשיים לפני הבחירות עצמן, כיוון שהיה מקובל לחשוב כי רוב הבוחרים מחליטים למי יצביעו כבר בספטמבר. כך לא לקחו הסקרים בחשבון את המומנטום של טרומן בחודש האחרון לפני הבחירות.
  • לעיתים הנסקרים אינם כנים בתשובותיהם.
    • בשיחה עם אלכס אנסקי[1] סיפר סיפר יוסי שריד על סקר בחירות שביצע "מומחה גדול מחברה בעל מוניטין בסקרי דעת קהל" עבור המערך במערכת הבחירות לכנסת השביעית ב-1969. הסקר חזה כי המערך יזכה ב-72 מנדטים. שריד הסביר את טעותו של הסוקר: "הוא לא ידע שבארץ אנשים שמצביעים בשביל האופוזיציה לא אומרים זאת בגלוי, ובמקום זאת מסמנים 'לא יודע'". מסיבות השמורות עימם (ואני לא שופט אותם), העדיפו תומכי האופוזיציה לא לענות בכנות לחלק משאלות הסקר.
    • בבחירות 1981, חזה מדגם הטלוויזיה הישראלית ניצחון למערך בראשותו של שמעון פרס. המדגם, שנערך על ידי חנוך סמית, נערך בשיטת "סקר יציאה": המדגם היה מדגם של קלפיות, וביציאה של כל קלפי הוצבה קלפי על ידי צוות הסקר, וכל אדם שהצביע התבקש להצביע שוב בקלפי הסקר בדיוק כפי שהצביע דקות אחדות קודם לכן בקלפי האמיתית. כאמור, על פי התוצאות מקלפיות הסקר נחזה ניצחון למערך. כשעתיים לאחר סגירת הקלפיות, כאשר התקבלו תוצאות האמת מהקלפיות שנדגמו, התגלו פערים משמעותיים בין ההצבעה האמיתית וההצבעה בקלפיות הסקר. ככל הנראה, מצביעים רבים שבחרו בליכוד, הצביעו בקלפיות הסקר עבור המערך. סמית תיקן את תחזיתו על סמך תוצאות האמת מקלפיות המדגם, שהראו כי הליכוד ניצח בבחירות, כפי שהתברר לאחר ספירת כל הקולות.
  • כיום רוב מוחלט של הסקרים נערכים באופן טלפוני, כאשר הסוקרים מתקשרים לטלפון קווי ומבקשים מהעונה שמעבר לקו לענות לשאלון. בשנים האחרונות גדלה תפוצתו של הטלפון הסלולרי, וכיום יש חלק גדול באוכלוסיה שאין ברשותו טלפון נייח אלא רק טלפון סלולרי. חלק זה אינו נכלל ברוב מדגמי הסקרים, נכון לכתיבת שורות אלה. ברור לחלוטין כי יש הבדלים משמעותיים בין בעלי טלפון נייח ובין אלה המשתמשים בטלפון סלולרי בלבד. האם הבדלים אלה משתקפים גם באופן ההצבעה שלהם? איש אינו יודע, עדיין.

טעויות שיטתיות קשות ביותר לגילוי, ובדרך כלל מתגלות, אם הן מתגלות, רק לאחר מעשה. לרוע המזל, לא ניתן להתגבר עליהן באמצעות הגדלת גודל המדגם. הסקר של ה-Literary Digest מ-1936 היה סקר הבחירות הגדול ביותר שנערך אי פעם – 2.4 מליון איש השיבו לסקר, ובכל זאת הסקר כשל לחזות את המנצח בבחירות. כאשר יש טעות שיטתית, מדגם גדול יותר רק מעצים את הטעות, ואינו מכפר עליה. כמו כן, למרבה הצער, אין דרך לחשב מראש את ההשפעה הכמותית של טעות שיטתית על תוצאת המדגם.

מדגמים הסתברותיים וטעויות מקריות

כתוצאה מכישלונות סקרי הבחירות של 1948 בארה"ב, עברו בהדרגה הסוקרים להסתמך על מדגמים הסתברותיים. במדגמים כאלה, המדגם נבחר באופן מקרי מתוך האוכלוסיה, אולם הסטטיסטיקאי הסוקר יודע מה ההסתברות של כל פרט באוכלוסיה להיכלל במדגם. מדגמים הסתברותיים מאפשרים להתגבר על חלק גדול של הטעויות השיטתיות הנפוצות. בנוסף לכך, מדגם הסתברותי מאפשר לחשב את גודלה של הטעות המקרית.

מהי טעות מקרית? אם סוקר בוחר באופן מקרי 1000 איש מתוך אוכלוסיית בעלי זכות הבחירה, יש הסתברות מסויימת כי כל אותם 1000 נדגמים יהיו תומכי מפלגה קטנה בעלת כמה אלפי תומכים בלבד בכל הארץ. במקרה כזה הסוקר יחזה כי מפלגת "העתיד המופלא", למשל, תזכה ב-120 מושבים בכנסת, בעוד שבפועל היא לא תעבור את אחוז החסימה. זה מאורע מביך, אך ההסתברות להתרחשותו של מאורע כזה קטנה ביותר. אפשר לחשב את ההסתברות, כי ההסתברות של כל אדם להיכלל בסקר ידועה. כיוון שכך, אפשר לחשב מדד סטטיסטי שיכמת את שיעורה של הטעות המקרית. כך יכול פרופסור פוקס לדווח כי שיעורה של הטעות המקרית בסקר שלו היא 3.9%. הבעיה בדיווח זה: מה משמעותו של המספר הזה? בסקר שאליו קישרתי למעלה מדווח כי מפלגות קדימה ועוצמה לישראל עוברות את אחוז החסימה וזוכות לשני מנדטים כל אחת. האם ייתכן כי אחת מהן תזכה ב-2.078 מנדטים (2 מנדטים ועוד 3.9% מ-2)? האם הכוונה היא שלפי הסקר קדימה זוכה אולי ב-2.1% מהקולות, אך יתכן שתזכה במינוס 1.8 אחוזים (2.1 פחות 3.9)?

הערכת גודל הטעות המקרית בעזרת רווח סמך

בסקר בחירות טיפוסי, נשאל כל נדגם לאיזה מפלגה הינו מתכוון להצביע בבחירות. אם ניקח את הסקר של פרופסור פוקס כדוגמא, בו השתתפו 666 איש, ייתכן כי 183 מתוכם הצהירו כי בכוונתם להצביע עבור מפלגת הליכוד ביתנו[2]. אם מחלקים 183 ב-666 ומכפילים במאה מקבלים 27.5, כלומר אמדן לשיעור התומכים במפלגה זו הוא 27.5% שאמורים להעניק למפלגה 33 מושבים בכנסת[3]. כאמור, יש טעות מקרית. במדגם היו יכולים לעלות 182 תומכי הליכוד ביתנו, או 184, או 663, או כל מספר אחר בין 0 ל-666. דרך סטטיסטית מקובלת לכמת את גודל הטעות, או במלים אחרות, לציין את מידת אי הודאות של האומדן לערך האמיתי, היא לבנות עבורו רווח סמך. במלים פשוטות אך לא מדויקות, רווח סמך עבור השיעור האמיתי של תומכי הליכוד ביתנו באוכלוסיה הוא קטע המחושב מתוך תוצאות המדגם (גבול עליון וגבול תחתון) באופן שהסיכוי "לתפוס" את השיעור האמיתי בתוך הקטע הוא קבוע. נשמע מסובך, אך לסטטיסטיקאים יש כלי חזק מאוד לחישוב רווחי סמך: משפט הגבול המרכזי. אדלג על הפרטים הטכניים, ואמר רק כי רווח סמך מקורב לשיעור התומכים באוכלוסיה, ברמת סמך של 95%, הוא שיעור התומכים במדגם, פלוס מינוס אחד חלקי שורש גודל המדגם. כל זאת, כאשר מתקיימים התנאים של המשפט.

בדוגמא שלנו, שיעור התומכים בליכוד ביתנו במדגם הוא 0.275 או 27.5%. גודל המדגם הוא 666, ולכן אחד חלקי שורש 666 הוא 0.0387 או 3.9%. קמיל פוקס יודע מה הוא עושה. הדיווח בעיתון/אתר בעייתי. כאשר מדווחים כי שיעור הטעות המקרית הוא 3.9%, הכוונה היא לומר כי המרווח שבין 23.6% לבין 31.4% מכיל בתוכו "תופס" את שיעור התמיכה האמיתי בליכוד ביתנו בהסתברות של כ-95%, אם תנאי משפט הגבול המרכזי מתקיימים[4].

הבעיה היא שתנאי המשפט לא תמיד מתקיימים. תנאי יסודי במשפט הוא שמדובר במדגם מספיק גדול. כמה זה "מספיק גדול"? התשובה היא: תלוי.[5].

אומר רק שהקירוב הנורמלי הולך ונחלש ככל שמתרחקים ממרכז ההתפלגות לקצוות. באותו סקר שפורסם באתר "הארץ" דווח גם כי מפלגת "ארץ חדשה" זוכה ב-0.7% ורחוקה מאחוז החסימה. מה זה אומר? גודל המדגם היה כזכור 666, ולכן רק 4 או 5 מהנשאלים אמרו כי יצביעו עבור ארץ חדשה. משפט הגבול המרכזי לא תקף במקרה הזה, ו-0.7 פלוס/מינוס 3.9 אינו רווח סמך לשיעור האמיתי של התומכים בארץ חדשה. שימו לב כי לו זה היה רווח הסמך, לא היה ניתן להסיק כי המפלגה אינה עוברת את אחוז החסימה[6].

דוגמא יותר קיצונית היא שיעור התמיכה במפלגות קטנות יותר. איש מבין 666 הנשאלים לא אמר כי יצביע בעד מפלגת "חיים בכבוד". האם פירוש הדבר כי בבחירות תקבל מפלגה זו אפס קולות (פלוס/מינוס 3.9%)? אני מרשה לעצמי לא לענות לשאלה רטורית זו.

מה עושים כאשר משפט הגבול המרכזי אינו תקף? משתמשים בשיטות אחרות שאינן מסתמכות על המשפט. חישבתי את רווחי הסמך לשיעור התמיכה במפלגת "ארץ חדשה" על פי מספר שיטות שאינן מסתמכות על משפט הגבול המרכזי בהנחה ש-5 מבין 666 הנשאלים אכן אמרו כי יצביעו עבורה. בכל שיטות החישוב, הגבול העליון של רווח הסמך אינו עולה על 1.8%. הדיווח שוב נכון: על פי תוצאות הסקר, מפלגה זו אינה עוברת את אחוז החסימה. יש רק לזכור כי הנתון של "טעות דגימה בגובה 3.9%" אינו מתייחס למקרים בהם מספר התומכים בסקר קטן מדי.


הערות
  1. 1. מכירת הליכוד – אלכס אנסקי, עמוד 167, הוצאת זמורה ביתן מודן, 1978 []
  2. 2. לא הצלחתי למצוא את הנתונים, ולכן אני נותן את המספר הזה כדוגמא []
  3. 3. אני מתעלם מפלפולי חוק בדר עופר לצורך העניין []
  4. 4. יש להבהיר כי כי אין פירוש הדבר כי שיעור התמיכה בליכוד ביתנו נמצא בין 23.6% לבין 31.4% בהסתברות 95%. ראו גם את תגובתו של עמית גל לרשימה זו. []
  5. 5. למעוניינים: לינק לערך ויקיפדיה על הקירוב הנורמלי להתפלגות הבינומית, שנותן תשובה מפורטת יותר וטכנית []
  6. 5. כי 0.7 ועוד 3.9 שווים ל-4.8 והגבול העליון גבוה מאחוז החסימה שהוא 2% []