בסקרי בחירות ודעת קהל נהוג לפרסם את “טעות הדגימה”, ולפעמים אפילו את “טעות הדגימה המירבית”. (( אני שם את הביטויים האלה במרכאות מכיוון שאינם מדוייקים ואף מטעים. אתייחס לכך בפוסט נפרד בעתיד. )) אבל כאשר מדובר בסקרי מנדטים, הנתון הזה בעייתי.
נניח כי פורסם סקר לפיו מפלגה מסויימת מקבלת 30 מנדטים, וכי מצויין כי טעות הדגימה היא 4.5%. מה משמעות הדבר? 4.5% מ-30 הם 1.35. מה זה אומר? שמספר המנדטים יהיה בין 28.65 ל-31.35? אף אחר לא ידווח בסקר כי הוא חוזה למפלגה הזו 30.68 מנדטים. ומה המשמעות של טעות הדגימה הזו לגבי מפלגה שעל סף אחוז החסימה?
מה יכול להשתבש?
בסקרי מנדטים יש שלוש טעויות שמעניינות אותנו:
סוג הטעות הראשון מתייחס אל ההפרשים בין מספר המנדטים שמפלגה מקבלת בפועל ובין מספר המנדטים שהסקר חוזה כי יקבלו, או באופן יותר מדוייק – ההפרש המקסימלי שמתקבל. כמובן שאם נסתכל על כל ההפרשים של כל המפלגות הם יקזזו זה את זה וסכומם יהיה תמיד 0 ((מדוע?)), הנתונים המעניינים הם הערכים המוחלטים של ההפרשים האלה. לדוגמא, אם מפלגה מסויימת מקבל בפועל 10 מנדטים, סקר אחד חוזה לה 12 מנדטים וסקר אחר חוזה לה 8 מנדטים, בשני הסקרים הטעות שווה ל-2.
מה הטעות המירבית האפשרית כאן? התשובה היא 120. ייתכן בהחלט כי על פי סקר מסויים מפלגה מסויימת תקבל 120 מנדטים אך בפועל היא לא תעבור את אחוז החסימה. הסיכוי לכך אפסי, אך עדיין גדול מאפס. זו הסיבה לכך ששמתי קודם את הביטוי “טעות הדגימה המירבית” במרכאות כפולות. אבל מייד נראה כמה מדדים מעניינים שכן יכולים לתת לנו מבט אל רמת הדיוק של הסקר.
סוג הטעות המעניין השני הוא הסיכוי שהסקר יראה כי מפלגה מסויימת עברה את אחוז החסימה למרות שלא עברה אותו בפועל. זה כמובן תלוי במרחק של המפלגה מאחוד החסימה. אחוז החסימה הוא כיום כ-134 אלף קולות. הסיכוי שהסקר יטעה ביחס למפלגה שבפועל קיבלה רק 70 אלף קולות בוודאי נמוך מהרבה מהסיכוי הדומה למפלגה שקיבלה 133 אלף קולות.
סוג הטעות המעניין השלישי הוא הסיכוי שהסקר יראה כי מפלגה מסויימת לא עברה את אחוז החסימה למרות שעברה אותו בפועל. זוהי תמונת המראה של הטעות השניה.
הכל טוב ויפה, אבל איך מחשבים את כל הדברים האלה?
איך אפשר להעריך את גדולי הטעויות?
דרך אפשרית לקבל הערכות לגדלי הטעויות האלה היא לבצע סימולציה. הרעיון מאוד פשוט והוסבר כבר בעבר. מניחים הנחה על התוצאה האמיתית הבחירות. אחר כך לוקחים מדגם ורואים מה קורה. חוזרים על כך הרבה פעמים, ולבסוף ממצעים הכל.
הסימולציה שלי מתייחסת לתוצאות ההיפותטיות הבאות לגבי הבחירות לכנסת ה-22. המספרים כמובן לא אמיתיים. הם מתבססים על תוצאות הבחירות לכנסת ה-21 בתוספת כמה שינויים שהכנסתי כדי להתאים אותם למה שאני רוצה להדגים. הנה טבלת “תוצאות האמת” שלי:
מפלגה | מספר הקולות | מספר המנדטים |
הליכוד | 1140370 | 36 |
כחול לבן | 1125881 | 35 |
הרשימה המשותפת | 337108 | 10 |
ש”ס | 258275 | 8 |
יהדות התורה | 249209 | 8 |
ימינה | 283910 | 8 |
העבודה | 190870 | 6 |
ישראל ביתנו | 173004 | 5 |
המחנה הדמוקרטי | 135529 | 4 |
עוצמה לישראל | 133211 | 0 |
נועם | 75223 | 0 |
כל השאר | 33333 | 0 |
סך הכל | 4102590 | 120 |
בישלתי את המספרים כך שאחוז החסימה עומד על 134417 קולות. עוצמה לישראל נמצאת קצת מתחת לאחוז החסימה, המחנה הדמוקרטי קצת מעליו. המרחק של נועם מאחוז החסימה הוא כ-59 אלף קולות, בדומה למרחק של מפלגת העבודה (54 אלף). המרחק של ישראל ביתנו מאחוז החסימה הוא כ-39 אלף קולות.
עכשיו אני יכול לקחת מדגם, של 500 איש נניח, מתוך האוכלוסייה שמונה כ-4.1 מיליון מצביעים. אני פשוט אבחר באופן מקרי 500 איש מתוכם. המדגם שלי יהיה מושלם: אין הטיה כי לכל האנשים מהאוכלוסייה יש את אותו הסיכוי להיכלל במדגם, ואף אחד לא ישקר לי כאן.
הנה מדגם לדוגמה, וחלוקת המנדטים כפי שחישבתי על פי תוצאותיו:
מפלגה | מספר הקולות | מספר המנדטים |
הליכוד | 130 | 34 |
כחול לבן | 132 | 34 |
הרשימה המשותפת | 37 | 9 |
ש”ס | 28 | 7 |
יהדות התורה | 31 | 8 |
ימינה | 38 | 10 |
העבודה | 32 | 8 |
ישראל ביתנו | 23 | 6 |
המחנה הדמוקרטי | 17 | 4 |
עוצמה לישראל | 0 | 0 |
נועם | 0 | 0 |
כל השאר | 0 | 0 |
סך הכל | 500 | 120 |
אנחנו יכולים לראות למשל שהסקר העניק לליכוד ולכחול לבן 34 מנדטים כל אחת, בעוד שלפי “תוצאות האמת” הן קיבלו 36 מנדטים ו-35 מנדטים בהתאמה. לכן הטעויות לגבי שתי המפלגות האלה שוות ל-1 ו-2. תוכלו לוודא כי הטעות המקסימלית שנצפתה בסקר הזה היא 2, הטעות החציונית היא 1 והטעות הממוצעת היא 0.91. הסקר הזה לא העלה את עוצמה לישראל ונועם אל מעל אחוז החסימה, ולא הוריד אף מפלגה שעברה בפועל את אחוז החסימה אל מתחת לו.
את התרגיל הזה ביצעתי 2000 פעם עבור מדגם בגודל 500, וגם עבור מדגמים בגדלי 1000, 2000, 4000, ו-8000.
תוצאות הסימולציה
תוצאות גדלי הטעות שחושבו בסימולציה מופיעות בטבלה הבאה:
גודל המדגם | טעות ממוצעת | טעות מקסימלית | טעות חציונית |
500 | 1.52 | 4.58 | 1.12 |
1000 | 1.13 | 3.82 | 0.80 |
2000 | 0.92 | 3.42 | 0.60 |
4000 | 0.77 | 3.18 | 0.39 |
8000 | 0.67 | 3.06 | 0.23 |
אנו רואים כי הטעות הממוצעת בסקר בגודל 500 היא כמנדט וחצי, והיא כמובן קטנה ככל שגודל המדגם עולה. הטעות החציונית בסקר כזה היא קצת יותר ממנדט, אבל הטעות המקסימלית היא יותר מ-4.5 מנדטים. זה קורה בגלל המפלגות שקרובות לאחוז החסימה. כשמפלגה שלא עוברת את אחוז החסימה בפועל אבל עוברת אותו במדגם הטעות היא 4 מנדטים, וכך גם במקרה ההפוך.
עד כמה נפוצים המקרים האלה? בדוגמא הזאת זה קורה די הרבה, מכיוון שיש בו שתי מפלגות שקרובות מאוד לאחוז החסימה:
גודל המדגם | הועברו בטעות | לא עברו בטעות |
500 | 44.8 | 76.8 |
1000 | 44.9 | 56.2 |
2000 | 43.7 | 51.9 |
4000 | 44.5 | 46.9 |
8000 | 42.4 | 47.3 |
חוץ מהאנומליה של 76.8% למדגם בגודל 500, אנחנו רואים כי בדרך כלל הסיכויים קרובים ל-50%.
ניתן לערוך כמובן ניתוחים יותר מתוחכמים: לחשב סטיות תקן ורווחי סמך, לבדוק מה הסיכויים לטעות במעבר אחוז החסימה עבור גדלים שונים של מפלגות, ועוד. מי שמעוניין מוזמן להוריד את קוד הסימולציה שכתבתי בשפת R ולנסות לשחק עם הנתונים.
סיכום
- בסקרי מנדטים קטנים, כאשר גודל המדגם הוא 500, ייתכנו טעויות משמעותיות בחיזוי מספר המנדטים האמיתי. הטעות הממוצעת היא כמנדט וחצי, והטעות המקסימלית עaויה להיות גבוהה באופן משמעותי.
- עבור מפלגות המתנדנדות באיזור אחוז החסימה, גם מדגם גדול הרבה יותר אינו יכול לתת תשובה אמינה לגבי השאלה האם מפלגות אלה יעברו את אחוז החסימה.
הנה חישוב טעות המדגם ע”פ the marker
https://pbs.twimg.com/media/EEvp4VFXsAIhSHA?format=jpg
זו חוכמה שלאחר מעשה. אין קל יותר מלהשוות את תוצאת המדגם למה שקרה בפועל אחרי שנספרו הקולות. החוכמה היא להעריך מראש מה יהיה גודל הטעות, ולבנות את המדגם כך שגודל הטעות יהיה מתקבל על הדעת.