קישורים

ניווט

נושאים

ארכיב עבור תגית בחירות

ממתינים לתוצאות הסופיות

אני מניח שכולכם יודעים מה קורה/קרה בבחירות בארה”ב בשנת 2020.  תהליך ספירת הקולות נמשך על פני מספר ימים, וכל מה שאפשר לעשות זה לעקוב אחרי התהליך: מי מוביל הספירה באיזו מדינה ובכמה. דוגמה אקראית מבוקר כתיבת שורות אלה: הכותרת של כלכליסט היא “הדרמה בארה”ב: כמעט שוויון בפנסילבניה ובג’ורג’יה, טראמפ מצמצם הפער באריזונה“.

יש נקודה חשובה שמשום מה מתעלמים ממנה: ההצבעה הסתיימה, ותוצאות הבחירות כבר נקבעו. רק שאנחנו עדיין לא יודעים מי ניצח כי לא סיימו לספור את כל הקולות. (( איזה קולות סופרים? זו שאלה אחרת שחורגת מתחומי העניין של הבלוג הזה)).

כל הדרמה הזו הזכירה לי בעיה ישנה  מסוף המאה ה-19, שנקראת פשוט “בעיית הבחירות” (The ballot problem). הניסוח מאוד פשוט. שני מועמדים מתחרים בבחירות. אם מוציאים את פתקי ההצבעה מהקלפי זה אחד זה באופן אקראי, מה הסיכוי כי המועמד שקיבל את רוב הקולות יוביל לאורך כל מהלך הספירה?

הקישור שהופיע בפיסקה הקודמת יוביל אתכם לעמוד בויקיפדיה שבו תוכלו לקרוא על ההיסטוריה של הבעיה הזו, ועל כל מיני דרכים שנמצאו כדי לפתור אותה. אפשר למשל לנסות לרשום/לספור את כל המהלכים האפשריים של ספירת הקולות, ואת כל המהלכים האפשריים שבהם המנצח מוביל לאורך כל הספירה. אפשר להשתמש באינדוקציה מתמטית. הפתרון המקורי השתמש בנוסחת נסיגה. אני רוצה להציג כאן פתרון אחר  שמבוסס על הפתרון של המתמטיקאי הצרפתי Désiré André.

סיפורנו מתחיל בעיירה ציורית במרכז אילינוי, שם מתגוררים כמה אלפי אנשים, ויש בה רק קלפי אחת. הם בוחרים באחד משני המתמודדים לנשיאות, בואו נקרא להם ג’ו ודונלד. כל קשר לפוליטיקה מקרי לחלוטין. בחרתי בשם ג’ו מכיוון שכאשר התגוררתי בארה”ב האמריקאים הכירו אותי בשם ג’ו, ובשם דונלד כי בין היתר יש לי אוסף מפואר של כ-150 ברווזים.

נניח שג’ו קיבל A קולות, ודונלד קיבל B קולות, ובאופן מסתורי אנחנו יודעים את הערכים המספריים של A ו-B לפני שהתחילה ספירת הקולות, ואנחנו גם יודעים כי A גדול מ-B, כלומר ג’ו ניצח. מה הסיכויים שג’ו יוביל לאורך כל תהליך ספירת הקולות?

יש מספר תרחישים אפשריים. נתחיל במקרה הכי קל: הפתק הראשון שהוצא מהקלפי הוא של דונלד. דונלד מוביל, ולכן ג’ו לא מוביל לאורך כל הספירה. הסיכוי לתרחיש הזה הוא B/(A+B).

עכשיו בואו נשים לב כי מכיוון שג’ו ניצח, אם דונלד מוביל בשלב מסויים, אז בנקודת זמן כלשהי לאחר מכן ייווצר שיוויון קולות, כי ג’ו קיבל יותר קולות. הנה דוגמה לתרחיש אפשרי שבו זה קורה:

מספר הקולות
שנספרו
למי ניתן הקולהיתרון של ג’ו
1דונלד1-
2דונלד2-
3דונלד3-
4ג’ו2-
5דונלד3-
6דונלד4-
7ג’ו3-
8ג’ו2-
9ג’ו1-
10ג’ו0

מה שקורה אחר כך לא ממש משנה. כל תרחיש שבו הקול הראשון הוא קול לדונלד מגיע בנקודה כלשהי לשוויון בספירה, וההסתברות לתרחיש הזה היא כאמור B/(A+B) . אפשר לתאר את התרחיש הזה בגרף הבא:

מה קורה אם הקול הראשון שנספר ניתן לג’ו? כאן ג’ו מוביל בתחילת הספירה, ולאר מכן יש שתי אפשרויות: או שג’ו ימשיך להוביל לאורך כל הספירה, או שבשלב מסויים ייווצר שיוויון בקולות.

בואו נוסיף לגרף שלנו תרחיש אפשרי שבו ג’ו מתחיל להוביל, אבל לאחר מכן הספירה מגיעה לשוויון:

אני לא בחרתי את התרחיש הזה באופן מקרי! התרחיש השני (הכחול) הוא השיקוף של התרחיש הראשון (האדום). למעשה, לכל אחד מהתרחישים שבהם דונלד מוביל בתחילת הספירה (לאחר שהקול הראשון נספר), יש תרחיש מקביל שבו ג’ו מקבל את הקול הראשון שנספר והספירה מגיעה לשוויון. גם ההיפך נכון: לכל אחד מהתרחישים שבהם ג’ו מוביל בתחילת הספירה (לאחר שהקול הראשון נספר) והספירה מגיעה בשלב כלשהו לשוויון, יש תרחיש מקביל שבו דונלד מקבל את הקול הראשון שנספר ואז הספירה חייבת להגיע לשוויון.

לכן ההסתברויות לשני סוגי התרחישים – תרחיש שבו דונלד מוביל בתחילת הספירה, ותרחיש שבו ג’ו מוביל בתחילת הספירה אך אינו מוביל לאורך כל הספירה – שוות, וכל אחת מהן שווה ל- B/(A+B). אם נחבר אותן נקבל את ההסתברות לתרחיש שבו ג’ו אינו מוביל לאורך כל הספירה, והסתברות זו שווה ל- 2B/(A+B).

מכאן קל לחשב כי ההסתברות שג’ו יוביל לאורך כל הספירה שווה ל-1 פחות ההסתברות שהוא לא יוביל לאורך כל הספירה, כלומר ל- (A+B)/(A-B).

שימו לב כי התוצאה היא בעצם ההפרש בין מספרי הקולות שניתנו למועמדים חלקי סך כל הקולות. מעניין, אבל לא בהכרח אינטואיטיבי.

אתם מוזמנים להמשיך להחזיק אצבעות למען המועמד המועדף שלכם.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

איך לקרוא את הסקרים?

הבוקר התפרסם ב”הארץ” מאמר מאת פרופ’ יואב בנימיני, נשיא האיגוד הישראלי לסטטיסטיקה, שכותרתו “איך לקרוא את הסקרים?“.

ארבעה ימים לפני הבחירות, וביום האחרון בו החוק מתיר פרסום פומבי של סקרי בחירות ותוצאותיהם, מפרט בנימיני סיבות אפשריות לשוני הגדול הנצפה כעת בין הסקרים השונים.

סיבה אפשרית אחת, מסביר בנימיני, היא השפעה אפשרית של מי שמממן את הסקר, באמצעות הטיות קטנות כמו בחירת האוכלוסייה המיוצגת בסקר, סדר השאלות, או אפילו השפעה על נוסח השאלה. לכן ממליץ בנימיני להתייחס בחשדנות לסקרים שתוצאותיהם נמסרות על ידי בעלי אינטרסים, כגון דוברי מפלגות.

בנימיני מפרט גם בעיות מתודולוגיות העלולות להטות את התוצאות, כגון סירוב להשתתף בסקר, ושיעור הבלתי מחליטים (“הקולות הצפים” ). ככל שחלקן של שתי קבוצות אלה במדגם גבוה יותר, כך גדלה הבעיה הפוטנציאלית בסקר.

בנימיני לא התייחס, לצערי, לתופעה של נסקרים המשיבים בכוונה תשובות לא נכונות לסוקרים. אני יכול להבין מדוע. בעוד שאת שיעור הבלתי משיבים ואת שיעור הקולות הצפים ניתן למדוד, היכולת לאמוד את שיעור השקרנים שעלו במדגם מוגבלת (אם כי ניתן ככל הנראה לעשות משהו גם בעניין זה, על ידי השוואת תשובת הנסקר לשאלה למי הוא יצביע עם הניבוי שמספקים משתני הרקע שלו).

בסופו של דבר, מסביר בנימיני, כדי להעריך את תוצאותיו של סקר יש לדעת מי מימן אותו, מי ערך אותו ומתי; מי הנשאלים ומה נשאלו; כמה סירבו להשיב, מה טעות הדגימה וכמה מתלבטים עדיין. למרות שלפי דרישות החוק חובה לפרסם נתונים אלה ביחד עם תוצאות הסקר, מצביע שוב בנימיני על הפרת החוק בידי אמצעי התקשורת, ואזלת היד של ועדת הבחירות המרכזית שלא מבהירה מספיק, לדעתו, את החובה למלא את דרישות החוק. אני אחריף את דבריו ואומר כי ועדת הבחירות המרכזית מעלה בתפקידה כאשר נמנעה מאכיפת החוק.

בנימיני מסכם ואומר כי “מן הראוי לנקוט משנה זהירות כאשר נשענים על תוצאות הסקרים כדי להחליט בעבור מי להצביע”. דברים אלה נכונים אמנם, אך אני מציע לכם, קוראיי, להחליט למי תתנו את קולכם על פי צו מצפונכם והשקפת עולמכם, ולא להסתמך על סקרי הבחירות המפורסמים בארצנו ככלי תומך החלטות.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

קבוצת דיון ודיווח על סקרי הבחירות

לקראת הבחירות ההולכות וקרבות, הקים האיגוד הישראלי לסטטיסטיקה קבוצת דיון בגוגל שמטרתה לעקוב אחרי הדיווחים בתקשורת אודות סקרי הבחירות.

מסביר יושב ראש האיגוד, פרופ’ יואב בנימיני:

(סקרי הבחירות) מזוהים לטוב ולרע עם מקצוע הסטטיסטיקה בעיני הציבור, וחשוב לנו שתוצאותיהם ידווחו נכונה בכלי התקשורת.

ואכן חוק הבחירות מטיל (על אמצעי התקשורת) חובות דיווח מפורטות למדי (אודות סקרי הבחירות), אך אלו אינן מקוימות במלואן. ברצוננו לעשות מאמץ של קהילת הסטטיסטיקאים כולה על מנת לעקוב אחר הדיווחים בכלי התקשורת, ולנסות לטפל בזמן אמיתי במקרים בהם המידע הדרוש אינו ניתן במלואו.

אני שמח על היוזמה. אני מתריע כאן בבלוג מזה זמן רב על הפרות של סעיף 16 בחוק הבחירות-דרכי התעמולה, שדן פרסום סקרי בחירות. לצערי, החוק הפך לאות מתה, והוא אינו נאכף.

אני קורא לאיגוד להרחיב את היוזמה ולעקוב גם אחרי חשדות לכאורה של הפרת כללים אתיים מצד עורכי סקרים. אם יש מקרים כאלו, מן הראוי שהאיגוד יטפל גם בהם.

אני מזמין את קוראי הבלוג לעקוב אחרי הדיונים בקבוצה ואף להצטרף אליה. כתובתה: http://groups.google.com/group/surveys2009?hl=en

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

על משמעות המידע שבסקרי הבחירות

דובי קננגיסר כתב בבלוג שלו, תחת הכותרת “האם מידע הוא חסר משמעות?” הסבר מפורט על מנגנון לפיו פרסום תוצאות סקרים יכול להשפיע על המציאות (הפוליטית, ובכלל). אני מוכן להסכים עם רוב הטיעונים שלו. אני מסכים כי למידע יש משמעות. אני מסכים כי חשיפה למידע יכולה להשפיע על החלטות של אנשים, ובפרט, חשיפה למידע המתקבל מסקרי בחירות, יכולה להשפיע על החלטות של בוחרים בקשר לאופן הצבעתם בבחירות. אני מסכים לחלוטין (ותמיד טענתי זאת) עם טענתו של דובי כי יש בעיה אתית חמורה ומתמשכת בעצם הצגת המידע שבסקרים כפי שהוא מוצג בישראל, וכי שותפים לבעיה הזו גם אמצעי תקשורת וגם סוקרים. הכל נכון.

אבל יש שתי שאלות גדולות שדובי לא עונה עליהן.

באופן פילוסופי אפשר לטעון שכל דבר משפיע על המציאות, וזה בסך הכל נכון (במובן מסויים). נו, אז מה? אז גם סקרים משפיעים על המציאות (דרך המנגנון שדובי תיאר, ו/או דרך כל מנגנון אחר). אין מחלקות. השאלה החשובה באמת שצריך לשאול היא מה מידת ההשפעה שיש לסקרים על המציאות.

לומר שהסקרים מייצרים מציאות, זה לומר שמידת ההשפעה שלהם היא גבוהה ביותר. על סמך מה אפשר לומר את זה? האם ניתן להעריך מהי מידת ההשפעה של הסקרים על המציאות הפוליטית ביחס למידת ההשפעה שיש להחלטה על פעולה צבאית שראש הממשלה מקבל כמה שבועות לפני הבחירות? ביחס להודעה לעיתונות, יומיים לפני הבחירות, על המצאה גאונית שתשנה את העולם? ביחס לפיגוע שמתרחש יום וחצי לפני מועד הבחירות? אני משוכנע שתסכימו איתי כי כל אחד מהאירועים האלה השפיעו על תוצאות הבחירות שהתרחשו זמן קצר לאחר מכן, יותר מכל סקר, ויותר מכל הסקרים ביחד. ובוא לא נשכח כי הגורם העיקרי המשפיע על המציאות הפוליטית ותוצאות הבחירות הוא התפקוד של הממשלה היוצאת.

לאחר שנצליח לכמת (או לפחות להעריך) את מידת ההשפעה שיש לסקרי הבחירות (ולסקרים בכלל) על המציאות, נוכל לענות של השאלה השניה: כיצד לאזן בין הנזק שהסקרים גורמים ובין התועלת שהם מביאים, אם בכלל יש צורך לעשות זאת.

אם נחליט שיש צורך לעשות משהו בעניין, כבר הצבעתי על הפתרון בעבר, ואצביע עליו שוב.

בטווח הקצר יש לדרוש מעורכי הסקים וממי שמפרסם את תוצאותיהם להקפיד לשמור על אתיקה מקצועית. בנוסף, אפשר וצריך לדרוש מכלי התקשורת לקיים את הוראות תיקון מספר 22 לחוק הבחירות (דרכי תעמולה) הקובע כללים ברורים לאופן פרסום תוצאות סקרי בחירות, ולמידע שעל הסוקר למסור יחד עם תוצאות הסקר. אפשר גם לאכוף את החוק (לתשומת לבו של  הקורא אליעזר ריבלין).

בטווח הארוך, הפתרון הראוי טמון בחינוך. יש ללמד את עקרונות הסטטיסטיקה וקבלת ההחלטות בבתי הספר ובאוניברסיטאות באופן מקיף ויסודי. זה לא פתרון קל, ותוצאותיו יורגשו רק בעוד מספר לא מועט של שנים, אבל זהו הפתרון הרציונלי היחיד

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

הסקרים והמפלגות הערביות (אופס, המפלגות האחרות)

אחד הבלוגים שאהבתי לקרוא הוא “משמר הכנסת” (שנמצא כעת בפסק זמן ארוך) שערך דובי קננגיסר. דובי סקר בו בצורה ביקורתית הצעות חוק שהציעו נבחרינו, השיעור העיקרי שלמדתי מבלוג זה הוא שהדבר הראשון שיש לשאול כשבוחנים הצעת חוק הוא האם באמת צריך את החוק הזה, ומייד לאחר מכן יש לשאול האם החוק אכן ישיג את מטרתו.

הסיבה שאני טורח להעלות באוב את “משמר הכנסת” (חוץ מהתקווה שהבלוג יחדש את פעילותו) היא ההנחיה שפרסם אתמול יו”ר ועדת הבחירות, השופט אליעזר ריבלין. אמנם זה לא חוק, אבל החלטה של שופט עליון כמוה כחוק. כבוד השופט ריבלין הורה כי על כלי התקשורת לפרט בסקרי הבחירות גם את שמות המפלגות הערביות, בניגוד למה שנהוג עד כה בכלי התקשורת בעברית המפרסמים את התוצאות של שלוש המפלגות הערביות יחד תחת הסיווג: “מפלגות ערביות”. ההנחיה באה בעקבות פנייתו של ח”כ דב חנין מחד”ש, בחור טוב בדרך כלל, אף שאיני מסכים עם כל דעותיו.

בידיעה שפרסם שחר אילן אתמול ב”הארץ”, הובא הסברו של חנין כי צירוף שלוש המפלגות לסיווג אחד “מונע מהציבור להבחין ביחסי הכוחות בין הרשימות, ובסיכוייה של כל רשימה לצבור קולות בבחירות, וזאת למרות שקיימת שונות מהותית בין הרשימות”.

בואו ננתח את דבריו של חנין. יש שם שלוש טענות. עם הטענה שקיימת שונות מהותית בין הרשימות הנכללות בחבילה של “המפלגות הערביות” אני מסכים לחלוטין. אם לא הייתה שונות כזו, הן היו מתאחדות לרשימה אחת. עם הטענה שהצירוף “מונע מהציבור להבחין ביחסי הכוחות בין הרשימות” אני מסכים באופן חלקי. זה נכון. אם שלוש המפלגות יצברו יחד 10 מנדטים, נניח, על פי סקר כלשהו, לא ניתן לדעת מהתוצאה איך יתחלקו עשרת המנדטים בין שלוש הרשימות. אבל האם חוסר ההבחנה נובע מעצם הצירוף בלבד? שחר אילן מסביר בהמשך שלא כך הדבר: ” הסיבה העיקרית לכך שהתקשורת אינה מפרסמת פירוט של המפלגות הערביות, היא הקושי לסקור ציבור זה באמצעות מדגם קטן, והעובדה שכל המפלגות הערביות נמצאות בתחום הטעות הסטטיסטית, לכן כל פרסום של הנתונים אלה יהיה בהכרח בלתי מדוייק”. לא יכולתי לכתוב זאת טוב יותר.

על הטענה השלישית, לפיה הצירוף פוגע בסיכוייה של כל רשימה לצבור קולות בבחירות, אני חולק מכל וכל. הסקרים משקפים את המציאות, לא מייצרים אותה. אני לא מעוניין לפתוח מחדש את הויכוח שהתחולל בעקבות דברי תמר הרמן (עם המשך הדיון כאן, ואחר כך כאן, וסיכומו נמצא כאן), אבל אין לי ברירה. מי שרוצה לחשוב שהסקרים משנים את המציאות, בבקשה. מי שרוצה לשכנע אותי, שיביא נתונים. In God we trust. All other, bring data.

לאחר שדנו בטיעוניו של חנין, נעבור לפתרון המוצע. האם באמת הפתרון הוא בהוראה/מעין חקיקה לסוקרים ולכלי התקשורת לשנות את פרקטיקות העבודה שלהם? אם הנזק שבצירוף שלוש המפלגות לקטגוריה אחת עולה בצורה משמעותית על הנזק שגורמת ההוראה (למשל, פגיעה בחופש העיסוק, חופש העיתונות, והתערבות בשיקולים מקצועיים), אז התשובה היא חד משמעית כן. אבל חנין לא הראה כי אכן נגרם נזק כלשהו, הוא רק טען שנגרם נזק. והוא בחר בפתרון הקל – לשכנע שופט לתת הוראה, במעמד צד אחד, מבלי שהוצגו לפניו (ככל הנראה) כל הנימוקים בעד ונגד ופתרון המוצע. אני לא מאשים כאן את חנין, הוא בחר בדרך לגיטימית כדי להשיג את מטרתו. אני סבור שהשופט הנכבד טעה במקרה הזה.

אף אם עברנו את שתי המשוכות הראשונות, כלומר השתכנענו שטענותיו של חנין נכונות כולן (ולדעתי הן לא), ואנחנו סבורים כי החלטת השופט הנכבד נכונה (ולדעתי היא לא), יש שאלה נוספת שעלינו לשאול: האם הנחיית השופט תשיג את מטרתה? גם כאן, התשובה היא ככל הנראה שלילית.

בפני הסוקרים והתקשורת עומדות כרגע שתי אפשרויות. אחת, שהיא לדעתי הפתרון הקל והראוי במקרה זה, היא לשנות את הסיווג “מפלגות ערביות” ל-“מפלגות אחרות”. חנין, יהודי במפלגה דו-לאומית לא ייעלב, ובא שלום על ישראל.

אפשרות אחרת היא לפלח את הסיווג של המפלגות “האחרות” למרכיביו, כלומר לפרסם כמה מנדטים צפויים לחד”ש כמה לבל”ד וכמה לרע”מ-תע”ל. יש כמה דרכים לעשות את זה. אפשר לעשות זאת בצורה שרירותית (לחלק איכשהו את ה-10 ל-3-3-4). אפשרות אחרת היא לעשות זאת על פי התוצאות בפועל מהמדגם, וזו אפשרות בעייתית, כיוון שגדלי המדגמים קטנים בדרך כלל, וגודלה של מפלגה בת 3 מנדטים (2.5% מהמושבים בכנסת) קטן מגודל הטעות הסטטיסטית במדגם של 1200 נסקרים (2.8%), ורוב הסקרים מסתפקים בגודל מדגם קטן יותר במחיר של טעות סטטיסטית גדולה יותר (זה נכון, דרך אגב, לכל המפלגות הקטנות). אני מקווה שדרכים אלה לא יינקטו, כיוון שהן יוצרות בעיות אתיות חמורות גם מבחינה עיתונאית וגם מבחינה סטטיסטית.

אפשרות נוספת, היא לערוך מדגם נפרד באוכלוסיה הערבית, או לדאוג שתת-המדגם בשכבה של האוכלוסיה הערבית (משם באים רוב מצביעי שלוש המפלגות הנדונות, ותבניות ההצבעה בקבוצת אוכלוסייה זו שונות מהותית מתבניות ההצבעה באוכלוסיה הלא-ערבית) יהיה מספיק גדול כדי להקטין את הטעות הסטטיסטית לגודל סביר. זה לא יקרה, כי זה יעלה יותר כסף, וכמות האינפורמציה שתתקבל לא מצדיקה את ההשקעה, בניגוד למה שדב חנין חושב.

לסיכום: ח”כ דב חנין העלה טיעונים שנויים במחלוקת בפני שופט מכובד. לאחר השופט האזין לטיעונים אלה (ולא ברור אם הובאו בפניו טיעוני נגד) הוא נתן הוראה בעייתית שפוגעת בזכויות יסוד ובשיקולים מקצועיים באופן שלא ברור האם הוא מידתי, והתוצאה תהיה במקרה הטוב מכבסת מלים, ובמקרה הרע הסתבכות אתית של אנשי המקצוע. היה שווה?

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו