חיפוש באתר

קישורים

RSS סטטיסטיקה ברשת

עמודים

קטגוריות

תגיות

ארכיב עבור תגית קבלת החלטות

האם כל תוצאה מובהקת היא משמעותית (ולהיפך)?

בכל מחקר כמותי בו נערך ניתוח סטטיסטי של הנתונים, מגיע הרגע הנכסף בו מחושב ה-P-value הנכסף. האם הוא קטן מ-0.05? שואל החוקר את עצמו בהתרגשות. אם כן – הידד! אפשר לפרסם את המאמר, או לרוץ ל-FDA להגיש לאישור תרופה חדשה, או להכניס מוצר חדש ל-production.

אבל, לפני שרצים, יש שאלה נוספת שצריך לשאול: האם התוצאה משמעותית?

נניח שערכנו ניסוי בו השתתפו 1000 איש, מחציתם נשים ומחציתם גברים. ערכנו לכל אחד ואחת מנבדקים מבחן IQ. התברר כי ה-IQ הממוצע של הנשים הוא 100, בעוד שה-IQ הממוצע של הגברים הוא 99. התוצאה מובהקת, עם פי-ואליו של 0.0016. [1] . לפני שתרוצו לפרסם מאמר סנסציוני בכתב העת המדעי החביב עליכם[2] ראוי שתעצרו ותשאלו את עצמכם: אז מה? ההבדל הוא כל כך קטן, האם יש לו משמעות? אם אתם חושבים שלהבדל יש משמעות, עליכם לנמק זאת.

בואו ניקח דוגמה קצת יותר מציאותית. מדען בילה ימים ולילות במעבדה, ופיתח תרופה חדשה לטיפול בטרשת נפוצה  התקפית[3]. התרופה מקטינה את תדירות ההתקפים ב-10%. הוא רושם פטנט, ומנסה למכור את התרופה לחברת תרופות. הסטטיסטיקאי של חברת התרופות יכול בקלות לתכנן ניסוי קליני, שיזהה את האפקט של התרופה בעוצמה של 90%[4] או אפילו 95% או 99%. האם החברה תקנה את התרופה ותפתח אותה? לא ולא. יש כבר תרופות לטיפול בטרשת נפוצה התקפית שמקטינות את תדירות ההתקפים ב-30, 40, ואפילו ב-50%. במצב זה, לתרופה עם אפקט של 10% אין משמעות, לא קלינית ולא מסחרית.

דוגמה שלישית: למשפחה נולד בשעה טובה בן בכור. האם הסיכוי כי הילד השני במשפחה זו יהיה (אם וכאשר יוולד) גם הוא בן, גדל? הנה מאמר שטוען שייתכן שכן. עיקרי הדברים: בדנמרק נאספו נתונים לגבי סדר הלידה ויחס המינים של כ-1.4 מיליון ילדים, בכ-700 אלף משפחות, במשך תקופה של כ-35 שנה. 51.2% מהבכורים היו בנים. בקרב המשפחות שבהן היו 3 בנים, והיה הבן ילד רביעי, 52.4% מקרב הילדים הרביעיים היו בנים. ההבדל מובהק, כמובן (p=0.009). בואו נתעלם מ-cherry picking אפשרי[5]. כמה משפחות בנות 4 ילדים יש בדנמרק? מחיפוש ראשוני שערכתי עולה כי מדובר בפחות מ-10%מהמשפחות. בואו נניח שזה 10%. אז עכשיו אנחנו מדברים על 70 אלף משפחות בנות 4 ילדים. ההסתברות ששלושת הילדים הראשונים הם בנים היא בעךך 0.013. נעגל את זה ל-0.02. זה מותיר לנו 1400 משפחות בנות ארבעה ילדים שבהן שלושת הילדים הראשונים הם בנים. 51.2% מקרב הילדים הצעירים היו "צריכים" להיות בנים, בפועל היו 52.4% – הפרש של 1.2%.  1.2% מ-1400 זה , 16.8, בואו נעגל ל-17, וזאת בתקופת זמן של 35 שנה, כלומר כל שנה נולדו 0.48 יותר בנים ממה שהיה "צריך" להיות. מי חושב שזה משמעותי?

דוגמה רביעית: חברת אינטרנט עושה AB testing, בה היא בודקת את השפעתו של פיצ'ר חדש במוצר שלה על ההסתברות שלקוח המשתמש במוצר יקנה את גירסת ה-PRO, בתשלום. מסתבר כי אחוז המשלמים יגדל מ-24.6% ל-24.8%, והתוצאה מובהקת [6]. האם זה משמעותי?[7] ובכן, אם נניח שהתשלום לגירסת הפרו הוא 5$ ויש 100000 משתמשים, הרי שמדובר בתוספת הכנסות של 100$. שווה? אם לעומת זאת יש מיליון משתמשים והתשלום הוא 50$, מדובר בתוספת הכנסה של 10000 דולר. 30 מיליון משתמשים ותשלום של 500$ יביאו את תוספת ההכנסות ל-3 מיליון דולר, וזה בהחלט משמעותי. תגידו: אם כבר השקענו את הכסף בפיתוח, אז ניקח את מה שיצא. יש בזה משהו. אבל אני מקווה שעושים קודם כל הערכה של עלויות הפיתוח ושל ההכנסות הצפויות מהפיצ'ר החדש.[8]

נחזור לרגע לגודל המדגם הדרוש, כ-728 אלף נבדקים. אולי ענקית כמו גוגל יכולה להרשות לעצמה מדגם כזה. אני מניח שחברות קטנות יותר צריכות להסתפק בגודל מדגם קטן יותר. הן עומדות לכן בפני הברירה הבאה: אפשרות אחת היא לערוך מבחן סטטיסטי ואז רוב הסיכויים הם שאפקט כזה (ואפילו אפקט גדול יותר) לא יזוהה כמובהק. הן כמובן יכולות לשחק בסוגי הטעות, ולאפשר טעות מסוג ראשון (false positive) גבוהה יותר כדי להשיג עוצמה גבוהה יותר. אפשרות אחרת היא לוותר מראש על בדיקת המובהקות, ולסמוך ידיהם על האפקט הנומינלי. יש לכך תומכים, הבולט בהם הוא הסטטיסטיקאי אנדרו גלמן מאוניברסיטת קולומביה.[9]

מסקנות: לפני שרצים לחקור, צריך להעריך מראש איזה תוצאה תיחשב למשמעותית, ולחשוב מה דרוש לעשות כדי לבדוק האם התוצאה אכן מתקיימת. יש להעריך מראש מה ההסתברות לכל אחת משתי הטעויות האפשריות, שכן ההסתברויות האלה קיימות וחיוביות גם אם לא משתמשים במבחנים סטטיסטיים.


הערות
  1. בהסטיית התקן של כל קבוצה היא 5.  תבדקו בעצמכם  []
  2. למשל Nature או סיינטיפיק טמקא []
  3.  Relapsing Remitting Multiple Sclerosis  []
  4. כלומר ההסתברות לתוצאת False Negative  תהיה 10% []
  5. מה קרה במשפחות בנות שני ילדים? ומשפחות בנות 3 ילדים? למה זה לא מדווח? אם זה לא באבסטרקט של המאמר, כנראה שזה לא היה מובהק []
  6. כדי לזהות הבדל כזה כמובהק, יש צורך בגודל מדגם של כ-728000 נבדקים, אבל נעזוב את זה כרגע []
  7. נתקלתי בחברה שמעדכנת גירסת תכנה כאשר ביצועי הגירסה החדשה גבוהים נומינלית ב-0.2% מביצועי הגירסה הישנה, על סמך מדגם בגודל 1000, כמובן בלי בדיקת מובהקות []
  8. אפשר למשל לערוך סקר משתמשים, או לכנס focus group []
  9. אני מתכוון לסקור את הגישה של גלמן ואת הגישה הנגדית, שמוביל ג'ון יואנידיס ברשימה קרובה []

על מכבי תל אביב ורוג’ר פדרר

האמת, לא ראיתי את המשחק בין מכבי תל-אביב וצסק"א מוסקבה בפיינל פור 2014 של היורוליג. אני לא צופה במשחקי כדורסל מאז הזכיה האחרונה של שיקגו בולז באליפות ה-NBA, ב-1998. בלי מיקל ג'ורדן, אני פשוט משתעמם. אבל על מה שקרה במשחק של מכביי שמעתי גם שמעתי.

למי שלא שמע: כשקבוצתו בפיגור של 15 נקודות בסוף הרבע השלישי של המשחק, הורה דייויד בלאט,  מאמן מכבי, לשחקניו לנסות ללכת על כל הקופה: לעבור למשחק מהיר, הגנה אגרסיבית, וזריקות לשלוש נקודות, תוך תקווה שהיריבה תעשה יותר טעויות מהרגיל.

במונחי ספורט, אולי זה היה הימור. במונחים סטטיסטיים, בלאט החליט להגדיל את השונות. לאחר 3 הרבעים הראשונים, המשחק כבר לא היה שקול. האסטרטגיה של בלאט הגדילה את ההסתברות לתבוסה: המשחק היה יכול להגמר ב-30 נקודות הפרש לטובת צסק"א, אבל במשחק של הכל או לא כלום, זה באמת לא משנה אם ההפסד הוא בהפרש של 15 נקודות או 30 נקודות. לעומת זאת, לקיחת הסיכון גם אפשרה הסתברות לרבע שייגמר ב-16 נקודות הפרש לטובת מכבי, בניגוד לאסטרטגיות של 3 הרבעים הראשונים במשחק שמהלכם לא היה טוב במיוחד מנקודת הראות של הצהובים.

איך זה קשור לרוג’ר פדרר?

הסבר קצר על משחק הטניס. המשחק הטיפוסי מורכב משלוש מערכות, וכדי לנצח על הזוכה לנצח בשתי מערכות מתוך ה-3[1]. כל מערכה מורכבת ממשחקונים, וכדי לנצח במערכה יש לנצח ב-6 (ולפעמים 7 או יותר) משחקונים. כך יכול להווצר מצב מוזר: שחקן שהפסיד 6:1 במערכה הראשונה (כלומר ניצח במשחקון אחד והפסיד ב-6), וניצח בשתי המערכות הבאות בתוצאה 6:4, זכה המשחק כי ניצח ב-2 מערכות מתוך ה-3, אבל ניצח בסך הכל ב-13 משחקונים, בעוד שיריבו ניצח  ב-14 משחקונים. תופעה זו, המזכירה את פרדוקס סימפסון,  קורה בערך ב-5% ממשחקי הטניס המקצועניים[2]. דבר דומה קרה גם במשחק הכדורסל: צסק"א ניצחה ב-3 מתוך 4 רבעי המשחק, אך הפסידה במשחק כולו.

מסתבר כי אלוף העולם בהפסדים ב-"משחקי סימפסון" בענף הטניס הוא לא אחר מאשר רוג’ר פדרר, אחד מגדולי הטניס בכל הזמנים. הוא שיחק ב-28 משחקים בהם המפסיד זכה ביותר משחקונים מאשר המנצח. המאזן שלו? 24 הפסדים, רק 4 ניצחונות.

מעניין לציין כי השחקן בעל המאזן הטוב ביותר במשחקים כאלה הוא ג'ון אייזנר , עם מאזן של 19 נצחונות ו-5 הפסדים. אייזנר זכור גם כמנצח במשחק הארוך ביותר בהיסטוריה, בטוניר וימבלדון ב-2010, בו ניצח את יריבו בתוצאה 70:68 במערכה החמישית. במשחק הנ"ל, אייזנר זכה ב-24 נקודות פחות מאשר יריבו.[3] אייזנר מבסס את כל משחקו על חבטת הגשה חזקה במיוחד שמותירה את היריב ללא מענה במקרים רבים. כאשר ליריב יש מענה, לאייזנר בדרך כלל אין.

למי שמשחק מול פדרר אין הרבה סיכויים לנצח; פדרר ניצח ביותר מ-80% המשחקים בהם השתתף. מעבר לכך – שיטת הניקוד בטניס מוטה לטובת השחקן הטוב יותר. יתרון קטן על היריב מתורגם על ידי שיטת הניקוד להבדל משמעותי בסיכויי הניצחון במשחק. הדרך הכמעט יחידה לנסות לנצח את פדרר היא להגדיל את הסיכון על ידי משחק אגרסיבי. אתה עלול להפסיד שתי מערכות בתוצאה 6:0, אבל יש לך גם סיכוי להפסיד פחות משחקונים מאשר בדרך כלל, ואם תנצח מספיק משחקונים, אולי זה יספיק לך לנצח בשתי מערכות צמודות, ואז למי איכפת מהמערכה בה פדרר הביס אותך?


הערות
  1. 1. ישנם טורנירים בהם המנצח נקבע בשיטת הטוב מ-5 מערכות []
  2. 2. Wright, B., Rodenberg, R. M., & Sackmann, J. (2013). Incentives in Best of N Contests: Quasi-Simpson's Paradox in Tennis.International Journal of Performance Analysis in Sport13(3), 790-802. []
  3. 3. כדי לנצח במשחקון, יש לצבור יותר נקודות מאשר היריב []

מה הסיכוי שקולך ישפיע בבחירות – המשך דיון

ברשימה הקודמת תיארתי תרגיל חישובי שביצעתי, ומטרתו הייתה לנסות להעריך מה ההסתברות כי קול בודד ישנה את תוצאת הבחירות. הרשימה זכתה לתגובות רבות וגם לביקורות רבות, והתייחסתי התייחסות חלקית אליהן בתגובות לתגובות. ברשימה זו אשתדל לענות באופן מפורט יותר לשואלים ולמבקרים. חילקתי את התגובות לשתי קטגוריות: שאלות לגבי התוצאות שהתקבלו ומשמעותן, ושאלות טכניות/סטטיסטיות.

שאלות לגבי התוצאות שהתקבלו ומשמעותן

הטענה החשובה ביותר היא כי תוצאות הבחירות לא נקבעות על ידי קול בודד אלא על ידי כלל הקולות, ולכן התשובה לשאלה האם להצביע צריכה לבוא מתחום תורת המשחקים ולא מתחום הסטטיסטיקה. אני מסכים בהחלט עם הטענה הזו. הרשימה לא נועדה לענות על השאלה האם להצביע, והחישובים שערכתי לא נותנים תשובה לשאלה זו אלא לשאלה ממוקדת מאוד. התשובה לשאלה האם כדאי להצביע בבחירות הרבה יותר מורכבת, ודנתי בה (באופן כללי ולא מעמיק) ברשימה קודמת. התרגיל החישובי שערכתי עונה לשאלה ספציפית ביותר: בהינתן תוצאה מסויימת של הבחירות, מה ההסתברות כי הוספת קול נוסף לאחת המפלגות תשנה את חלוקת המנדטים, ואין להסיק מתוצאותיו האם יש או אין טעם להצביע.

דובי שאל מה הסיכוי שהקול שלו יעביר מנדט מהגוש הנגדי אל הגוש שלו. התשובה המיידית היא כי הסיכוי הרבה יותר נמוך. התשובה היותר מעמיקה היא כי יש צורך להגדיר מהו גוש. קל אולי להעריך כי מפלגה כדוגמת הבית היהודי שייכת לגוש הימין, אבל האם אכן תתמוך מפלגה כזו בממשלה שיקים (אם יתבקש לכך על ידי הנשיא) בנימין נתניהו, והאם תצטרף לממשלה כזו? הם מישהו מוכן לערוב לכך שנפתלי בנט לא יצטרף לממשלה בראשות יחימוביץ? או ש"ס? מה בקשר ליהדות התורה – האם הם שמאל או ימין? בלד היא מפלגה לאומית ערבית – לא ימין יהודי אבל בהחלט ימין מדיני ערבי. לדידם הליכוד והעבודה חד הם. לאיזה גוש יש לשייך אותם? קטונתי מלענות על כל השאלות האלה, ומשום כך איני יכול לענות על השאלה של דובי. זיו ניסח את אותה שאלה באופן מדוייק יותר: "לאיזו מפלגה, מבין מרצ, העבודה, יש עתיד, התנועה וחד"ש, אני צריך להצביע כדי שיהיה כמה שיותר סיכוי שאני 'אגנוב' מנדט מהליכוד, ש"ס, יהדות התורה או הבית היהודי?". לא ערכתי את החישובים, אבל ברור למדי שהסיכוי כי מאורע כזה יקרה הינו קלוש, עקב הפער הגדול (בתחזית המנדטים) בין שני הגושים שהגדיר מתן, כ-20 מנדטים שהם יותר מחצי מליון קולות קולות.

אני כן יכול לענות על השאלה המשתמעת מתגובתו של מתן ק: האם רוב רובו העצום של הסיכוי להעביר מנדט הוא בין שתי רשימות שיש ביניהן הסכם עודפים? זה נראה כך כיוון שההסתברויות שחושבו דומות לכל זוג מפלגות הקשורות בהסכמי עודפים. הדמיון בהסתברויות נובע משיטת חישוב המנדטים, בה מאחדים כל זוג מפלגות שכרתו בינן הסכם עודפים ל-"מפלגת על" אחת, לצורך חלוקת המנדטים. עם זאת, העובדה שיש הסבר לדמיון בהסתברויות בזוגות המפלגות אינה אומרת כי מתן בהכרח טועה. בדקתי את תוצאות הסימולציה, והתברר כי מתן צודק בתחושתו, ואכן הסיכוי להעביר מנדט מרשימה לרשימה אחרת שאנה קשורה עימה בהסכם עודפים הינו אפסי.

 שאלות טכניות/סטטיסטיות

טענה שהועלתה על ידי מספר מגיבים היא שהחישובים נערכו על סמך הערכה מסויימת של מספר המנדטים הצפויים לכל מפלגה, ולא נערך חישוב לגבי התפלגויות מנדטים אחרות. כמו כן נטען כי העובדה כי התפלגות המנדטים שבחרתי הייתה קבועה (בכל 2 מליון הסימולציות השתמשתי באותה התפלגות מנדטים כדי לסמלץ את מספר הקולות לכל מפלגה) גרמה להגדלה של ההסתברויות שחישבתי. זה נכון באופן עקרוני – ככל שההנחות מכילות יותר שונות, גם ההסתברויות למאורעות ספציפיים יקטנו. הסיבה פשוטה – יש יותר מאורעות (ותאמינו או לא, מרחב המדגם בסימולציה הוא סופי), ולכן ההסתברויות של המאורעות באופן כללי יותר קטנות, כי צריך לחלק את "עוגת ההסתברות" להרבה יותר פרוסות. השאלה היא לכן לא האם הייתה מספיק שונות בהנחות, אלא האם ההנחות שלי מתאימות לשאלה ששאלתי. השאלה הייתה פשוטה: בהינתן תוצאה מסויימת של הבחירות, מה ההסתברות כי הוספת קול נוסף לאחת המפלגות תשנה את חלוקת המנדטים. הדגש הוא על המלים "תוצאה מסויימת". הפירוש שנתתי למלים אלה הוא כי וקטור חלוקת המנדטים נתון וקבוע, והתוצאה שקיבלתי תקפה כמובן רק בהנחה זו. עם זאת, ערכתי מספר בדיקות. באחת מהן הוספתי בכל סימולציה עד פלוס/מינוס חצי מנדט לכל מפלגה (על ידי הוספת משתנה מקרי אחיד על הקטע בין -0.5 ל-0.5 למספר המנדטים של כל מפלגה, ולאחר מכן נרמול התפלגות המנדטים כך שיתקבל שוב וקטור הסתברות). בבדיקה נוספת לא הנחתי כלל התפלגות מנדטים, ובחרתי בכל סימולציה את וקטור ההסתברויות להתפלגות מולטינומית מתוך התפלגות דיריכלה אחידה. בשני המקרים קיבלתי תוצאות דומות, וההסתברויות היו אכן בסדר גודל של 1 ל-10000, כצפוי במקרה בו אין כל אינפורמציה מוקדמת על תוצאת הבחירות (וסקרתי מספר עבודות שהגיעו למסקנה דומה ברשימה שכתבתי על הטיעונים בעד הצבעה בבחירות).

טענה מעניינת העלה הקורא ליר: המודל שבניתי מניח את התפלגות המנדטים הנתונה לגבי בעלי זכות הבחירה שהחליטו להצביע, והסימולציה תחילה קובעת את מספר המצביעים (לפי ההנחה על אחוז ההצבעה) ואח"כ קובעת איך יתפלגו הקולות בין המצביעים בפועל. זה מתאר מצב בו אדם תחילה מחליט האם להצביע, ובמקרה שהאזרחית מחליטה להצביע, היא מחליטה לאחר מכן לאיזה מפלגה תיתן את קולה. ליר טוען כי המצב בפועל שונה: תחילה מחליטים באיזה מפלגה לתמוך, ולאחר מכן מתקבלת ההחלטה האם ללכת לקלפי ולהצביע בפועל עבור המפלגה או לוותר על הזכות להצביע. ליר טוען, ובצדק, שלפי מודל ההחלטה שלו יתקבלו תוצאות אחרות.  תשובתי היא שאני מסכים כי המודל שלי פשטני במידה מסויימת, אך כך גם המודל שלו. תהליך ההחלטה האם להצביע ובעד מי הוא מורכב למדי. אני מניח שחלק מהאנשים פועלים לפי המודל הראשון שאני הצעתי (זה מודל ההחלטה שלי, דרך אגב), ואנשים אחרים פועלים לפי המודל של ליר. לא מן הנמנע כי לאנשים רבים יש עץ החלטות מורכב יותר. המודל שבחרתי נראה לי סביר, בין היתר בגלל העובדה שהסקרים (שתוצאותיהם שימשו כקלט לסימולציה שלי)  משקפים מודל החלטה כזה (תחילה הסוקר שואל האם בכוונת הנסקר להצביע בבחירות, ורק במקרה של תשובה חיובית שואל הסוקר לאיזה מפלגה בכוונת הנסקר להצביע). כמו כן, אין תשובה חד משמעית לשאלה האם אחוז ההצבעה משתנה בין התומכים של מפלגות שונות, לא כל שכן נתונים שיאפשרו סימולציה על סמך המודל הזה. אם יש הבדלים משמעותיים באחוזי ההצבעה בין התומכים של מפלגות שונות, התוצאות עשויות להיות שונות. אם אין הבדלים משמעותיים התוצאות יהיו דומות.

ליר טען גם כי ההתבססות שלי על מודל של התפלגות מולטינומית שגוי, וכי יש להשתמש במודל של התפלגות נורמלית. אני דוחה טענה זו מכל וכל. התפלגות מספרי הקולות של המפלגות היא מולטינומית מעצם הגדרתה, ולכן סימולציה של התפלגות מולטינומית היא הדרך הנכונה. יש לזכור גם כי מספרי הקולות של המפלגות אינם בלתי תלויים, אלא יש בינם מתאם שלילי (כשמפלגה אחת מקבלת הרבה קולות, האחרות בהכרח יקבלו פחות, ולהיפך). בסימולציה כפי שליר מציע אין תלות בין מספרי הקולות שמקבלת כל מפלגה.

התוצאות לגבי בלד נראו לחלק מהמגיבים מוזרות. הנה הסבר מהיר: ב-2 מליון הסימולציות שנערכו, לא היה אף לא מקרה אחד כי הוספת קול נוסף לבלד העלתה את מספר המנדטים שקיבלה מפלגה זו. האמד הנקודתי למאורע כי הצבעה לבלד תשנה את תוצאת הבחירות הוא לכן אפס חלקי 2 מליון, כלומר אפס. נשאלת השאלה: האם העובדה שלא ראינו מאורע מסויים מעידה על כך שאין כל סיכוי שהמאורע יתרחש? כמובן שלא. לכן לא ציינתי לגבי בלד את ההסתברות הספציפית, אלא רווח סמך: ההסתברות למאורע קטנה מ-1 ל-667 אלף. רווח סמך זה הוא מקורב, ומבוסס על "כלל אצבע" המכונה בעגה הסטטיסטית "The rule of three", ולפיו רווח סמך עליון למאורע שלא נצפה הוא 3 חלקי מספר התצפיות, ובמקרה שלנו 3 חלקי 2 מליון.

מה הסיכוי שקולך ישפיע אם תצביעי בבחירות

הקדמה

ברשימה הקודמת סקרתי את מגוון הטיעונים בעד הצבעה בבחירות, מעשה שעל פניו נראה "בלתי רציונלי", בהתחשב בעובדה שהסיכוי שקול בודד ישפיע על תוצאת הבחירות נמוך למדי. כמה נמוך? על פי דאגלס ואנדרוורקן, הסיכוי כי קול בודד במדינת מפתח כצפון-קרוליינה יכריע את גורל הבחירות לנשיאות ארצות הברית הוא כ-1 ל-10 מליון. לעומת זאת, הסיכוי כי קול בודד יכריע את תוצאת הבחירות למועצת עיר קטנה בקנטאקי הוא כ-1 ל-90, סיכוי גבוה למדי בעיני מספר אנשים.

הפתרון המקובל כיום הוא שהתועלת מההצבעה נובעת לא רק מהתועלת האישית המתבטאת בסיכוי כי קולו של המצביע ישנה את תוצאת הבחירות, אלא גם מהתועלת לכלל הנובעת מההצבעה. התועלת לכלל הרבה יותר גבוהה מהתועלת לפרט, כי על הכף מונחים הרבה יותר גורלות והרבה יותר כספים (תחשבו על מספר ההרוגים במלחמה אפשרית עם אירן לעומת האפשרות שאתן תהרגו, או על הוצאה ממשלתית לטובת תקציבים חברתיים של 138 מיליארד שקלים בחמש שנים לעומת העלות/רווח האישי שלכם עקב תוצאת הבחירות שלא תעלה ככל הנראה מעל סך של כמה עשרות או מאות אלפי שקלים).

יש הבדל גדול בין שיטת הבחירות בישראל לעומת ארה"ב: כפי שציין אביתר בתגובתו לרשימה הקודמת, ההשפעה של הצבעה (או המנעות מהצבעה) אינה מתבטאת בקביעת המנצח או המפסיד, אלא בקביעה כמה חברי כנסת יהיו לכל מפלגה. לכן בניתוח שמוכוון לבחירות בישראל, השאלה צריכה להיות: אם אצביע למפלגה  מסויימת, מה הסיכוי שהיא תקבל  מנדט נוסף שלא הייתה מקבלת לו לא הצבעתי בבחירות?

הבדל משמעותי נוסף בין ישראל וארצות הברית – מספר המצביעים בישראל נמוך בהרבה מאשר בארה"ב. מכיוון שמושב בכנסת שווה כ-20 עד 30 אלף קולות (לאחר מעבר אחוז החסימה), וראינו כי בבחירות רוב הסיכוי של קול בודד להשפיע הולך וקטן עם עליית מספר המצביעים, סביר להניח כי כאשר כמה אלפי קולות עשויים להטות את הכף, הסיכוי של קול בודד להשפיע גדול יותר.

מתי קול בודד יכול להשפיע על תוצאת הבחירות בישראל?

הנה מספר מצבים אפשריים בהם קול בודד עשוי להשפיע על תוצאת הבחירות. בכולם אניח כי את, הבוחרת, מתלבטת האם להצביע עבור מפלגה א, ואינך שוקלת להצביע למפלגה אחרת;  האלטרנטיבה שלך היא להצביע בפתק לבן (קול לא כשר) או לא להצביע כלל. הנה תיאור של מספר מצבים בהם קולך עשוי להשפיע על תוצאות הבחירות:

א. מפלגה א מתנדנדת באזור אחוז החסימה. הקול שלך יכול להשפיע אם ללא קולך המפלגה לא תעבור את אחוז החסימה, ובעזרתו היא תעבור אותו. במקרה שתעבור, תזכה בשני מנדטים בכנסת במקום באפס.

ב. מפלגה א תעבור בוודאות את אחוז החסימה. המפלגה לא חתמה על הסכם עודפים עם מפלגה אחרת (או שחתמה על הסכם עודפים עם מפלגה אחרת שלא עוברת את אחוז החסימה). הקול שלך יכול להשפיע אם ללא קולך המפלגה לא תקבל מנדט נוסף בשלב השני של חלוקת המנדטים (כמפורט בחוק בדר-עופר), ובעזרתו היא תקבל אותו.

ג. מפלגה א קשורה בהסכם עודפים עם מפלגה ב. ברור כי שתי המפלגות יעברו את אחוז החסימה. הקול שלך יכול להשפיע אם:

1. ללא הקול שלך שתי המפלגות (א ו-ב) לא יזכו במנדט נוסף בשלב השני של חלוקת המנדטים, ויחד איתו זכו במנדט נוסף שמוענק למפלגה א.

2. ללא הקול שלך שתי המפלגות (א ו-ב) לא יזכו במנדט נוסף בשלב השני של חלוקת המנדטים, ויחד איתו זכו במנדט נוסף שמוענק למפלגה ב.

3. שתי המפלגות זוכות במנדט נוסף בשלב השני של חלוקת המנדטים גם ללא קולך, אך הצבעתך למפלגה א העניקה לה את המנדט הנוסף בשלב השלישי של חלוקת המנדטים, ולו לא הצבעת לה, המנדט הנוסף היה מוענק למפלגה ב.

4. שתי המפלגות זוכות במנדט נוסף בשלב השני של חלוקת המנדטים גם ללא קולך, אך הצבעתך למפלגה א יוצרת תיקו בין שתי המפלגות, ומפלגה א זוכה במנדט הנוסף בהגרלה; לו לא הצבעת למפלגה א, המנדט הנוסף היה מוענק למפלגה ב.

יכולות להיות עוד אפשרויות, אבל אני מסתפק בדוגמאות אלה.

איך מחשבים את ההסתברות כי קולך ישפיע?

קטע זה הוא טכני וניתן לדלג עליו ולעבור היישר אל חלק התוצאות.

הדרך הקלה והמהירה היא לבצע סימולציה של ההצבעה. מגרילים בעזרת המחשב תוצאה אפשרית של הבחירות ומחשבים את חלוקת המנדטים. לאחר מכן, מוסיפים קול נוסף לאחת המפלגות, ומחשבים מחדש את חלוקת המנדטים. אין הבדל בין שתי החלוקות? הקול לא השפיע. יש הבדל? הקול השפיע? חוזרים על התרגיל הזה הרבה מאוד פעמים, ומחשבים את הפרופורציה של מספר הפעמים הבן הקול הנוסף שינה את חלוקת המנדטים. פרופורציה זו היא אמדן להסתברות כי הקול הנוסף השפיע על תוצאת הבחירות.

כמובן שיש צורך להניח מספר הנחות:

  • אחוז ההצבעה: אני מניח כי אחוז ההצבעה בבחירות יהיה הין 60 ל-70 אחוזים, ובוחר את האחוז באופן מקרי ואחיד בתחום זה. מספר המצביעים יחושב על פי האחוז המוגרל מתוך מספר בעלי זכות הבחירה, שהוא 5656705.
  • לפי נתונים מבחירות קודמות, אני מניח כי 1.5% הקולות יפסלו מסיבות שונות, ועוד 3% משאר הקולות יינתנו למפלגות שלא עברו את אחוז החסימה. לכן מספר הקולות הכשרים (ממנו מחושב אחוז החסימה) יחושב כ-98.5% ממספר המצביעים,  ומספר הקולות של המפלגות שעברו את אחוז החסימה (לפיו נקבע המודד למנדט) יחושב כ-95.5% ממספר המצביעים.
  • הסכמי עודפים: . למיטב ידיעתי, הסכמי העודפים שנחתמו כוללים את: הליכוד ביתנו והבית היהודי, העבודה ויש עתיד, התנועה ומרץ, עם שלם וקדימה (באתר ועדת הבחירות אין שום מידע על כך נכון למועד כתיבת שורות אלה). בבחירות הקודמות נחתמו גם הסכמי עודפים בין שס ויהדות התורה, ובין חד"ש ורע"מ-תע"ל, ואני מניח כי גם בבחירות אלה הסכמים אלה ייחתמו.

לאחר שקבעתי את מספר הקולות למפלגות שעברו את אחוז החסימה, אני מחלק אותם בין המפלגות האלה בעזרת סימולציה של התפלגות מולטינומית. את המפלגות שעברו את אחוז החסימה בחרתי לפי תחזית המנדטים הצפויים לכל מפלגה על פי תחזית אתר בטל בשישים (שאיני יכול להוות דעה על איכותה, אבל בכל זאת צריך להסתמך על משהו) כפי שפורסמה ביום 4.1.2013 בשעה 14.00:

הליכוד ביתנו 35
העבודה 18
הבית היהודי 13
ש"ס 12
התנועה 10
יש עתיד 10
יהדות התורה 6
רעם-תעל 5
מרצ 4
חדש 4
בלד 3

 

את ההסתברויות להתפלגות מולטינומית קבעתי על ידי חלוקת מספר המנדטים שבתחזית ב-120.

לכל חלוקת מנדטים ערכתי 11 חישובי השפעה, כאשר בכל פעם הוספתי קול אחד למפלגה אחרת.

הסימולציה הורצה 2000000 פעמים.

הנה תוצאה אחת לדוגמה מתוך 2000000 ההרצות:

אחוז ההצבעה הוגרל להיות 61.4% ולכן מספר המצביעים נקבע להיות 3470406, ומספר הקולות שניתנו ל-11 המפלגות שעברו את אחוז החסימה הוא 3314238. האופן בו התחלקו 3.3 מליון קולות אלה בין המפלגות מופיע בעמודה השניה בטבלה וחלוקת המנדטים לפי קולות אלה בעמודה השלישית. בעמודה הרביעית הוספתי עוד קול אחד לליכוד ביתנו, וחלוקת המנדטים לאחר הוספת קול זה מופיעה בעמודה האחרונה. בזכות קול אחד, הליכוד ביתנו זכו במנדט נוסף על חשבון הבית היהודי.

מפלגה קולות חלוקת המנדטים קול נוסף לליכוד חלוקת המנדטים עם קול נוסף לליכוד
הליכוד ביתנו 966349 34 966350 35
הבית היהודי 358956 14 358956 13
העבודה 497558 19 497558 19
יש עתיד 275354 9 275354 9
ש"ס 331066 11 331066 11
יהדות התורה 166104 7 166104 7
התנועה 276958 11 276958 11
מרצ 109864 3 109864 3
רעם-תעל 138728 6 138728 6
חדש 110507 3 110507 3
בלד 82794 3 82794 3
סך הכל 3314238 120 3314239 120

 

החישוב שונה במקצת לצורך חישוב ההסתברות כי קול הניתן למפלגה המתנדנדת על סף אחוז החסימה ישפיע על חלוקת המנדטים. לאחר חישוב מספר המצביעים, אני מגריל משתנה מקרי בינומי עם N שווה למספר המצביעים ו-p שווה למספר ערכים, בין 1.5 ל-2.5 אחוז. P מבטא את ההסתברות כי מצביע כלשהו יבחר במפלגה זו. כמו כן, אני מחשב את אחוז החסימה עצמו על ידי חלוקת מספר המצביעים ב-50 ועיגול כפי מטה. אם מספר המצביעים למפלגה א שווה בדיוק לאחוז החסימה, אז הקול הנוסף של המצביעה המתלבטת ישפיע ובזכותו תעבור המפלגה את אחוז החסימה.

התוצאות

א. ההסתברות כי קול למפלגה על סף אחוז החסימה (כלומר ההסתברות כי מצביע כלשהו יבחר במפלגה זו היא בדיוק 2%) יכריע ויעביר את המפלגה אל מעל אחוז החסימה הוא 0.00147 או כ-1 ל-685. מתברר כי תוצאה זו רגישה ביותר להסתברות כי מצביע כלשהו יבחר במפלגה זו. אם ההסתברות היא 1.99% במקום 2%, אז ההסתברות כי קול נוסף ישפיע עולה ל-1 ל-1685, ואם במפלגה תומכים 1.98% מהבוחרים,  אז ההסתברות כי קול נוסף ישפיע תהיה קרובה ל-1 ל-23000.

במלים אחרות, אם את מתכוונת להצביע למפלגה המתנדנדת על סף אחוז החסימה, ההסתברות כי קולך ישפיע על התוצאה הסופית של הבחירות נמוכה למדי ברוב המקרים.

ב. התוצאות מפורטות בטבלה

מפלגה ההסתברות כי קול למפלגה זו ישנה את חלוקת המנדטים
הליכוד ביתנו 0.001469 (1 ל-681)
הבית היהודי 0.001468 (1 ל-681)
העבודה 0.001783 (1 ל-561)
יש עתיד 0.001759 (1 ל-569)
ש"ס 0.002235 (1 ל-447)
יהדות התורה 0.002290 (1 ל-437)
התנועה 0.002542 (1 ל-393)
מרצ 0.002533 (1 ל-395)
רעם-תעל 0.002720 (1 ל-368)
חדש 0.002813 (1 ל-356)
בלד 0.0000015> (פחות מ-1 ל-667 אלף)

סיכום

הטענה כי "אין טעם להצביע כיוון שממילא קול אחד לא ישנה דבר" אינה נכונה בדרך כלל. במדינת ישראל, השילוב של המספר הקטן מאוד של קולות (כ-30 אלף או פחות מכך) המזכים במנדט בכנסת עם שיטת הבחירות (בחירות ארציות יחסיות עם חלוקת מנדטים לפי חוק בדר-עופר), יוצרת הסתברויות גבוהות מאוד לכך שקול בודד ישנה את חלוקת המנדטים – בין 1 ל-350 ל-1 ל-700, כל זאת כאשר המפלגה עבורה מצביעים עוברת את אחוז החסימה וקשורה בהסכם עודפים עם מפלגה אחרת שעוברת אף היא את אחוז החסימה.

למה להצביע ומה הסיכוי שקולך ישפיע

השאלה הזו עולה שוב ושוב: יש כל כך הרבה מצביעים, אז מה יקרה אם לא אלך להצביע? מה בכלל הסיכוי שהקול שלי ישפיע? למה בכלל להצביע?

הבחירות האחרונות בארה"ב סיפקו דוגמא מאלפת. בבחירות למועצת עיריית וולטון, קנטאקי שנערכו בנובמבר 2012 נוצר תיקו בין שני מועמדים: בובי מקדונלד ואוליביה באלו. כל אחד מהם זכה בדיוק ב-669 קולות. התוצאות היו יכולות להיות שונות, אבל אשתו של המועמד מקדונלד לא הצביעה (היא סיימה משמרת בבית החולים בו עבדה, ובעלה אמר לה כי אין צורך שתטרח להצביע, הרי קולה לא ישנה כלום ממילא). הטלת מטבע מינתה את הגברת באלו למועצת העיר.

פרופ' אייל וינטר טוען במאמר שפרסם כי "הצעתו של מקדונלד לאשתו הייתה רציונלית מאוד. גם כאשר מדובר בעיר קטנה בקנטקי הסיכוי שקול בודד יכריע את הבחירות זעום ביותר". אז למה בכל זאת טרחו יותר מ-1300 אזרחים ואזרחיות בעיר וולטון להצביע בבחירות למועצת העיר?

לשאלה האם להצביע יש אספקטים פילוסופיים ותועלתניים כאחד. בפוסט זה אנסה לסכם את מגוון הדיעות בנושא. בפוסט המשך אציג מספר חישובי סיכויים שערכתי.

דאגלס ואנדרוורקן, סטטיסטיקאי מאוניברסיטת דיוק בצפון קרוליינה, מונה מספר טיעונים "מוסריים" בעד  הצבעה בבחירות, ומסביר את הבעייתיות שבהם (קישור לתקציר המאמר, לקריאתו דרוש מנוי): מה יקרה אם כולם יחליטו שאין טעם להצביע? הטיעון אמנם לא רלוונטי, כי לא כולם חושבים שאין טעם להצביע; ובכל זאת מסביר ואנדרוורקן כי עצם העובדה שהחלטה מסויימת (כמו לא להצביע) תגרום נזק לחברה אם כל הפרטים בחברה יישמו אותה, לא בהכרח הופך את עצם הפעולה לבלתי מוסרית. לטענה כי על כל אדם להצביע בבחירות מכיוון שזו זכותו, עונה ואנדרוורקן כי לפי אותו הגיון על כל אדם לקרוא ספר על משוואות דיפרנציאליות חלקיות, כי גם זכות זו מוקנית לכל (לינק לספריה למתמטיקה, למי שהשתכנע). הטענה כי הצבעה היא חובה אזרחית קוסמת, לדברי ואנדרוורקן, רק למי שמפיק הנאה וסיפוק ממילוי חובות אזרחיות; אחרים יכולים להפיק הנאה וסיפוק ממימוש זכותם האזרחית לא להצביע. ועם הטענה כי למי שאינו מצביע אין זכות להתלונן על המצב לאחר הבחירות הוא מסכים חלקית: אולי אין זכות מוסרית, אבל בודאי יש זכות חוקית.

כלכלנים נוטים להסביר כל דבר על ידי תועלת ותמריצים. וינטר אינו שונה בכך מאחרים. הצבעה כרוכה בטרחה משמעותית, לדבריו (צריך לצאת מהבית, ללכת עד הקלפי, לעמוד בתור, אח"כ לחזור הבייתה, אויש), והתועלת, המתבטאת בסיכוי שקולך ישנה משהו, נמוכה עד אפסית. הבעיה היא שאם כך הדבר, איש לא היה טורח להצביע. הכלכלן יענה כי ישנם אנשים עבורם התועלת שבהצבעה עולה על העלות/טרחה, ממגוון סיבות. וינטר כותב כי יש המפיקים תועלת נפשית מעצם ההצבעה ו/או משלמים מחיר נפשי/מוסרי עקב הימנעות מהצבעה. הצבעה בבחירות עשויה אפילו להיות סוג של בילוי לאנשים מסויימים. אהרון אדלין, אנדרו גלמן ונח קפלן טוענים במאמר משנת 2007 (קישור למאמר, קובץ pdf) כי הבוחרים (או חלקם) לוקחים בחשבון בשיקולי העלות/תועלת גם את התועלת החברתית, כלומר את התועלת שתיגרם לכלל כתוצאה מעצם ההצבעה של אדם בודד. במלים אחרות, הם טוענים כי הצבעה בבחירות היא תרומה לקהילה. גלמן, שהינו פרופסור לסטטיסטיקה ומדעי המדינה באוניברסיטת קולומביה בניו-יורק, מעלה הסבר אפשרי נוסף בבלוג שלו: גם אם הסיכוי כי קולך בבחירות ישפיע הוא קטן, הרווח הצפוי במקרה של השפעה הוא עצום. בפוסט שפרסם לקראת הבחירות של 2008, העריך כי הסיכוי שקול בודד ישפיע על תוצאת הבחירות הוא כ-1 למליון במדינה מתנדנדת כאוהיו, והרבה פחות מכך במדינה בה המירוץ אינו צמוד במיוחד, כמו ניו-יורק. אולם הפרס לקול הזוכה גדול במיוחד, כ-1.5 ביליון דולר לדעת גלמן, בהתחשב בגודל בתקציב הפדרלי. לדעתי מדובר בסכום גדול הרבה יותר, טריליון או יותר. (זוכרים את חבילת החילוץ שאובמה שחרר מייד בתחילת נשיאותו?) אתם מוכנים לקנות כרטיס לוטו עם סיכוי של 1 ל-10 מליון לזכיה בפרס של 1.5 ביליון דולר? כי בישראל, למשל, עשרות אלפי אנשים קונים מדי שבוע כרטיס לוטו עם סיכוי של 1 ל-14 מליון לזכות בכמה מליוני שקלים, וחושבים שזו עיסקה טובה. העיסקה של הצבעה בבחירות הרבה יותר טובה מעיסקת הלוטו, לדעתי לפחות.

כל זה טוב ויפה, אבל עדיין נשאלת השאלה מה הסיכוי שזה אכן יקרה, כלומר, מה הסיכוי שאם אצביע, קולי ישנה את תוצאת הבחירות? איזה סיכון לקח על עצמו ידידנו מוולטון, קנטאקי, בובי מקדונלד, כשאמר לרעייתו לא לטרוח להצביע, כי ממילא קול אחד לא ישנה דבר?

במאמר אחר שכתב גלמן, יחד עם ג'ונתן כץ וג'וזף באפומי, הם טוענים כי הסיכוי שקול בודד יכריע את תוצאת הבחירות הוא בסדר גודל של 1 למספר המצביעים (קישור למאמר, קובץ pdf). דאגלאס ואנדרוורקן הגיע לתוצאה אחרת. הוא ערך סימולציה של הבחירות לנשיאות ארה"ב ב-2012, במדינת צפון קרוליינה, בה יש כ-6.5 מיליון בעלי זכות בחירה, והסקרים הראו כי המירוץ בין אובמה לרומני במדינה זו היה צמוד ביותר. מסקנתו הייתה כי הסיכוי שקול בודד יכריע את גורל הבחירות במדינת מפתח זו הוא בערך 1 לרבע מליון. הסיכוי כי אותו קול יכריע את גורל כל הבחירות לנשיאות הוא כ-1 ל-10 מליון, תוצאה דומה לזו שקיבלו גלמן, סילבר ואדלין (קישור למאמר, קובץ pdf), וסילבר, אגב, הוא נייט סילבר, שהתפרסם לאחרונה בעניינים אחרים הקשורים לבחירות בארצות הברית.

נחזור לקנטאקי. אייל וינטר כתב כי "גם כאשר מדובר בעיר קטנה בקנטקי הסיכוי שקול בודד יכריע את הבחירות זעום ביותר”. האמנם?

ראשית, נזכור כי באותו יום נערכות בארה"ב, בה יש עשרות אלפי ערים, מאות אלפי מירוצי בחירות בגדלים שונים. הסיכוי שבמחוז בחירה קטן בעיירה נידחת בקנטאקי יהיה תיקו בבחירות הוא קטן, אבל הסיכוי כי באחד ממאות אלפי המירוצים הנערכים יהיה תיקו כבר אינו מבוטל. תיקו איפשהו אינו הפתעה גדולה (ראו רשימתי מה באמת קורה בלוטו הבולגרי? מאוקטובר 2009). גם את הסיכוי לתיקו באותו מירוץ ספציפי בקנטאקי קל לחשב בעזרת סימולציה. הסיכוי לתיקו הוא כ-1.1% או 1 ל-90. סיכוי זעום ביותר? הכל בעיני המתבונן, כמובן.

ומה הסיכוי כי קול בודד ישנה את תוצאת הבחירות בישראל? על כך בפוסט הבא.