מה אומרת הסטטיסטיקה | נסיכת המדעים

ארכיב עבור תגית מה אומרת הסטטיסטיקה

מהי טעות הדגימה?

הקדמה – מדגמים וטעויות

רשימה זו נכתבת שבוע לפני הבחירות לכנסת, אירוע המניב כמות גדולה למדי של סקרי דעת קהל. עם זאת, סקרי דעת קהל ומחקרים סטטיסטיים אחרים נפוצים למדי בכל ימות השנה. ברוב הסקרים המתפרסמים בעיתונות יש מידע כלשהו על "טעות הדגימה", או "טעות הדגימה המירבית". כך למשל, בסקר שבוצע על ידי חברת דיאלוג בפיקוח פרופסור קמיל פוקס ופורסם באתר עיתון "הארץ" נאמר כי "שיעור הטעות המקרית לכל שאלה בנפרד היא 3.9%". בסקר אחר שנערך על ידי מכון דחף בניהולה של ד"ר מינה צמח ופורסם באתר Ynet נמסר כי "טעות הדגימה: בין 0.8 מנדטים למפלגה עם שני מנדטים לבין 3 מנדטים לערך למפלגה עם 33 מנדטים". מכאן שעל פי סקר מכון דחף, טעות הדגימה נעה בין 9 ל-40 אחוזים. סקר דחף, אגב התבסס על מדגם של 1000 משיבים, בעוד שסקר מכון דיאלוג הסתמך על מדגם קטן יותר של 666 נבדקים.

מבולבלים? אנסה לעשות קצת סדר בדברים.

ראשית, אזכיר לכם מהו מדגם. אנו מעוניינים לדעת תכונה מסויימת של אוכלוסיה מסויימת, כמו למשל, שיעור האזרחים המתכוונים להצביע עבור מפלגה מסויימת בבחירות הקרובות. אפשר כמובן, לפנות לכל אחד מהאזרחים בעלי זכות ההצבעה ולשאול אותם, אבל זו דרך בלתי יעילה (בלשון המעטה). אפשרות אחרת היא לבחור קבוצה חלקית של האוכלוסיה, ולשאול את חברי הקבוצה הזו לגבי כוונת הצבעתם בבחירות. הקבוצה הזו נקראת "מדגם". לאחר שיש בידינו את הנתונים מהמדגם, אנו מנסים להסיק מהפרט (קבוצת המדגם) אל הכלל (כלל האוכלוסיה). שלב זה הוא שלב ההסקה הסטטיסטית, וזו למעשה כל התורה הסטטיסטית על רגל אחת.

הבעיה במדגם היא שיכולות לקרות טעויות, ועקב כך, הנתונים שאספנו במדגם לא משקפים את התכונות האמיתיות של האוכלוסיה. כל הטעויות האלה נכללות תחת המטריה של "טעות הדגימה". למעוניינים בהגדרה מדויקת: טעות הדגימה היא אי הדיוק באמידה של פרמטר באוכלוסיה הנגרמת עקב מדידתו בקבוצה חלקית בלבד של האוכלוסיה.

ניתן לחלק את כל הטעויות האפשריות לשני סוגים: טעויות שיטתיות וטעויות מקריות. טעות הדגימה היא סך שני סוגי הטעויות – השיטתיות והמקריות.

טעויות שיטתיות

טעויות שיטתיות הן טעויות הנובעות מתכנון וביצוע לקוי של הדגימה. הן מביאות לכך שנתוני המדגם שונים באופן אינהרנטי מנתוני האוכלוסיה, או, במלים יותר עממיות: המדגם אינו מייצג את האוכלוסיה. הנה מספר דוגמאות מפורסמות של טעויות שיטתיות בסקרי בחירות:

בבחירות לנשיאות ארצות הברית ב-1936, חזה סקר ה-Literary Digest ניצחון למועמד הרפובליקני לנדון שהתמודד מול הנשיא המכהן רוזוולט. שאלון הסקר נשלח בדואר אל בעלי טלפונים וחברי מועדונים, כלומר תת אוכלוסיה של אנשים אמידים בזמן משבר כלכלי קשה. בעוד שהאמידים נטו לתמוך בלנדון, מעוטי היכולת, שהיו רוב גדול בקרב הבוחרים, תמכו ברוזוולט. הסקר דגם באופן שיטתי יותר תומכי לנדון מתומכי רוזוולט. בעיה נוספת בסקר זה הייתה השיעור הגבוה של נסקרים שלא השיבו לשאלון הסקר – 76%. בניסיון שהצטבר מאז התברר כי יש הבדלים משמעותיים בין המשיבים לשאלות הסוקרים ובין אלה שבוחרים לא להשתתף במדגם.
בבחירות לנשיאות ארצות הברית ב-1948, חזו כל הסקרים ניצחון למועמד הרפובליקני דיואי שהתמודד מול הנשיא המכהן טרומן. חלק מהסקרים היו טלפוניים, בתקופה בה מכשיר הטלפון עדיין לא היה נפוץ כבימינו. בעלי מכשיר טלפון היו באופן טבעי אמידים יותר מאלה שאין ברשותם מכשיר, וגם תומכים ברפובליקנים. בסקרים אחרים, שהתבצעו על ידי מראיינים בשטח, המראיינים יכלו לבחור את הנסקרים כרצונם, ומטבע הדברים פנו לחפש אותם באזורים "נוחים" – שכונות טובות, יותר עשירים, יותר רפובליקנים. בעיה נוספת הייתה שרוב הסקרים נערכו כחודשיים לפני הבחירות עצמן, כיוון שהיה מקובל לחשוב כי רוב הבוחרים מחליטים למי יצביעו כבר בספטמבר. כך לא לקחו הסקרים בחשבון את המומנטום של טרומן בחודש האחרון לפני הבחירות.
לעיתים הנסקרים אינם כנים בתשובותיהם.
- בשיחה עם אלכס אנסקי (( 1. מכירת הליכוד – אלכס אנסקי, עמוד 167, הוצאת זמורה ביתן מודן, 1978)) סיפר יוסי שריד על סקר בחירות שביצע "מומחה גדול מחברה בעל מוניטין בסקרי דעת קהל" עבור המערך במערכת הבחירות לכנסת השביעית ב-1969. הסקר חזה כי המערך יזכה ב-72 מנדטים. שריד הסביר את טעותו של הסוקר: "הוא לא ידע שבארץ אנשים שמצביעים בשביל האופוזיציה לא אומרים זאת בגלוי, ובמקום זאת מסמנים 'לא יודע'". מסיבות השמורות עימם (ואני לא שופט אותם), העדיפו תומכי האופוזיציה לא לענות בכנות לחלק משאלות הסקר.
- בבחירות 1981, חזה מדגם הטלוויזיה הישראלית ניצחון למערך בראשותו של שמעון פרס. המדגם, שנערך על ידי חנוך סמית, נערך בשיטת "סקר יציאה": המדגם היה מדגם של קלפיות, וביציאה של כל קלפי הוצבה קלפי על ידי צוות הסקר, וכל אדם שהצביע התבקש להצביע שוב בקלפי הסקר בדיוק כפי שהצביע דקות אחדות קודם לכן בקלפי האמיתית. כאמור, על פי התוצאות מקלפיות הסקר נחזה ניצחון למערך. כשעתיים לאחר סגירת הקלפיות, כאשר התקבלו תוצאות האמת מהקלפיות שנדגמו, התגלו פערים משמעותיים בין ההצבעה האמיתית וההצבעה בקלפיות הסקר. ככל הנראה, מצביעים רבים שבחרו בליכוד, הצביעו בקלפיות הסקר עבור המערך. סמית תיקן את תחזיתו על סמך תוצאות האמת מקלפיות המדגם, שהראו כי הליכוד ניצח בבחירות, כפי שהתברר לאחר ספירת כל הקולות.

כיום רוב מוחלט של הסקרים נערכים באופן טלפוני, כאשר הסוקרים מתקשרים לטלפון קווי ומבקשים מהעונה שמעבר לקו לענות לשאלון. בשנים האחרונות גדלה תפוצתו של הטלפון הסלולרי, וכיום יש חלק גדול באוכלוסיה שאין ברשותו טלפון נייח אלא רק טלפון סלולרי. חלק זה אינו נכלל ברוב מדגמי הסקרים, נכון לכתיבת שורות אלה. ברור לחלוטין כי יש הבדלים משמעותיים בין בעלי טלפון נייח ובין אלה המשתמשים בטלפון סלולרי בלבד. האם הבדלים אלה משתקפים גם באופן ההצבעה שלהם? איש אינו יודע, עדיין.

טעויות שיטתיות קשות ביותר לגילוי, ובדרך כלל מתגלות, אם הן מתגלות, רק לאחר מעשה. לרוע המזל, לא ניתן להתגבר עליהן באמצעות הגדלת גודל המדגם. הסקר של ה-Literary Digest מ-1936 היה סקר הבחירות הגדול ביותר שנערך אי פעם – 2.4 מליון איש השיבו לסקר, ובכל זאת הסקר כשל לחזות את המנצח בבחירות. כאשר יש טעות שיטתית, מדגם גדול יותר רק מעצים את הטעות, ואינו מכפר עליה. כמו כן, למרבה הצער, אין דרך לחשב מראש את ההשפעה הכמותית של טעות שיטתית על תוצאת המדגם.

מדגמים הסתברותיים וטעויות מקריות

כתוצאה מכישלונות סקרי הבחירות של 1948 בארה"ב, עברו בהדרגה הסוקרים להסתמך על מדגמים הסתברותיים. במדגמים כאלה, המדגם נבחר באופן מקרי מתוך האוכלוסיה, אולם הסטטיסטיקאי הסוקר יודע מה ההסתברות של כל פרט באוכלוסיה להיכלל במדגם. מדגמים הסתברותיים מאפשרים להתגבר על חלק גדול של הטעויות השיטתיות הנפוצות. בנוסף לכך, מדגם הסתברותי מאפשר לחשב את גודלה של הטעות המקרית.

מהי טעות מקרית? אם סוקר בוחר באופן מקרי 1000 איש מתוך אוכלוסיית בעלי זכות הבחירה, יש הסתברות מסויימת כי כל אותם 1000 נדגמים יהיו תומכי מפלגה קטנה בעלת כמה אלפי תומכים בלבד בכל הארץ. במקרה כזה הסוקר יחזה כי מפלגת "העתיד המופלא", למשל, תזכה ב-120 מושבים בכנסת, בעוד שבפועל היא לא תעבור את אחוז החסימה. זה מאורע מביך, אך ההסתברות להתרחשותו של מאורע כזה קטנה ביותר. אפשר לחשב את ההסתברות, כי ההסתברות של כל אדם להיכלל בסקר ידועה. כיוון שכך, אפשר לחשב מדד סטטיסטי שיכמת את שיעורה של הטעות המקרית. כך יכול פרופסור פוקס לדווח כי שיעורה של הטעות המקרית בסקר שלו היא 3.9%. הבעיה בדיווח זה: מה משמעותו של המספר הזה? בסקר שאליו קישרתי למעלה מדווח כי מפלגות קדימה ועוצמה לישראל עוברות את אחוז החסימה וזוכות לשני מנדטים כל אחת. האם ייתכן כי אחת מהן תזכה ב-2.078 מנדטים (2 מנדטים ועוד 3.9% מ-2)? האם הכוונה היא שלפי הסקר קדימה זוכה אולי ב-2.1% מהקולות, אך יתכן שתזכה במינוס 1.8 אחוזים (2.1 פחות 3.9)?

הערכת גודל הטעות המקרית בעזרת רווח סמך

בסקר בחירות טיפוסי, נשאל כל נדגם לאיזה מפלגה הינו מתכוון להצביע בבחירות. אם ניקח את הסקר של פרופסור פוקס כדוגמא, בו השתתפו 666 איש, ייתכן כי 183 מתוכם הצהירו כי בכוונתם להצביע עבור מפלגת הליכוד ביתנו ((2. לא הצלחתי למצוא את הנתונים, ולכן אני נותן את המספר הזה כדוגמא)). אם מחלקים 183 ב-666 ומכפילים במאה מקבלים 27.5, כלומר אמדן לשיעור התומכים במפלגה זו הוא 27.5% שאמורים להעניק למפלגה 33 מושבים בכנסת (( 3. אני מתעלם מפלפולי חוק בדר עופר לצורך העניין)). כאמור, יש טעות מקרית. במדגם היו יכולים לעלות 182 תומכי הליכוד ביתנו, או 184, או 663, או כל מספר אחר בין 0 ל-666. דרך סטטיסטית מקובלת לכמת את גודל הטעות, או במלים אחרות, לציין את מידת אי הודאות של האומדן לערך האמיתי, היא לבנות עבורו רווח סמך. במלים פשוטות אך לא מדויקות, רווח סמך עבור השיעור האמיתי של תומכי הליכוד ביתנו באוכלוסיה הוא קטע המחושב מתוך תוצאות המדגם (גבול עליון וגבול תחתון) באופן שהסיכוי "לתפוס" את השיעור האמיתי בתוך הקטע הוא קבוע. נשמע מסובך, אך לסטטיסטיקאים יש כלי חזק מאוד לחישוב רווחי סמך: משפט הגבול המרכזי. אדלג על הפרטים הטכניים, ואמר רק כי רווח סמך מקורב לשיעור התומכים באוכלוסיה, ברמת סמך של 95%, הוא שיעור התומכים במדגם, פלוס מינוס אחד חלקי שורש גודל המדגם. כל זאת, כאשר מתקיימים התנאים של המשפט.

בדוגמא שלנו, שיעור התומכים בליכוד ביתנו במדגם הוא 0.275 או 27.5%. גודל המדגם הוא 666, ולכן אחד חלקי שורש 666 הוא 0.0387 או 3.9%. קמיל פוקס יודע מה הוא עושה. הדיווח בעיתון/אתר בעייתי. כאשר מדווחים כי שיעור הטעות המקרית הוא 3.9%, הכוונה היא לומר כי המרווח שבין 23.6% לבין 31.4% מכיל בתוכו "תופס" את שיעור התמיכה האמיתי בליכוד ביתנו בהסתברות של כ-95%, אם תנאי משפט הגבול המרכזי מתקיימים ((4. יש להבהיר כי כי אין פירוש הדבר כי שיעור התמיכה בליכוד ביתנו נמצא בין 23.6% לבין 31.4% בהסתברות 95%. ראו גם את תגובתו של עמית גל לרשימה זו.)).

הבעיה היא שתנאי המשפט לא תמיד מתקיימים. תנאי יסודי במשפט הוא שמדובר במדגם מספיק גדול. כמה זה "מספיק גדול"? התשובה היא: תלוי. (( 5. למעוניינים: לינק לערך ויקיפדיה על הקירוב הנורמלי להתפלגות הבינומית, שנותן תשובה מפורטת יותר וטכנית)).

אומר רק שהקירוב הנורמלי הולך ונחלש ככל שמתרחקים ממרכז ההתפלגות לקצוות. באותו סקר שפורסם באתר "הארץ" דווח גם כי מפלגת "ארץ חדשה" זוכה ב-0.7% ורחוקה מאחוז החסימה. מה זה אומר? גודל המדגם היה כזכור 666, ולכן רק 4 או 5 מהנשאלים אמרו כי יצביעו עבור ארץ חדשה. משפט הגבול המרכזי לא תקף במקרה הזה, ו-0.7 פלוס/מינוס 3.9 אינו רווח סמך לשיעור האמיתי של התומכים בארץ חדשה. שימו לב כי לו זה היה רווח הסמך, לא היה ניתן להסיק כי המפלגה אינה עוברת את אחוז החסימה ((5. כי 0.7 ועוד 3.9 שווים ל-4.8 והגבול העליון גבוה מאחוז החסימה שהוא 2%)).

דוגמא יותר קיצונית היא שיעור התמיכה במפלגות קטנות יותר. איש מבין 666 הנשאלים לא אמר כי יצביע בעד מפלגת "חיים בכבוד". האם פירוש הדבר כי בבחירות תקבל מפלגה זו אפס קולות (פלוס/מינוס 3.9%)? אני מרשה לעצמי לא לענות לשאלה רטורית זו.

מה עושים כאשר משפט הגבול המרכזי אינו תקף? משתמשים בשיטות אחרות שאינן מסתמכות על המשפט. חישבתי את רווחי הסמך לשיעור התמיכה במפלגת "ארץ חדשה" על פי מספר שיטות שאינן מסתמכות על משפט הגבול המרכזי בהנחה ש-5 מבין 666 הנשאלים אכן אמרו כי יצביעו עבורה. בכל שיטות החישוב, הגבול העליון של רווח הסמך אינו עולה על 1.8%. הדיווח שוב נכון: על פי תוצאות הסקר, מפלגה זו אינה עוברת את אחוז החסימה. יש רק לזכור כי הנתון של "טעות דגימה בגובה 3.9%" אינו מתייחס למקרים בהם מספר התומכים בסקר קטן מדי.

נשלח: 15 בינואר, 2013. נושאים: מה אומרת הסטטיסטיקה, סקרים, על סדר היום.
תגובות: 26 | טראקבק

מה הסיכוי שקולך ישפיע בבחירות – המשך דיון

ברשימה הקודמת תיארתי תרגיל חישובי שביצעתי, ומטרתו הייתה לנסות להעריך מה ההסתברות כי קול בודד ישנה את תוצאת הבחירות. הרשימה זכתה לתגובות רבות וגם לביקורות רבות, והתייחסתי התייחסות חלקית אליהן בתגובות לתגובות. ברשימה זו אשתדל לענות באופן מפורט יותר לשואלים ולמבקרים. חילקתי את התגובות לשתי קטגוריות: שאלות לגבי התוצאות שהתקבלו ומשמעותן, ושאלות טכניות/סטטיסטיות.

שאלות לגבי התוצאות שהתקבלו ומשמעותן

הטענה החשובה ביותר היא כי תוצאות הבחירות לא נקבעות על ידי קול בודד אלא על ידי כלל הקולות, ולכן התשובה לשאלה האם להצביע צריכה לבוא מתחום תורת המשחקים ולא מתחום הסטטיסטיקה. אני מסכים בהחלט עם הטענה הזו. הרשימה לא נועדה לענות על השאלה האם להצביע, והחישובים שערכתי לא נותנים תשובה לשאלה זו אלא לשאלה ממוקדת מאוד. התשובה לשאלה האם כדאי להצביע בבחירות הרבה יותר מורכבת, ודנתי בה (באופן כללי ולא מעמיק) ברשימה קודמת. התרגיל החישובי שערכתי עונה לשאלה ספציפית ביותר: בהינתן תוצאה מסויימת של הבחירות, מה ההסתברות כי הוספת קול נוסף לאחת המפלגות תשנה את חלוקת המנדטים, ואין להסיק מתוצאותיו האם יש או אין טעם להצביע.

דובי שאל מה הסיכוי שהקול שלו יעביר מנדט מהגוש הנגדי אל הגוש שלו. התשובה המיידית היא כי הסיכוי הרבה יותר נמוך. התשובה היותר מעמיקה היא כי יש צורך להגדיר מהו גוש. קל אולי להעריך כי מפלגה כדוגמת הבית היהודי שייכת לגוש הימין, אבל האם אכן תתמוך מפלגה כזו בממשלה שיקים (אם יתבקש לכך על ידי הנשיא) בנימין נתניהו, והאם תצטרף לממשלה כזו? הם מישהו מוכן לערוב לכך שנפתלי בנט לא יצטרף לממשלה בראשות יחימוביץ? או ש"ס? מה בקשר ליהדות התורה – האם הם שמאל או ימין? בלד היא מפלגה לאומית ערבית – לא ימין יהודי אבל בהחלט ימין מדיני ערבי. לדידם הליכוד והעבודה חד הם. לאיזה גוש יש לשייך אותם? קטונתי מלענות על כל השאלות האלה, ומשום כך איני יכול לענות על השאלה של דובי. זיו ניסח את אותה שאלה באופן מדוייק יותר: "לאיזו מפלגה, מבין מרצ, העבודה, יש עתיד, התנועה וחד"ש, אני צריך להצביע כדי שיהיה כמה שיותר סיכוי שאני 'אגנוב' מנדט מהליכוד, ש"ס, יהדות התורה או הבית היהודי?". לא ערכתי את החישובים, אבל ברור למדי שהסיכוי כי מאורע כזה יקרה הינו קלוש, עקב הפער הגדול (בתחזית המנדטים) בין שני הגושים שהגדיר מתן, כ-20 מנדטים שהם יותר מחצי מליון קולות קולות.

אני כן יכול לענות על השאלה המשתמעת מתגובתו של מתן ק: האם רוב רובו העצום של הסיכוי להעביר מנדט הוא בין שתי רשימות שיש ביניהן הסכם עודפים? זה נראה כך כיוון שההסתברויות שחושבו דומות לכל זוג מפלגות הקשורות בהסכמי עודפים. הדמיון בהסתברויות נובע משיטת חישוב המנדטים, בה מאחדים כל זוג מפלגות שכרתו בינן הסכם עודפים ל-"מפלגת על" אחת, לצורך חלוקת המנדטים. עם זאת, העובדה שיש הסבר לדמיון בהסתברויות בזוגות המפלגות אינה אומרת כי מתן בהכרח טועה. בדקתי את תוצאות הסימולציה, והתברר כי מתן צודק בתחושתו, ואכן הסיכוי להעביר מנדט מרשימה לרשימה אחרת שאנה קשורה עימה בהסכם עודפים הינו אפסי.

שאלות טכניות/סטטיסטיות

טענה שהועלתה על ידי מספר מגיבים היא שהחישובים נערכו על סמך הערכה מסויימת של מספר המנדטים הצפויים לכל מפלגה, ולא נערך חישוב לגבי התפלגויות מנדטים אחרות. כמו כן נטען כי העובדה כי התפלגות המנדטים שבחרתי הייתה קבועה (בכל 2 מליון הסימולציות השתמשתי באותה התפלגות מנדטים כדי לסמלץ את מספר הקולות לכל מפלגה) גרמה להגדלה של ההסתברויות שחישבתי. זה נכון באופן עקרוני – ככל שההנחות מכילות יותר שונות, גם ההסתברויות למאורעות ספציפיים יקטנו. הסיבה פשוטה – יש יותר מאורעות (ותאמינו או לא, מרחב המדגם בסימולציה הוא סופי), ולכן ההסתברויות של המאורעות באופן כללי יותר קטנות, כי צריך לחלק את "עוגת ההסתברות" להרבה יותר פרוסות. השאלה היא לכן לא האם הייתה מספיק שונות בהנחות, אלא האם ההנחות שלי מתאימות לשאלה ששאלתי. השאלה הייתה פשוטה: בהינתן תוצאה מסויימת של הבחירות, מה ההסתברות כי הוספת קול נוסף לאחת המפלגות תשנה את חלוקת המנדטים. הדגש הוא על המלים "תוצאה מסויימת". הפירוש שנתתי למלים אלה הוא כי וקטור חלוקת המנדטים נתון וקבוע, והתוצאה שקיבלתי תקפה כמובן רק בהנחה זו. עם זאת, ערכתי מספר בדיקות. באחת מהן הוספתי בכל סימולציה עד פלוס/מינוס חצי מנדט לכל מפלגה (על ידי הוספת משתנה מקרי אחיד על הקטע בין -0.5 ל-0.5 למספר המנדטים של כל מפלגה, ולאחר מכן נרמול התפלגות המנדטים כך שיתקבל שוב וקטור הסתברות). בבדיקה נוספת לא הנחתי כלל התפלגות מנדטים, ובחרתי בכל סימולציה את וקטור ההסתברויות להתפלגות מולטינומית מתוך התפלגות דיריכלה אחידה. בשני המקרים קיבלתי תוצאות דומות, וההסתברויות היו אכן בסדר גודל של 1 ל-10000, כצפוי במקרה בו אין כל אינפורמציה מוקדמת על תוצאת הבחירות (וסקרתי מספר עבודות שהגיעו למסקנה דומה ברשימה שכתבתי על הטיעונים בעד הצבעה בבחירות).

טענה מעניינת העלה הקורא ליר: המודל שבניתי מניח את התפלגות המנדטים הנתונה לגבי בעלי זכות הבחירה שהחליטו להצביע, והסימולציה תחילה קובעת את מספר המצביעים (לפי ההנחה על אחוז ההצבעה) ואח"כ קובעת איך יתפלגו הקולות בין המצביעים בפועל. זה מתאר מצב בו אדם תחילה מחליט האם להצביע, ובמקרה שהאזרחית מחליטה להצביע, היא מחליטה לאחר מכן לאיזה מפלגה תיתן את קולה. ליר טוען כי המצב בפועל שונה: תחילה מחליטים באיזה מפלגה לתמוך, ולאחר מכן מתקבלת ההחלטה האם ללכת לקלפי ולהצביע בפועל עבור המפלגה או לוותר על הזכות להצביע. ליר טוען, ובצדק, שלפי מודל ההחלטה שלו יתקבלו תוצאות אחרות. תשובתי היא שאני מסכים כי המודל שלי פשטני במידה מסויימת, אך כך גם המודל שלו. תהליך ההחלטה האם להצביע ובעד מי הוא מורכב למדי. אני מניח שחלק מהאנשים פועלים לפי המודל הראשון שאני הצעתי (זה מודל ההחלטה שלי, דרך אגב), ואנשים אחרים פועלים לפי המודל של ליר. לא מן הנמנע כי לאנשים רבים יש עץ החלטות מורכב יותר. המודל שבחרתי נראה לי סביר, בין היתר בגלל העובדה שהסקרים (שתוצאותיהם שימשו כקלט לסימולציה שלי) משקפים מודל החלטה כזה (תחילה הסוקר שואל האם בכוונת הנסקר להצביע בבחירות, ורק במקרה של תשובה חיובית שואל הסוקר לאיזה מפלגה בכוונת הנסקר להצביע). כמו כן, אין תשובה חד משמעית לשאלה האם אחוז ההצבעה משתנה בין התומכים של מפלגות שונות, לא כל שכן נתונים שיאפשרו סימולציה על סמך המודל הזה. אם יש הבדלים משמעותיים באחוזי ההצבעה בין התומכים של מפלגות שונות, התוצאות עשויות להיות שונות. אם אין הבדלים משמעותיים התוצאות יהיו דומות.

ליר טען גם כי ההתבססות שלי על מודל של התפלגות מולטינומית שגוי, וכי יש להשתמש במודל של התפלגות נורמלית. אני דוחה טענה זו מכל וכל. התפלגות מספרי הקולות של המפלגות היא מולטינומית מעצם הגדרתה, ולכן סימולציה של התפלגות מולטינומית היא הדרך הנכונה. יש לזכור גם כי מספרי הקולות של המפלגות אינם בלתי תלויים, אלא יש בינם מתאם שלילי (כשמפלגה אחת מקבלת הרבה קולות, האחרות בהכרח יקבלו פחות, ולהיפך). בסימולציה כפי שליר מציע אין תלות בין מספרי הקולות שמקבלת כל מפלגה.

התוצאות לגבי בלד נראו לחלק מהמגיבים מוזרות. הנה הסבר מהיר: ב-2 מליון הסימולציות שנערכו, לא היה אף לא מקרה אחד כי הוספת קול נוסף לבלד העלתה את מספר המנדטים שקיבלה מפלגה זו. האמד הנקודתי למאורע כי הצבעה לבלד תשנה את תוצאת הבחירות הוא לכן אפס חלקי 2 מליון, כלומר אפס. נשאלת השאלה: האם העובדה שלא ראינו מאורע מסויים מעידה על כך שאין כל סיכוי שהמאורע יתרחש? כמובן שלא. לכן לא ציינתי לגבי בלד את ההסתברות הספציפית, אלא רווח סמך: ההסתברות למאורע קטנה מ-1 ל-667 אלף. רווח סמך זה הוא מקורב, ומבוסס על "כלל אצבע" המכונה בעגה הסטטיסטית "The rule of three", ולפיו רווח סמך עליון למאורע שלא נצפה הוא 3 חלקי מספר התצפיות, ובמקרה שלנו 3 חלקי 2 מליון.

נשלח: 14 בינואר, 2013. נושאים: מה אומרת הסטטיסטיקה, על סדר היום, קבלת החלטות.
תגובות: 4 | טראקבק

מה הסיכוי שקולך ישפיע אם תצביעי בבחירות

הקדמה

ברשימה הקודמת סקרתי את מגוון הטיעונים בעד הצבעה בבחירות, מעשה שעל פניו נראה "בלתי רציונלי", בהתחשב בעובדה שהסיכוי שקול בודד ישפיע על תוצאת הבחירות נמוך למדי. כמה נמוך? על פי דאגלס ואנדרוורקן, הסיכוי כי קול בודד במדינת מפתח כצפון-קרוליינה יכריע את גורל הבחירות לנשיאות ארצות הברית הוא כ-1 ל-10 מליון. לעומת זאת, הסיכוי כי קול בודד יכריע את תוצאת הבחירות למועצת עיר קטנה בקנטאקי הוא כ-1 ל-90, סיכוי גבוה למדי בעיני מספר אנשים.

הפתרון המקובל כיום הוא שהתועלת מההצבעה נובעת לא רק מהתועלת האישית המתבטאת בסיכוי כי קולו של המצביע ישנה את תוצאת הבחירות, אלא גם מהתועלת לכלל הנובעת מההצבעה. התועלת לכלל הרבה יותר גבוהה מהתועלת לפרט, כי על הכף מונחים הרבה יותר גורלות והרבה יותר כספים (תחשבו על מספר ההרוגים במלחמה אפשרית עם אירן לעומת האפשרות שאתן תהרגו, או על הוצאה ממשלתית לטובת תקציבים חברתיים של 138 מיליארד שקלים בחמש שנים לעומת העלות/רווח האישי שלכם עקב תוצאת הבחירות שלא תעלה ככל הנראה מעל סך של כמה עשרות או מאות אלפי שקלים).

יש הבדל גדול בין שיטת הבחירות בישראל לעומת ארה"ב: כפי שציין אביתר בתגובתו לרשימה הקודמת, ההשפעה של הצבעה (או המנעות מהצבעה) אינה מתבטאת בקביעת המנצח או המפסיד, אלא בקביעה כמה חברי כנסת יהיו לכל מפלגה. לכן בניתוח שמוכוון לבחירות בישראל, השאלה צריכה להיות: אם אצביע למפלגה מסויימת, מה הסיכוי שהיא תקבל מנדט נוסף שלא הייתה מקבלת לו לא הצבעתי בבחירות?

הבדל משמעותי נוסף בין ישראל וארצות הברית – מספר המצביעים בישראל נמוך בהרבה מאשר בארה"ב. מכיוון שמושב בכנסת שווה כ-20 עד 30 אלף קולות (לאחר מעבר אחוז החסימה), וראינו כי בבחירות רוב הסיכוי של קול בודד להשפיע הולך וקטן עם עליית מספר המצביעים, סביר להניח כי כאשר כמה אלפי קולות עשויים להטות את הכף, הסיכוי של קול בודד להשפיע גדול יותר.

מתי קול בודד יכול להשפיע על תוצאת הבחירות בישראל?

הנה מספר מצבים אפשריים בהם קול בודד עשוי להשפיע על תוצאת הבחירות. בכולם אניח כי את, הבוחרת, מתלבטת האם להצביע עבור מפלגה א, ואינך שוקלת להצביע למפלגה אחרת; האלטרנטיבה שלך היא להצביע בפתק לבן (קול לא כשר) או לא להצביע כלל. הנה תיאור של מספר מצבים בהם קולך עשוי להשפיע על תוצאות הבחירות:

א. מפלגה א מתנדנדת באזור אחוז החסימה. הקול שלך יכול להשפיע אם ללא קולך המפלגה לא תעבור את אחוז החסימה, ובעזרתו היא תעבור אותו. במקרה שתעבור, תזכה בשני מנדטים בכנסת במקום באפס.

ב. מפלגה א תעבור בוודאות את אחוז החסימה. המפלגה לא חתמה על הסכם עודפים עם מפלגה אחרת (או שחתמה על הסכם עודפים עם מפלגה אחרת שלא עוברת את אחוז החסימה). הקול שלך יכול להשפיע אם ללא קולך המפלגה לא תקבל מנדט נוסף בשלב השני של חלוקת המנדטים (כמפורט בחוק בדר-עופר), ובעזרתו היא תקבל אותו.

ג. מפלגה א קשורה בהסכם עודפים עם מפלגה ב. ברור כי שתי המפלגות יעברו את אחוז החסימה. הקול שלך יכול להשפיע אם:

1. ללא הקול שלך שתי המפלגות (א ו-ב) לא יזכו במנדט נוסף בשלב השני של חלוקת המנדטים, ויחד איתו זכו במנדט נוסף שמוענק למפלגה א.

2. ללא הקול שלך שתי המפלגות (א ו-ב) לא יזכו במנדט נוסף בשלב השני של חלוקת המנדטים, ויחד איתו זכו במנדט נוסף שמוענק למפלגה ב.

3. שתי המפלגות זוכות במנדט נוסף בשלב השני של חלוקת המנדטים גם ללא קולך, אך הצבעתך למפלגה א העניקה לה את המנדט הנוסף בשלב השלישי של חלוקת המנדטים, ולו לא הצבעת לה, המנדט הנוסף היה מוענק למפלגה ב.

4. שתי המפלגות זוכות במנדט נוסף בשלב השני של חלוקת המנדטים גם ללא קולך, אך הצבעתך למפלגה א יוצרת תיקו בין שתי המפלגות, ומפלגה א זוכה במנדט הנוסף בהגרלה; לו לא הצבעת למפלגה א, המנדט הנוסף היה מוענק למפלגה ב.

יכולות להיות עוד אפשרויות, אבל אני מסתפק בדוגמאות אלה.

איך מחשבים את ההסתברות כי קולך ישפיע?

קטע זה הוא טכני וניתן לדלג עליו ולעבור היישר אל חלק התוצאות.

הדרך הקלה והמהירה היא לבצע סימולציה של ההצבעה. מגרילים בעזרת המחשב תוצאה אפשרית של הבחירות ומחשבים את חלוקת המנדטים. לאחר מכן, מוסיפים קול נוסף לאחת המפלגות, ומחשבים מחדש את חלוקת המנדטים. אין הבדל בין שתי החלוקות? הקול לא השפיע. יש הבדל? הקול השפיע? חוזרים על התרגיל הזה הרבה מאוד פעמים, ומחשבים את הפרופורציה של מספר הפעמים הבן הקול הנוסף שינה את חלוקת המנדטים. פרופורציה זו היא אמדן להסתברות כי הקול הנוסף השפיע על תוצאת הבחירות.

כמובן שיש צורך להניח מספר הנחות:

אחוז ההצבעה: אני מניח כי אחוז ההצבעה בבחירות יהיה הין 60 ל-70 אחוזים, ובוחר את האחוז באופן מקרי ואחיד בתחום זה. מספר המצביעים יחושב על פי האחוז המוגרל מתוך מספר בעלי זכות הבחירה, שהוא 5656705.
לפי נתונים מבחירות קודמות, אני מניח כי 1.5% הקולות יפסלו מסיבות שונות, ועוד 3% משאר הקולות יינתנו למפלגות שלא עברו את אחוז החסימה. לכן מספר הקולות הכשרים (ממנו מחושב אחוז החסימה) יחושב כ-98.5% ממספר המצביעים, ומספר הקולות של המפלגות שעברו את אחוז החסימה (לפיו נקבע המודד למנדט) יחושב כ-95.5% ממספר המצביעים.
הסכמי עודפים: . למיטב ידיעתי, הסכמי העודפים שנחתמו כוללים את: הליכוד ביתנו והבית היהודי, העבודה ויש עתיד, התנועה ומרץ, עם שלם וקדימה (באתר ועדת הבחירות אין שום מידע על כך נכון למועד כתיבת שורות אלה). בבחירות הקודמות נחתמו גם הסכמי עודפים בין שס ויהדות התורה, ובין חד"ש ורע"מ-תע"ל, ואני מניח כי גם בבחירות אלה הסכמים אלה ייחתמו.

לאחר שקבעתי את מספר הקולות למפלגות שעברו את אחוז החסימה, אני מחלק אותם בין המפלגות האלה בעזרת סימולציה של התפלגות מולטינומית. את המפלגות שעברו את אחוז החסימה בחרתי לפי תחזית המנדטים הצפויים לכל מפלגה על פי תחזית אתר בטל בשישים (שאיני יכול להוות דעה על איכותה, אבל בכל זאת צריך להסתמך על משהו) כפי שפורסמה ביום 4.1.2013 בשעה 14.00:

הליכוד ביתנו	35
העבודה	18
הבית היהודי	13
ש"ס	12
התנועה	10
יש עתיד	10
יהדות התורה	6
רעם-תעל	5
מרצ	4
חדש	4
בלד	3

את ההסתברויות להתפלגות מולטינומית קבעתי על ידי חלוקת מספר המנדטים שבתחזית ב-120.

לכל חלוקת מנדטים ערכתי 11 חישובי השפעה, כאשר בכל פעם הוספתי קול אחד למפלגה אחרת.

הסימולציה הורצה 2000000 פעמים.

הנה תוצאה אחת לדוגמה מתוך 2000000 ההרצות:

אחוז ההצבעה הוגרל להיות 61.4% ולכן מספר המצביעים נקבע להיות 3470406, ומספר הקולות שניתנו ל-11 המפלגות שעברו את אחוז החסימה הוא 3314238. האופן בו התחלקו 3.3 מליון קולות אלה בין המפלגות מופיע בעמודה השניה בטבלה וחלוקת המנדטים לפי קולות אלה בעמודה השלישית. בעמודה הרביעית הוספתי עוד קול אחד לליכוד ביתנו, וחלוקת המנדטים לאחר הוספת קול זה מופיעה בעמודה האחרונה. בזכות קול אחד, הליכוד ביתנו זכו במנדט נוסף על חשבון הבית היהודי.

מפלגה	קולות	חלוקת המנדטים	קול נוסף לליכוד	חלוקת המנדטים עם קול נוסף לליכוד
הליכוד ביתנו	966349	34	966350	35
הבית היהודי	358956	14	358956	13
העבודה	497558	19	497558	19
יש עתיד	275354	9	275354	9
ש"ס	331066	11	331066	11
יהדות התורה	166104	7	166104	7
התנועה	276958	11	276958	11
מרצ	109864	3	109864	3
רעם-תעל	138728	6	138728	6
חדש	110507	3	110507	3
בלד	82794	3	82794	3
סך הכל	3314238	120	3314239	120

החישוב שונה במקצת לצורך חישוב ההסתברות כי קול הניתן למפלגה המתנדנדת על סף אחוז החסימה ישפיע על חלוקת המנדטים. לאחר חישוב מספר המצביעים, אני מגריל משתנה מקרי בינומי עם N שווה למספר המצביעים ו-p שווה למספר ערכים, בין 1.5 ל-2.5 אחוז. P מבטא את ההסתברות כי מצביע כלשהו יבחר במפלגה זו. כמו כן, אני מחשב את אחוז החסימה עצמו על ידי חלוקת מספר המצביעים ב-50 ועיגול כפי מטה. אם מספר המצביעים למפלגה א שווה בדיוק לאחוז החסימה, אז הקול הנוסף של המצביעה המתלבטת ישפיע ובזכותו תעבור המפלגה את אחוז החסימה.

התוצאות

א. ההסתברות כי קול למפלגה על סף אחוז החסימה (כלומר ההסתברות כי מצביע כלשהו יבחר במפלגה זו היא בדיוק 2%) יכריע ויעביר את המפלגה אל מעל אחוז החסימה הוא 0.00147 או כ-1 ל-685. מתברר כי תוצאה זו רגישה ביותר להסתברות כי מצביע כלשהו יבחר במפלגה זו. אם ההסתברות היא 1.99% במקום 2%, אז ההסתברות כי קול נוסף ישפיע עולה ל-1 ל-1685, ואם במפלגה תומכים 1.98% מהבוחרים, אז ההסתברות כי קול נוסף ישפיע תהיה קרובה ל-1 ל-23000.

במלים אחרות, אם את מתכוונת להצביע למפלגה המתנדנדת על סף אחוז החסימה, ההסתברות כי קולך ישפיע על התוצאה הסופית של הבחירות נמוכה למדי ברוב המקרים.

ב. התוצאות מפורטות בטבלה

מפלגה	ההסתברות כי קול למפלגה זו ישנה את חלוקת המנדטים
הליכוד ביתנו	0.001469 (1 ל-681)
הבית היהודי	0.001468 (1 ל-681)
העבודה	0.001783 (1 ל-561)
יש עתיד	0.001759 (1 ל-569)
ש"ס	0.002235 (1 ל-447)
יהדות התורה	0.002290 (1 ל-437)
התנועה	0.002542 (1 ל-393)
מרצ	0.002533 (1 ל-395)
רעם-תעל	0.002720 (1 ל-368)
חדש	0.002813 (1 ל-356)
בלד	0.0000015> (פחות מ-1 ל-667 אלף)

סיכום

הטענה כי "אין טעם להצביע כיוון שממילא קול אחד לא ישנה דבר" אינה נכונה בדרך כלל. במדינת ישראל, השילוב של המספר הקטן מאוד של קולות (כ-30 אלף או פחות מכך) המזכים במנדט בכנסת עם שיטת הבחירות (בחירות ארציות יחסיות עם חלוקת מנדטים לפי חוק בדר-עופר), יוצרת הסתברויות גבוהות מאוד לכך שקול בודד ישנה את חלוקת המנדטים – בין 1 ל-350 ל-1 ל-700, כל זאת כאשר המפלגה עבורה מצביעים עוברת את אחוז החסימה וקשורה בהסכם עודפים עם מפלגה אחרת שעוברת אף היא את אחוז החסימה.

עדכון – מרץ 2019

מאז שנכתבה הרשימה הזו חלו מספר שינויים: אחוז החסימה עלה בצורה משמעותית, וגם מספר בעלי זכות הבחירה עלה, ויחד איתו עלה בכ-10% גם המודד – מספר הקולות הדרושים כדי לקבל מושב אחד בכנסת. לכן, אני מעריך שבבחירות הקרובות הסיכוי שקול בודד ישנה את מפת המנדטים נמוך בצורה משמעותית ממה שהיה לפני כ-6 שנים. אולם, הסיכוי עדיין חיובי.

אני רוצה להבהיר כי אין לפרש את הדברים האלה כהמלצה לא להצביע, או כנימוק/תירוץ לאי הצבעה כי "ממילא הקול לא ישפיע". הקולות הבודדים מצטברים, ויש להם אפקט. כפי שצויין בתגובות לפוסט הזה וגם בפוסט ההמשך, ההחלטה האם להצביע לא אמורה להתבסס על ההסתברות שהקול הבודד ישנה משהו, אלא גם על גורמים נוספים. לשאלה האם להצביע יש אספקטים פילוסופיים ותועלתניים כאחד, ואם מוזמנים לקרוא את מגוון הדיעות בנושא. ההמלצה שלי היא להצביע, וכן אני ממליץ לכל אחד להצביע למפלגה שעמדתה היא הקרובה ביותר לדיעותיו, מבלי להתחשב בשיקולי הצבעה אסטרטגית למיניהם.

נשלח: 6 בינואר, 2013. נושאים: מה אומרת הסטטיסטיקה, על סדר היום, קבלת החלטות.
תגובות: 61 | טראקבק

למה להצביע ומה הסיכוי שקולך ישפיע

השאלה הזו עולה שוב ושוב: יש כל כך הרבה מצביעים, אז מה יקרה אם לא אלך להצביע? מה בכלל הסיכוי שהקול שלי ישפיע? למה בכלל להצביע?

הבחירות האחרונות בארה"ב סיפקו דוגמא מאלפת. בבחירות למועצת עיריית וולטון, קנטאקי שנערכו בנובמבר 2012 נוצר תיקו בין שני מועמדים: בובי מקדונלד ואוליביה באלו. כל אחד מהם זכה בדיוק ב-669 קולות. התוצאות היו יכולות להיות שונות, אבל אשתו של המועמד מקדונלד לא הצביעה (היא סיימה משמרת בבית החולים בו עבדה, ובעלה אמר לה כי אין צורך שתטרח להצביע, הרי קולה לא ישנה כלום ממילא). הטלת מטבע מינתה את הגברת באלו למועצת העיר.

פרופ' אייל וינטר טוען במאמר שפרסם כי "הצעתו של מקדונלד לאשתו הייתה רציונלית מאוד. גם כאשר מדובר בעיר קטנה בקנטקי הסיכוי שקול בודד יכריע את הבחירות זעום ביותר". אז למה בכל זאת טרחו יותר מ-1300 אזרחים ואזרחיות בעיר וולטון להצביע בבחירות למועצת העיר?

לשאלה האם להצביע יש אספקטים פילוסופיים ותועלתניים כאחד. בפוסט זה אנסה לסכם את מגוון הדיעות בנושא. בפוסט המשך אציג מספר חישובי סיכויים שערכתי.

דאגלס ואנדרוורקן, סטטיסטיקאי מאוניברסיטת דיוק בצפון קרוליינה, מונה מספר טיעונים "מוסריים" בעד הצבעה בבחירות, ומסביר את הבעייתיות שבהם (קישור לתקציר המאמר, לקריאתו דרוש מנוי): מה יקרה אם כולם יחליטו שאין טעם להצביע? הטיעון אמנם לא רלוונטי, כי לא כולם חושבים שאין טעם להצביע; ובכל זאת מסביר ואנדרוורקן כי עצם העובדה שהחלטה מסויימת (כמו לא להצביע) תגרום נזק לחברה אם כל הפרטים בחברה יישמו אותה, לא בהכרח הופך את עצם הפעולה לבלתי מוסרית. לטענה כי על כל אדם להצביע בבחירות מכיוון שזו זכותו, עונה ואנדרוורקן כי לפי אותו הגיון על כל אדם לקרוא ספר על משוואות דיפרנציאליות חלקיות, כי גם זכות זו מוקנית לכל (לינק לספריה למתמטיקה, למי שהשתכנע). הטענה כי הצבעה היא חובה אזרחית קוסמת, לדברי ואנדרוורקן, רק למי שמפיק הנאה וסיפוק ממילוי חובות אזרחיות; אחרים יכולים להפיק הנאה וסיפוק ממימוש זכותם האזרחית לא להצביע. ועם הטענה כי למי שאינו מצביע אין זכות להתלונן על המצב לאחר הבחירות הוא מסכים חלקית: אולי אין זכות מוסרית, אבל בודאי יש זכות חוקית.

כלכלנים נוטים להסביר כל דבר על ידי תועלת ותמריצים. וינטר אינו שונה בכך מאחרים. הצבעה כרוכה בטרחה משמעותית, לדבריו (צריך לצאת מהבית, ללכת עד הקלפי, לעמוד בתור, אח"כ לחזור הבייתה, אויש), והתועלת, המתבטאת בסיכוי שקולך ישנה משהו, נמוכה עד אפסית. הבעיה היא שאם כך הדבר, איש לא היה טורח להצביע. הכלכלן יענה כי ישנם אנשים עבורם התועלת שבהצבעה עולה על העלות/טרחה, ממגוון סיבות. וינטר כותב כי יש המפיקים תועלת נפשית מעצם ההצבעה ו/או משלמים מחיר נפשי/מוסרי עקב הימנעות מהצבעה. הצבעה בבחירות עשויה אפילו להיות סוג של בילוי לאנשים מסויימים. אהרון אדלין, אנדרו גלמן ונח קפלן טוענים במאמר משנת 2007 (קישור למאמר, קובץ pdf) כי הבוחרים (או חלקם) לוקחים בחשבון בשיקולי העלות/תועלת גם את התועלת החברתית, כלומר את התועלת שתיגרם לכלל כתוצאה מעצם ההצבעה של אדם בודד. במלים אחרות, הם טוענים כי הצבעה בבחירות היא תרומה לקהילה. גלמן, שהינו פרופסור לסטטיסטיקה ומדעי המדינה באוניברסיטת קולומביה בניו-יורק, מעלה הסבר אפשרי נוסף בבלוג שלו: גם אם הסיכוי כי קולך בבחירות ישפיע הוא קטן, הרווח הצפוי במקרה של השפעה הוא עצום. בפוסט שפרסם לקראת הבחירות של 2008, העריך כי הסיכוי שקול בודד ישפיע על תוצאת הבחירות הוא כ-1 למליון במדינה מתנדנדת כאוהיו, והרבה פחות מכך במדינה בה המירוץ אינו צמוד במיוחד, כמו ניו-יורק. אולם הפרס לקול הזוכה גדול במיוחד, כ-1.5 ביליון דולר לדעת גלמן, בהתחשב בגודל בתקציב הפדרלי. לדעתי מדובר בסכום גדול הרבה יותר, טריליון או יותר. (זוכרים את חבילת החילוץ שאובמה שחרר מייד בתחילת נשיאותו?) אתם מוכנים לקנות כרטיס לוטו עם סיכוי של 1 ל-10 מליון לזכיה בפרס של 1.5 ביליון דולר? כי בישראל, למשל, עשרות אלפי אנשים קונים מדי שבוע כרטיס לוטו עם סיכוי של 1 ל-14 מליון לזכות בכמה מליוני שקלים, וחושבים שזו עיסקה טובה. העיסקה של הצבעה בבחירות הרבה יותר טובה מעיסקת הלוטו, לדעתי לפחות.

כל זה טוב ויפה, אבל עדיין נשאלת השאלה מה הסיכוי שזה אכן יקרה, כלומר, מה הסיכוי שאם אצביע, קולי ישנה את תוצאת הבחירות? איזה סיכון לקח על עצמו ידידנו מוולטון, קנטאקי, בובי מקדונלד, כשאמר לרעייתו לא לטרוח להצביע, כי ממילא קול אחד לא ישנה דבר?

במאמר אחר שכתב גלמן, יחד עם ג'ונתן כץ וג'וזף באפומי, הם טוענים כי הסיכוי שקול בודד יכריע את תוצאת הבחירות הוא בסדר גודל של 1 למספר המצביעים (קישור למאמר, קובץ pdf). דאגלאס ואנדרוורקן הגיע לתוצאה אחרת. הוא ערך סימולציה של הבחירות לנשיאות ארה"ב ב-2012, במדינת צפון קרוליינה, בה יש כ-6.5 מיליון בעלי זכות בחירה, והסקרים הראו כי המירוץ בין אובמה לרומני במדינה זו היה צמוד ביותר. מסקנתו הייתה כי הסיכוי שקול בודד יכריע את גורל הבחירות במדינת מפתח זו הוא בערך 1 לרבע מליון. הסיכוי כי אותו קול יכריע את גורל כל הבחירות לנשיאות הוא כ-1 ל-10 מליון, תוצאה דומה לזו שקיבלו גלמן, סילבר ואדלין (קישור למאמר, קובץ pdf), וסילבר, אגב, הוא נייט סילבר, שהתפרסם לאחרונה בעניינים אחרים הקשורים לבחירות בארצות הברית.

נחזור לקנטאקי. אייל וינטר כתב כי "גם כאשר מדובר בעיר קטנה בקנטקי הסיכוי שקול בודד יכריע את הבחירות זעום ביותר”. האמנם?

ראשית, נזכור כי באותו יום נערכות בארה"ב, בה יש עשרות אלפי ערים, מאות אלפי מירוצי בחירות בגדלים שונים. הסיכוי שבמחוז בחירה קטן בעיירה נידחת בקנטאקי יהיה תיקו בבחירות הוא קטן, אבל הסיכוי כי באחד ממאות אלפי המירוצים הנערכים יהיה תיקו כבר אינו מבוטל. תיקו איפשהו אינו הפתעה גדולה (ראו רשימתי מה באמת קורה בלוטו הבולגרי? מאוקטובר 2009). גם את הסיכוי לתיקו באותו מירוץ ספציפי בקנטאקי קל לחשב בעזרת סימולציה. הסיכוי לתיקו הוא כ-1.1% או 1 ל-90. סיכוי זעום ביותר? הכל בעיני המתבונן, כמובן.

ומה הסיכוי כי קול בודד ישנה את תוצאת הבחירות בישראל? על כך בפוסט הבא.

נשלח: 26 בדצמבר, 2012. נושאים: מה אומרת הסטטיסטיקה, על סדר היום, קבלת החלטות.
תגובות: 16 | טראקבק

השכר הממוצע כ-9000 ₪, כמה מרוויחים הרוב?

הנה צילום מסך של ידיעה מרגיזה שפורסמה אתמול בגלובס:

הידיעה מרגיזה ממספר סיבות.

קודם כל, הניתוח הכלכלי בידיעה הוא בסך הכל נכון, ומראה כי יש ירידה לאורך זמן ביחס בין השכר החציוני לשכר הממוצע במשק, מה שמעיד (מייד אסביר מדוע) על הגידול באי השוויון ובפערים החברתיים. ואותי זה מרגיז.

שנית, מצויין כי הלשכה המרכזית לסטטיסטיקה אינה מפרסמת את השכר החציוני במשק מדי חודש, ולצערי גם זה נכון. בכתבה צויין כי "מהלמ"ס נמסר כי אין הם מחשבים נתון זה", וסביר להניח כי זה נכון. זה גם מרגיז, כי ראוי שנתון השכר החציוני ייאמד ויפורסם מדי חודש, ובלשכה המרכזית לסטטיסטיקה יש הרבה סטטיסטיקאים מוכשרים שיודעים כיצד לבצע את המשימה הזו. למיטב ידיעתי, ההחלטה לא לפרסם את השכר החציוני מדי חודש נובעת ממדיניות, וזה כבר מאוד מרגיז. השכר החציוני מפורסם רק פעם בשנה, ומוחבא היטב בתוך השנתון הסטטיסטי.

שלישית, הגרפים בכתבה מטעים ומראים את הירידה ביחס חציון/ממוצע כיותר חדה מכפי שהיא באמת, וגם ההשוואה של היחס הזה בין ישראל למדינות אחרות מוטה. זה נעשה על ידי הטריק הידוע של קיצוץ ציר ה-Y, וכבר כתבתי על כך בעבר (למשל ברשימה על מחקר האוצר על השפעת שכר המינימום על התעסוקה במשק).

אבל הפרט המרגיז ביותר הוא הפרשנות שניתנת בכתבה לשכר החציוני. בכתבה נאמר כי "החציון הוא מדד למיקום המרכז של קבוצת נתונים מספריים או מדגם, אך הוא טוב בהרבה לעומת הממוצע, שהרבה יותר רגיש לערכי קצה" וזה נכון. אבל נאמר גם כי "השכר של רוב השכירים הישראלים במשק (המכונה בספרות כ'שכר החציוני') עומד על כ-6,655 שקל", וזה ממש לא נכון. ומאוד מרגיז.

מדוע היחס בין השכר החציוני לשכר הממוצע מהווה מדד לאי שוויון? בואו ניזכר מה זה חציון. כאשר יש סדרת מספרים, כמו נתוני שכר של כ-2.5 מיליון שכירים בישראל, אפשר לסדר את הנתונים האלה בסדר עולה, מהקטן לגדול. המספר שנמצא באמצע הסדרה, בסביבת המקום המיליון ורבע, מחלק את נתוני השכר לשתי קבוצות שוות. בקבוצה אחת כל הנתונים גדולים ממנו או שווים לו, ובשניה כל הנתונים קטנים ממנו או שווים לו. המספר שבאמצע הוא החציון. אמנם זהו הסבר לא מדוייק, אבל לדעתי מבהיר את הנקודה העיקרית. המעוניינים יכולים לקרוא הסבר מפורט יותר בויקיפדיה.

האם רוב הנתונים בסדרה שווים לחציון? בדרך כלל לא. בואו ניקח דוגמא פשוטה, סדרה של 3 מספרים בלבד: 1,2,3. החציון הוא 2, אבל רוב הנתונים אינם שווים ל-2.

שימו לב כי גם הממוצע של שלושה מספרים אלה הוא 2, וזאת בגלל הסדרה סימטרית סביב 2. זה תמיד נכון: אם סדרת נתונים היא סימטרית, אז הממוצע של הסדרה שווה לחציון. גם ההיפך נכון: אם הממוצע שווה לחציון, אז הסדרה סימטרית סביבם (את זה קצת יותר קשה להוכיח). לכן, ההפרש או היחס בין החציון והממוצע מהווים מדד למידת הסימטריה של הנתונים. למשל, אם נשנה את הנתונים ונחליף את 3 בערך גדול יותר, נניח 6? החציון יישאר 2 אבל הממוצע יגדל מ-2 ל-3. באופן כללי, כאשר הממוצע גדול מהחציון, אז הסדרה אסימטרית עם יותר ערכים גבוהים, וכאשר הממוצע קטן מהחציון, אז הסדרה אסימטרית עם יותר ערכים נמוכים.

כשמדובר בנתוני שכר, יש עוד פרט שצריך לקחת בחשבון. שכר יכול להיות מאוד גבוה, אבל אינו יכול להיות נמוך יותר מדי. באופן חוקי השכר חייב להיות גבוה משכר המינימום, ובכל מקרה אינו יכול להיות נמוך מ-0. לכן, כשמדובר בנתוני שכר, האסימטריה יכולה להתבטא רק בקיומם של בעלי שכר גבוה במיוחד, והמשמעות הכלכלית של כך היא אי שוויון בחלוקת ההכנסות. (דנתי בנושא זה בעבר ברשימה על המנהל והפועלים).

ועכשיו ננסה לענות לשאלה מהו השכר של רוב השכירים בישראל. המונח הסטטיסטי למדד כזה הוא השכיח (mode) – הערך הנפוץ ביותר בסדרת הנתונים. למשל, בסדרה 1,2,2,2,3 השכיח הוא 2, כיוון ש-2 מופיע בסדרה 3 פעמים, יותר מכל נתון אחר בסדרה. האם בסדרה של כ-2.5 מיליון נתוני משכורת של שכירים בישראל המספר 6655 הוא הנפוץ ביותר? איך אפשר לברר זאת?

כאמור, הלמ"ס מספקת כל חודש רק נתונים חלקיים, אך אחת לשנה מתפרסם בשנתון הסטטיסטי לוח התפלגות שכר לפי עשירונים (קישור לקובץ pdf באתר הלמ"ס). השנה האחרונה עבורה התפרסמו נתונים אלה היא 2010. לכן נמשיך את הדיון תוך כדי שימוש בנתונים אלה. הנה הנתונים הרלוונטיים לדיון שלנו:

גבול עליון (₪)	סך הכל שכירים (אלפים)	עשירון
2069	252.2	1
3501	252.3	2
4316	252.1	3
5049	252.2	4
5984	252.2	5
7051	252.2	6
8587	252.4	7
11229	252.0	8
16290	252.2	9
–	252.2	10

אנו רואים כי בכל עשירון יש כרבע מליון שכירים. הגבול העליון הוא השכר הגבוה ביותר בעשירון. כך למשל, בעשירון הראשון הגבול העליון הוא 2069 ₪. פירוש הדבר הוא כי 252.2 אלפי השכירים שבעשירון זה השתכרו לא יותר מ-2069 ₪ לחודש בשנת 2010.

הגבול העליון של העשירון ה-5 הוא השכר החציוני החודשי, 5984 ₪ בשנת 2010. 50% מהשכירים השתכרו 5984 ₪ לחודש או פחות מכך בשנת 2010 (אלה הנמצאים בעשירונים 1 עד 5) ו- 50% מהשכירים השתכרו יותר מ-5984 ₪ לחודש בשנת 2010 (אלה הנמצאים בעשירונים 6 עד 10). סביר מאוד כי מספר השכירים שהרוויחו בדיוק 5984 ₪ לחודש הוא נמוך למדי, וסביר שזה לא השכיח.

האמת היא שלשכיח עצמו אין כאן הרבה משמעות. מה כבר ההבדל בין 5986 ₪ ל-5986 או אפילו 6000? מעניין יותר לדעת מהי הקטגוריה השכיחה, אם נחלק את טווח השכר בקטגוריות ברוחב 1000 ₪, למשל. לשם כך עלינו למלא את הטבלה הבאה:

סך הכל שכירים (אלפים)	קטגוריית שכר
???	0-999.99
???	1000-1999.99
???	2000-2999.99
???	3000-3999.99
???	…
???	…
???	…

איך נעשה זאת?

לשם כך נצטרך להניח הנחה גסה, לפיה הפיזור של השכר בכל עשירון הוא אחיד. כך למשל, בעשירון הראשון, שתחומו 0 עד 2069, נניח כי מספר השכירים ששכרם בין 0 ל-1000 ₪ (תסלחו לי על האגורה) שווה למספר השכירים ששכרם בין 1000 ל-2000 ₪, ואילו מספר השכירים ששכרם בין 2000 ל-2069 ₪ שווה ל-6.9% ממספר השכירים בקטגוריית השכר 1000-2000 ₪. וכעת, תוך כדי שימוש בתרגילי ערך משולש נוכל להסיק כי מספר השכירים בקטגוריות 0-1000 ₪ ו-1000-2000 ₪ הוא 121.9 אלף, וכי 8.4 אלפי שכירים היו בעלי שכר חודשי בין 2000 ל-2069 ₪. בעזרת חישובים דומים (קישור לקובץ אקסל עם החישובים) נוכל לאמוד את מספר השכירים ששכרם החודשי היה בין 2069 ל-3000 ₪ ב-164.0 אלפים, ולכן מספר השכירים בקטגוריית השכר 2000-3000 ₪ נאמד בסך הכל ב-172.4 אלפים. כך נוכל להמשיך את החישוב, ובסופו של דבר נקבל את התפלגות השכר הבאה:

ומכאן נוכל לראות כי קטגוריית השכר השכיחה היא זו שבין 4000 ל-5000 ₪; זה היה שכרם החודשי של 333.3 אלפי שכירים, המהווים 13.2% מסך כל השכירים במשק. שכר הקרוב לשכר החציוני, נניח בטווח 5500 עד 6500 ₪ קיבלו בערך 254.6 אלף שכירים, כ-10.1% מהשכירים במשק. השכר הממוצע במשק ב-2010 היה 8100 ₪. שכר קרוב לשכר הממוצע, בין 7500 ל-8500 ₪, קיבלו כ-202.2 אלף שכירים, שהם כ-8% מהשכירים במשק.

ואם ננסה להקיש מנתוני 2010 לנתוני 2012, ובהנחה שההתפלגות נשארה דומה ביסודה, נוכל לשער כי קטגוריית השכר השכיחה במשק ב-2012 נמצאת גם היא ככל הנראה כ-1000 ₪ מתחת לחציון, ורוב השכירים במשק משתכרים בתחום 4500-5500 ₪. עצוב.

נשלח: 9 בנובמבר, 2012. נושאים: חשבון פשוט, כלכלה וחברה, מה אומרת הסטטיסטיקה, על סדר היום.
תגובות: 31 | טראקבק

כדור הכסף – הטריילר

זוכרים שביום שני הקרוב אני מרצה על כדור הכסף במסגרת ערב הרצאות מיוחד של "ספקנים בפאב"? אז הנה הטריילר:

נשלח: 12 בנובמבר, 2011. נושאים: כללי.
תגובות: אין | טראקבק