חיפוש באתר

קישורים

עמודים

קטגוריות

ארכיב עבור 'מה אומרת הסטטיסטיקה'

שגעון הפווארבול

שגעון הפאוורבול בארצות הברית הגיע השבוע לשיאים חדשים, לאחר שבהגרלות שנערכו ב-20.10.2018 איש לא ניחש נכונה את המספרים שעלו בגורל. הפרס הגדול, נכון לעכשיו, הוא 2.22 מיליארד דולר. אני בטוח שאתם רוצים לזכות בפרס הזה. אני רוצה לזכות בפרס הזה.

מה הסיכויים לזכות בפרס הגדול בפווארבול?

למעשה מדובר בשתי הגרלות שונות. בהגרלת המגה-מיליון הפרס הגדול הוא 1.6 מיליארד דולר, וההסתברות לזכייה בו היא בערך 1 ל-302 מיליון. בהגרלה השנייה, היא הגרלת הפווארבול, הפרס הגדול הוא "רק" 620 מיליון דולר, וההסתברות לזכייה בו היא קצת יותר גבוהה – 1 ל-292 מיליון.

כדי לזכות ב-2.2 מיליארד דולר, צריך לזכות בפרס הגדול של שתי ההגרלות, שהינן כמובן בלתי תלויות זו בזו. הסיכוי לכך הוא מכפלת הסיכויים לזכייה בשתי ההגרלות בנפרד, והוא בערך שווה ל-1 ל-88000000000000000.
צריך לזכור כי למרות שההסתברות לזכייה בפרס הגדול, בייחוד אם קונים רק כרטיס אחד, היא נמוכה מאוד, היא עדיין חיובית, כלומר יש סיכוי לזכות. מי שלא קנה כרטיס, לא יוכל לזכות. לכן, הצעד הראשון בדרך לזכייה הוא לקנות כרטיס.

האם קניית כרטיס הגרלה היא השקעה טובה?

זה תלוי כמובן בשאלה איך מגדירים האם השקעה היא טובה. אפשרות אחת היא להעריך את ההחזר הצפוי על ההשקעה. בואו לא נהיה חמדניים, ונתרכז רק בהגרלת המגה-מיליון ובפרס של 1.6 מיליארד דולר. מחיר כל כרטיס הוא שני דולר. בממוצע, מי שקונה כרטיס זוכה ב-1.6 מיליארד דולר בהסתברות של 1 ל-302 מיליון, או מפסיד 2 דולר בהסתברות כמעט קרובה ל-1. לכן ההחזר הממוצע על הכרטיס הוא בערך 1.6 מיליארד כפול 1 חלקי 302 מיליון פחות 2. זה יוצא בערך 3.30 דולר. למעשה חישבתי כאן את תוחלת הזכייה של כרטיס הגרלה. שימו לב כי התוחלת חיובית. בממוצע, מפעל ההגרלות מפסיד בהגרלה הזו 3.30 דולר על כל כרטיס שנמכר. בדרך כלל, במשחקי הימורים תוחלת הזכייה היא שלילית. למשל, אם אתם מהמרים ברולטה על ניחוש שחור/אדום, תוחלת הזכייה שלכם על כל דולר הימור היא בערך מינוס 5.2 סנט, כלומר בממוצע אתם מפסידים 5.2 סנט בכל פעם שאתם מהמרים על דולר. זה מספיק לקזינו כדי להרוויח מיליונים.

ראיתי במספר פורומים (בדיונים על הגרלות אחרות עם פרסים גדולים במיוחד) אנשים שטענו כי תוחלת הזכייה חיובית ולכן כדאי לקנות כרטיס השתתפות בהגרלה. למרבה הצער הטענה הזו לא נכונה. אותם 3.30 דולר שחישבתי למעלה הם תוחלת של כסף, ותוחלת של כסף זה לא כסף. אתם לא יכולים לקחת כרטיס להגרלה שתיערך מחרתיים ולשלם איתו במכולת, גם אם תוחלת הזכייה חיובית[1]. מה שיקרה זה שמועד ההגרלה יגיע, ואז תזכו, או שאולי לא. כמובן, אם תוכלו להשתתף בהגרלות כאלה כמה פעמים שתרצו, משתלם לגמרי לקנות כרטיס ועוד כרטיס ועוד כרטיס. חוק המספרים הגדולים יהיה לצידכם. אבל זה לא יקרה כמובן. ההזדמנות להשתתף בהגרלה היא חד פעמית

אבל הסיכוי לזכות כל כך קטן – ברור שאין זוכה

אמנם הסיכוי שאתם תזכו בהגרלה הוא מאוד נמוך, אך הסיכוי שמישהו יזכה בפרס הגדול הוא גבוה למדי.[2]. הנה הסבר אינטואיטיבי. תחשבו על קובייה. אם תטילו אותה הסיכוי שתוצאת ההטלה תהיה 6 היא 1 ל-6. אם שני אנשים יטילו כל אחד קובייה, הסיכוי שלפחות באחת ההטלות התוצאה תהיה 6 הוא גבוה יותר – בערך 1 ל-3.3. אם שלושה אנשים יטילו כל אחד קובייה, הסיכוי שלפחות באחת ההטלות התוצאה תהיה 6 הוא אפילו גבוה יותר – בערך 1 ל-2.37. וכן הלאה. אפשר לחשוב על כרטיס הגרלה כמין קובייה מטאפורית, כזו שהסיכוי לתוצאת 6 אם תטילו אותה הוא 1 ל-302 מיליון. אם יותר אנשים יטילו יותר קוביות, כלומר אם יותר כרטיסי הגרלה יימכרו, הסיכוי שתתקבל תוצאת 6, כלומר שמישהו יזכה בפרס, הולך וגדל.

כמה כרטיסים צריכים להימכר כדי שהסיכוי שלפחות כרטיס אחד יזכה יהיה 5%? 10%? 50%? מה הסיכוי ששני זוכים יחלקו את הפרס הגדול? אם אתם יודעים את מספר הכרטיסים שנמכרו, אתם יכולים לחשב את הסיכויים האלה בעזרת התפלגות פואסון. אדלג ברשותכם על הפרטים הטכניים. אפשר גם לעשות חישוב הפוך, ולחשב כמה כרטיסים צריכים להימכר כדי שההסתברות שמישהו יזכה בפרס הגדול תהיה שווה ל-50%. המספר הזה הוא בערך 210 מיליון. זה לא מספר מופרך. לפי הדיווח הזה, כ-226 מיליון כרטיסים צפויים להימכר לקראת ההגרלה הקרובה.

מה אם קונים את כל הכרטיסים?

הנה עוד רעיון שבוודאי עבר במוחו של מישהו: יש 302 מיליון צירופי מספרים אפשריים. אם נקנה 302 מיליון כרטיסים, ובכל כרטיס יופיע צירוף מספרים אחר, אז הכרטיס הזוכה חייב להיות בין הכרטיסים שקנינו. כל כרטיס עולה שני דולר, אז 302 מיליון כרטיסים יעלו 604 מיליון דולר. הפרס הגדול הוא 1600 מיליון דולר, ולכן מובטח רווח של כמעט מיליארד דולר. האם אפשר לעשות את זה?

התשובה הקצרה היא "כן". התשובה הארוכה היא "כנראה שלא".

מבחינה חוקית זה אפשרי, וזה כבר נעשה לפחות פעם אחת. בשנת 1992 הפרס הגדול בהגרלת הלוטו של מדינת וירג'יניה היה 27 מיליון דולר, והסיכוי לזכייה היה בערך 1 ל-7 מיליון. כל מה שצריך היה לעשות זה לקנות 7 מיליון כרטיסים ב-7 מיליון דולר ולגרוף רווח של 20 מיליון דולר. קבוצה של כ-2500 משקיעים התארגנה לגייס את הכסף ולרכוש את הכרטיסים. למרבה צערם הם הספיקו לקנות רק כ-5 מיליון כרטיסים עד מועד ההגרלה. לאחר קצת כסיסת ציפורניים התברר שהם אכן הצליחו לרכוש את הכרטיס הזוכה, מדינת וירג'יניה ניסתה להערים קשיים משפטיים כדי להימנע מתשלום, אך בסופו של דבר סכום הפרס הגדול שולם (וגם עוד כמה עשרות אלפי פרסים יותר קטנים).[3]

בהגרלת המגה מיליון זה סיפור בסדר גודל אחר לגמרי. קודם כל, כדי לקנות 302 מיליון כרטיסים צריך 604 מיליון דולר, במזומן. שנית, יש לכם רק ארבעה ימים עד ההגרלה הבאה. בארבעה ימים יש 345600 שניות, כלומר תצטרכו לקנות כמעט 900 כרטיסים בכל שניה. וכמובן, אתם צריכים לוודא איכשהו שקניתם 302 מיליון כרטיסים שונים.

נניח שעשיתם את כל זה וזכיתם. הפרס משולם לזוכה ב-30 תשלומים שנתיים. מי שרוצה כסף עכשיו ומייד, יקבל רק 57% מהסכום. צריך גם לשלם מס בסך 25%. מ-1.6 מיליארדי הדולרים יישארו רק 684 מיליון. עדיין רווח נקי של 80 מיליון דולר תוך ארבעה ימים. לא רע.

אבל… כל זאת, כמובן, אם לא יהיה זוכה נוסף בפרס הגדול.

וההסתברות שיהיה זוכה נוסף או אפילו יותר אינה זניחה. כבר ראינו כי אם נמכרים עוד כ-200 מיליון כרטיסים מלבד 302 מיליון הכרטיסים שלכם, ההסתברות כי יהיה זוכה אחד נוסף לפחות היא כ-50%. אם יהיה זוכה אחד נוסף, החלק שלכם בפרס יהיה רק 800 מיליון דולר, שלאחר ההיוון ותשלום המס יתכווצו ל- 342 מיליון, וזה כבר הפסד נקי של 262 מיליון דולר. אם הפרס יתחלק בין שלושה זוכים ההפסד יהיה גבוה יותר. לא טוב. אם היו לכם 604 מיליון דולר, האם הייתם מוכנים לקחת את הסיכון?

האם כדאי לקנות כרטיס?

אני חושב שכן. אם הייתי תושב ארצות הברית הייתי קונה כרטיס. אחד. זה שעשוע נחמד ויש סיכוי כלשהו לזכות. היכן עוד תוכלו לקנות תקווה תמורת שני דולר בלבד?[4]


הערות
  1. נסו ותיווכחו []
  2. זו למעשה בעיית ימי ההולדת []
  3. לפרטים נוספים ראו את ספרו של דייויד הנד The improbability Principle  []
  4. פראפרזה על דברים שאמרו פרופ' צבי גילולה ופרופ' ישראל אומן []

ניתוח השפעה של אירוע על נתונים לאורך זמן – Interrupted Time Series

בפוסט קודם ניתחתי מה קרה לשיעורי תאונות הדרכים בישראל בתקופת כהונתו של ישראל כץ כשר התחבורה.

כדי לענות על שאלות גון אלה – מה קורה לתופעה כזו או אחרת לאורך זמן – מומלץ להשתמש בשיטות סטטיסטיות לניתוח סדרות עיתיות (Time Series). סדרה עיתית היא סדרה של נתונים שנאספים לאורך זמן: שבועות, חודשים ואפילו שנים. ניתן גם לבדוק  את השפעתו של שינוי מסויים שחל במהלך הזמן (המהווה הפרעה למגמת הסדרה), כמו שינוי קיצוני במזג האוויר, כניסת מתחרה חדש לשוק, או מינוי של שר, בעזרת טכניקה הנקראת "ניתוח סדרות עיתיות מופרעות", או באנגלית Interrupted Time Series או פשוט ITS.

ברשימה זו אסביר את הרעיונות המרכזיים של שיטת ה-ITS שבעזרתה ניתחתי את נתוני תאונות הדרכים בישראל.

דוגמה: החזרי הוצאות עבור רכישת תרופות אנטי פסיכוטיות למבוטחי מדיקייד במערב וירג'יניה

תכנית מדיקייד היא תכנית ביטוח ממשלתית לבעלי הכנסות נמוכות בארצות הברית, ובין היתר משתתפת בהוצאות לרכישת תרופות של המבוטחים. בתחילת שנות ה-2000, כאשר נכנסו לשוק תרופות אנטי פסיכוטיות מהדור השני, שהן גם יקרות יותר, חלה עלייה משמעותית בהחזרי התשלומים עבור התרופות האנטי פסיכוטיות, כיוון שכ-50% מהמרשמים היו לתרופות מהדור השני. רשויות המדינה אינן יכולות, כמובן, לאסור על הרופאים לרשום לחולים תרופות מסויימות. במדינת מערב וירג'יניה החליטו להתחכם ולהוסיף ביורוקרטיה. החל מאפריל 2003, רופא במדינה שרצה לרשום לחולה שמבוטח במדיקייד תרופת דור שני, היה צריך למלא טופס. הנה גרף המראה את אחוז המרשמים של תרופות דור שני מתוך סך המרשמים לתרופות אנטי פסיכוטיות לאורך זמן, כאשר הקו האנכי המקווקו מסמן את המועד בו הונהגה חובת מילוי הטופס:[1]

ברור לחלוטין שמשהו קרה, אבל הסטטיסטיקה יכולה לתת לנו מבט יותר מעמיק.

הרעיון הוא מאוד פשוט – נעביר שני קווי רגרסיה: קו אחד יותאם לנתונים שלפני השינוי, וקו אחר לנתונים לאחריו[2]. הנה הגרף עם קווי הרגרסיה:

כעת ניתן לראות כמה דברים. ראשית, אחרי ההתלהבות הראשונית נראית מגמה של ירידה, אמנם איטית מאוד, באחוז המרשמים לתרופות דור שני. כמובן שיש לבדוק האם ירידה זו היא מובהקת סטטיסטית (היא לא) ולקבוע האם היא משמעותית (כנראה שלא, אחרת לא היה צריך להפעיל את מדיניות הטופסולוגיה).

שנית, אנו רואים מין ירידת מדרגה קטנה בין הרבעון האחרון שלפני הנהגת המדיניות החדשה והרבעון הראשון לאחר הנהגתה. שוב, ניתן וצריך לבדוק האם זוהי ירידה מובהקת (היא כן) ומשמעותית (לא ברור).

שלישית, ברור לחלוטין שהנהגת המדיניות הביאה לירידה משמעותית ומובהקת באחוז המרשמים לתרופות דור שני.

הקו הירוק מראה את ה-counterfactual, תרחיש ה-"מה היה קורה אילו" לא הונהגה מדיניות מילוי הטפסים. את הצלחת המדיניות מודדים על ידי ההבדל (המוחלט או היחסי) בין מה שקרה בפועל ובין ה-counterfactual.

המודל הסטטיסטי

הדבר הראשון שיש לשים אליו לב הוא שבניגוד למודל רגרסיה רגיל, הנתונים כאן אינם בלתי תלויים אחד בשני. בנתונים של סדרות עיתיות יש בדרך כלל קשר סטטיסטי בין הנתון של נקודת זמן מסויימת והנתון של נקודת הזמן הבאה, ואולי אפילו לנתונים של נקודות זמן רחוקות יותר.התופעה הזאת נקראת אוטוקורלציה. לכן, לפני שמריצים מודלים של רגרסיה, צריך לחקור את הקשרים בין הנתונים לאורך זמן. ברשותכם לא אכנס לפרטים, אך אציין כי קשרים אלה נלקחים בחשבון בהמשך הניתוח.

כמון כן, ציינתי קודם שמעבירים שני קווי רגרסיה, אך אומדים אותם במודל אחד, בן ארבעה פרמטרים: הפרמטר הראשון הוא הגובה בו מתחילה סדרת הנתונים ("החותך"). הפרמטר השני הוא השיפוע, כלומר המגמה, של הנתונים לפני נקודת השינוי. הפרמטר השלישי הוא הקפיצה או הפער בין הנקודה אליה הגיעה הסדרה ממש לפני השינוי ובין הנקודה הראשונה אחרי השינוי. הפרמטר האחרון הוא הרבה פחות אינטואיטיבי: זהו ההפרש בין המגמה של הנתונים לפני השינוי והמגמה שלאחר השינוי. השרטוט הבא מנסה להבהיר את המשמעות של ארבעת הפרמטרים[3]

לאחר שאומדים את הפרמטרים של המודל אפשר לבדוק בעזרת שיטות סטנדרטיות האם השינויים הם מובהקים, וכן להעריך האם הם גם משמעותיים.


הערות
  1. מקור:  Law , Ross-Degnan and Soumerai SB, Effect of prior authorization of second-generation antipsychotic agents on pharmacy utilization and reimbursements, Psychiatr Serv. 2008 May;59(5):540-6.   []
  2. היישום קצת פחות פשוט, ומייד אפרט למי שמעוניין []
  3. השרטוט נלקח מהשקפים של הקורס Policy Analysis using Interrupted Time Series שזמין ברשת באתר edX []

איך חוזים תוצאה של מונדיאל?

עכשיו, כשנאלמה תרועת הפסטיבלים והמונדיאל הסתיים, זה זמן טוב לדבר על כל המודלים שסיפקו תחזיות מונדיאל ועל מודלים של תחזיות בכלל.

ברשימה זו אסקור את הבסיס למודלים שניסו לחזות את תוצאות המונדיאל, ומשם אעבור לדיון בחלק מהתכונות של מודלים לחיזוי, במשמעות של החיזוי ובמגבלות של המודלים האלה.

איך חוזים תוצאה של מונדיאל?

הסקירה הזו מתבססת בחלקה על המאמר הזה שפורסם באקונומיסט לפני פתיחת המונדיאל של 2018[1].

כדי לחזות את התוצאה של המונדיאל (או כל טורניר ספורט אחר) יש צורך במספר שלבים. ראשית, צריך לדרג באופן כלשהו את הנבחרות/קבוצות המשתתפות בטורניר ואת הבדלי הרמות ביניהן. בשלב השני צריך לספק הערכה/חיזוי לתוצאות של משחקים ספציפיים[2], ובשלב השלישי לנסות לחזות על סמך החיזויים של תוצאות המשחקים את המנצחת הסופית. המאמר שפורסם באקונומיסט מתעמק בעיקר בשלב הראשון.

שלב ראשון: דירוג הנבחרות

יש שתי דרכים לדרג את האיכות של נבחרת או קבוצת ספורט: על ידי הערכת ביצועי הקבוצה, או על ידי הערכת ביצועי השחקנים.

להערכת ביצועי הקבוצה משתמשים בעיקר במודלים מסוג Elo , מודל שפותח במקור עבור משחק השחמט. הרעיון הוא שכל קבוצה מקבלת ניקוד על כל משחק שהיא שיחקה, אבל בניגוד לליגה או לטורנירים שבהם מקבלים 3 נקודות על כל ניצחון, לא משנה באיזה משחק, ב- Elo הניקוד משתנה בהתאם ליריבה, מיקום המשחק, חשיבותו, וכדומה. אם למשל גרמניה מנצחת את סעודיה במשחק ידידות שנערך בלוורקוזן, הניצחון הזה לא שווה הרבה נקודות, כי היריבה נחותה, המשחק לא ממש חשוב, וגרמניה שיחקה במגרש הביתי. לעומת זאת, ניצחון על ברזיל, במשחק שנערך בברזיל, במסגרת חצי הגמר של המונדיאל, שווה הרבה מאוד נקודות. יש כל מיני וריאציות למודל, מה שמסביר חלק מההבדלים בניבויים השונים. למודלים שונים יש מפתח נקודות שונה, ויש גם מודל שנותן ניקוד לא על פי תוצאת המשחק אלא על פי מספר השערים שהובקעו, וכך ניצחון בתוצאה 7:1 שווה הרבה יותר מניצחון 1:0. כמו כן, צריך להחליט על איזה אופק זמן מסתכלים. יכול להיות משחק ששוחק במונדיאל מקסיקו 70 או אפילו בדרום אפריקה ב-2010 כבר לא ממש משמעותי. עם זאת, באחת הכתבות תואר מודל שלקח בחשבון את כל התוצאות מאז המונדיאל הראשון שנערך ב-1930. אני מניח שהמודלים משקללים את המשמעות של כל משחק בהתחשב בזמן שעבר.

הדרך השנייה היא להעריך כל שחקן לחוד, ואז לקבל הערכה של הקבוצה כסך כל שחקניה. יש כל מיני דרכים לעשות את זה. אפשר למדוד את הביצועים של כל שחקן בכל משחק (כמה מסירות טובות הוא מסר, כמה תיקולים מוצלחים וכדומה). לדעתי צריך לקחת בחשבון גם פעולות שהשחקן לא עשה ואולי היה צריך לעשות (לא ברור לי אם יש בכלל נתונים כאלה). כמו כן, יש דברים ששחקנים תורמים לקבוצה ולא ניתנים למדידה – מנהיגות למשל.

דרך אחרת היא לבדוק מה היו ביצועי הקבוצה כשהשחקן שיחק בהרכב ומה הם היו כשהוא לא שיחק. בכדורגל זה פחות יעיל כי יש יחסית מעט משחקים, יש מעט חילופים, ובדרך כלל אין הרבה שינויים בהרכבים. עם זאת, זו שיטה מאוד מקובלת ויעילה בענפים כמו כדורסל ובייסבול.

ראיתי באחת הכתבות גם מודל שהכניס לשקלול את משכורות השחקנים. המודל הזה חזה שצרפת תזכה בטורניר, ואנחנו כבר יודעים שהוא צדק. זה לא בהכרח אומר שהוא מודל טוב. אם יש הרבה מודלים, אז הסיכוי שאיזשהו מודל יצדק הוא לא נמוך. זה כמו בלוטו. הסיכוי שאתה תזכה בפרס הגדול הוא קטן, אבל הסיכוי שמישהו יזכה הוא מאוד גבוה. עם זאת, אין להבין מדבריי כי אני חושב שזה מודל לא טוב. האמת היא שאי אפשר לקבוע.

אפשר גם לשקלל את את הערכת הנבחרת עם הערכת השחקנים, ויש כל מיני שקלולים: 50-50, 75-25 וכולי. זה כנראה לא כל כך משנה. לפחות לפי הנתונים שהובאו באקונומיסט, יש מתאם גבוה בין שתי שיטות ההערכה:

 

שלב שני: חיזוי תוצאות של משחקים

אחרי שיש לנו מדד שמעריך את האיכות של כל נבחרת, אפשר להתחיל לדבר על חיזוי תוצאות של משחקים. שוב, יש כל מיני דרכים לעשות את זה, אבל העיקרון דומה. לוקחים נתונים של המון משחקים שרלוונטיים בעינכם. אתם יכולים לקחת את הנתונים של המשחק בן גרמניה וסעודיה שנערך בלוורקוזן ביוני 2018 (גרמניה ניצחה 2:1), וגם את המשחק בין גרמניה והולנד בגמר מונדיאל 1974 (מצטער שאני משבית שמחות). לכל משחק הנתונים יכולים לכלול כל מיני פרטים שנראים חשובים למי שבונה את המודל – כגון הערכת הנבחרות לפי מודל Elo כזה או אחר, מקום משחק, חשיבותו, מסורת ניצחונות, מזג האוויר, המשכורת של השחקנים, או מספר הנעליים של השוער. אלה הם המשתנים המסבירים. לכל משחק יש גם תוצאה – זה המשתנה המוסבר, ויש שלוש תוצאות אפשריות. אפשר לשפוך את כל הנתונים לתוך אלגוריתם שמיישם מודלרגרסיה לוגיסטית, random forest, דיפ לרנינג, מה שבא לכם.

לאחר שאמדתם את הפרמטרים של המודל[3] ווידאתם שהוא פועל היטב גם על נתונים ששמרתם בצד ולא נכנסו למודל, אתם יכולים לקחת את הנתונים של נבחרת גרמניה ושל נבחרת מקסיקו, להפעיל עליהם את המודל שלכם, ולקבל תוצאה. התוצאה תהיה בעצם שלוש הסתברויות: ההסתברות שגרמניה תנצח במשחק, ההסתברות שמקסיקו תנצח, וכמובן גם את ההסתברות שהמשחק יסתיים בתיקו. חשוב לזכור שאלה לא הסתברויות "אמיתיות". אלה הם אומדנים להסתברויות, שקיבלתם מהמודל שלכם, והם מתבססים על כל ההנחות שהנחתם בדרך.

שלב שלישי: חיזוי מהלך הטורניר

עכשיו מתחיל הכיף האמיתי. אני מניח שכל מודל שהוא שניסה לחזות את תוצאת המשחק בין מקסיקו לגרמניה נתן הסתברות גבוהה לניצחון של גרמניה, הסתברות יותר נמוכה לתיקו, ולניצחון של מקסיקו ניתנה ההסתברות הנמוכה ביותר. אבל דברים יכולים לקרות (ואכן קרו). מה עושים? סימולציה.

נניח לצורך הדוגמה שההסתברויות שהפיק המודל היו 70% לניצחון גרמניה, 20% לתיקו, ו-10% לניצחון מקסיקו. שמים בתוך שק 10 כדורים: 7 לבנים, 2 ירוקים, וכדור שחור אחד. מערבבים טוב טוב את הכדורים ומוציאים כדור אחד. אם הוא לבן, נגיד שגרמניה "ניצחה", אם הוא ירוק נגיד שהמשחק "הסתיים בתיקו", ואם הכדור שהוצאנו הוא שחור נגיד שזה היה יום שחור לגרמניה. אפשר לעשות את זה גם בעזרת מחשב כמובן.

צריך לזכור שבבית שבו שיחקו גרמניה ומקסיקו היו עוד שתי נבחרות ובסך הכל שוחקו בו שישה משחקים. אז עושים את התרגיל הזה לכל אחד מששת המשחקים, וכשיש לנו את כל תוצאות המשחקים שהתקבלו בסימולציה, מקבלים את טבלת הבית, ואת שתי הנבחרות שעלו לשלב הבא.

את התרגיל הזה עושים לכל הבתים בשלב המוקדם, ובסיומו "נדע" מי הן 16 הנבחרות שעלו לשמינית הגמר, ואיזה נבחרת תשחק מול איזה נבחרת. את התוצאות של המשחקים אנחנו יכולים לחזות באותו אופן, ומשם "נדע" מה יהיו משחקי רבע הגמר וכך הלאה. בסופו של כל התהליך נקבל את הזוכה.

כל התוצאות שקיבלנו מתבססות של הגרלות ושליפה וירטואלית של כדורים מתוך שקים. אם נבצע שוב את התהליך מההתחלה, סביר להניח שנקבל תרחיש אחר ותוצאה שונה. נו פרובלם. נחזור על התרגיל הזה המון פעמים, 10000 נניח, או מיליון, ונחשב איזשהו ממוצע של כל התרחישים שהגרלנו. למשל, אם ב-900 מתוך 10000 תרחישים קיבלנו שגרמניה זכתה בסופו של דבר, נאמוד את הסיכוי שגרמניה תזכה במונדיאל ב-900 חלקי 10000 שהם 9%. החיזוי האולטימטיבי  של הזוכה במונדיאל הוא הנבחרת שניצחה ברוב התרחישים מבין ה-10000.

אם המודל שממנו התחלנו הוא מודל טוב, והנתונים שבהם השתמשנו כדי לאמוד את הפרמטרים של המודל הם נתונים טובים, אז גם התחזיות יהיו טובות. אבל…

נקודת תורפה: הנחת אי-תלות

אבל יש כאן בעיה גדולה: כל מה שתואר עד כאן מניח שהמשחקים בלתי תלויים, והם לא. תוצאה של משחק אחד בהחלט יכולה להשפיע על תוצאה של משחק אחר. אם למשל, נבחרת הבטיחה את עלייתה לשמינית הגמר אחרי שני משחקים, ייתכן כי השחקנים החשובים, הכוכבים, יקבלו מנוחה, כי אין טעם להשקיע מאמצים במשחק שלא משנה כלום. אירוע כמו פציעה של שחקן במשחק בהחלט יכול להשפיע על המשחק הבא. קבוצה שהשקיעה הרבה מאוד מאמץ כדי לנצח בשמינית הגמר (הארכה, יריבה קשה במיוחד) תגיע מותשת יותר למשחק הבא, ויד עוד הרבה דוגמאות. כל המודלים לטווח ארוך (שמנסים לחזות מי תזכה בטורניר לפני שהוא התחיל) לא יכולים לקחת את כל הפרמטרים האלה בחשבון. כאן יש יתרון ברור לסוכנויות ההימורים, שיכולות לעדכן את אמדני הסיכויים ושערי ההימורים ממשחק למשחק.

למה בכלל צריך סימולציה?

בדף של הבלוג בפייסבוק, Mickey Ktv שאל את השאלה הזו: "מה המשמעות של ביצוע הסימולציה? הרי אם יש לנו הסתברות מסויימת לכל משחק, אנחנו יכולים לפי זה לחשב את ההסתברות של כל קבוצה לנצח. בגלל חוק המספרים הגדולים, תוחלת הסימולציה צריכה לצאת קרובה מאוד להסתברות שמחושבת 'ידנית'. האם זה בגלל שיותר פשוט להריץ סימולציה במחשב מאשר לחשב את ההסתברות? (למרות שבמידה שקולה ניתן לבנות מודל שמחשב את ההסתברות עצמה)"

בתיאוריה אין שום בעיה לקחת נייר ועיפרון ולחשב את כל ההסתברויות וההסתברויות המותנות. אבל הנה ההבדל בין התיאוריה והמציאות. בכל בית יש ארבע נבחרות, ולכן יש 24 אפשרויות שונות לתוצאה הסופית של טבלת הבית. אבל בואו ניתן הנחה – מה שמעניין זה מיהן שתי הנבחרות שמסיימות במקום הראשון והשני, ולכך יש רק 12 תוצאות אפשריות. פרט למקרים מאוד נדירים, לכל התוצאות האלה יש הסתברות חיובית. יש 8 בתים מוקדמים, ולכן מפר התרחישים האפשריים לשמינית הגמר הוא 12 בחזקת 8. זה יוצא קצת פחות מ-430 מיליון (429981696). אז קצת קשה לעשות את זה עם נייר ועיפרון. גם אם נכתוב תכנית מחשב שתבצע את כל החישובים, לא סביר שהיא תסיים לרוץ לפני סיום המונדיאל הבא… במקרה כזה הדרך ובכן, בתיאוריה אין שום בעיה לקחת נייר ועיפרון ולחשב את כל ההסתברויות וההסתברויות המותנות. אבל הנה ההבדל בין התיאוריה והמציאות. בכל בית יש ארבע נבחרות, ולכן יש 24 אפשרויות שונות לתוצאה הסופית של טבלת הבית. אבל בוא ניתן הנחה – מה שמעניין זה מיהן שתי הנבחרות שמסיימות במקום הראשון והשני, ולכך יש רק 12 תוצאות אפשריות. פרט למקרים מאוד נדירים, לכל התוצאות האלה יש הסתברות חיובית. יש 8 בתים מוקדמים, ולכן מפר התרחישים האפשריים לשמינית הגמר הוא 12 בחזקת 8. זה יוצא קצת פחות מ-430 מיליון (429981696). אז קצת קשה לעשות את זה עם נייר ועיפרון. גם אם תכתוב תכנית מחשב שתבצע את כל החישובים, לא סביר שהיא תסיים לרוץ לפני סיום המונדיאל הבא.. היחידה לאמוד את ההסתברויות באופן יעיל היא בעזרת סימולציה.

מה עשו המודלים?

בטבלה שפורסמה באקונומיסט יש תחזיות של כמה מודלים. הסיכויים של ברזיל נעו בין 13 ל-32%, של גרמניה בין 5 ל-16%, של צרפת בין 5 ל-11%, ושל קרואטיה בין 1 ל-3%. שימו לב שהאחוזים בטורים לא מסתכמים ל-100%. מכאן שהמודלים האלה נתנו הסתברויות חיוביות לזכייה של נבחרות "פחות נחשבות" – אולי מצרים או קמרון.

האם המודלים האלה הצליחו או נכשלו? זה תלוי כמובן איך מגדירים הצלחה או כישלון. המודל של Goldman Sachs, למשל, נתן לצרפת הסתברות של 11% לזכות. הוא לא אמר שצרפת לא תזכה. גם מאורעות שהסתברותם 11% מתרחשים לפעמים. הוא גם נתן לברזיל הסתברות של 19% לזכות, או במילים אחרות, אמר כי יש הסתברות של 81% שברזיל לא תזכה. צדק או לא צדק?[4]

על המשמעות של המודלים

הבעיה של כל המודלים לתחזיות, מכל סוג שהוא, ולכל מה שאתם רוצים לחזות, היא שהם מנסים לחזות משהו שעוד לא קרה, כלומר את העתיד. ולחזות את העתיד, כפי שציין בצדק נילס בוהר, זה קשה מאוד. ואין הבדל עקרוני בין תחזית למשחק כדורגל בודד, לתוצאה הסופית של מונדיאל שלם, למזג האוויר של מחר[5], או לשאלה החשובה מאוד האם אני אקנה באמזון ספר שיציע לי האלגוריתם כאשר אכנס לאתר הזה בפעם הבאה. כל המאורעות האלה הם מאורעות חד פעמיים. תסלחו לי על האמירה הבוטה, אבל התחזית של המודל היא בסך הכל ניחוש אינטליגנטי[6].

בעולם שלנו יש שונות אינהרנטית, או כמו שכתבתי למעלה, דברים קורים. מה קרה במשחק של גרמניה מול מקסיקו? קרו המון דברים, ואת רובם אנחנו אפילו לא יודעים. אולי לאחד השחקנים של גרמניה כאב הראש, ושחקן אחר סתם בא במצב רוח לא טוב, ואילו השוער של מקסיקו מאוד נהנה בארוחת הבוקר ועקב כך חש אנרגיות חיוביות. לך תדע. מצד שני, בעשרים השנים האחרונות גרמניה מנצחת באופן עקבי ולאורך זמן ב-75% מהמשחקים שלה, ולכן אני מוכן להתערב שאם גרמניה ומקסיקו יישחקו 100 משחקים, גרמניה תנצח לפחות ב-75 מהמשחקים האלה[7].

וזו הפרשנות שאני נותן לחיזוי – פרשנות שכיחותנית[8].

לפי הפרשנות הזאת, אם אומרים לכם שמחר יש 30% סיכוי לגשם[9], המשמעות היא שבשלושים אחוז מהימים שדומים ליום שיהיה מחר ירד גשם. שימו לב שהפרשנות לפיה ב-30% ממשך היום יורד גשם אינה נכונה – זה כמו להגיד שברזיל תזכה ב-19% מהגביע. ואם המודל של אמזון חוזה שיש סיכוי של 20% שאקנה את הספר שהאלגוריתם מציע לי – פירוש הדבר הוא ש-20% מהאנשים שדומים לי יקנו את הספר.

ומכאן נובעת המגבלה העיקרית של כל המודלים: טיב החיזוי מוגבל על ידי כמות המאורעות. לחזות תוצאה של אירוע חד פעמי כמו המונדיאל זה קשה מאוד. אם נתחיל מחר את כל המונדיאל מחדש עם אותן הנבחרות, אף אחד לא יכול להבטיח לנו שתתקבל אותה התוצאה.

אם לעומת זאת, אנחנו מנסים לחזות תוצאות של הרבה מאורעות דומים ו/או נשנים, התחזיות הופכות להיות יותר אמינות, או כפי שאני מעדיף לומר, יותר סבירות. היו בלונדון הרבה ימים כמו מחר, וב-30% מהם ירד גשם, ולכן התחזית כי מחר יש סיכוי של 30% לגשם היא סבירה. ולאמזון יש מיליון לקוחות כמוני[10], ואם המודל שמציע את הספר הוא מודל טוב, אז 20% מהאנשים האלה יקנו אותו, ובעלי המניות של אמזון מרוצים.


הערות
  1. תודה לצליל אברהם שהפנתה את תשומת ליבי אליו []
  2. גרמניה מול מקסיקו, מישהו? תיכף נדבר על זה []
  3. או כמו שאנשי המשין לרנינג אוהבים להגיד – "אימנתם אותו" []
  4. יש הרבה דרכים להעריך את האיכות של מודלים האופן כמותי. לא אכנס לפרטים []
  5. אם אתם לא בישראל, כמובן []
  6. זו לא תובנה מקורית שלי, שמעתי אותה ממורי ורבי פרופ' צבי גילולה []
  7. על איזה סכום להתערב? צריך כמובן לחשב את ההסתברות שגרמניה תנצח ב-75 משחקים לפחות אם הסיכוי שלה לנצח במשחק בודד הוא 75% []
  8. סטטיסטיקאים אחרים ייתנו אולי פרשנויות אחרות, ואני לא אכנס כאן לפרטים []
  9. כמובן בהנחה שאתם לא בתל אביב אלא בלונדון []
  10. רק שלא קוראים להם יוסי לוי, ואם יש ביניהם יוסי לוי אחר, אז הוא חיקוי זול []

תאונות הדרכים בישראל – לפני ואחרי מינוי של ישראל כץ לשר התחבורה

מה קורה עם תאונות הדרכים בישראל?

בתחילת יולי 2018 שר התחבורה ישראל כץ צייץ בשמחה בטוויטר (יש גם צילום מסך למקרה שהציוץ יימחק בדרך פלא) ובישר על "ירידה דרמטית של 22% (!!!) במספר ההרוגים בתאונות הדרכים, במחצית הראשונה של 2018"[1]. הירידה באמת משמחת, ללא ציניות. אבל האם זו ירידה חד פעמית, תחילה של מגמה, או תוצאה של מגמה? ומה חלקו של השר בירידה המבורכת הזאת? את חלקו של השר במה שקורה בחצי שנה אכן קשה להעריך, אולם ניתן לראות מה קורה לאורך זמן.

לשם כך שלפתי ממאגר הנתונים של הלשכה המרכזית לסטטיסטיקה את נתוני תאונות הדרכים עם נפגעים משנת 2003 ועד שנת 2017 שהתרחשו בתחומי הקו הירוק.

כאן עלי להסביר כי הנתונים של הלמ"ס מתייחסים רק לתאונות דרכים עם נפגעים בהן לפחות אחד מהמעורבים בתאונה נהרג או אושפז. חומרת התאונה נקבעת לפי חומרת הפגיעה של הנפגע החמור ביותר. אם יש הרוג אחד לפחות, התאונה מסווגת כקטלנית. אם הפגיעה החמורה ביותר היא לאדם שנפצע קשה ואושפז, התאונה מסווגת כתאונה קשה. במקרהtraffic_accidents שהפגיעה החמורה ביותר היא לאדם שנפצע פציעה בינונית או קלה, התאונה מסווגת כתאונה קלה. אם לא היו נפגעים, או שהיו נפגעים אך אף אחד מהם לא אושפז, התאונה לא נכנסת לסטטיסטיקה.

עכשיו אפשר להעיף מבט בנתונים, ולראות, למשל, כי ב-2003 היו בישראל 413 תאונות דרכים קטלניות, ובמשך השנים המספר ירד ל-295 תאונות קטלניות בשנת 2017. אי אפשר להכחיש כי אכן היה שיפור במצב.

השיפור אפילו יותר משמעותי ממה שהוא נראה במבט ראשון: ב-2017 היו הרבה יותר מכוניות מאשר ב-2003, והן נסעו הרבה יותר קילומטרים. אפשר לראות זאת בעזרת נתוני הנסועה. הנסועה היא סך כל הקילומטרים שנסעו כל כלי הרכב במשך השנה. הרכב שלי עובר כ-15 אלף ק"מ בשנה, וזו תרומתו לנסועה. מישהו אחר אולי נוסע 50 אלף ק"מ בשנה, ויש כאלה שאף נוסעים מרחקים יותר ארוכים. אם מחברים את סך הקילומטראז של כל כלי הרכב בשנה מסויימת מקבלים את סך הנסועה לאותה השנה. שלפתי מאתר הלמ"ס[2] גם את אומדני הנסועות[3] לשנים 2003 עד 2016. הנתון של 2017 אינו זמין עדיין ואמדתי אותו בעזרת מגמת העלייה לאורך השנים. ב-2003 הנסועה בישראל הייתה שווה ל-38.9 מיליארד ק"מ, וב-2017 היא נאמדה ב-57.7 מיליארד ק"מ. מכאן שב-2013 היו כ-10.6 תאונות דרכים קטלניות לכל מיליארד ק"מ, וב-2017 היו רק 5.1 תאונות דרכים קטלניות לכל מיליארד ק"מ. זו ירידה מבורכת של מעל 50%.

שאלה מעניינת היא איך זה קרה ולמה, אולם כדי לענות על שאלות אלה יש צורך בנתונים נוספים ובניתוח נרחב. יש כאן פוטנציאל לעבודת מאסטר.

אני אנסה לתאר בעזרת מודל ITS מה קרה לאחר שישראל כץ נכנס לתפקידו כשר התחבורה במרץ 2009. לא סביר לדרוש משר שינוי מיידי בתחומי אחריותו עם כניסתו לתפקיד, ולכן קבעתי את נקודה השינוי בתחילת 2010. הנתונים עד 2009 (כולל) נזקפים לזכותם (או לחובתם) של שרי התחבורה הקודמים[4].

נתבונן תחילה בנתוני סך תאונות הדרכים. ניתן לראות כי בשנים 2003 עד 2009 הייתה מגמת ירידה בשיעור הכולל של תאונות דרכים עם נפגעים. .

אנו רואים כי מגמת הירידה שהייתה בין 2003 ל-2009 נמשכת גם בשנים 2010-2017, אך המגמה הואטה במקצת וקצב הירידה נמוך יותר. השינוי מובהק סטטיסטית. מה המשמעות של השינוי? אילו מגמת הירידה הייתה נמשכת לפי הקו הירוק, הוא ה-counterfactual, היו לנו ב-2017  154.6 תאונות למיליארד ק"מ, ובסך הכל קצת יותר מ-8900 תאונות עם נפגעים. בפועל היו 12700 תאונות עם נפגעים ב-2017, כלומר 42% יותר, ובמספרים מוחלטים מדובר בעוד 3800 תאונות עם נפגעים שהיו יכולות להימנע לו מגמת הירידה הייתה ממשיכה ולא מואטת.

כעת נבחן לחוד את סוגי התאונות השונים. נתחיל בתאונות הדרכים ה-"קלות", שבהן היה לכל היותר פצוע בינוי או קל שאושפז:[5]

מאחר ורוב תאונות הדרכים עם נפגעים מסווגות כקלות (85-90%, תלוי בשנה), אנו רואים כאן תמונה דומה לזו שראינו כשהסתכלנו על הסך הכולל של תאונות הדרכים. יש בלימה במגמת הירידה של שיעור תאונות הדרכים הקלות החל מ-2010. גם כאן השינוי בקצב מגמת הירידה מובהק סטטיסטית. אילו התקיים תרחיש ה-counterfactual, היינו צפויים לראות ב-2017 כ-8730 תאונות "קלות", בעוד שבפועל היו 10579 תאונות כאלה, 21% יותר.

נמשיך אל תאונות הדרכים הקשות. רוב הירידה בכמות תאונות הדרכים הקשות הייתה בין השנים 2003 ל-2009. מגמת הירידה שהייתה הזו נבלמה, ואף גרוע מכך: מספר התאונות הקשות החל מ-2010 נמצא במגמת עליה (כל השינויים מובהקים סטטיסטית ומשמעותיים):

שימו לב כי אילו מגמת הירידה בשיעור תאונות הדרכים הקשות הייתה נמשכת באותו קצב גם אחרי 2009, אז ב-2017 לא היו אמורות להתרחש תאונות דרכים קשות בכלל. זה כמובן לא ריאלי, יכול להיות שהגענו כבר לקו התחתון של שיעור התאונות הקשות שמתחתיו אי אפשר לרדת או שאנחנו מאוד קרובים אליו. מה מידת האחריות של שר התחבורה כאן? לדעתי אי אפשר להטיל במקרה הזה את כל האחריות על שר התחבורה הנוכחי. עם זאת, אין להסיק מכך שאין לו אחריות כלל. יש לו אחריות מיניסטריאלית, ורצוי וצריך לבדוק את מידת האחריות שלו על ידי בחינת נתונים נוספים.

לבסוף נתבונן בנתוני תאונות הדרכים הקטלניות:

רוב הירידה של ה-50% שציינתי קודם בשיעור תאונות הדרכים הקטלניות שציינתי קודם הייתה בין השנים 2003 ל-2009 (בשנים האלה הייתה ירידה של כ-45% בשיעור התאונות הקטלניות). מגמת הירידה בשיעור תאונות הדרכים הקטלניות נבלמה. אמנם עדיין יש ירידה בשיעור תאונות הדרכים הקטלניות גם אחרי 2009, אך קצב הירידה נמוך באופן משמעותי (ומובהק סטטיסטית). שוב שימו לב כי אילו מגמת הירידה הייתה נמשכת באותו קצב גם אחרי 2009, אז ב-2017 לא היו אמורות להתרחש תאונות דרכים קטלניות בכלל. גם כאן, אי אפשר להטיל את כל האחריות על שר התחבורה הנוכחי. האם הגענו כבר לקו התחתון של שיעור התאונות הקטלניות שמתחתיו אי אפשר לרדת? דעתי האישית היא שניתן לעשות עוד. בשוודיה חושבים שהמטרה של אפס תאונות דרכים קטלניות היא ריאלית.

ניתן לטעון כי רואים כאן סוג של "טרייד אוף" בשנים 2010 והלאה: לאחר שמוצתה הירידה החדה של תאונות קטלניות וקשות בשנים 2003 עד 2009, יש עליה מסויימת במספר התאונות הקשות, כיוון שחלק מתאונות עם פוטנציאל להיות קטלניות הסתיימו "רק" בפציעות קשות.  עם זאת, יש לזכור כי שיעור התאונות הקשות גבוה פי 5 עד 6 משיעור התאונות הקטלניות. בין 2010 ל-2017 חלה בסך הכל ירידה כוללת של כתאונת דרכים קטלנית אחת למיליארד ק"מ, אך עליה של כחמש תאונות דרכים קשות למיליארד ק"מ. גם אילו כל הירידה בתאונות הדרכים הקטלניות הייתה הופכת לעליה בכמות תאונות הדרכים הקשות, עדיין צריך להסביר מאין באה העלייה של עוד ארבע תאונות דרכים קשות למיליארד ק"מ.

לסיכום: בתקופת כהונתו של ישראל כץ כשר התחבורה, עד סוף 2017, הואטה מגמת הירידה החדה בשיעורי תאונות הדרכים עם נפגעים שהתרחשה בין 2003 ל-2009. הירידות בשיעורי תאונות הדרכים הקשות והקטלניות נבלמו כמעט לחלוטין, ואף יש מגמת עליה בכמות תאונות הדרכים הקשות. ניתן להסביר רק חלק קטן (כ-20%) מכמות העלייה במספר התאונות הקשות על ידי ההשערה כי חלק מהתאונות עם פוטנציאל קטלני הסתיימו בפגיעות קשות בלבד. יש צורך לבדוק מה היו הסיבות לשינויי המגמות, ומה חלקו של שר התחבורה ומדיניות בכך, ולשם כך יש צורך בנתונים נוספים ובניתוח סטטיסטי יותר מקיף מהניתוח הבסיסי שהוצג כאן. ייתכן כי לא כל השינויים נבעו מפעילות השר ומדיניותו, אך עדיין יש לו אחריות מיניסטריאלית מלאה למצב תאונות הדרכים בשנות כהונתו.


הערות
  1. תוך כדי השתלחות בעמותת "אור ירוק", אבל זה סיפור אחר []
  2. מתוך השנתונים הסטטיסטיים []
  3. שמבוססים על מדגמים []
  4. אביגדור ליברמן – 2003 עד 2004, מאיר שטרית – 2004 עד 2006, ושאול מופז – 2006 עד 2009 []
  5.  ויקיפדיה: "פצוע בינוני הוא מי שנשקפת סכנה לחייו אם לא יקבל טיפול רפואי. כלומר, מי שכעת יש להשקיע מאמץ קטן כדי להציל את חייו, אך אם יוזנח, יידרש מאמץ גדול כדי להציל את חייו. פצוע בינוני יכול להיות גם מי שאין נשקפת סכנה ממשית לחייו, אך קיים חשש כבד לנכות משמעותית או איבוד איבר (גפיים, לרוב)." []

סקרים בקרב יהודים ולא יהודים: מדגם שכבות

בחודשים האחרונים, בעקבות ביקורת פוליטית בעיקרה[1], עברו אמצעי התקשורת בישראל לפרסם סקרי דעת קהל בהם נסקרת גם דעתם של ערביי ישראל, בניגוד לנוהג הקודם שבו נערכו סקרי דעת הקהל בקרב "האוכלוסייה היהודית הבוגרת". סקרים אלה מבוססים על עריכה של שני סקרים נפרדים, אחד בקרב האוכלוסייה היהודית והשני בקרב האוכלוסייה הערבית, ושיקלול תוצאות שני הסקרים. מתודולוגיה זו ידועה בשם "מדגם שכבות".

הרעיון של מדגם שכבות אכן פשוט מאוד, וכבר הוסבר למעשה בפיסקה הקודמת. אולם יש מספר שאלות מעניינות שאנסה לתת להן תשובות כאן. לאחר שאסביר את העקרונות אנתח דוגמה ספציפית של מדגם כזה שהוצג בערוץ 10. המסקנה שלי היא כי במקרה הזה אין תועלת במדגם מפוצל, ורצוי לערוך מדגם יחיד בקרב כל האוכלוסייה.

מתי כדאי לערוך מדגם שכבות?

בעקרון כדאי לערוך מדגם שכבות כאשר האוכלוסייה הנדגמת (לא בהכרח בני אדם), מתחלקת למספר קבוצות הנקראות שכבות. מדגם שכבות יעיל יותר ככל שההבדלים בין השכבות משמעותיים יותר, ומאידך ההבדלים בין הפרטים בתוך השכבות קטנים יותר. במונחים סטטיסטיים נאמר כי השונות בין השכבות גדולה, בעוד שהשונות בתוך השכבות נמוכה.

לדוגמה, נניח שאנחנו רוצים לאמוד את מחירה של דירת 4 חדרים בתל אביב. דרך אחת היא לקחת מדגם של דירות ברחבי העיר. אולם, מאחר ויש שוני רב בין שכונות העיר (תחשבו על רמת אביב ג מול נווה עופר, למשל), ייתכן וכדאי לקחת מדגם קטן יותר בכל אחת משכונות העיר ולשקלל את תוצאות המדגמים. זאת גם מכיוון שבתוך כל שכונה ההבדלים היחסיים בין דירות דומות בתוך השכונה הינם יחסית קטנים בהשוואה להבדלים בין כלל הדירות בכל העיר.

איך מבצעים את המדגם?

לאחר שנקבעו השכבות, אפשר לדגום מדגם הסתברותי פשוט ("מדגם רגיל") בתוך כל אחת מהשכבות, אם כי אפשר כמובן לבצע בתוך כל שכבה מדגמים מורכבים יותר.

איך משקללים את התוצאות?

את התוצאות משקללים על פי גדלי השכבות. לדוגמה, נניח שבעיר מסויימת יש שלושה איזורים: צפון, מרכז ודרום, ואנו מעוניינים לאמוד את השכר הממוצע בעיר. בצפון מתגוררים 5000 איש הנכללים במדגם, במרכז 15000 ובדרום 30000. נניח שמסיבה כלשהי הוחלט כי גודל המדגם בשכבת הצפון יהיה 500 איש, במרכז 1000, ובדרום 250[2]. מקבלים כי השכר הממוצע בכל אחד מהאיזורים הוא 15,000 ₪ בצפון, 5000 ₪ במרכז, ו-9000 שח בדרום. מכיוון שבצפון מתגוררים 10% מהתושבים (5000 מתוך 50000) במרכז 30% (15 אלף מתוך 50 אלף) ובדרום 60% מהתושבים (30 אלף מתוך 50 אלף), האומדן לשכר הממוצע הכולל הוא לכן 8700 ₪:

 

 

 

האינטואיציה לחישוב: השכר הממוצע בשכבת הצפון הוא 15000 ₪. לא משנה איך הוא נאמד, הפרשנות של הנתון היא כי כל תושב בשכבה מרוויח "בממוצע" 15000 ₪, ולכן 5000 תושבים מרוויחים בסך הכל 5000 כפול 15000 ₪, כלומר 75 מיליון שח, באותן אופן סך כל השכר באיזור המרכז הוא 6000 ₪ כפול 15000 כלומר 90 מיליון ₪, ובאיזור הדרום סך השכר של כל התושבים הוא 9000 ₪ כפול 30000 תושבים, וזה יוצא 270 מיליון ₪. כעת מחברים את כל הסכומים ומקבלים 435 מיליון ₪, ומחלקים את הסכום הזה במספר התושבים, 50000, ומקבלים 8700.[3].

איך מחשבים את טעות הדגימה?

טעות הדגימה תלויה בשונות הכוללת של המדגם, ובגודל המדגם. ככל השונות הכוללת גדולה יותר, כך טעות הדגימה גדולה יותר. מצד שני, אפשר להקטין את טעות הדגימה לגודל הרצוי לנו על ידי הגדלת גודל המדגם. אם השונות הכוללת וגודל המדגם הכולל נתונים, חישוב טעות הדגימה הוא סטנדרטי – מכפילים את סטיית התקן של הממוצע בקבוע מההתפלגות הנורמלית, בדרך כלל 1.96 כדי לקבל רווח סמך של 95%.

איך קובעים את גודל המדגם?

הבעיה היא כמובן שכדי לקבוע את גודל המדגם צריך לדעת את השונות הכוללת ואת השונות בתוך כל שכבה, וכדי לדעת מה השונויות האלה צריך לקחת מדגם. בעיה זו, אגב, אינה ייחודית למדגם שכבות אלא לכל מדגם שהוא.

יש מספר דרכים להתגבר על הבעיה. אפשר לבצע מדגם מקדים קטן יחסית (פיילוט) כדי לקבל הערכה גסה לשונות. אפשר להסתמך על ידע קודם, ואפשר לתכנן על פי התרחיש הגרוע (worst case scenario) – דבר המקובל בעיקר כאשר מנסים לאמוד פרופורציות, כמו למשל שיעור התומכים בעמדה מסויימת. אפשרות נוספת היא לקבוע את גודל המדגם כגודל המדגם הדרוש כדי להבטיח את גודל טעות הדגימה המירבית במדגם רגיל ללא שכבות.

את השונות הכוללת מחשבים באופן דומה לחישוב בממוצע, כלומר על ידי שקלול השונויות בכל אחת מהשכבות בגורם שקלול הקשור בגודל היחסי של השכבה. עם זאת, גורמי השקלול אינם אינטואיטיביים כמו בשקלול הממוצעים של השכבות. השקלול מתבסס על ריבועי המשקלים של השכבות. בדוגמה שלנו, המשקל של שכבת הצפון היה 10% או 0.1, ולכן המשקל שלה בשקלול השונויות יהיה 0.1 בריבוע, כלומר 0.01, וכך לשאר השכבות. שימו לב כי המשקלים כעת לא מסתכמים ל-100%.

לאחר שיש בידינו את אומדני השונויות אפשר לחשב מתוכן את גודל המדגם הדרוש (אני אחסוך מכם את הנוסחה).

דרך אחרת לקבוע את גודל המדגם היא לקבוע בנפרד את גודל המדגם בכל שכבה, וגודל המדגם הכולל יהיה לכן סכום גדלי כל המדגמים השכבתיים. דרך זו בדרך כלל אינה יעילה.

איך קובעים את גדלי המדגם בכל שכבה?

בהנחה שקבענו את גודל המדגם הכולל (ולא את גודל המדגם לכל שכבה בנפרד), יש מספר דרכים לקבוע איך לחלק אותו בין השכבות.

האפשרות הנאיבית היא לחלק את המדגמים באופן פרופורציונלי לגדלי השכבות. בדוגמה שלנו היה מדגם בגודל 1750. חלוקה פרופורציונלית בעיר שלנו הייתה מובילה למדגם בגודל 175 באיזור הצפון (10% מ-1750), 525 במרכז (30% מתוך 1750) ו-1050 בדרום (60% מתוך 1750).

מה נאיבי בחלוקה כזו? היא לא מתחשבת בשונויות שבתוך השכבות, ומכיוון שכך, למה לטרוח? כל הרעיון של מדגם שכבות הוא לנצל את ההבדלים שבין השכבות.

החלוקה האופטימלית מתבצעת על פי השונויות – ככל שהשונות בשכבה גדולה יותר, כך יידגמו יותר פרטים מהשכבה. בדוגמה שלנו נלקח מדגם בגודל  1000 ממרכז העיר בו מתגוררים 15000 תושבים, אך מדרום העיר שם מתגורר מספר כפול של תושבים נלקח מדגם קטן פי 4. זאת ככל הנראה מכיוון שהשונות בדרום העיר קטנה באופן משמעותי מהשונות במרכז העיר[4]

דוגמה: למה בוטל המשחק של ארגנטינה בישראל

מה הסיבה המדוייקת לביטול אי אפשר כנראה לדעת, אבל אפשר לשאול את הציבור מה דעתו בנושא. הנה לדוגמה תוצאות של סקר שנערך בערוץ 10:

 

 

 

 

 

 

 

 

הסקר בוצע בצורת מדגם של שתי שכבות: האוכלוסייה היהודית ו-"המגזר הלא יהודי". טעות הדגימה לא דווחה.[5]

מהאוכלוסייה היהודית נלקח מדגם בגודל 615 ובמגזר הלא יהודי נלקח מדגם בגודל 150. מדוע נקבעה החלוקה הזו? יכולות להיות לכך מספר סיבות.

סיבה אפשרית אחת היא כי חישבו תחילה שגודל המדגם הכולל צריך להיות 765 ואחר כך חילקו אותו באופן קרוב לפרופורציונלי. זו לא חלוקה מדוייקת כי האוכלוסייה היהודית הבוגרת מהווה 76% מסך האוכלוסייה הבוגרת במדינה, על פי נתוני הלמ"ס לשנת 2015 (קישור לקובץ פדף). חלוקה פרופורציונלית צריכה להוביל למדגם בגודל 581 באוכלוסייה היהודית, ו-184 במגזר הלא יהודי. במקרה הזה, גודל המדגם במגזר הלא יהודי נמוך בכמעט 20% ממה שהוא צריך להיות על פי הקצאה פרופורציונלית.

סיבה אפשרית שניה היא כי ההקצאה נובעת מכך שהשונות בתוך המגזר הלא יהודי נמוכה באופן משמעותי מהשונות במגזר היהודי, ולכן גודל המדגם יכול להיות קטן יותר. ערכתי את החישובים[6] ומצאתי כי אם זו אכן הייתה הסיבה, הרי שההערכה הייתה כי השונות במגזר הלא יהודי קטנה בערך ב-40% מהשונות באוכלוסייה היהודית. שאלה מעניינת היא על מה התבססה הערכה זו, אם אכן כך היה. במקרה הזה טעות הדגימה המירבית היא 3.4%[7] . לו היו לוקחים מדגם רגיל בגודל 765 מתוך כל האוכלוסייה, טעות הדגימה המירבית הייתה 3.6%. כלומר, דגימת השכבות הפחיתה את טעות הדגימה ב-0.2%.[8]

סיבה אפשרית שלישית היא שלקחו את גודל המדגם "הרגיל" בו נהגו להשתמש כאשר ביצעו מדגמים רק בקרב האוכלוסייה היהודית – משהו בסביבות 500-600[9], והוסיפו מדגם יותר קטן במגזר הלא יהודי כדי לצאת ידי חובה.

המסקנה שלי מכל הדיון הזה היא שהאופן בו מתבצעים היום סקרי דעת הקהל – שני מדגמים, אחד בקרב האוכלוסייה היהודית ואחד במגזר הלא יהודי, אינו מביא תועלת רבה, ומתבסס על הנחה בעייתית במקרה הטוב: ההנחה כי שונות הדיעות בקרב המגזר הלא יהודי נמוכה באופן משמעותי מהשונות באוכלוסייה היהודית. כפי שראינו, גם אם הנחה זו נכונה, ההשפעה שלה על טעות הדגימה המירבית היא מזערית. במצב כזה ראוי יותר לבצע מדגם אחד שיכלול בתוכו את כל האוכלוסייה, יהודים ולא יהודים.

לקריאה נוספת


הערות
  1. ומוצדקת, לדעתי []
  2. אגיע לכך עוד מעט []
  3. קחו מחשבון ותבדקו []
  4. בהנחה כי גדלי המדגם האלה אכן חושבו על פי השונויות בכל שכבה אפשר לחשב פי כמה השונות בדרום העיר יותר קטנה מהשונות במרכז אם ממש רוצים []
  5. עוד שאלה מעניינת: כיצד מבצעים מדגם כזה בקרב אוכלוסייה מסויימת, יהודית או לא יהודית? למיטב ידיעתי, אלה סקרים טלפוניים, כאשר מספרי הטלפון אליהם מתקשרים נבחרים באופן אקראי. האם אפשר לדעת על פי מספר הטלפון האם האדם אליו מתקשרים הוא יהודי או לא יהודי? אני חושב שלא. []
  6. למעוניינים ראו את הנוסחה כאן, תחת הכותרת Neyman Allocation []
  7. בהנחה שבאוכלוסייה היהודית השונות לשאלת כן/לא היא מקסימלית ולכן שווה ל-0.25, ומכאן שהשונות המקסימלית במגזר הלא יהודי היא לכן 0.15 []
  8. למי שמעוניין לבדוק את החישובים שלי – מצורף קישור לקובץ pdf []
  9. שנותן טעות דגימה של 4 עד 5 אחוז []