ארכיב עבור תגית סטטיסטיקה

פיס 123: תוחלת הזכיה וסיכויי הזכיה בתביעה

תקציר הפרקים הקודמים: ארגון אמון הציבור מגלה טעות בסיכויי הזכיה שפורסמו באתר מפעל הפיס. מפעל הפיס מתקן את הטעות. אחד המהמרים, שהוא גם ד"ר למתמטיקה, תובע את מפעל הפיס בסכום של 3.2 מליון שקלים + 5 מליון שקלים כפיצוי על עגמת הנפש.

ובכן, לאחר שאומתו סיכויי הזכיה במשחק פיס 123 המפורסמים כעת באתר מפעל הפיס, ניתן לגשת לחישוב תוחלת הזכיה והערכת סיכויי התביעה הייצוגית.

כאשר ידועים סיכויי הזכיה וגובה הפרסים וההפסדים, החישוב הוא פשוט: מכפילים כל זכיה/הפסד בהסתברות שלה, ומסכמים.

למשל, הסיכוי לזכות בפרס הראשון במשחק המשולב הוא 1 ל-1000, או 0.001. מי שמהמר על שקל יקבל כפרס 100 שקלים, ולכן סך הרווח שלו הוא 99 שקלים. מכפילים 99 ב-0.001 ומקבלים 0.099. כל עושים לגבי שאר הפרסים, כמפורט בטבלה, ולבסוף יש לסכם את כל המכפלות.(נתוני יחס הזכיה ומכפיל הזכיה לפרסים 1 עד 4 שבטבלה נלקחו מאתר מפעל הפיס):

פרס יחס זכיה הסתברות זכיה מכפיל פרס רווח/הפסד מחובר לתוחלת
ראשון 1:1000 0.00100 100 99 0.0990
שני 1:241.5 0.00414 25 24 0.0994
שלישי 1:37 0.02703 5 4 0.1081
רביעי 1:4.11 0.24331 1 0 0.0000
אין זכיה 1.38 0.72452 0 1- 0.7245-
סך הכל 0.4180-

השורה התחתומה אומרת כי על כל שקל הימור, מפעל הפיס מרוויח (והמהמרים מפסידים) 41.8 אגורות, ובמלים אחרות, מפעל הפיס לוקח לקופתו 41.8% מכספי ההימורים ומחלק למהמרים 58.2% מהכספים כפרסים. אל תסמכו עלי. אנא בדקו את חישוביי.

לאחר שצלחנו את החלק הטכני המשעמם הזה, הבה נעבור לניתוח סיכויי הזכיה של הד"ר למתמטיקה בתביעה הייצוגית שלו.

התובעים, כך פורסם, הציגו שתי טענות:

הטענה הראשונה היא כי מפעל הפיס הציג באתר האינטרנט שלה שסיכויי הזכיה בפרס השני הם 1:200, אולם לפי חישוביהם, הסיכוי לזכות בפרס השני הוא למעשה 1:500. את הטענה הזו אפשר לבדוק. אני חושב שכולם כבר מסכימים על כך שסיכויי הזכיה בפרס השני הם לא 1 ל-200 וגם לא 1 ל-500, אלא 1 ל-240 (בערך).

הטענה השניה היא כי לפי מפעל הפיס, תוחלת ההגרלה 123 משולב אמורה להיות בשיעור של 60.34%, כלומר 60.34% מכספי ההימור מחולקים כפרסים, אולם בפועל, כך נטען בתביעה, תוחלת ההגרלה הינה בשיעור של 58.2% בלבד (כפי שהראה החישוב שערכתי למעלה).

קודם כל, לא ברור לי איך חישוב הסתברות שגוי הוביל לחישוב תוחלת נכון. ייתכן כי חישוב ההסתברות היה נכון (בכל זאת ד"ר למתמטיקה) אולם לכתב התביעה, או להודעה לעיתונות, או לכתבה השתרבב מספר שגוי.

התובעים הנכבדים צריכים, אני מניח, להוכיח כי הפרסום השגוי נעשה בזדון ומתוך כוונה להטעות את המשקיעים המהמרים התמימים. האם יצליחו התובעים להוכיח זאת? איני יודע.

אבל הטיעון העיקרי שלי, ואני מקווה שגם של ההגנה, הוא: אז מה? ונניח שפורסם מספר שגוי, והתוחלת אכן נמוכה ממה שפורסם. האם בפועל הייתה התוחלת שונה? כללי המשחק היו נתונים, ובהנתן הכללים נקבעת התוחלת. הנזק היחיד שעלול להגרם בפועל הוא הנזק למהמר שנכנס לאתר ואמר לעצמו: "וואו, תוחלת של 60.3%! אני הולך על זה! זו לא סתם הגרלה מעפנה שנותנת רק 58.2%!". כמה מהמרים כאלה היו? על כמה כסף הם הימרו? אחרי שנדע את הנתון הזה, נוכל להעריך את הזנק שנגרם להם: 2.1% מסך הסכום שעליו הם הימרו. ההימור שלי הוא כי סך הסכום הזה הוא אפס, או כמעט אפס.

אז מה סיכויי הזכיה? לא רעים בכלל. השופטים, אנשים טובים ומקצועיים אמנם, אבל רובם לא מבין בסטטיסטיקה, פשוט כי ההכשרה שניתנת לתלמידי הפקולטה למשפטים בתחום הזה מזערית. לשקר בעזרת סטטיסטיקה אפשר גם אפשר, וייתכן מאוד שיימצא שופט שישתכנע מהטיעונים.

אני אמשיך לעקוב.

סיכויי הזכיה בפיס 123

עוד לא נרגענו מההמולה סביב האירוע ה-"נדיר" בו התקבלו בהגרלת הלוטו אותם המספרים שהתקבלו באחת ההגרלות הקודמות, והנה הופיעה לה "שערוריה" חדשה סביב הגרלות מפעל הפיס. הפארסה הנוכחית הגיע לשלב בו מהמר המציג את עצמו כדוקטור למתמטיקה הגיש תביעה יייצוגית נגד מפעל הפיס.

אבל בל נקדים מוקדם למאוחר. הנה השתלשלות העניינים, כפי שהצלחתי לעקוב אחריה בשבוע האחרון:

  • ארגון הצרכנים העצמאי/פרטי "אמון הציבור" טען כי מפעל הפיס הציג מצג שווא מתמשך בפרסום שלו בעניין סיכויי הזכייה במשחק "3 2 1 משולב". לפי תלונת צרכן לארגון – סיכויי הזכייה בפרסי המשחק נמוכים מאלו המפורסמים באתר הפיס. (ידיעות על כך ראיתי בווינט ובדה-מרקר). כמו כן נטען כי תוחלת  הזכיה שפורסמה באתר נמוכה מתוחלת הזכיה בפועל.
  • לפי הידיעות, הסטטיסטיקאי של מפעל הפיס (לא נמסר מי האיש) אישר כי חלה טעות בפרסום, ובשלב כלשהו מפעל הפיס תיקן את הפרסום באתר. לדעת ארגון אמון הציבור, משך הזמן שעבר עד תיקון הנתונים היה ארוך מדי.
  • בינתיים, צרכן זריז, המעיד על עצמו כי הוא מהמר במשחק המדובר בסכום של מאות שקלים לחודש, הגיש תביעה ייצוגית נגד מפעל הפיס בסך של 3.2 מליון שקלים. התובע גם העיד על עצמו כי הוא דוקטור למתמטיקה (לא נמסר שמו של האיש).

התייחסתי לכל העניין בגיחוך מה. בטוויטר הזהרתי את אותו מהמר/מתמטיקאי/תובע כי שייזהר, האוניברסיטה עלולה לתבוע ממנו להחזיר את הדוקטורט.

בואו ננסה להבין מה קורה כאן.

מדובר בהימור המכונה "פיס 123". המפעל מגריל מספר בן 3 ספרות, החל מ-000 ועד 999. יש 1000 מספרים כאלה. המהמר מנסה לנחש את המספר.

ההימור הפשוט ביותר הוא מסוג "הכל או כלום". אם ניחשת בדיוק את המספר שהוגרל – זכית. יש כאמור 1000 מספרים אפשריים שעשויים לעלות בגורל, ולכן סיכוי הזכיה הוא 1 ל-1000. במקרה של זכיה, הזוכה מקבל סכום הגדול פי 600 מסכום ההימור (באתר מפעל הפיס מכונה סכום ההימור בביטוי הציני "סכום ההשקעה").

תוחלת הזכיה שלילית כמובן: בטווח הארוך המהמר מפסיד ומפעל הפיס מרוויח. אפשר להסביר זאת באופן הבא: מהמר "מתוחכם", יהמר סכום של שקל אחד כל אחת מ-1000 התוצאות האפשריות (ב"השקעה" של 1000 שקלים), יפסיד את כספו ב-999 מהימוריו, ובהימור ה-1000 יקבל 600 שקלים. בסופו של יום, אותו מהמר הפסיד בסך הכל 400 שקלים.

כאמור, המהומה התקשורתית והמשפטית מתחוללת סביב משחק מעט יותר מסובך. ב"משחק המשולב", ניתן, בין היתר,  לזכות בפרס גם אם המספר עליו מהמרים אינו זהה למספר שעלה בגורל, בתנאי שההימור היה על אותן הספרות של המספר שעלה בגורל, בסדר שונה. לדוגמא, מי שיהמר על המספר 123 יוכל לזכות בפרס גם אם עלה בגורל המספר 321 או 213, וכולי. מי שהימר על 747 יזכה גם אם יעלו בגורל 477 או 774, אבל מי שיהמר על 666 יזכה רק אם יעלה בגורל המספר 666. מה הסיכוי לזכות בהימור כזה? באתר מפעל הפיס כתוב (נכון להיום) כי הסיכוי הוא 1 ל-241.5. איך מחשבים את הסיכוי?

אפשר להתחיל לחשב (עמית גל  עשה את זה בבלוג שלו). אני בחרתי בגישה אחרת, גישת מונטה קרלו, שאדגים כאן מייד. זאת לבקשת הקורא עמית (האם זהו עמית גל?) באחת התגובות לרשימה על פריז ובעיית המחט של בופון.

כל אחד יכול לעשות את זה בבית. צריך פשוט לשחק את המשחק מספר רב של פעמים. אפשר לקחת קוביה מיוחדת עם 10 צדדים (לשחקני מבוכים ודרקונים יש קוביות כאלה), או לשים בתוך כובע 10 כפתורים זהים, שעל כל אחד מהם רשומה אחת הספרות 0 עד 9. מטילים את הקוביה (או מוציאים כפתור מהכובע ומחזירים אותו) 3 פעמים – זוהי הדמיה של הגרלת המספר של מפעל הפיס. אח"כ בוחרים באותו אופן את המספר עליו מהמרים. כעת אפשר לבדוק אם "זכינו". חוזרים על התהליך מספר רב של פעמים, ובודקים באיזה אחוז מהפעמים אכן זכינו. חוק המספרים הגדולים מבטיח כי אחוז הזכיות בניסוי שלנו יהיה קרוב מאוד להסתברות האמיתית. משפט הגבול המרכזי מבטיח כי ההפרש בין אחוז הזכיות בניסוי ובין ההסתברות האמיתית יהיה בסדר גודל של אחד חלקי שורש מספר הניסויים. למשל, אם רוצים דיוק של אחוז אחד, צריך לחזור על הניסוי 10000 פעם.

זה כמובן עלול להיות מאוד מייגע. ניתן כמובן, לכתוב תכנית מחשב שתבצע את התרגיל הזה. כתבתי אחת כזו (בשפת SAS, לחצו כאן לצפיה בקוד), וערכתי את הניסוי מליון פעם (למחשב המקרטע שלי לקח כמעט 10 שניות לבצע את כל החישובים). התוצאות בטבלה:

סוג המספר שנבחר על ידי מפעל הפיס מספר התוצאות מספר הזכיות הסתברות הזכיה יחס זכיה מקורב
3 ספרות זהות (למשל 666) 9902 6 0.000605938 1:1650
2 ספרות זהות (למשל 747) 269580 774 0.002871133 1:348
3 ספרות שונות (למשל 123) 720518 4314 0.0059873590 1:167
סך הכל 1000000 5094 0.0050940000 1:196

השורה התחתונה אומרת כי הסתברות לנחש את שלוש הספרות שנבחרו בסדר כלשהו היא 0.005094, שזה בערך 1 ל-196. החישוב של עמית גל הגיע לתוצאה של 1 ל-194.  בגדול, הפרסום המקורי של מפעל הפיס, לפיו סיכויי הזכיה הם 1 ל-200, היה נכון בקירוב. הפרסום הנוכחי מתאר סיכויי זכיה נמוכים יותר, ולדעתי הוא שגוי. עם זאת, גם עמית וגם אני לא לקחנו בחשבון כי מי שזוכה בפרס הראשון כבר לא זוכה בפרס השני (תודה לעמית על שהעיר את עיני על כך בתגובתו). המאורע "המהמר ניחש אתשלוש הספרות שנבחרו בסדר כלשהו" מכיל בתוכו את המאורע "המהמר ניחש את שלוש הספרות שנבחרו בסדר הנכון".  לכן, צריך להחסיר מההסתברות שקיבלנו, 0.005094, את ההסתברות לניחוש כל שלוש הספרות בסדר הנכון, 0.001, ולכן נקבל כי ההסתברות לזכיה בפרס השני, שהיא הסתברות המאורע "המהמר ניחש את שלוש הספרות שנבחרו, אך לא בסדר הנכון", היא 0.004094 בקירוב, כלומר בערך 1 ל-244, ערך קרוב למדי לערך המופיע באתר מפעל הפיס (1 ל-241.5).

מהי תוחלת הזכיה במשחק כזה? מי שיהמר על שקל, ירוויח 24 שקלים בהסתברות 0.005 בערך, ויפסיד שקל בהסתברות 0.995.  זה נותן תוחלת הפסד של 0.875 שקלים. במלים אחרות – מפעל הפיס משאיר בידיו  87.5% מכספי ההימורים במשחק הזה. ובכן, בחישוב התוחלת יש לקחת בחשבון את כל הפרסים והסתברויות הזכיה בהם. על כך אכתוב בקרוב רשימה נוספת.

שמירה על פרטיות בסקרים

סקרים הם כלי מתודולוגי חשוב ורב עצמה, בעיקר במדעי החברה. באמצעות דגימה נכונה של חלק קטן מהאוכלוסיה, ניתן לאסוף מידע על אודות האוכלוסיה כולה, ומאוחר יותר ניתן לתרגם את המידע הזה לידע ולמדיניות.

כל זה נפלא, אולם סקרים אינם כלי מושלם. הם חשופים להטיות רבות ולטעות סטטיסטית. כתבתי בבלוג רבות על אספקטים שונים של נושא הסקרים ולא אחזור ואפרט כאן את כל הדברים האלה. אתרכז רק בהטיה ספציפית אחת, ובפתרון שיש לסטטיסטיקה כדי להתגבר עליו.

אחת ההטיות הבעייתיות ביותר בסקרים היא חוסר הנכונות של הנסקרים שעלו במדגם להשיב לשאלות הסוקר. יש סיבות רבות לחוסר הנכונות הזו, ותאמינו או לא, אני בהחלט חושב שחלק מהסיבות הינן מוצדקות.

אחת הסיבות היותר מוצדקות לחוסר נכונות להשיב לשאלת סקר היא חשש הנסקר לפרטיותו. האם הייתם מוכנים לענות לסוקר, מכובד ככל שיהיה, לשאלות בדבר העדפותיכם המיניות? מה בקשר לשאלה המבקשת מכם לגלות אם עברתם על חוק כלשהו (גנבתם, השתמשתם בסם אסור, עברתם ברמזור אדום, העלמתם הכנסות)? או שאלה העוסקת במוסר האישי שלכם (האם בגדתם בבן/בת זוגכם? האם השתמשתם בשירותיה של זונה? האם רימיתם במבחן?)?

לא. אני לא חושב שהייתי שמח לענות לשאלות כאלה. עם זאת, המידע לגבי שיעור תופעות כאלה ואחרות באוכלוסיה חשוב מאוד. לכן, אין זה מפתיע שפותחו שיטות המאפשרות לנסקרים להגן על פרטיותם, ועדיין לענות בכנות וללא חשש לחשיפה לשאלות כאלה.

אחת השיטות היעילות הנפוצות היא שיטת "התשובה הרנדומלית" (Randomized Response). הרעיון בשיטה: לנסקר מוצגות שתי שאלות, והא בוחר אחת מהן באופן מקרי.שהנסקר משיב תשובת אמת לשאלה שעלתה בגורל, אבל הסוקר אינו יודע לאיזה שאלה שייכת התשובה שקיבל. עדיין, ניתן להפיק משקלול כל התשובות מידע יקר ערך.

זה נשמע מסובך, אבל מיד אציג שתי דוגמאות שיבהירו את הרעיון.

נניח שאני מעוניין לדעת מהו שיעור הנהגים המחטטים באף בעת המתנה ברמזור (מידע קריטי שעשוי למנוע תאונות דרכים רבות). אם אשאל את השאלה בצורה ישירה, סביר להניח כי התוצאה שתקבל תהיה נמוכה בהרבה מהשיעור האמיתי.

לכן אתכנן את הסקר כך שהתשובה של הנסקרים תהיה רנדומלית.

אבקש מכל נסקר להטיל מטבע. אם תוצאת ההטלה היא עץ, על הנסקר יהיה להשיב על שאלה סתמית: "האם יש לך אף?". ברור כי התשובה לשאלה זו תמיד חיובית. אם, לעומת זאת, תוצאת ההטלה תהיה פלי, אבקש מהנהג שעלה במדגם לענות האם הוא נוהג לחטט באפו בעת המתנה ברמזור, וכאן יש שתי תשובות אפשריות: "כן" או "לא".

לנדגם אין חשש לענות לי תשובה אמיתית.  גם אם יענה "כן", איני יכול לדעת אם הוא ענה לי "כן, יש לי אף" או "כן, אני מחטט באף". פרטיותו לא נפגעת. ואם ענה "לא", הרי שהצהיר כי אינו מחטט באף, וגם זו הצהרת אמת, שאינו חושש להצהיר.

נניח שבמדגם שלי היו 1000 נהגים, וקיבלתי 700 תשובות "כן" ו-300 תשובות "לא". כיוון שהסיכוי לקבלת עץ בהטלת מטבע הוא 50%, הרי שמתוך 1000 הנדגמים, כ-500 קיבלו עץ, והשיבו כי אכן יש להם אף. 200 תשובות "כן" אחרות הן של נהגים שהודו כי הם אכן חטטנים, ו-300 הצהירו כי אינם חטטנים. מכאן ש-200 מתוך 500 נדגמים השיבו בחיוב לשאלה השניה רבת המשמעות, ומסקנתי תהיה כי שיעור הנהגים המחטטים באף הוא 40%. כל זאת, כמובן, בהנחה כי היה שיתוף פעולה מלא מצד הנסקרים.

הדוגמא פשטנית אך מבהירה את העקרון. יש כאן, כמובן, גם שתי טעויות סטטיסטיות. האחת נובעת מהדגימה הראשונית של 1000 הנהגים מתוך האוכלוסיה הכללית; השניה נובעת מהטלת המטבע, שקובעת את תת-המדגם של הנהגים שמשיבים לשאלה השניה. בטעויות סטטיסטיות, בניגוד להטיות שיטתיות, ניתן לשלוט על ידי קביעה מתאימה של גודל המדגם, ובכך להבטיח את שולי הטעות ("הפלוס/מינוס" המפורסם) הרצויים.

לטכניקה שהוצגה יש שני חסרונות: קודם כל, חצי מהמדגם מתבזבז על תשובה לשאלה סתמית. שנית, לגבי חלק מהנדגמים (אלה שהשיבו "לא") ניתן לדעת על איזה שאלה ענו. הנדגמים יודעים זאת, וזה עדיין עלול ליצור הטיה במדגם.

על החסרון השני ניתן להתגבר על ידי הצגה של שאלה סתמית עם שתי תשובות אפשריות, כמו "האם צבע העיניים שלך הוא כחול?" או "האם ספרת הביקורת של ממספר ת.ז. שלך היא זוגית?". אבל אם כך, מדוע לא להחליף את השאלה הסתמית הראשונה בשאלה משמעותית, כך שעדיין לא יהיה ניתן לדעת לאיזה שאלה ענה הנדגם?

הדבר אפשרי בהחלט.

נציג לנסקרים שתי שאלות:

שאלה 1: האם הנך נוהג לעשות משהו איום ונורא?

שאלה 2: האם אינך נוהג לעשות משהו איום ונורא?

תשובה חיובית מנדגם מסויים לא תיתן לנו כל אינפורמציה, כי איננו יודעים לאיזה שאלה ענה! אבל אנחנו יכולים לדעת באיזה הסתברות ענה לשאלה הראשונה ובאיזה הסתברות ענה לשאלה השניה, ובעזרת מידע זה לדעת את שיעור הנוהגים לעשות מעשה איום ונורא.

נבקש מכל נדגם להטיל מטבע פעמיים. אם שתי התוצאות יהיו עץ, נבקש ממנו לענות לשאלה הראשונה. אם לפחות אחת ההטלות תהיה פלי, נבקש מהנדגם לענות על השאלה השניה. (מסיבות טכניות ההסתברויות חייבות להיות שונות. רנדומיזציה של 50:50 לא תעבוד. המתמטיקה לא מסובכת, אבל אני נמנע מהדיון הטכני).

ועכשיו לטריק: בואו נניח שגודל המדגם הוא 1000 איש, ושאחוז אלה שנוהגים לעשות משהו איום ונורא  באוכלוסיה (ובמדגם המייצג) הוא 30%. מתוך 1000 איש, 250 (בתוחלת, כלומר, באופן תיאורטי) יקבלו עץ בשתי הטלות המטבע. כיוון ש-30% מהם נוהגים לעשות משהו איום ונורא, נקבל 0.3×250=75 תשובות "כן" מהקבוצה הזו. שאר 750 הנדגמים יענו "כן" אם אינם נוהגים לעשות משהו איום ונורא. שיעורם הוא 70%, ולכן מבין אלה שהטילו מטבע ולא קיבלו פעמיים עץ נקבל  0.7×750=525  תשובות "כן". בסך הכל נקבל לכן 75+525=600 תשובות "כן".

את התרגיל הזה אפשר לעשות גם מהסוף להתחלה, ולהסיק כי אם התקבלו 600 תשובות "כן", אז שיעור האנשים הנוהגים לעשות משהו איום ונורא הוא 30%.

באופן כללי יותר (וכאן אעבור לנוסחאות, אז תרגישו חופשי לדלג): אם נסמן את גודל המדגם ב-N, את שיעור אלה שנוהגים לעשות משהו איום ונורא באות P, ואת מספר תשובות ה-"כן" באות Y, אזי

Y/N=0.25xP + 0.75x(1-P)

ומכיוון שערכם של Y ושל N ידוע לנו, ניתן לפתור את המשוואה ולמצוא את P.

איך לשקר בעזרת סטטיסטיקה

ב-1954 יצא לאור ספרון בן 142 עמודים לא גדולים, עם הרבה ציורים, שהפך לרב מכר עולמי. למעשה, זהו ספר הסטטיסטיקה הנמכר ביותר בכל הזמנים. כותרתו: How to lie with Statistics"".

מחבר הספר, דארל האף, לא היה כלל סטטיסטיקאי. הוא היה עיתונאי בהכשרתו, ובשיא הקריירה העיתונאית שלו היה עורך המגזין "Better Homes and Gardens". עם זאת, חוסר ההשכלה הסטטיסטית של האף לא מנעה מהספר להפוך לטקסט קלאסי. כאשר סטטיסטיקאי אומר לכם על תרגיל הטעיה סטטיסטי כלשהו כי זה "תרגיל מהספר", הוא מתכוון לספר הזה.

את הספר הזה פגשתי לראשונה כאשר הייתי סטודנט צעיר לסטטיסטיקה בירושלים. העותק שבספריה היה ישן וצהבהב. כבר אז היה מדובר בטקסט בן 30 ומשהו שנים. אולם אז, וגם היום, הטקסט רלוונטי. קראתי אותו בהנאה רבה, ושילבתי דוגמאות שלקחתי ממנו בקורסים שלימדתי במשך השנים. ספר זה גם מהווה עד היום השראה לבלוג שאני כותב. למעשה, אני יכול לומר כי לספר זה הייתה השפעה רבה להתפתחותי כסטטיסטיקאי וכספקן, ובזכותו, בין היתר, פיתחתי את המיומנות לקרוא טקסטים בצורה ביקורתית ולנסות לגלות אם ואיך מנסים לעבוד עלי. כמובן, למי שקרא את הספר הזה זה הרבה יותר קל.

למרות ההתקדמות הרבה בתחום הסטטיסטיקה בשנים שעברו מאז יציאתו לאור, תחום ההונאה בעזרת סטטיסטיקה לא התפתח באותו קצב. רוב ההונאות נעשות בעזרת אותן טכניקות המתוארות בספר.

להלן סקירה קצרה מאוד של תכני הספר, או טכניקות עבודה בעיניים שתוארו בו: מדגמים מוטים, מדדים תיאוריים לא מתאימים (זוכרים את המנהל והפועלים?), הסתרה של פרטים משמעותיים (למשל: התוצאה מתבססת על סקר שנערך בקרב 12 איש)  הבלטה של תוצאות חסרות משמעות, עיוות של גרפים, אינטרפרטציה לא נכונה או מטעה של התוצאות, וכמובן, הסקת סיבתיות בעקבות מתאם.

בעזרת שילוב כל השיטות הללו מתקבלת "סטטיסטיפולציה", והאף דן בשאלה המתבקשת" האם סטטיסטיפולציה היא תוצאה של הטעיה מכוונת או פשוט תוצאה של חוסר ידע והבנה? לדעת האף, ברוב המקרים סטטיסטיפולציות הינן מכוונות, ומטרתן להטעות ביודעין.

הפרק האחרון בספר מסביר כיצד ניתן לנסות ולהתמודד עם הסטטיסטיפולציות האלה, ודן בנושאים המכוסים היום בכל קורס או ספר העוסק בחשיבה ביקורתית. ניתן לסכם את הגישה של האף בחמש שאלות שכל אחד חייב לשאול כאשר מוצג בפניו מידע כלשהו:

  • מי אמר את זה?
  • איך הוא יודע?
  • מה חסר?
  • האם מישהו שינה את הנושא?
  • האם כל זה הגיוני?

בעקבות הצלחת הספר כתב האף עוד שישה ספרים שעוסקים במה שמכונה היום "אוריינות כמותית" ("quantitative literacy"), הידוע שבהם הוא "How to take a chance", אך הם הצליחו פחות מאחיהם הגדול.

כשאר מלאו 50 שנה ליציאת How to lie with Statistics לאור, הקדיש לו כתב העת Statistical Science גליון מיוחד. במאמר הסוקר את הספר ומחברו (קישור לקובץ pdf), מפרט ג'יי מייקל סטיל מאוניברסיטת פנסילבניה את הסיבות להצלחתו רבת השנים.

הסיבה הראשית להצלחה היא הכותרת הפרובוקטיבית שלו. סטטיסטיקאים לא ממש אוהבים אותה, אבל מה לעשות, אנשים משקרים בעזרת סטטיסטיקה על בסיס קבוע (אם כי יש גם טכניקות אחרות להפצת שקרים, כמו שימוש בעברית או אנגלית, למשל). אילו היה הספר נקרא "מבוא לסטטיסטיקה" (והוא אכן מבוא לסטטיסטיקה), כמה עותקים היו נמכרים?

האיורים שבספר (וכמובן המאייר, אירווינג גייס) השביחו אותו מאוד. הקלישאה "תמונה אחת שווה אלף מלים" מוצדקת מתמיד על ידי הספר הזה. גם מי שלא אוהב לקרוא יוכל להבין בכף את המסרים שבספר, פשוט על ידי הסתכלות בתמונות.

הסגנון הקליל והרענן שבו כתוב הספר בודאי לא הזיק. היום, ספרי הדרכה כמו "Idiot guide to…" ו-"ABC for Dummies" נפוצים למדי, אך ב-1954 זה היה חידוש כביר. האף הוכיח כי ניתן לכתוב על נושא רציני ומאתגר כסטטיסטיקה בשפה שווה לכל נפש.

אבל למרות הכותרת, האיורים והשפה הקלילה, הספר לא היה שורד זמן כה רב כטקסט קלאסי אלמלא התוכן המצוין שהוא מכיל (שכבר סקרתי למעלה). אני מאמין שבשנת 2054 הספר הזה עדיין יהיה ראוי לגליון מיוחד של Statistical Science, לציון 100 שנה ליציאתו לאור.

על אנדרו ארנברג ועבודת הדוקטורט שלי

לפני מספר ימים הופיעה בפיד החדשות של האגודה המלכותית לסטטיסטיקה הודעה כי אנדרו ארנברג הלך לעולמו, בגיל 94. מי? אתם בודאי שואלים, אולם האיש ועבודתו מוכרים לי היטב, ובילדותי קראתי רבות בספרו הקלאסי על קניות חוזרות ובמאמרים שפרסם על הנושא.

ארנברג נולד בגרמניה בשנת 1926 למשפחה מרובת פרופסורים. ב-1938 נמלטה המשפחה מגרמניה לאנגליה. ארנברג למד סטטיסטיקה באוניברסיטת קיימברידג'. במקביל לפיתוח קריירה אקדמית כמרצה לסטטיסטיקה וחוקר, עסק בייעוץ לחברות בתחום המחקר השיווקי, ותוך כדי כך פיתח מתודולוגיות לניתוח נתונים שיווקיים, ולמעשה ייסד את התחום הידוע כיום כ-Marketing Science. היישום של המודלים שפיתח התפשט גם לתחומים אחרים, בעיקר במדעי החברה. ב-1970 נתמנה ליושב ראש המחלקה לשיווק של הלונדון ביזנס סקול. הוא נחשב לאחד מחלוצי המחקר הכמותי במדעי החברה.

אני התעניינתי בעיקר בעבודתו של ארנברג בתחום התנהגות הצרכנים, ובעיקר במודלים שלו לניתוח דפוסים של קניות חוזרות והערכת נאמנות הצרכנים. הסיבה להתעניינותי: רציתי לכתוב עבודת דוקטורט על הנושא.

Andrew Ehrenberg

אנדרו ארנברג (1926- 2010)

אתאר בקצרה את הבעיה. אנו מתבוננים בשוק למוצר מסויים, נניח קפה נמס מיובש בהקפאה. בשוק קיימים כמה מותגים של קפה כזה, אולי 5 או 6. אם ניקח מדגם של צרכנים, ונבדוק איזה מותגי קפה נמס הם קנו בשתי קניות רצופות, נוכל להציג אותם בטבלה דו מימדית בגודל 5×5 (למשל). לדוגמא, נגלה כי X צרכנים קנו קפה של חברת גלית בשתי קניות רצופות, Y צרכנים קנו קפה של חברת אסתר צ'ויס בשתי קניות רצופות, Z צרכנים קנו קפה גלית, ובפעם הבאה קנו קפה אסתר צ'ויס, וכולי.

כדי לנתח נתונים כאלה ולהסיק מהן מסקנות (רצוי שימושיות), יש צורך לבנות מודל הסתברותי שיתאר את הקניות של הצרכנים, ומעל המודל הזה לבנות מודל סטטיסטי. התחום הכללי של ניתוח נתונים מהסוג הזה ידוע בשם "ניתוח לוחות שכיחות".

אבן הפינה בתיאוריה של ארנברג היה "מודל דיריכלה". המודל מיישם למעשה את ההתפלגות הקרויה של שם המתמטיקאי הגרמני  דיריכלה (שהיא גירסה רב מימדית של התפלגות ביתא) לנתוני הקניות של הצרכנים. המודל הזה כלל פרמטר לכל מותג ופרמטר נוסף, כללי. כלומר, אם מדובר בשוק בו מתחרים 5 מותגי קפה, למודל יש 6 פרמטרים. לפרמטרים של המותגים יש אינטרפרטציה ברורה – הם מייצגים את נתחי השוק של כל אחד מהמותגים, או במלים אחרות, את ההסתברויות שצרכן יקנה את כל אחד מהמותגים. האינטרפרטציה של הפרמטר הנוסף, הכללי, פחות ברורה. מבחינה סטטיסטית, הוא מדד להטרוגניות של אוכלוסיית הצרכנים, כלומר, הוא מודד עד כמה ההסתברויות לקניית כל מותג שונות בין צרכן לצרכן. האינטרפרטציה השיווקית הייתה קצת פחות ברורה. האם הוא מייצג את מידת הנאמנות שמפגינים הצרכנים למותגים השונים ("אני שותה רק קפה גלית!")? התשובה, על פי התובנות שהגעתי אליהן מאוחר יותר, היא פרסית משהו: כן ולא. בכל מקרה, קהילת חוקרי השיווק באמצע שנות התשעים של המאה הקודמת האמינה כי נאמנות היא ביטוי לנתח שוק. ככל שלמותג יש נתח שוק גדול יותר, האמינו, כך הקונים שלו נאמנים אליו יותר.

כדי לקבל דוקטורט היה עליי להציג גישה אחרת שתביא לתובנות חדשות ולחידושים מתודולוגיים. גם אני רציתי לבנות מודל עם N+1 פרמטרים: פרמטר אחד לכל מותג, ופרמטר נוסף התלוי באוכלוסיה.

ההנחה היסודית שהנחתי היא שהחלטת קניה של צרכן מבוססת על גורמים התלויים במותגים עצמם (כגון טעם הקפה, מחירו, וכדומה) ועל גורמים התלויים בצרכן (כאן חשבתי בעיקר על נטייה לשמרנות/נאמנות מול נטייה לחדשנות/גיוון).

רציתי לבנות מודל בו כל תכונות המותג ימוצו בפרמטר אחד, שמאוחר יותר כיניתי אותו בשם ה-"אטרקטיביות של המותג". הפרמטר הנוסף היה אמור לבטא את מידת הנאמנות/נטיה לקניה חוזרת של אוכלוסיית הצרכנים הנחקרת.

השלב הבא היה להגדיר תכונות מתמטיות שמודל כזה צריך לקיים. למשל, דרשתי שככל שערכו של פרמטר הנאמנות גדול יותר, אז ההסתברות לקניה חוזרת של אותו מותג (ולא משנה איזה מותג) תגדל. במלים מתמטיות, ההסתברות לקניה חוזרת צריכה להיות פונקציה מונוטונית עולה של פרמטר האוכלוסיה. דוגמא לתכונה נוספת שדרשתי: אם למותג אחד אטרקטיביות גבוהה ולשני אטרקטיביות נמוכה, אז ההסתברות שקונים יעברו מהמותג עם האטרקטיביות הנמוכה לזה עם האטרקטיביות הגבוהה תגדל.

כעת יכלתי להציג משפחת מודלים אפשרית שתקיים את כל התכונות הנאות שדרשתי. המחיר ששילמתי תמורת קיום כל התכונות היה מודל פחות חסכוני. המודל שלי כלל 3N+1 פרמטרים לעומת N+1  פרמטרים במודל דיריכלה. הפרמטרים הנוספים היו "פרמטרי סרק", אם כי ניתן היה לתת להם אינטרפרטציה של שיקוף נתחי השוק של המותגים. ראוי לציין כי משפחת המודלים שהצגתי הייתה מבוססת על מודל RC שפותח על ידי ליאו גודמן, מחלוצי המחקר של שיטות הניתוח ללוחות שכיחות, וכמובן הסתייעתי רבות במורי ורבי, צבי גילולה, שהיה המדריך שלי לעבודת הדוקטורט.

המחיר ששילמתי הינו כדאי. אם המודל נכון/מתאים, מנהלי השיווק של המותגים יקבלו לידיהם מידע רב ערך. הם יוכלו להסיק מיהם המתחרים שלהם בשוק (אותם מותגים עם אטרקטיביות דומה למותג שהם מנהלים), ולנקוט פעולות כדי להעלות את האטרקטיביות שלהם ביחס למתחריהם. המידע על נאמנות הצרכנים יוכל להנחות אותם במידת האגרסיביות שעליהם לנקוט (באוכלוסיה נאמנה צריך להתאמץ קשות כדי לגנוב לקוח מהמתחרה, ואולי זה אפילו בלתי אפשרי. אבל אם מצליחים, הלקוח החדש נשאר אצלך). יש כאן שינוי קונספטואלי. חברות רבות משקיעות משאבים רבים במה שהן מכנות "בניית נאמנות צרכנים". על פי התיאוריה שלי, אין חיה כזו. הפעילויות ל-"הגברת הנאמנות" שמבצעות החברות הן למעשה פעילויות המגדילות את האטרקטיביות של המותג שלהן לעומת המותגים המתחרים.

בנוסף, פיתחתי מדדים כמותיים למושג של נאמנות צרכנים, וכעת ניתן היה "לשים" את אוכלוסיית הצרכנים על רצף שהתחיל בנאמנות (loyalty), ועבר דרך מצב ביניים של non-loyalty עד למצב הקיצוני של חוסר נאמנות (disloyalty), בו צרכנים מעדיפים במודע לקנות בכל פעם מותג אחר.

כאשר יישמתי את המדדים האלה למודל הדיריכלה של ארנברג, הופתעתי לגלות שהמודל לא מאפשר מצבים של disloyalty ואפילו לא non-loyalty, אלא מצבי נאמנות בלבד. זה לא אומר שמודל דיריכלה לא נכון. הוא שימושי במקרים בהן קיימת נאמנות צרכנים. ההצלחה האמפירית שלו מעידה לדעתי על כך שברוב השווקים אכן קיימת נאמנות צרכנים, כלומר, צרכנים בדרך כלל נוטים לחזור ולקנות את אותו המותג אליו הם רגילים.

על הדרך פיתחתי שיטת אמידה חדשה לפרמטרים (שילוב של ML ו-IPR), שהייתה ישימה גם למודל דיריכלה. שיטה זו אפשרה גם הסקה סטטיסטית על הפרמטרים של המודל (בדיקת השערות בניית רווחי סמך), בניגוד למתודולוגיה של ארנברג שהייתה תיאורית בעיקרה. כמו כן הראיתי איך אפשר להשתמש במודל כדי לנתח נתוני קניה שנאספו במשך זמן ארוך יותר, ולחזות בעזרתם את התנהגות הצרכנים בעתיד.

עבודת הדוקטורט שלי הוגשה ב-1996 ואושרה סופית כשנה לאחר מכן. על סמך העבודה קיבלתי משרת פרופסור אורח בבית הספר לניהול Kellogg של אוניברסיטת נורתווסטרן. עם זאת, התגובות בקהילת המחקר השיווקי היו פחות נלהבות מהתגובות בקרב הסטטיסטיקאים. לאחר סיום המינוי שלי בנורתווסטרן עבדתי שנה בחברה שעסקה במחקר שיווקי בתעשיית שירותי הבריאות, ואח"כ עזבתי את התחום ופניתי לתחום של ניסויים קליניים וביוסטטיסטיקה.

כמה מצלמות אבטחה יש בבריטניה?

הנושא ישן (כפי שהתברר לי). הגעתי אליו משני כיוונים שונים. במגזין כלכליסט מהשבוע שעבר הובא ראיון עם נביא זעם בשם ג'ון קמפנר, שדן ב-"עיסקה הפופולרית בעולם", לדבריו, "במסגרתה אנחנו מוכרים את כל החירויות שלנו רק כדי לשמור על החופש להרוויח". דבריו של קמפנר אכן מעוררים מחשבה, וראויים לדיון נפרד, אבל אני רוצה להטפל רק לדוגמא אחת שהובאה בכתבה (כנראה על ידי הכתב אורי פסןבסקי, ולא על ידי קמפנר עצמו). בבריטניה, נטען, יש כ-5 מליון מצלמות אבטחה, מצלמה אחת לכל 12 תושבים. האח הגדול כבר כאן.

הידיעה הזו אינה חדשה. כבר ביולי 2008 דיווח יוסי גורביץ בכלכליסט כי "4.2 מיליון מצלמות במעגל סגור מותקנות בבריטניה, מצלמה על כל 14 תושבים". עברו שנתיים, נוספו עוד 800,000 מצלמות. נשמע הגיוני.

לנושא הזה הגעתי גם מכיוון אחר לגמרי. בכנס בואנקובר בו הייתי בשבוע שעבר חילקה הוצאת וויילי חוברות ישנות של המגזין Significance , שמוציאה לאור האגודה המלכותית לסטטיסטיקה (החל מהחודש, בשיתוף עם האיגוד האמריקני לסטטיסטיקה, וכך נעשיתי למנוי על המגזין). בחוברת של דצמבר 2009 הובאה כתבתה של אליס טרלטון  מערוץ 4 של ה-BBC, שכותרתה: "כמה מצלמות אבטחה?". הכתבה זכתה בפרס למצויינות סטטיסטית בעיתונות המוענק על ידי האגודה המלכותית לסטטיסטיקה. הלינק האחרון מוביל לכתבה באתר של ערוץ 4. אני אתאר מייד את עיקר הממצאים.

ובכן, איך הגיעו למספר של 4.2 מליון מצלמות אבטחה?

הכל התחיל במאמר שפרסמו ביוני 2002 שני חוקרים (קישור לקובץ pdf), מייקל מקהייל מאוניברסיטת האל וקלייב נוריס מאוניברסיטת שפילד. כל מה שצריך זה לקרוא את המאמר, וזה בדיוק מה שעשתה טרלטון. החוקרים סקרו שני רחובות מרכזיים בלונדון: Putney High Street (פוטני) ו-Upper Richmond Road (ריצמונד). הם דגמו 211 בתי עסק בשני הרחובות, ומצאו כי ב-41% מהם מותקנות מצלמות אבטחה, ובממוצע יש בכל מערכת 4.1 מצלמות. בלונדון יש כרבע מליון בתי עסק. הכפלה של 3 מספרים נתנה תוצאה של כ-422 אלף מצלמות. למספר זה הוסיפו החוקרים את הערכתם למספר המצלמות הנמצאות באזורים ציבוריים : רחובות, תחבורה ציבורית, בתי חולים וכו'. הם העריכו את מספרן של מצלמות אלה (והשתמשו בפירוש במילה "guesstimate" – שילוב של אמדן וניחוש) בכ-80 אלף, וכך הגיעו למספר כולל של כחצי מליון מצלמות בלונדון. ומכיוון שבלונדון יש כ-7 מליון תושבים, המסקנה היא שיש בלונדון מצלמת אבטחה אחת לכל 14 תושבים. ואם זה בלונדון, זה גם בכל בריטניה, לא?

אז זהו, שלא.

קודם כל, יש לשים לב לשונות בין שני הרחובות שנסקרו. ברחוב פוטני נמצאו מצלמות ב-49% מבתי העסק, בריצמונד ב-34% בלבד. ייתכן כי רחוב ריצמונד הוא המייצג את המצב בלונדון, ואז נופלת הערכת מספר המצלמות בלונדון ב-30%, ל-350 אלף מצלמות בלבד. מצד שני, ייתכן כי דווקא רחוב פוטני הוא המייצג, ואז ההערכה של מצלמה ל-14 תושבים היא הערכת חסר. מה שיותר סביר הוא ששני הרחובות האלה גם יחד אינם מהווים מדגם מייצג מספיק. קל לברר, וטרלטון עשתה זאת, כי תמהיל העסקים בשני הרחובות האלה שונה מהותית מתמהיל העסקים הכללי בלונדון. ה"מדגם" לא ממש מייצג. מה ששני החוקרים קיבלו הוא לכל היותר הערכה של מספר המצלמות בשני הרחובות שסקרו (בהנחה שמדגם בתי העסק שלקחו ברחובות האלה היה מייצג). האקסטרפולציה שעשו משם אל לונדון, ואח"כ אל כל הממלכה המאוחדת, לא ממש ולידית.

טרלטון מצאה דרך אחרת להעריך את מספר מצלמות האבטחה בבריטניה. היא פנתה אל קבוצת משתמשי מצלמות האבטחה בבריטניה. הם הודו שהם לא יודעים את המספר המדויק, אך העריכו (שוב guesstimate) כי מספרן הוא לא יותר ממליון ורבע בכל בריטניה.

ואנקובר – סיכום הכנס

הכנס נגמר היום (כאן עדיין יום חמישי), ורגע לפני הטיסה חזרה לארץ, הנה סיכום של הצד המקצועי של הכנס.

יום ראשון

היום הזה היה אמור להיות מוקדש כולו לקורס בכריית נתונים (data mining). הקורס היה מאכזב מאוד. שלושת המרצים עברו על השקפים שהכינו במהירות הבזק, אבל גרוע מכך – לא ממש תרמו לידע שלי. הם הקדישו זמן רב להסברים מדוע הנושא חשוב (אני יודע שזה חשוב, אחרת לא הייתי נרשם לקורס הזה), הרבה באזוורדס עפו באוויר, והוקדש המון המון זמן לרגרסיה לוגיסטית. רגרסיה לוגיסטית! זה קורס לסטטיסטיקאים מקצועיים, כמעט כולם בעלי תואר שני לפחות, אם לא שלישי. ציפיתי למשהו יותר מתוחכם. רגרסיה לוגיסטית אני יודע מהבית. לפני היציאה להפסקת צהריים הודיע המרצה הראשי כי סקירת החומר של הקורס הסתיימה, ושאר זמן הקורס (אחרי ההפסקה) יוקדש להדגמה של תוכנות שונות, "בעיקר SAS". ויתרתי על ההמשך. הייתי צריך לדרוש את כספי בחזרה.

מעז יצא מתוק. אחרי הצהריים הלכתי לשמוע מושב הרצאות בנושא אמידת משך חיי המדף (כלומר תאריכי התפוגה) של תרופות, תחום שאני עוסק בו רבות. המושב התחיל בסקירה של השיטה הנוכחית לקביעת תאריך התפוגה המוכתבת על הרשויות הרגולטריות, והבעייתיות שבשיטה זו. הבעיה העיקרית היא שהשיטה הנוכחית נותנת אמדן חסר של משך חיי המדף, ובמלים אחרות – חלק גדול מהתרופות עדיין טובות לשימוש זמן רב (בחלק מהמקרים שנים רבות) אחרי שעבר תאריך התפוגה הרשמי שלהם. זה אולי טוב לרשויות, אבל רע לכל השאר: לחברות התרופות, לצרכנים באופן ישיר, ולמי שמממן את העלויות של השלכת תרופות טובות לפח: חברות ביטוח, קופות חולים, ממשלות – וחלק נכבד מהעלויות האלה שוב מתגלגלות לצרכנים. בהמשך הוצגו דרכים בהם מנסים להתמודד עם הבעיה (שיחות בין חברות התרופות לרגולטורים), ושיטות סטטיסטיות חדשניות להערכת תאריכי התפוגה.

משם המשכתי למושב שעסק בתכנון ניסויים קליניים שלב I, המיועדים לזיהוי המינון המקסימלי האפשרי של תרופה חדשה (מה שנקרא בז'רגון MTD, ראשי תיבות של Maximal Tolerated Dose). היה מעניין למדי, זה תחום שאני לא ממש עוסק בו ולכן גם לא מתמצא.

יום שני

את היום הזה התחלתי  בהרצאת סקירה שנשאה את הכותרת היומרנית "כיוונים עתידיים בניתוח נתוני גנום". ההרצאה הייתה מאכזבת. שני מרצים עם מבטאים נוראיים (אוסטרלי וסיני), שנתנו מצד אחד סקירה בסיסית ביותר של מבנה הגנום והדנ"א, התעכבו רבות על פרטים טכניים הקשורים לטכניקות של sequencing, ולא ממש פירטו מהם הכיוונים העתידיים. אה. הם אמרו שהמטרה היא לזהות גנים הקשורים למחלות.

המושב השני של אותו יום היה מושב לזכרו של הסטטיסטיקאי ג'ק גוּד (Good), שנפטר לפני מספר חודשים בגיל 91. שמעתי את שמו פעם, אולם לא הכרתי את עבודתו. הלכתי לשם בעיקר בגלל שאחד הדוברים היה סטיב פיינברג, שאת ספריו על ניתוח נתונים קטגוריים קראתי בשקיקה בצעירותי. מהר מאוד הבנתי למה לא הכרתי את פועלו של גוּד. הוא היה סטטיסטיקאי בייסיאני, ולא סתם סטטיסטיקאי בייסיאני, אלא אחד המייסדים של האסכולה, ולדידו אין סטטיסטיקה אחרת מלבד הבייסיאנית. שלושה מהמרצים היו חברים של גוּד (גוּד היה גם מדריך הדוקטורט של אחד מהם), והם סיפרו אודות עבודתו וחייו. הופתעתי, למשל, לגלות כי גוּד היה עבד בצוותא עם אלן טיורינג ביחידת פענוח הצפנים בבלצ'לי פארק במהלך מלחמת העולם השניה. ההרצאות היו מרתקות. אני בהחלט מתכוון לנסות להכיר עוד את האיש ופועלו, ואולי גם לקרוא את אחד מספריו.

אחר הצהריים הייתי במושב שעסק בתכנון וניתוח של ניסויי bioassay. ההרצאות היו טכניות מאוד, אבל בהחלט לא משעממות (זהו עוד תחום שאני עוסק בו, אז אני קצת משוחד).

יום שלישי

כל היום הזה הוקדש לקורס על שיטות לניתוח ניסויי Genome-Wide Association, הידועים בשמם המקוצר GWAS. הקורס היה מצויין. ההסברים על הרקע הביולוגי היו בהירים ולא-טכניים. המרצים הסבירו היטב את כל השיטות הסטטיסטיות הבסיסיות (שאני מכיר חלקית), ודנו בהרחבה במגוון שיטות לניתוח נתונים קטגוריים (שהן הלחם והחמאה של הקורס). גירדתי את החלודה מהידע שלי בתחום והופתעתי לגלות שאני עדיין זוכר לא רע את העקרונות (הדוקטורט שלי עסק בניתוח נתונים קטגוריים, ופעם שלטתי היטב ברזי המודלים הלוג-לינאריים). התחום גם התפתח מאז שסיימתי את הדוקטורט (לפני כמעט 15 שנה), ושמחתי לראות חלק מההתפתחויות בתחום – כולל גישות בייסיאניות. אני לא מגדיר את עצמי כסטטיסטיקאי בייסיאני, אבל בהחלט מוכן לנסות את השיטות האלה, מה גם שהמרצה שהציג את השיטת האלה נתן הצדקות טובות לשימוש בהן.

יום רביעי

המושב הראשון בו הייתי היה מושב לזכרו של אריק להמן, שנפטר לפני 11 חדשים, בגיל 92. אלמנתו של להמן, ג'ולי שפר, סטטיסטיקאית בזכות עצמה, סקרה את תרומותיו של בעלה לתחום ההשוואות המרובות, והראתה כיצד עבודותיו משנות החמישים של המאה הקודמת, שנדחקו מאוחר יותר לשוליים עם התקדמות המחקר בתחום, חזרו ונעשו רלוונטיות בשנים האחרונות לאור התקדמויות נוספות במחקר (בייחוד עלייתה של שיטת ה-FDR). פיטר ביקל, תלמידו של להמן ואחר כך עמיתו באוניברסיטת ברקלי, סקר את עבודתו לאורך השנים. את המושב נעל פרסי דיאקוניס, בהרצאה נפלאה על חשיבותו של המחקר בתיאוריה הסטטיסטית.

בחלק השני של הבוקר נכחתי במושב טכני אך חשוב שעסק בשיטת לניטור ניסויים קליניים.

את אחר הצהריים ביליתי באופן לא צפוי לחלוטין: הלכתי למושב שעסק בשיטות בייסיאניות לפיתוח פרמצבטי ומחקרים קליניים. ללא ספק, המושב לזכרו של גוּד והשיטות הבייסיאניות לניתוח נתונים קטגוריים אליהן נחשפתי ביום שלישי השפיעו עלי. היה מעניין.

יום חמישי

היום האחרון של הכנס – בו היו שני מושבים בלבד (הכנס ננעל בצהריים). המושב בראשון עסק בעוד תחום בו אני עוסק רבות – חישוב והערכה מחדש של גדלי מדגם (כתבתי על כך לפני כשנה). המושב השני של הבוקר עסק ב-GWAS, ובו הוצגו כמה מחקרים חדשים בתחום.

מקבץ 3

במקבץ השבוע גם כמה קישורים מהשבוע הקודם שנדחו בגלל פול התמנון.

  • ב-7 ביולי צוין יום השנה ה-104 להולדתו של הסטטיסטיקאי וחוקר תורת ההסתברות ויליאם פלר. צייצתי את המאורע בתוספת הערה כי "מי שלא ציטט את ספרו של פלר בעבודת המאסטר או הדוקטורט שלו, לא באמת עשה תואר בסטטיסטיקה". טוב, אולי קצת הגזמתי, אבל הספר אכן מצוטט בעבודת המוסמך שלי.
  • כאשר ערכתי את רשימת 15 הסטטיסטיקאים הגדולים כללתי בה 5 סטטיסטיקאים חיים.  אחד מהם הלך לעולמו ב-8 ביולי, בגיל 91. דויד בלקוול, בנו של פועל רכבת מדרום אילינוי, אשר לימד את עצמו לקרוא, הפך לאחד הסטטיסטיקאים המשפיעים ביותר במאה העשרים. בלקוול חקר גם את תורת המשחקים, וכתב ספר לימוד פופולרי בתחום. ויליאם בריגס כותב גם הוא בבלוג שלו על בלקוול, ומתאר שם את פתרונו של בלקוול לבעית ההימורים הידועה כ-"פרדוקס סנט-פטרסבורג".
  • נניח שאתם מתכנתים קוד מחשב. ודאי שיש בו באגים. איך תדעו כמה באגים יש בו? ג'ון ד. קוק מסביר בבלוג שלו איך לעשות את זה: אפשר לבקש ממישהו לבדוק את הקוד. נניח שימצא 20 באגים. זה אומר שיש בקוד לפחות 20 באגים, אבל לא מקדם אתכם הרבה. הפתרון – לתת לעוד מישהו לבדוק את הקוד. סביר להניח שימצא חלק מהבאגים שמצא הבודק הראשון, ואולי גם יעלה על באגים אחרים. עכשיו, בעזרת קצת סטטיסטיקה, תוכלו לאמוד את מספר הבאגים שנמצאים ועדיין לא התגלו.
  • בהמשך לפול התמנון: האם העובדה כי מישהי זכתה ארבע פעמים בלוטו "סותרת את כל הסטטיסטיקות"? ממש לא.
  • חובבי הבייסבול יודעים כי קבוצת פיטסבורג פיראטס היא אחת הקבוצות החלשות ביותר בליגת הביססבול האמריקנית (MLB). ובכל זאת, הליגה מציעה לאוהדים לרכוש אופציה לרכישת כרטיס למשחק השביעי של הפיראטים  בסדרת הגמר (ה"וורלד סירייס"), אם יהיה משחק כזה, כמובן. האם כדאי לקנות את האופציה? ואם כן, האם המחיר המוצע "משתלם"? בלוג הבייסבול FanGraphs מציג שילוב של ניתוח סטטיסטי וכלכלי, עם הסבר נאה למושג התוחלת ומשמעות האופציה.

מקבץ

מי שעוקב אחרי הבלוג הזה בטח כבר שם לב שלאחרונה אין לי כח לכתוב פוסטים מושקעים, עקב עייפות החומר והרוח. זה לא אומר שהבלוג הולך למות, ואני בהחלט מקווה לחזור ולכתוב בהרחבה על נושאים שברומו של הבלוג.

זה לא אומר שנעלמתי לחלוטין. מי שעוקב אחרי בטוויטר רואה את הגיגיי ולינקים שונים שאני מפרסם. מאחר ואני יודע כי כאן בבלוג יש יותר קוראים מאשר עוקבים בטוויטר, הנה מקבץ לינקים שפרסמתי בזמן האחרון, שעוסקים בעיקר בשלושה נושאים: סטטיסטיקה, כדורגל (לכבוד המונדיאל), וסטטיסטיקה וכדורגל.

נתחיל בסטטיסטיקה.

  • בעיר סן-דייגו בקליפורניה ניתן לאסוף חתימות של 15% מבעלי זכות הבחירה ובכך לכפות העלאת נושא להצבעה במעין "משאל עם"  עירוני. הצעה שעוסקת בהפרטת שירותים עירוניים זכתה לתמיכה של כ-135000 חתימות, כ-40000 יותר מהדרוש. האם הנושא יועלה להצבעה? לא. בדיקה מדגמית ל כ-4000 מהחתימות גילתה כ-30 חתימות כפולות. המסקנה המפתיעה את מי שלא מבין סטטיסטיקה: נאספו למעשה רק כ-74000 חתימות כשרות ההצעה נפלה.
  • ג'ף סלואן, עורך במגזין compositesworld כותב "המלצה נדירה על ספר שיצא לאחרונה אודות אירועים נדירים שבקושי עונים על ציפיותינו" (באנגלית זה הרבה יותר טוב). הספר המדובר הוא "הברבור השחור" מאת נסים טאלב. אני קורא כרגע את הספר, ומתלהב פחות. מקוווה לכתוב על התרשמותי.
  • מי רוצה להיות ביוסטטיסטיקאי? מאמר במגזין של האיגוד האמריקני לסטטיסטיקה.
  • אנדרו גלמן מאוניברסיטת קולומביה סוקר כמה מהמאמרים הקלאסיים של הסטטיסטיקה.
  • עוד מאמר על אשליית זיכויי הזכיה בלוטו, הפעם בוואנקובר סאן.
  • מאמר על חייו ופועלו של ואלודי וייבול, האיש שהתפלגות וויבול קרויה על שמו, במלאות 123 להולדתו, וזאת באתר המוקדש להתפלגות וייבול ויישומיה.
  • והנה מאמר על חייו ופועלו של סיר פרנסיס גאלטון, שהיה, בין היתר, אחד מחלוצי הסטטיסטיקה המודרנית.
  • בנמל התעופה של וושינגטון הדלתות האוטומטיות נסגרות ומכות שוב ושוב במזוודות של הנוסעים. הנזק המצטבר על הדלתות הוא בצורת הפעמון המפורסם של ההתפלגות הנורמלית.

ונעבור לכדורגל.

  • מתי שתי הקבוצות המשחקות רוצות להבקיע שער עצמי? הסיפור מתואר בבלוג הכלכלי "marginal revolution", ולמאותגרי אנגלית הוא מתורגם לעברית בבלוג של שמוליק.
  • 10 השערים המוזרים ביותר. מעניין לראות את הבדלי התרבויות בין הולנד (איפופה, לצורך העניין) וברזיל (או דרום אמריקה). בשער השני ברשימה, שחקן הולנדי מבקיע שער בטעות (הוא התכוון לבעוט את הכדור החוצה כדי לאפשר טיפול בשחקן פצוע של הקבוצה היריבה, אך הכדור נחת ברשת). כשהמשחק מתחדש, הקבוצה שהבקיעה נותנת ליריבה להבקיע שער משלה כדי להחזיר את המצב לקדמותו. בשער מספר שלוש, לעומת זאת, במשחק שנערך בברזיל, כדור שנבעט לשער יוצא החוצה, אך מישהו שעומד ליד השער לוקח את הכדור ומשליך אותו לתוך הרשת. השופט פספס את כל המהלך וראה רק כדור ברשת, וממהר לשרוק שער. שחקני הקבוצה שזכתה בשער מן ההפקר מרימים ידיים בשמחה. אף אחד לא מעלה בדעתו לגשת לשופט ולהגיד לו "שמע, זה לא באמת גול". אז מי שחשב שההצגה של ריוואלדו ב-2002 שגרמה להרחקת שחקן יריב על לא עוול בכפו, או השער שהבקיעה ברזיל במונדיאל הזה תוך שימוש ביד של אחד משחקניה הם סתם מקרים, שיחשוב שוב. זו תרבות. זה בא מלמטה.

ואסיים, כמובטח, בסטטיסטיקה וכדורגל: מאמר שהופיע בעיתון סקוטי מתאר מודל סטטיסטי המנבא כי הולנד תזכה במונדיאל הקרוב. המאמר הופיע לפני הנצחון של הולנד על ברזיל. טוב, לנסים טאלב בטח יש מה להגיד על הניבוי הזה (וגם לי), אבל כרגע הסיכויים של הולנד הרבה יותר גדולים מאלה של ברזיל, וגם זה משהו.

מה באמת קורה בלוטו הבולגרי?

האמת: שום דבר מיוחד.

בידיעה שפורסמה ב-Ynet לפני כחודש נמסר כי "אותם מספרים בדיוק יצאו בשתי הגרלות לוטו ברציפות". מדובר בלוטו הבולגרי, שם המספרים 4, 15, 23, 24, 35 ו-42 הוגרלו ב-6 בספטמבר ולאחר מכן שוב, ב-10 לחודש. עוד נמסר בידיעה כי "המתמטיקאי מיכאיל קונסטנטינוב חישב ומצא כי הסיכוי לכך הוא 1 ל-4.2 מיליון". כן נמסר כי שר הספורט של בולגריה הורה לפתוח חקירה מיוחדת בנושא.

המממ.

האם באמת מדובר באירוע כל כך נדיר שמצדיק חקירה, ולא סתם חקירה אלא חקירה "מיוחדת"? האם הסיכוי ל"כך" הוא באמת אחד ל-4.2 מליון, כמו שחישב מר קונסטנטינוב?

התשובה הרבה יותר מסובכת, ועם זאת לא קשה להבנה. כמו תמיד: התשובה המדויקת תלויה בניסוח מדויק של השאלה, כלומר למה מתכוונים כשאומרים "כך". אביא תחילה את התשובות כפי שפורסמו באתר ChanceWiki (אתם מוזמנים לגלוש ולעיין בחישובים המפורטים):

  • הסיכוי כי המספרים  4, 15, 23, 24, 35 ו-42 יעלו בגורל בשתי הגרלות בתאריכים נתונים (6 בספטמבר ו-10 בספטמבר) הוא בערך אחד ל-27000 מיליארד.
  • הסיכוי כי בשתי הגרלות בתאריכים נתונים יעלו אותם 6 מספרים (אך לא בהכרח הצירוף הנ"ל) הוא בערך אחד ל-5.2 מיליון.
  • הסיכוי כי במשך שנה שלמה, בה נערכות 104 הגרלות, יעלו אותם 6 מספרים בשתי הגרלות רצופות, הוא בערך אחד ל-51000.
  • הסיכוי כי במשך רצף של 5400 הגרלות (הלוטו הבולגרי קיים יותר מחמישים שנה, וזה בערך מספר ההגרלות שנערכו בו) יעלו אותם 6 מספרים בשתי הגרלות רצופות הוא בערך אחד ל-970.
  • הסיכוי כי באיזה הגרלת לוטו, באיזה מקום בעולם, באיזושהי נקודת זמן בתקופה של חמישים שנה בה נערכות הגרלות דו שבועיות, יעלו אותם 6 מספרים בשתי הגרלות רצופות וזאת בהנחה שיש בעולם כ-100 הגרלות לוטו כאלה, הוא בערך 10%.

אז מתברר שדי צפוי שמתישהו, איפהשהו, יעלו אותם מספרים בשתי הגרלות לוטו רצופות. אני מקווה שהחקירה המיוחדת של שר הספורט הבולגרי תעלה על זה.

הנה הסבר אינטואיטיבי למה שקרה באמת.

תחשבו על קוביה. הרי הגרלת הלוטו היא תהליך שבו בוחרים אפשרות אחת מתוך 5245786 אפשרויות (זה מספר הצירופים האפשריים של 6 מספרים מתוך 42, כלומר מספר הצירופים האפשריים בלוטו הבולגרי). במלים אחרות, הגרלת הלוטו שקולה להטלת קוביה עם 5245786 צדדים, ולכן הדיון העקרוני לא צריך להיות שונה מדיון בהטלה קוביה "רגילה" הדומה לקוביות שמתנוססות בראש העמוד הזה.

לקוביה רגילה יש 6 צדדים, ובהחנה שהקוביה "הוגנת", יש סיכוי שווה של שישית לכל אחת מהתוצאות האפשריות של הטלת הקוביה (התוצאות הן הספרות 1-6).

אם נטיל את הקוביה פעמיים, יש סיכוי של אחד ל-36 כי בשתי ההטלות נקבל 6, אבל הסיכוי כי נקבל בשתי ההטלות את אותו הספר, לאו דווקא 6, הוא הרבה יותר גדול, ושווה לאחד ל-6. זאת כי לתוצאה של שתי הטלות יש 36 תוצאות אפשריות, ורק אחת מהן היא 6-6, אבל 6 מתוך ה-36 הן "דאבל" (1-1, 2-2, וכן הלאה עד 6-6).

אם תטילו את הקוביה מספר פעמים, אז הסיכוי כי באיזהו שלב בסדרת ההטלות יופיע אותו מספר בשתי הטלות רצופות עולה, כי יש לכם יותר הזדמנויות לקבל שתי הטלות רצופות. אתם מוזמנים לנסות ולכתוב את כל 216 התוצאות האפשריות של סדרה של 3 הטלות קוביה, ולספור בכמה תוצאות מתקבלת אותה תוצאה פעמיים ברציפות (תוצאת ההטלה הראשונה שווה לשניה, או השניה שווה לשלישית). ככל שסדרת ההטלות תתארך, כל הסיכוי יגדל.

ואם לא רק אתם עושים את התרגיל הזה, אלא גם כמה חברים, הסיכוי כי מישהו יקבל מתישהו שתי הטלות קוביה רצופות עם אותה תוצאה שוב עולה.

מתברר כי אירועים שנתפסים בעיננו כנדירים אינם נדירים כלל ועיקר. אם אתם חולמים בלילה כח מחר ירד גשם, או שתזכו בלוטו, ולמחרת הדבר אכן קורה, מה הסיכוי לכך? הסיכוי כי אתה או את תחלמו הלילה כי תזכו בפרס הגדול בלוטו וכן תזכו בו בהגרלה הגדולה נמוך למדי. הסיכוי כי מישהו איפהשהו יחלום משהו והמשו הזה יתקיים סביר למדי.

הסיכוי כי אתם תיכנסו למסעדה בבנגקוק ותפגשו שם את איציק שעבד ביחד איתכם לפני כמה שנים ולא ראיתם אותו המון זמן הוא קטן מאוד (זה קרה לי, למעשה). הסיכוי שמישהו יכנס לאיזשהו מקום בעולם ויפגוש שם מישהו שלא ראה כבר המון זמן הוא גבוה מאוד. הסיכוי שאתם תזכו בפרס הגדול בלוטו פעמיים הוא קטן מאוד. הסיכוי שמישהו איפהשהו מתישהו יזכה בפרס הדגול בלוטו פעמיים הוא סביר, וגם זה קרה, יותר מפעם אחת. אני ממליץ לכם לקרוא את המאמר הזה שפורסם בניו-יורק טיימס כבר ב-1990. בכתבה זו מרואיינים מספר סטטיסטיקאים נודעים, ובהם פרסי דיאקוניס, ברדלי אפרון (מספר 8 ברשימת הסטטיסטיקאים הגדולים) ואריק להמן. דיאקוניס ופרדריק מוסטלר גם נתנו שם לתופעה הזו: חוק המספרים הגדולים מאוד.