ארכיב עבור 'האנשים שמאחורי הסטטיסטיקה'
סטטיסטיקאים בפאב
ב-20 באוקטובר צויין ברחבי העולם יום הסטטיסטיקה הבינלאומי. לציון (מאוחר) של האירוע נערך בתאריך 14.11.2011 ערב הרצאות מיוחד במסגרת "ספקנים בפאב" בתל-אביב.
ספקנים בפאב הם מפגשים (בדרך כלל חודשיים) המיועדים לכל מי שמתעניין במדע, היסטוריה, פילוסופיה ובחינה רציונלית של המציאות. בדרך כלל הם מתקיימים בפאבים או במקומות אחרים שמאפשרים אווירה חברית ובלתי פורמלית, וכוללים בדרך כלל הרצאה (או "תוכנית אומנותית" אחרת) ודיון. "ספקנים בפאב" נערך לראשונה בלונדון בשנת 1999, וכיום קיימות עשרות קבוצות ברחבי העולם. במסגרת הקהילה הספקנית בישראל קיימות ארבע קבוצות של ספקנים בפאב, בחיפה, תל-אביב, באר שבע וירושלים.
![]() |
הערב, שאורגן בשיתוף פעולה בין האיגוד הישראלי לסטטיסטיקה ובין קבוצת הספקנים הישראלית (כמה נוח שאני פעיל בשני הארגונים האלה. זה תרם מאוד לשיתוף הפעולה…) כלל חמש הרצאות קצרות (15 דקות כל אחת) שסקרו את נושא הסטטיסטיקה מכיוונים שונים. למרות מזג האויר הסוער בערב האירוע, הגיעו אליו קרוב ל-100 איש, ואולם האירועים של פאב "גורדו" בתל-אביב היה מלא מפה לפה. חלק מהנוכחים נאלצו לשבת על הרצפה מחוסר מקום. חלק מהמאחרים לאירוע פשוט לא הצליחו להכנס לאולם הצפוף.
![]() |
טל גלילי, דוקטורנט לסטטיסטיקה באוניברסיטת תל אביב, אוהב קוד פתוח ומידע חופשי, ובלוגר ב"מדריך לטרמפיסט בסטטיסטיקה", סיפר כיצד חוקרים עכברים שחוקרים את סביבתם: יום אחד עכבר קם בבוקר, מחליט שהוא סקרן, ומתחיל ללכת. לאן הוא הולך? מתי הוא חוזר? כמה הוא מטייל? האם הוא מתרגש? ולמה זה בכלל מעניין אותנו (כחוקרים) לדעת?
![]() |
הרצאתו של דובי קננגיסר, דוקטורנט למדע המדינה באוניברסיטת טורונטוו ובעל הבלוג "לא שומעים!", נשאה את הכותרת "מחשב, מחשב שעל הקיר". דובי דן בשאלה האם סקרי הבחירות מעוותים את תוצאות הבחירות או שמא אין להם שום השפעה בכלל. אפשרות נוספת שהציג היא כי בעצם סקרי הבחירות עוזרים לנו לגלות מה באמת אנחנו רוצים להצביע.
![]() |
הרצאתו של פרופ' רון קנת, נשיא האיגוד, נשאה את הכותרת המסקרנת ורבת המשמעות "42". רון הראה כיצד הוספת הקשר משנה את המשמעות של מספר כמו 42, ותוך כדי כך ערך לקהל היכרות עם כלים סטטיסטיים ומושגים כגון היסטוגרמה, תרשים פיזור, התפלגות נורמלית, הערכת יכולת תהליך, תרשים בקרה ו-InfoQ.
![]() |
עבדכם הנאמן דיבר על כדור הכסף (Moneyball), ספר וסרט המספרים את סיפורה של קבוצת הבייסבול המקצוענית דלת התקציב מאוקלנד, שהצליחה בעזרת שימוש בניתוחים סטטיסטיים להציב על המגרש קבוצה תחרותית, שהצליחה להתמודד מול קבוצות עתירות תקציב כמו הניו-יורק יאנקיז, ולהיות מועמדת רצינית לאליפות.
![]() |
אבנר שחר קשתן דיבר על שקרים יפים, וסקר אינפוגרפיקות מטעות בתקשורת. אבנר הוא, מתכנת, עיתונאי וסטודנט לתואר שני בתוכנית למדע, טכנולוגיה וחברה באוניברסיטת בר אילן. בנוסף לכךהוא כותב שני בלוגים: "אקלקטיקה אהובתי" ו-"שקרים יפים".
![]() |
מעניין לציין כי רק שלושה מבין חמשת המרצים הם סטטיסטיקאים בהכשרתם.
הערב הוכיח כי יש בקהל הרחב רצון אמיתי להכיר את עולם הסטטיסטיקה, וניתן להגיע לקהל זה אם יוצאים ממגדל השן, ומציגים את הפן היפה של הסטטיסטיקה ויישומיה.
![]() |
תודה לליאורה לוי עבור הצילומים מהערב.
נשלח: 29 בנובמבר, 2011. נושאים: האנשים שמאחורי הסטטיסטיקה, מה אומרת הסטטיסטיקה.
תגובות: 1
| טראקבק
ההיסטוריה של הניסויים הקליניים – עכשיו הסרט
ביולי האחרון הרציתי במסגרת ערב "ספקנים בפאב" שנערך בבאר שבע על ההיסטוריה של הניסויים הקליניים (הרצאה שכבר ננתי כמה פעמים בעבר תחת הכותרת "מהלימון ועד הקופקסון"). ההרצאה בבאר-שבע צולמה, והועלתה לאחרונה לערוץ היוטיוב של קהילת הספקנים הישראלית, שם תוכלו לצפות בהרצאות מרתקות נוספות. כאן תוכלו כמובן לצפות בהרצאה שלי. צפיה מהנה!
נשלח: 15 בנובמבר, 2011. נושאים: ביוסטטיסטיקה, האנשים שמאחורי הסטטיסטיקה, היסטוריה.
תגובות: 2
| טראקבק
ספקנים בפאב – ערב הרצאות מיוחד לכבוד יום הסטטיסטיקה הבינלאומי
|
"ספקנים בפאב" הם מפגשים המיועדים לכל מי שמתעניין במדע, היסטוריה, פילוסופיה ובחינה רציונלית של המציאות. המפגשים מתקיימים בפאבים או במקומות אחרים שמאפשרים אווירה חברית ובלתי פורמלית, וכוללים בדרך כלל הרצאה ודיון. "ספקנים בפאב" נערך לראשונה בלונדון בשנת 1999, וכיום קיימות עשרות קבוצות ברחבי העולם. במסגרת הקהילה הספקנית בישראל קיימות ארבע קבוצות של ספקנים בפאב, בחיפה, תל-אביב, באר שבע וירושלים. ב-20 באוקטובר צויין ברחבי העולם יום הסטטיסטיקה הבינלאומי. לציון(מאוחר) של האירוע ייערך בתאריך 14.11.2011 ערב הרצאות מיוחד במסגרת "ספקנים בפאב" בתל-אביב בשיתוף פעולה עם האיגוד הישראלי לסטטיסטיקה (ששת קוראיי יודעים בודאי על הקשרים ההדוקים שיש לי גם עם הקהילה הספקנית וגם עם איגוד הסטטיסטיקה). הערב יכלול חמש הרצאות קצרות (15 דקות כל אחת) שיסקרו את נושא הסטטיסטיקה מכיוונים שונים. האירוע יתקיים בתאריך 14.11.2011 בפאב "גורדו", בחוף גורדון בטיילת תל אביב. ההתכנסות היא בשעה 8 בערב, וההרצאות יחלו בשעה 8.30. דמי הכניסה הם 10 ש"ח, ומיועדים לכיסוי הוצאות הפקת האירוע. |
![]() |
|
|
המרצים, (באופן מפתיע, לא כולם סטטיסטיקאים) וכותרות ההרצאות הם:
אני מניח כי מי שקרא עד כאן כבר הבין שגם אני נמנה עם המרצים 🙂 אשמח לראותם! |
||
נשלח: 7 בנובמבר, 2011. נושאים: האנשים שמאחורי הסטטיסטיקה, הממ... מעניין..., מה אומרת הסטטיסטיקה.
תגובות: אין
| טראקבק
סטטיסטיקאי בפריז
אין כמו ביקור בפריז לשיפור מצב הרוח והנפש. ביום רביעי של השבוע שעבר נסענו זוגתי ואני לחופשה של חמישה ימים בפריז. מועד הנסיעה, שלא במקרה, היה יום הולדתי הראשוני ה-15. זה לא היה ביקורנו הראשון בעיר, ולכן הביקור הנוכחי דילג על "אתרי החובה" השונים של העיר. הפעם בחרנו לסייר בעיקר ברחובות וכיכרות שעדיין לא ביקרנו בהם, בגנים ובשווקים. אמנם תיכננו ביקור במוזיאון האורנז'רי, אך הוא היה סגור עקב שביתה. ביקרנו במוזיאון אחד בלבד – מוזיאון המוזיקה, ואני ממליץ לכולם בחום לבקר בו.
יש מוזיאון אחד בפריז שאני רוצה מאוד לבקר בו, אך מוזיאון כזה אינו קיים: מוזיאון המתמטיקה. אמנם, ב"ארמון התגליות" (Palais de la découverte) יש תערוכה קטנה שעוסקת במתמטיקה, אך היא מאכזבת למדי (ביקרתי בה לפני כמה שנים).
פריז היא המשכן הטבעי למוזיאון מתמטיקה. היא הייתה עיר הבירה של המתמטיקה העולמית במאה ה-18, ובמשך מהמאה ה-19 הייתה עדיין אחד ממרכזי המתמטיקה העולמיים (יחד עם ברלין וגטינגן). בפריז נשא דויד הילברט את נאומו המפורסם בו הציג את 23 הבעיות שיתוו את כיוון המתמטיקה במאה ה-20. בין המתמטיקאים הגדולים שחיו ופעלו בעיר (ואני דולה את השמות מהזיכרון בלבד) ניתן למנות את קושי, לפלס, לגראנז', גלואה, דקארט, האדמר, פואנקרה, ג'רמיין, פורייה, וגם את הרוזן בופון (שמייד אכתוב עליו בהרחבה). אני תמיד מופתע מכך שהעיר פריז די מבליעה את ההיסטוריה המפוארת שלה בתחום הכל כך חשוב הזה.
אחת הדרכיםבהן חולקת פריז כבוד לאנשים היא על ידי קריאת רחובות על שמם. בפריז יש כ-100 רחובות וככרות הנקראים על שם מתמטיקאים, לאו דווקא צרפתיים. יש גם רחובות על שם ברנולי, לייבניץ, ליאונרדו, אך אין רחובות על שם גאוס ורימן. יש כיכר בה נפגשים רחובות ניוטון, גליליאו ואוילר. הנה השלט של רחוב דקארט, ברובע הלטיני:
![]() |
במרחק מספר דקות הליכה מרחוב דקארט נמצא רחוב בופון, המוביל אל הגנים הבוטניים של פריז (Jardin des Plantes) ובמרכזם ניצב, הפלא ופלא, פסלו של הרוזן בופון!
![]() הרוזן בופון ואני |
הרוזן בופון היה איש אשכולות קלאסי של המאה ה-18: הוא היה חוקר טבע, מתמטיקאי, קוסמולוג ועורך אנציקלופדיות. מתברר גם שהוא היה בין מקימי הגנים הבוטניים ומנהלם, ולכן אין זה פלא שפסלו ניצב במרכזם.
לפני כחמש שנים כתבתי כאן על רשימת 100 המשפטים הגדולים של המתמטיקה שהופיעה באחד מאתרי האינטרנט. במקום ה-99 של אותה רשימה הופיעה בעיית המחט של בופון. מהי בעיית המחט של בופון?
תארו לעצמכם דף נייר גדול, עליו משורטטים קווים מקבילים שהמרחק בינם קבוע. נסמן את המרחק בין הקווים באות d. ניקח מחט, שאורכה L, (כאשר L<d), ונטיל אותה על הגליון. מה ההסתברות כי המחט תחצה את אחד הקווים?
![]() |
בשרטוט שלמעלה מוצגות 7 מחטים, שמתוכן 4 חוצות קווים. הניסוי שתואר למעלה נותן אמדן להסתברות המבוקשת: 4/7.
בופון חישב ומצא כי ההסתברות שהמחט תחצה את אחד הקווים, P, היא
![]() |
במקרה המיוחד בו אורך המחט שווה למרחק בין הקווים (כלומר L=d), מקבלים כי P=2/π.
π הוא, כמובן, היחס בין היקף המעגל וקוטרו. איך הוא הגיע לכאן? כדי לחשב את ההסתברות נחוצים שני ערכים: מרחק מרכז המחט מהקו הקרוב, והזוית בין המחט ובין הקו. עם הזווית מקבלים כבונוס את הסינוס שלה, והוא מכניס את פיי לתמונה.
נחמד, אבל למה פתרון הבעיה הזו ראוי להמנות בין 100 המשפטים הגדולים של המתמטיקה?
התשובה המפתיעה: בעזרתה ניתן לחשב את ערכו של פיי!
אפשר לבצע את הניסוי של הטלת המחט מספר גדול של פעמים ולאמוד את ההסתברות P על ידי היחס בין מספר הפעמים בהן המחט חצתה את הקו לבין מספר ההטלות. חוק המספרים הגדולים מבטיח כי האמדן קרוב לערך האמיתי של ההסתברות, אם מספר הנסיונות מספיק גדול. כעת, כשיש לנו אמדן טוב ל-P, וידועים לנו ערכי L ו-d, אפשר לחשב את פיי באופן הבא:
![]() |
או פשוט π=2/P אם d=L.
ב-1901 פרסם המתמטיקאי האיטלקי מריו לזריני קירוב של פיי שהשיג על ידי ניסוי בופון. הוא הטיל מחט שאורכה היה 5/6 מהמרחק בין הקוים 3408 פעמים, והמחט חצתה את הקוים 1808 פעמים. האמדן שקיבל לערכו של פיי היה לכן 355/113, או …3.1415929 בעוד שהערך האמיתי הוא …3.1415926. אמנם, לזריני בחר בקפידה את אורך המחט ואת מספר ההטלות (ויש הטוענים יותר מדי בקפידה), אך התוצאה עדיין מרשימה. מי שמעוניין יכול לנסות בעצמו בבית, או להשתמש באחד מהסימולטורים של הניסוי ברשת.
העקרון לפיו מחושב הערך של פיי מתוצאה של ניסוי מקרי ידוע היום בסטטיסטיקה כ"שיטת מונטה קרלו". כיום יש שימוש נרחב בסימולציה לחישוב ערכים של פרמטרים שונים, הודות ליכולות המחשוב המודרניות. מדהים ששיטה זו מתבססת על עקרונות שהיו ידועים כבר במאה ה-18.
נשלח: 21 באוקטובר, 2010. נושאים: האנשים שמאחורי הסטטיסטיקה, היסטוריה, המשפטים הגדולים של הסטטיסטיקה.
תגובות: 10
| טראקבק
על אנדרו ארנברג ועבודת הדוקטורט שלי
לפני מספר ימים הופיעה בפיד החדשות של האגודה המלכותית לסטטיסטיקה הודעה כי אנדרו ארנברג הלך לעולמו, בגיל 94. מי? אתם בודאי שואלים, אולם האיש ועבודתו מוכרים לי היטב, ובילדותי קראתי רבות בספרו הקלאסי על קניות חוזרות ובמאמרים שפרסם על הנושא.
ארנברג נולד בגרמניה בשנת 1926 למשפחה מרובת פרופסורים. ב-1938 נמלטה המשפחה מגרמניה לאנגליה. ארנברג למד סטטיסטיקה באוניברסיטת קיימברידג'. במקביל לפיתוח קריירה אקדמית כמרצה לסטטיסטיקה וחוקר, עסק בייעוץ לחברות בתחום המחקר השיווקי, ותוך כדי כך פיתח מתודולוגיות לניתוח נתונים שיווקיים, ולמעשה ייסד את התחום הידוע כיום כ-Marketing Science. היישום של המודלים שפיתח התפשט גם לתחומים אחרים, בעיקר במדעי החברה. ב-1970 נתמנה ליושב ראש המחלקה לשיווק של הלונדון ביזנס סקול. הוא נחשב לאחד מחלוצי המחקר הכמותי במדעי החברה.
אני התעניינתי בעיקר בעבודתו של ארנברג בתחום התנהגות הצרכנים, ובעיקר במודלים שלו לניתוח דפוסים של קניות חוזרות והערכת נאמנות הצרכנים. הסיבה להתעניינותי: רציתי לכתוב עבודת דוקטורט על הנושא.
|
|
|
אנדרו ארנברג (1926- 2010) |
אתאר בקצרה את הבעיה. אנו מתבוננים בשוק למוצר מסויים, נניח קפה נמס מיובש בהקפאה. בשוק קיימים כמה מותגים של קפה כזה, אולי 5 או 6. אם ניקח מדגם של צרכנים, ונבדוק איזה מותגי קפה נמס הם קנו בשתי קניות רצופות, נוכל להציג אותם בטבלה דו מימדית בגודל 5×5 (למשל). לדוגמא, נגלה כי X צרכנים קנו קפה של חברת גלית בשתי קניות רצופות, Y צרכנים קנו קפה של חברת אסתר צ'ויס בשתי קניות רצופות, Z צרכנים קנו קפה גלית, ובפעם הבאה קנו קפה אסתר צ'ויס, וכולי.
כדי לנתח נתונים כאלה ולהסיק מהן מסקנות (רצוי שימושיות), יש צורך לבנות מודל הסתברותי שיתאר את הקניות של הצרכנים, ומעל המודל הזה לבנות מודל סטטיסטי. התחום הכללי של ניתוח נתונים מהסוג הזה ידוע בשם "ניתוח לוחות שכיחות".
אבן הפינה בתיאוריה של ארנברג היה "מודל דיריכלה". המודל מיישם למעשה את ההתפלגות הקרויה של שם המתמטיקאי הגרמני דיריכלה (שהיא גירסה רב מימדית של התפלגות ביתא) לנתוני הקניות של הצרכנים. המודל הזה כלל פרמטר לכל מותג ופרמטר נוסף, כללי. כלומר, אם מדובר בשוק בו מתחרים 5 מותגי קפה, למודל יש 6 פרמטרים. לפרמטרים של המותגים יש אינטרפרטציה ברורה – הם מייצגים את נתחי השוק של כל אחד מהמותגים, או במלים אחרות, את ההסתברויות שצרכן יקנה את כל אחד מהמותגים. האינטרפרטציה של הפרמטר הנוסף, הכללי, פחות ברורה. מבחינה סטטיסטית, הוא מדד להטרוגניות של אוכלוסיית הצרכנים, כלומר, הוא מודד עד כמה ההסתברויות לקניית כל מותג שונות בין צרכן לצרכן. האינטרפרטציה השיווקית הייתה קצת פחות ברורה. האם הוא מייצג את מידת הנאמנות שמפגינים הצרכנים למותגים השונים ("אני שותה רק קפה גלית!")? התשובה, על פי התובנות שהגעתי אליהן מאוחר יותר, היא פרסית משהו: כן ולא. בכל מקרה, קהילת חוקרי השיווק באמצע שנות התשעים של המאה הקודמת האמינה כי נאמנות היא ביטוי לנתח שוק. ככל שלמותג יש נתח שוק גדול יותר, האמינו, כך הקונים שלו נאמנים אליו יותר.
כדי לקבל דוקטורט היה עליי להציג גישה אחרת שתביא לתובנות חדשות ולחידושים מתודולוגיים. גם אני רציתי לבנות מודל עם N+1 פרמטרים: פרמטר אחד לכל מותג, ופרמטר נוסף התלוי באוכלוסיה.
ההנחה היסודית שהנחתי היא שהחלטת קניה של צרכן מבוססת על גורמים התלויים במותגים עצמם (כגון טעם הקפה, מחירו, וכדומה) ועל גורמים התלויים בצרכן (כאן חשבתי בעיקר על נטייה לשמרנות/נאמנות מול נטייה לחדשנות/גיוון).
רציתי לבנות מודל בו כל תכונות המותג ימוצו בפרמטר אחד, שמאוחר יותר כיניתי אותו בשם ה-"אטרקטיביות של המותג". הפרמטר הנוסף היה אמור לבטא את מידת הנאמנות/נטיה לקניה חוזרת של אוכלוסיית הצרכנים הנחקרת.
השלב הבא היה להגדיר תכונות מתמטיות שמודל כזה צריך לקיים. למשל, דרשתי שככל שערכו של פרמטר הנאמנות גדול יותר, אז ההסתברות לקניה חוזרת של אותו מותג (ולא משנה איזה מותג) תגדל. במלים מתמטיות, ההסתברות לקניה חוזרת צריכה להיות פונקציה מונוטונית עולה של פרמטר האוכלוסיה. דוגמא לתכונה נוספת שדרשתי: אם למותג אחד אטרקטיביות גבוהה ולשני אטרקטיביות נמוכה, אז ההסתברות שקונים יעברו מהמותג עם האטרקטיביות הנמוכה לזה עם האטרקטיביות הגבוהה תגדל.
כעת יכלתי להציג משפחת מודלים אפשרית שתקיים את כל התכונות הנאות שדרשתי. המחיר ששילמתי תמורת קיום כל התכונות היה מודל פחות חסכוני. המודל שלי כלל 3N+1 פרמטרים לעומת N+1 פרמטרים במודל דיריכלה. הפרמטרים הנוספים היו "פרמטרי סרק", אם כי ניתן היה לתת להם אינטרפרטציה של שיקוף נתחי השוק של המותגים. ראוי לציין כי משפחת המודלים שהצגתי הייתה מבוססת על מודל RC שפותח על ידי ליאו גודמן, מחלוצי המחקר של שיטות הניתוח ללוחות שכיחות, וכמובן הסתייעתי רבות במורי ורבי, צבי גילולה, שהיה המדריך שלי לעבודת הדוקטורט.
המחיר ששילמתי הינו כדאי. אם המודל נכון/מתאים, מנהלי השיווק של המותגים יקבלו לידיהם מידע רב ערך. הם יוכלו להסיק מיהם המתחרים שלהם בשוק (אותם מותגים עם אטרקטיביות דומה למותג שהם מנהלים), ולנקוט פעולות כדי להעלות את האטרקטיביות שלהם ביחס למתחריהם. המידע על נאמנות הצרכנים יוכל להנחות אותם במידת האגרסיביות שעליהם לנקוט (באוכלוסיה נאמנה צריך להתאמץ קשות כדי לגנוב לקוח מהמתחרה, ואולי זה אפילו בלתי אפשרי. אבל אם מצליחים, הלקוח החדש נשאר אצלך). יש כאן שינוי קונספטואלי. חברות רבות משקיעות משאבים רבים במה שהן מכנות "בניית נאמנות צרכנים". על פי התיאוריה שלי, אין חיה כזו. הפעילויות ל-"הגברת הנאמנות" שמבצעות החברות הן למעשה פעילויות המגדילות את האטרקטיביות של המותג שלהן לעומת המותגים המתחרים.
בנוסף, פיתחתי מדדים כמותיים למושג של נאמנות צרכנים, וכעת ניתן היה "לשים" את אוכלוסיית הצרכנים על רצף שהתחיל בנאמנות (loyalty), ועבר דרך מצב ביניים של non-loyalty עד למצב הקיצוני של חוסר נאמנות (disloyalty), בו צרכנים מעדיפים במודע לקנות בכל פעם מותג אחר.
כאשר יישמתי את המדדים האלה למודל הדיריכלה של ארנברג, הופתעתי לגלות שהמודל לא מאפשר מצבים של disloyalty ואפילו לא non-loyalty, אלא מצבי נאמנות בלבד. זה לא אומר שמודל דיריכלה לא נכון. הוא שימושי במקרים בהן קיימת נאמנות צרכנים. ההצלחה האמפירית שלו מעידה לדעתי על כך שברוב השווקים אכן קיימת נאמנות צרכנים, כלומר, צרכנים בדרך כלל נוטים לחזור ולקנות את אותו המותג אליו הם רגילים.
על הדרך פיתחתי שיטת אמידה חדשה לפרמטרים (שילוב של ML ו-IPR), שהייתה ישימה גם למודל דיריכלה. שיטה זו אפשרה גם הסקה סטטיסטית על הפרמטרים של המודל (בדיקת השערות בניית רווחי סמך), בניגוד למתודולוגיה של ארנברג שהייתה תיאורית בעיקרה. כמו כן הראיתי איך אפשר להשתמש במודל כדי לנתח נתוני קניה שנאספו במשך זמן ארוך יותר, ולחזות בעזרתם את התנהגות הצרכנים בעתיד.
עבודת הדוקטורט שלי הוגשה ב-1996 ואושרה סופית כשנה לאחר מכן. על סמך העבודה קיבלתי משרת פרופסור אורח בבית הספר לניהול Kellogg של אוניברסיטת נורתווסטרן. עם זאת, התגובות בקהילת המחקר השיווקי היו פחות נלהבות מהתגובות בקרב הסטטיסטיקאים. לאחר סיום המינוי שלי בנורתווסטרן עבדתי שנה בחברה שעסקה במחקר שיווקי בתעשיית שירותי הבריאות, ואח"כ עזבתי את התחום ופניתי לתחום של ניסויים קליניים וביוסטטיסטיקה.
נשלח: 16 בספטמבר, 2010. נושאים: האנשים שמאחורי הסטטיסטיקה, מה אומרת הסטטיסטיקה.
תגובות: 7
| טראקבק
מקבץ 4
שלום לכולם. הפעם מקבץ ארוך למדי, עקב משך הזמן הארוך מאז המקבץ הקודם.
- השבוע צוינו 100 שנה למותה של פלורנס נייטינגייל.
- בעיית המעטפות (עליה כתבתי לפני כשנתיים) הרימה שוב את ראשה, הפעם בבלוג של וייאם בריגס, שהקדיש שתי רשימות לנושא. את הרשימה הראשונה אפילו קראתי. (המשך הפריט גולש לפרטים טכניים, אז מי שלא מעוניין מוזמן פשוט לדלג עליו). בתחילה בריגס מציג את החישוב השגוי לפיו החלפת המעטפות תביא לתוחלת רווח של 1.25X (כאשר X הוא הסכום במעטפה שקיבלת), ולכן מתקבלת המסקנה הפרדוקסלית לפיה כדאי להחליף את המעטפה שוב ושוב ושוב. אולם בריגס אינו מסיק מכך כי יש לנסות לערוך את החישוב בצורה נאותה יותר. המסקנה של בריגס היא שיש להשליך את התוחלת לכל הרוחות בבעיות החלטה (טוב, הוא השתמש במלים קצת יותר מעודנות). וכיוון שכך, הוא פונה מייד אל העולם הבייסיאני (הבייסיאניים לא משתמשים בתוחלת? אלה חדשות אפילו בשבילי), ומתחיל להציג שלל פתרונות מהסוג שגרמו לי לא להתלהב מהענף הזה של הסטטיסטיקה. עלי לציין כי הגבתי לרשימה וציינתי מהיכן מגיע הפרדוקס, ומדוע תוחלת הרווח מהחלפת המעטפות היא אפס (ולכן לא משנה אם מחליפים או לא). בתגובה בריגס דרש ממני "להוכיח" (?!) כי החישוב שלו לפיו התוחלת היא 1.25X אינו נכון. אני לא מבין את זה. הוא הוא יטען כי 2 ועוד 2 שווים ל-5 ואני אטען כי התשובה הנכונה היא 4 (למניעת תשובות מתחכמות – אני מדבר על שדה הממשיים), האם אדרש להוכיח כי התשובה 5 אינה נכונה? בריגס הוסיף וטען כי התוחלת הוא מושג שכיחותי (frequentist) ואילו ניסוי המעטפות נערך פעם אחת בלבד, ולכן מושג התוחלת אינו תקף. אני לא מבין את הטיעון הזה. ואם נערוך סדרה של ניסויים זהים, אז הטיעון שלי יהיה תקף לפתע? אשמח למי שיאיר את עיניי. את הרשימה השניה של בריגס כבר לא קראתי, אבל אתם מוזמנים.
- נתן יאו מהבלוג Flowing Data העוסק בויזואליזציה של נתונים כתב רשימה על 7 הכללים הבסיסיים ליצירת גרפים ותרשימים. 7 הכללים הם: בדוק את הנתונים, הסבר את הקידוד, הוסף תוויות לצירים, ציין את יחידות המדידה, שמור על פרופרציות גיאומטריות נכונות, ציין את מקור הנתונים, וזכור מי קהל היעד שלך. כעת פוצח יאו בסדרה של שבע רשימות שתסביר ביתר פירוט את כל אחד מהכללים. הנה הלינק לרשימה הראשונה בסדרה: בדוק את הנתונים.
- שמוליק הביא בבלוג שלו דוגמא בה הכלל החמישי של יאו מופר בגסות.
- והנה הצגה גרפית יפה (בוושינגטון פוסט) המשווה בין תכניות המס של שני נשיאי ארה"ב האחרונים, בוש ואובאמה.
- רנדום ג'ון מדווח על הרצאה של פרנק הארל בכנס useR! שעסקה ב"אלרגיה לאינפורמציה". תופעה זו באה לידי ביטוי בהתנגדות להשיג אינפורמציה הדרושה לקבלת החלטה נכונה ובהתעלמות מאינפורמציה חשובה וזמינה. הוא מביא לינק למצגת של גירסה יותר ישנה של ההרצאה.
- ועוד דיווח מכנס: ג'ון ג'ונסון מחברת קאטו מדווח על התובנות שלו מכנס JSM2010 שנערך בואנקובר בתחילת החודש.
- למתעניינים בכריית נתונים (שלאחרונה הצטרפתי לשורותיהם): ג'ון אלדר כותב על עשרת הטעויות האפשריות הגדולות ביתר בדאטה מיינינג. כשערך את ספירת המלאי גילה שיש לו למעשה 11 טעויות ברשימה. הפתרון שלו: הן דורגו החל מ-0 ועד 10. זה לא רעיון מקורי. גם בליגת המכללות הנקראת "Big10" יש 11 מכללות (שימו לב ללוגו).
- וזה לא שייך למקבץ, אבל הפריט הקודם הזכיר לי אנקדוטה על המתמטיקאי נורברט ווינר, אולי האבטיפוס של דמות הפרופסור המפוזר. באחת הפעמים שעבר דירה, ביקשה ממנו אשתו לברר כי אל הדירה החדשה הגיעו 10 מזוודות. ווינר חזר ודיווח לרעייתו כי ספר 9 מזוודות בלבד, והדגים בנוכחותה את הספירה החוזרת: 0, 1, 2,…
- כריסטיאן רוברט (Xian) מאוניברסיטת דופין בפריז החליט להעביר סמינר על המארים הקלאסיים של הסטטיסטיקה. כדי להחליט אלו מאמרים ילמדו בסמינר, הוא ערך סקר בין קוראי הבלוג שלו. בין המועמדים: מאמרם הקלאסי של ניימן ופירסון, מאמרו של ברדלי אפרון (מספר 8 ברשימת 15 הסטטיסטיקאים הגדולים שערכתי), מאמרו של קוקס (מספר 10) על ניתוח השרדות, ועוד רבים וטובים. בולטים בהעדרם מהרשימה מאמר כלשהו מאת פישר ומאמרו של בייס (עליו כתבתי ברשימה "הכוכב, הסמים והכומר"). כשצפיתי בתוצאות הסקר הופתעתי: המאמר של ניימן ופירסון הגיע רק למקום החמישי, אותו הוא חולק במשותף עם מאמרו של הייסטינגס על שיטת MCMC. למקום הראשון הגיע מאמרו של אפרון על שיטת הבוטסטרפ; במקום השני: דמפסטר, ליירד ורבין במאמרם על שאלגוריתם EM. שלישי היה מאמרו של רוברט טיבשירני על שיטת הלאסו, ובמקום הרביעי – ישראל על המפה: מאמרם של יוסי הוכברג ויואב בנימיני מאוניברסיטת תל אביב על גישת ה-FDR לבדיקת השערות מרובות.
- תמר בן יוסף כותבת על התייקרות הדירות בישראל, ובפרט על הקשיים והכשלים במדידת מחירי הדירות.
- בבלוג עבודה שחורה כותב יפתח גולדמן על סקר שערך משרד התמ"ת אודות התפלגות השכר בישראל ומסקנתו: התפלגות השכר מוּטה, והשכר הממוצע לא מייצג את התפלגות השכר במשק. קוראי הבלוג הותיקים, שקראו את רשימתי על המנהל והפועלים, בודאי לא מופתעים.
נשלח: 18 באוגוסט, 2010. נושאים: דטה סיינס, האנשים שמאחורי הסטטיסטיקה, היסטוריה, הממ... מעניין..., המשפטים הגדולים של הסטטיסטיקה, כלכלה וחברה.
תגובות: 2
| טראקבק
ואנקובר – סיכום הכנס
הכנס נגמר היום (כאן עדיין יום חמישי), ורגע לפני הטיסה חזרה לארץ, הנה סיכום של הצד המקצועי של הכנס.
יום ראשון
היום הזה היה אמור להיות מוקדש כולו לקורס בכריית נתונים (data mining). הקורס היה מאכזב מאוד. שלושת המרצים עברו על השקפים שהכינו במהירות הבזק, אבל גרוע מכך – לא ממש תרמו לידע שלי. הם הקדישו זמן רב להסברים מדוע הנושא חשוב (אני יודע שזה חשוב, אחרת לא הייתי נרשם לקורס הזה), הרבה באזוורדס עפו באוויר, והוקדש המון המון זמן לרגרסיה לוגיסטית. רגרסיה לוגיסטית! זה קורס לסטטיסטיקאים מקצועיים, כמעט כולם בעלי תואר שני לפחות, אם לא שלישי. ציפיתי למשהו יותר מתוחכם. רגרסיה לוגיסטית אני יודע מהבית. לפני היציאה להפסקת צהריים הודיע המרצה הראשי כי סקירת החומר של הקורס הסתיימה, ושאר זמן הקורס (אחרי ההפסקה) יוקדש להדגמה של תוכנות שונות, "בעיקר SAS". ויתרתי על ההמשך. הייתי צריך לדרוש את כספי בחזרה.
מעז יצא מתוק. אחרי הצהריים הלכתי לשמוע מושב הרצאות בנושא אמידת משך חיי המדף (כלומר תאריכי התפוגה) של תרופות, תחום שאני עוסק בו רבות. המושב התחיל בסקירה של השיטה הנוכחית לקביעת תאריך התפוגה המוכתבת על הרשויות הרגולטריות, והבעייתיות שבשיטה זו. הבעיה העיקרית היא שהשיטה הנוכחית נותנת אמדן חסר של משך חיי המדף, ובמלים אחרות – חלק גדול מהתרופות עדיין טובות לשימוש זמן רב (בחלק מהמקרים שנים רבות) אחרי שעבר תאריך התפוגה הרשמי שלהם. זה אולי טוב לרשויות, אבל רע לכל השאר: לחברות התרופות, לצרכנים באופן ישיר, ולמי שמממן את העלויות של השלכת תרופות טובות לפח: חברות ביטוח, קופות חולים, ממשלות – וחלק נכבד מהעלויות האלה שוב מתגלגלות לצרכנים. בהמשך הוצגו דרכים בהם מנסים להתמודד עם הבעיה (שיחות בין חברות התרופות לרגולטורים), ושיטות סטטיסטיות חדשניות להערכת תאריכי התפוגה.
משם המשכתי למושב שעסק בתכנון ניסויים קליניים שלב I, המיועדים לזיהוי המינון המקסימלי האפשרי של תרופה חדשה (מה שנקרא בז'רגון MTD, ראשי תיבות של Maximal Tolerated Dose). היה מעניין למדי, זה תחום שאני לא ממש עוסק בו ולכן גם לא מתמצא.
יום שני
את היום הזה התחלתי בהרצאת סקירה שנשאה את הכותרת היומרנית "כיוונים עתידיים בניתוח נתוני גנום". ההרצאה הייתה מאכזבת. שני מרצים עם מבטאים נוראיים (אוסטרלי וסיני), שנתנו מצד אחד סקירה בסיסית ביותר של מבנה הגנום והדנ"א, התעכבו רבות על פרטים טכניים הקשורים לטכניקות של sequencing, ולא ממש פירטו מהם הכיוונים העתידיים. אה. הם אמרו שהמטרה היא לזהות גנים הקשורים למחלות.
המושב השני של אותו יום היה מושב לזכרו של הסטטיסטיקאי ג'ק גוּד (Good), שנפטר לפני מספר חודשים בגיל 91. שמעתי את שמו פעם, אולם לא הכרתי את עבודתו. הלכתי לשם בעיקר בגלל שאחד הדוברים היה סטיב פיינברג, שאת ספריו על ניתוח נתונים קטגוריים קראתי בשקיקה בצעירותי. מהר מאוד הבנתי למה לא הכרתי את פועלו של גוּד. הוא היה סטטיסטיקאי בייסיאני, ולא סתם סטטיסטיקאי בייסיאני, אלא אחד המייסדים של האסכולה, ולדידו אין סטטיסטיקה אחרת מלבד הבייסיאנית. שלושה מהמרצים היו חברים של גוּד (גוּד היה גם מדריך הדוקטורט של אחד מהם), והם סיפרו אודות עבודתו וחייו. הופתעתי, למשל, לגלות כי גוּד היה עבד בצוותא עם אלן טיורינג ביחידת פענוח הצפנים בבלצ'לי פארק במהלך מלחמת העולם השניה. ההרצאות היו מרתקות. אני בהחלט מתכוון לנסות להכיר עוד את האיש ופועלו, ואולי גם לקרוא את אחד מספריו.
אחר הצהריים הייתי במושב שעסק בתכנון וניתוח של ניסויי bioassay. ההרצאות היו טכניות מאוד, אבל בהחלט לא משעממות (זהו עוד תחום שאני עוסק בו, אז אני קצת משוחד).
יום שלישי
כל היום הזה הוקדש לקורס על שיטות לניתוח ניסויי Genome-Wide Association, הידועים בשמם המקוצר GWAS. הקורס היה מצויין. ההסברים על הרקע הביולוגי היו בהירים ולא-טכניים. המרצים הסבירו היטב את כל השיטות הסטטיסטיות הבסיסיות (שאני מכיר חלקית), ודנו בהרחבה במגוון שיטות לניתוח נתונים קטגוריים (שהן הלחם והחמאה של הקורס). גירדתי את החלודה מהידע שלי בתחום והופתעתי לגלות שאני עדיין זוכר לא רע את העקרונות (הדוקטורט שלי עסק בניתוח נתונים קטגוריים, ופעם שלטתי היטב ברזי המודלים הלוג-לינאריים). התחום גם התפתח מאז שסיימתי את הדוקטורט (לפני כמעט 15 שנה), ושמחתי לראות חלק מההתפתחויות בתחום – כולל גישות בייסיאניות. אני לא מגדיר את עצמי כסטטיסטיקאי בייסיאני, אבל בהחלט מוכן לנסות את השיטות האלה, מה גם שהמרצה שהציג את השיטת האלה נתן הצדקות טובות לשימוש בהן.
יום רביעי
המושב הראשון בו הייתי היה מושב לזכרו של אריק להמן, שנפטר לפני 11 חדשים, בגיל 92. אלמנתו של להמן, ג'ולי שפר, סטטיסטיקאית בזכות עצמה, סקרה את תרומותיו של בעלה לתחום ההשוואות המרובות, והראתה כיצד עבודותיו משנות החמישים של המאה הקודמת, שנדחקו מאוחר יותר לשוליים עם התקדמות המחקר בתחום, חזרו ונעשו רלוונטיות בשנים האחרונות לאור התקדמויות נוספות במחקר (בייחוד עלייתה של שיטת ה-FDR). פיטר ביקל, תלמידו של להמן ואחר כך עמיתו באוניברסיטת ברקלי, סקר את עבודתו לאורך השנים. את המושב נעל פרסי דיאקוניס, בהרצאה נפלאה על חשיבותו של המחקר בתיאוריה הסטטיסטית.
בחלק השני של הבוקר נכחתי במושב טכני אך חשוב שעסק בשיטת לניטור ניסויים קליניים.
את אחר הצהריים ביליתי באופן לא צפוי לחלוטין: הלכתי למושב שעסק בשיטות בייסיאניות לפיתוח פרמצבטי ומחקרים קליניים. ללא ספק, המושב לזכרו של גוּד והשיטות הבייסיאניות לניתוח נתונים קטגוריים אליהן נחשפתי ביום שלישי השפיעו עלי. היה מעניין.
יום חמישי
היום האחרון של הכנס – בו היו שני מושבים בלבד (הכנס ננעל בצהריים). המושב בראשון עסק בעוד תחום בו אני עוסק רבות – חישוב והערכה מחדש של גדלי מדגם (כתבתי על כך לפני כשנה). המושב השני של הבוקר עסק ב-GWAS, ובו הוצגו כמה מחקרים חדשים בתחום.
נשלח: 6 באוגוסט, 2010. נושאים: האנשים שמאחורי הסטטיסטיקה, מה אומרת הסטטיסטיקה.
תגובות: 5
| טראקבק
מקבץ 3
במקבץ השבוע גם כמה קישורים מהשבוע הקודם שנדחו בגלל פול התמנון.
- ב-7 ביולי צוין יום השנה ה-104 להולדתו של הסטטיסטיקאי וחוקר תורת ההסתברות ויליאם פלר. צייצתי את המאורע בתוספת הערה כי "מי שלא ציטט את ספרו של פלר בעבודת המאסטר או הדוקטורט שלו, לא באמת עשה תואר בסטטיסטיקה". טוב, אולי קצת הגזמתי, אבל הספר אכן מצוטט בעבודת המוסמך שלי.
- כאשר ערכתי את רשימת 15 הסטטיסטיקאים הגדולים כללתי בה 5 סטטיסטיקאים חיים. אחד מהם הלך לעולמו ב-8 ביולי, בגיל 91. דויד בלקוול, בנו של פועל רכבת מדרום אילינוי, אשר לימד את עצמו לקרוא, הפך לאחד הסטטיסטיקאים המשפיעים ביותר במאה העשרים. בלקוול חקר גם את תורת המשחקים, וכתב ספר לימוד פופולרי בתחום. ויליאם בריגס כותב גם הוא בבלוג שלו על בלקוול, ומתאר שם את פתרונו של בלקוול לבעית ההימורים הידועה כ-"פרדוקס סנט-פטרסבורג".
- נניח שאתם מתכנתים קוד מחשב. ודאי שיש בו באגים. איך תדעו כמה באגים יש בו? ג'ון ד. קוק מסביר בבלוג שלו איך לעשות את זה: אפשר לבקש ממישהו לבדוק את הקוד. נניח שימצא 20 באגים. זה אומר שיש בקוד לפחות 20 באגים, אבל לא מקדם אתכם הרבה. הפתרון – לתת לעוד מישהו לבדוק את הקוד. סביר להניח שימצא חלק מהבאגים שמצא הבודק הראשון, ואולי גם יעלה על באגים אחרים. עכשיו, בעזרת קצת סטטיסטיקה, תוכלו לאמוד את מספר הבאגים שנמצאים ועדיין לא התגלו.
- בהמשך לפול התמנון: האם העובדה כי מישהי זכתה ארבע פעמים בלוטו "סותרת את כל הסטטיסטיקות"? ממש לא.
- חובבי הבייסבול יודעים כי קבוצת פיטסבורג פיראטס היא אחת הקבוצות החלשות ביותר בליגת הביססבול האמריקנית (MLB). ובכל זאת, הליגה מציעה לאוהדים לרכוש אופציה לרכישת כרטיס למשחק השביעי של הפיראטים בסדרת הגמר (ה"וורלד סירייס"), אם יהיה משחק כזה, כמובן. האם כדאי לקנות את האופציה? ואם כן, האם המחיר המוצע "משתלם"? בלוג הבייסבול FanGraphs מציג שילוב של ניתוח סטטיסטי וכלכלי, עם הסבר נאה למושג התוחלת ומשמעות האופציה.
נשלח: 18 ביולי, 2010. נושאים: האנשים שמאחורי הסטטיסטיקה, הממ... מעניין....
תגובות: 1
| טראקבק
מהלימון ועד הקופקסון – מצגת
היום נתתי במועדון קשישים בתל-אביב הרצאה שנשאה את הכותרת: "מהלימון ועד הקופקסון – קיצור תולדות הנסויים הקליניים", לחיצה על הקישור תפתח קובץ pdf של מצגת ההרצאה. אני מקווה לכתוב אחלק מהדברים בצורת רשימה מסודרת כאן בבלוג בעתיד הקרוב. חלק מהדברים כבר מוכרים לכם, ומבוססים על הרשימה "הסטטיסטיקה שהצילה חיים – סיפורה של פלורנס נייטינגייל" שהתפרסמה כאן בעבר.
נשלח: 18 במרץ, 2010. נושאים: ביוסטטיסטיקה, האנשים שמאחורי הסטטיסטיקה, היסטוריה.
תגובות: 1
| טראקבק
מה באמת קורה בלוטו הבולגרי?
האמת: שום דבר מיוחד.
בידיעה שפורסמה ב-Ynet לפני כחודש נמסר כי "אותם מספרים בדיוק יצאו בשתי הגרלות לוטו ברציפות". מדובר בלוטו הבולגרי, שם המספרים 4, 15, 23, 24, 35 ו-42 הוגרלו ב-6 בספטמבר ולאחר מכן שוב, ב-10 לחודש. עוד נמסר בידיעה כי "המתמטיקאי מיכאיל קונסטנטינוב חישב ומצא כי הסיכוי לכך הוא 1 ל-4.2 מיליון". כן נמסר כי שר הספורט של בולגריה הורה לפתוח חקירה מיוחדת בנושא.
המממ.
האם באמת מדובר באירוע כל כך נדיר שמצדיק חקירה, ולא סתם חקירה אלא חקירה "מיוחדת"? האם הסיכוי ל"כך" הוא באמת אחד ל-4.2 מליון, כמו שחישב מר קונסטנטינוב?
התשובה הרבה יותר מסובכת, ועם זאת לא קשה להבנה. כמו תמיד: התשובה המדויקת תלויה בניסוח מדויק של השאלה, כלומר למה מתכוונים כשאומרים "כך". אביא תחילה את התשובות כפי שפורסמו באתר ChanceWiki (אתם מוזמנים לגלוש ולעיין בחישובים המפורטים):
- הסיכוי כי המספרים 4, 15, 23, 24, 35 ו-42 יעלו בגורל בשתי הגרלות בתאריכים נתונים (6 בספטמבר ו-10 בספטמבר) הוא בערך אחד ל-27000 מיליארד.
- הסיכוי כי בשתי הגרלות בתאריכים נתונים יעלו אותם 6 מספרים (אך לא בהכרח הצירוף הנ"ל) הוא בערך אחד ל-5.2 מיליון.
- הסיכוי כי במשך שנה שלמה, בה נערכות 104 הגרלות, יעלו אותם 6 מספרים בשתי הגרלות רצופות, הוא בערך אחד ל-51000.
- הסיכוי כי במשך רצף של 5400 הגרלות (הלוטו הבולגרי קיים יותר מחמישים שנה, וזה בערך מספר ההגרלות שנערכו בו) יעלו אותם 6 מספרים בשתי הגרלות רצופות הוא בערך אחד ל-970.
- הסיכוי כי באיזה הגרלת לוטו, באיזה מקום בעולם, באיזושהי נקודת זמן בתקופה של חמישים שנה בה נערכות הגרלות דו שבועיות, יעלו אותם 6 מספרים בשתי הגרלות רצופות וזאת בהנחה שיש בעולם כ-100 הגרלות לוטו כאלה, הוא בערך 10%.
אז מתברר שדי צפוי שמתישהו, איפהשהו, יעלו אותם מספרים בשתי הגרלות לוטו רצופות. אני מקווה שהחקירה המיוחדת של שר הספורט הבולגרי תעלה על זה.
הנה הסבר אינטואיטיבי למה שקרה באמת.
תחשבו על קוביה. הרי הגרלת הלוטו היא תהליך שבו בוחרים אפשרות אחת מתוך 5245786 אפשרויות (זה מספר הצירופים האפשריים של 6 מספרים מתוך 42, כלומר מספר הצירופים האפשריים בלוטו הבולגרי). במלים אחרות, הגרלת הלוטו שקולה להטלת קוביה עם 5245786 צדדים, ולכן הדיון העקרוני לא צריך להיות שונה מדיון בהטלה קוביה "רגילה" הדומה לקוביות שמתנוססות בראש העמוד הזה.
לקוביה רגילה יש 6 צדדים, ובהחנה שהקוביה "הוגנת", יש סיכוי שווה של שישית לכל אחת מהתוצאות האפשריות של הטלת הקוביה (התוצאות הן הספרות 1-6).
אם נטיל את הקוביה פעמיים, יש סיכוי של אחד ל-36 כי בשתי ההטלות נקבל 6, אבל הסיכוי כי נקבל בשתי ההטלות את אותו הספר, לאו דווקא 6, הוא הרבה יותר גדול, ושווה לאחד ל-6. זאת כי לתוצאה של שתי הטלות יש 36 תוצאות אפשריות, ורק אחת מהן היא 6-6, אבל 6 מתוך ה-36 הן "דאבל" (1-1, 2-2, וכן הלאה עד 6-6).
אם תטילו את הקוביה מספר פעמים, אז הסיכוי כי באיזהו שלב בסדרת ההטלות יופיע אותו מספר בשתי הטלות רצופות עולה, כי יש לכם יותר הזדמנויות לקבל שתי הטלות רצופות. אתם מוזמנים לנסות ולכתוב את כל 216 התוצאות האפשריות של סדרה של 3 הטלות קוביה, ולספור בכמה תוצאות מתקבלת אותה תוצאה פעמיים ברציפות (תוצאת ההטלה הראשונה שווה לשניה, או השניה שווה לשלישית). ככל שסדרת ההטלות תתארך, כל הסיכוי יגדל.
ואם לא רק אתם עושים את התרגיל הזה, אלא גם כמה חברים, הסיכוי כי מישהו יקבל מתישהו שתי הטלות קוביה רצופות עם אותה תוצאה שוב עולה.
מתברר כי אירועים שנתפסים בעיננו כנדירים אינם נדירים כלל ועיקר. אם אתם חולמים בלילה כח מחר ירד גשם, או שתזכו בלוטו, ולמחרת הדבר אכן קורה, מה הסיכוי לכך? הסיכוי כי אתה או את תחלמו הלילה כי תזכו בפרס הגדול בלוטו וכן תזכו בו בהגרלה הגדולה נמוך למדי. הסיכוי כי מישהו איפהשהו יחלום משהו והמשו הזה יתקיים סביר למדי.
הסיכוי כי אתם תיכנסו למסעדה בבנגקוק ותפגשו שם את איציק שעבד ביחד איתכם לפני כמה שנים ולא ראיתם אותו המון זמן הוא קטן מאוד (זה קרה לי, למעשה). הסיכוי שמישהו יכנס לאיזשהו מקום בעולם ויפגוש שם מישהו שלא ראה כבר המון זמן הוא גבוה מאוד. הסיכוי שאתם תזכו בפרס הגדול בלוטו פעמיים הוא קטן מאוד. הסיכוי שמישהו איפהשהו מתישהו יזכה בפרס הדגול בלוטו פעמיים הוא סביר, וגם זה קרה, יותר מפעם אחת. אני ממליץ לכם לקרוא את המאמר הזה שפורסם בניו-יורק טיימס כבר ב-1990. בכתבה זו מרואיינים מספר סטטיסטיקאים נודעים, ובהם פרסי דיאקוניס, ברדלי אפרון (מספר 8 ברשימת הסטטיסטיקאים הגדולים) ואריק להמן. דיאקוניס ופרדריק מוסטלר גם נתנו שם לתופעה הזו: חוק המספרים הגדולים מאוד.
נשלח: 15 באוקטובר, 2009. נושאים: האנשים שמאחורי הסטטיסטיקה, הימורים, מה אומרת הסטטיסטיקה.
תגובות: 28
| טראקבק














