• חיפוש באתר

    קישורים

    עמודים

    RSS סטטיסטיקה ברשת

    תגים

    ארכיב עבור 'האנשים שמאחורי הסטטיסטיקה'

    על אנדרו ארנברג ועבודת הדוקטורט שלי

    לפני מספר ימים הופיעה בפיד החדשות של האגודה המלכותית לסטטיסטיקה הודעה כי אנדרו ארנברג הלך לעולמו, בגיל 94. מי? אתם בודאי שואלים, אולם האיש ועבודתו מוכרים לי היטב, ובילדותי קראתי רבות בספרו הקלאסי על קניות חוזרות ובמאמרים שפרסם על הנושא.

    ארנברג נולד בגרמניה בשנת 1926 למשפחה מרובת פרופסורים. ב-1938 נמלטה המשפחה מגרמניה לאנגליה. ארנברג למד סטטיסטיקה באוניברסיטת קיימברידג'. במקביל לפיתוח קריירה אקדמית כמרצה לסטטיסטיקה וחוקר, עסק בייעוץ לחברות בתחום המחקר השיווקי, ותוך כדי כך פיתח מתודולוגיות לניתוח נתונים שיווקיים, ולמעשה ייסד את התחום הידוע כיום כ-Marketing Science. היישום של המודלים שפיתח התפשט גם לתחומים אחרים, בעיקר במדעי החברה. ב-1970 נתמנה ליושב ראש המחלקה לשיווק של הלונדון ביזנס סקול. הוא נחשב לאחד מחלוצי המחקר הכמותי במדעי החברה.

    אני התעניינתי בעיקר בעבודתו של ארנברג בתחום התנהגות הצרכנים, ובעיקר במודלים שלו לניתוח דפוסים של קניות חוזרות והערכת נאמנות הצרכנים. הסיבה להתעניינותי: רציתי לכתוב עבודת דוקטורט על הנושא.

    Andrew Ehrenberg

    אנדרו ארנברג (1926- 2010)

    אתאר בקצרה את הבעיה. אנו מתבוננים בשוק למוצר מסויים, נניח קפה נמס מיובש בהקפאה. בשוק קיימים כמה מותגים של קפה כזה, אולי 5 או 6. אם ניקח מדגם של צרכנים, ונבדוק איזה מותגי קפה נמס הם קנו בשתי קניות רצופות, נוכל להציג אותם בטבלה דו מימדית בגודל 5×5 (למשל). לדוגמא, נגלה כי X צרכנים קנו קפה של חברת גלית בשתי קניות רצופות, Y צרכנים קנו קפה של חברת אסתר צ'ויס בשתי קניות רצופות, Z צרכנים קנו קפה גלית, ובפעם הבאה קנו קפה אסתר צ'ויס, וכולי.

    כדי לנתח נתונים כאלה ולהסיק מהן מסקנות (רצוי שימושיות), יש צורך לבנות מודל הסתברותי שיתאר את הקניות של הצרכנים, ומעל המודל הזה לבנות מודל סטטיסטי. התחום הכללי של ניתוח נתונים מהסוג הזה ידוע בשם "ניתוח לוחות שכיחות".

    אבן הפינה בתיאוריה של ארנברג היה "מודל דיריכלה". המודל מיישם למעשה את ההתפלגות הקרויה של שם המתמטיקאי הגרמני  דיריכלה (שהיא גירסה רב מימדית של התפלגות ביתא) לנתוני הקניות של הצרכנים. המודל הזה כלל פרמטר לכל מותג ופרמטר נוסף, כללי. כלומר, אם מדובר בשוק בו מתחרים 5 מותגי קפה, למודל יש 6 פרמטרים. לפרמטרים של המותגים יש אינטרפרטציה ברורה – הם מייצגים את נתחי השוק של כל אחד מהמותגים, או במלים אחרות, את ההסתברויות שצרכן יקנה את כל אחד מהמותגים. האינטרפרטציה של הפרמטר הנוסף, הכללי, פחות ברורה. מבחינה סטטיסטית, הוא מדד להטרוגניות של אוכלוסיית הצרכנים, כלומר, הוא מודד עד כמה ההסתברויות לקניית כל מותג שונות בין צרכן לצרכן. האינטרפרטציה השיווקית הייתה קצת פחות ברורה. האם הוא מייצג את מידת הנאמנות שמפגינים הצרכנים למותגים השונים ("אני שותה רק קפה גלית!")? התשובה, על פי התובנות שהגעתי אליהן מאוחר יותר, היא פרסית משהו: כן ולא. בכל מקרה, קהילת חוקרי השיווק באמצע שנות התשעים של המאה הקודמת האמינה כי נאמנות היא ביטוי לנתח שוק. ככל שלמותג יש נתח שוק גדול יותר, האמינו, כך הקונים שלו נאמנים אליו יותר.

    כדי לקבל דוקטורט היה עליי להציג גישה אחרת שתביא לתובנות חדשות ולחידושים מתודולוגיים. גם אני רציתי לבנות מודל עם N+1 פרמטרים: פרמטר אחד לכל מותג, ופרמטר נוסף התלוי באוכלוסיה.

    ההנחה היסודית שהנחתי היא שהחלטת קניה של צרכן מבוססת על גורמים התלויים במותגים עצמם (כגון טעם הקפה, מחירו, וכדומה) ועל גורמים התלויים בצרכן (כאן חשבתי בעיקר על נטייה לשמרנות/נאמנות מול נטייה לחדשנות/גיוון).

    רציתי לבנות מודל בו כל תכונות המותג ימוצו בפרמטר אחד, שמאוחר יותר כיניתי אותו בשם ה-"אטרקטיביות של המותג". הפרמטר הנוסף היה אמור לבטא את מידת הנאמנות/נטיה לקניה חוזרת של אוכלוסיית הצרכנים הנחקרת.

    השלב הבא היה להגדיר תכונות מתמטיות שמודל כזה צריך לקיים. למשל, דרשתי שככל שערכו של פרמטר הנאמנות גדול יותר, אז ההסתברות לקניה חוזרת של אותו מותג (ולא משנה איזה מותג) תגדל. במלים מתמטיות, ההסתברות לקניה חוזרת צריכה להיות פונקציה מונוטונית עולה של פרמטר האוכלוסיה. דוגמא לתכונה נוספת שדרשתי: אם למותג אחד אטרקטיביות גבוהה ולשני אטרקטיביות נמוכה, אז ההסתברות שקונים יעברו מהמותג עם האטרקטיביות הנמוכה לזה עם האטרקטיביות הגבוהה תגדל.

    כעת יכלתי להציג משפחת מודלים אפשרית שתקיים את כל התכונות הנאות שדרשתי. המחיר ששילמתי תמורת קיום כל התכונות היה מודל פחות חסכוני. המודל שלי כלל 3N+1 פרמטרים לעומת N+1  פרמטרים במודל דיריכלה. הפרמטרים הנוספים היו "פרמטרי סרק", אם כי ניתן היה לתת להם אינטרפרטציה של שיקוף נתחי השוק של המותגים. ראוי לציין כי משפחת המודלים שהצגתי הייתה מבוססת על מודל RC שפותח על ידי ליאו גודמן, מחלוצי המחקר של שיטות הניתוח ללוחות שכיחות, וכמובן הסתייעתי רבות במורי ורבי, צבי גילולה, שהיה המדריך שלי לעבודת הדוקטורט.

    המחיר ששילמתי הינו כדאי. אם המודל נכון/מתאים, מנהלי השיווק של המותגים יקבלו לידיהם מידע רב ערך. הם יוכלו להסיק מיהם המתחרים שלהם בשוק (אותם מותגים עם אטרקטיביות דומה למותג שהם מנהלים), ולנקוט פעולות כדי להעלות את האטרקטיביות שלהם ביחס למתחריהם. המידע על נאמנות הצרכנים יוכל להנחות אותם במידת האגרסיביות שעליהם לנקוט (באוכלוסיה נאמנה צריך להתאמץ קשות כדי לגנוב לקוח מהמתחרה, ואולי זה אפילו בלתי אפשרי. אבל אם מצליחים, הלקוח החדש נשאר אצלך). יש כאן שינוי קונספטואלי. חברות רבות משקיעות משאבים רבים במה שהן מכנות "בניית נאמנות צרכנים". על פי התיאוריה שלי, אין חיה כזו. הפעילויות ל-"הגברת הנאמנות" שמבצעות החברות הן למעשה פעילויות המגדילות את האטרקטיביות של המותג שלהן לעומת המותגים המתחרים.

    בנוסף, פיתחתי מדדים כמותיים למושג של נאמנות צרכנים, וכעת ניתן היה "לשים" את אוכלוסיית הצרכנים על רצף שהתחיל בנאמנות (loyalty), ועבר דרך מצב ביניים של non-loyalty עד למצב הקיצוני של חוסר נאמנות (disloyalty), בו צרכנים מעדיפים במודע לקנות בכל פעם מותג אחר.

    כאשר יישמתי את המדדים האלה למודל הדיריכלה של ארנברג, הופתעתי לגלות שהמודל לא מאפשר מצבים של disloyalty ואפילו לא non-loyalty, אלא מצבי נאמנות בלבד. זה לא אומר שמודל דיריכלה לא נכון. הוא שימושי במקרים בהן קיימת נאמנות צרכנים. ההצלחה האמפירית שלו מעידה לדעתי על כך שברוב השווקים אכן קיימת נאמנות צרכנים, כלומר, צרכנים בדרך כלל נוטים לחזור ולקנות את אותו המותג אליו הם רגילים.

    על הדרך פיתחתי שיטת אמידה חדשה לפרמטרים (שילוב של ML ו-IPR), שהייתה ישימה גם למודל דיריכלה. שיטה זו אפשרה גם הסקה סטטיסטית על הפרמטרים של המודל (בדיקת השערות בניית רווחי סמך), בניגוד למתודולוגיה של ארנברג שהייתה תיאורית בעיקרה. כמו כן הראיתי איך אפשר להשתמש במודל כדי לנתח נתוני קניה שנאספו במשך זמן ארוך יותר, ולחזות בעזרתם את התנהגות הצרכנים בעתיד.

    עבודת הדוקטורט שלי הוגשה ב-1996 ואושרה סופית כשנה לאחר מכן. על סמך העבודה קיבלתי משרת פרופסור אורח בבית הספר לניהול Kellogg של אוניברסיטת נורתווסטרן. עם זאת, התגובות בקהילת המחקר השיווקי היו פחות נלהבות מהתגובות בקרב הסטטיסטיקאים. לאחר סיום המינוי שלי בנורתווסטרן עבדתי שנה בחברה שעסקה במחקר שיווקי בתעשיית שירותי הבריאות, ואח"כ עזבתי את התחום ופניתי לתחום של ניסויים קליניים וביוסטטיסטיקה.

    מקבץ 4

    שלום לכולם. הפעם מקבץ ארוך למדי, עקב משך הזמן הארוך מאז המקבץ הקודם.

    • השבוע צוינו 100 שנה למותה של פלורנס נייטינגייל.
    • בעיית המעטפות (עליה כתבתי לפני כשנתיים)  הרימה שוב את ראשה, הפעם בבלוג של וייאם בריגס, שהקדיש שתי רשימות לנושא. את הרשימה הראשונה אפילו קראתי. (המשך הפריט גולש לפרטים טכניים, אז מי שלא מעוניין מוזמן פשוט לדלג עליו). בתחילה בריגס מציג את החישוב השגוי לפיו החלפת המעטפות תביא לתוחלת רווח של 1.25X (כאשר  X הוא הסכום במעטפה שקיבלת), ולכן מתקבלת המסקנה הפרדוקסלית לפיה כדאי להחליף את המעטפה שוב ושוב ושוב. אולם בריגס אינו מסיק מכך כי יש לנסות לערוך את החישוב בצורה נאותה יותר. המסקנה של בריגס היא שיש להשליך את התוחלת לכל הרוחות בבעיות החלטה (טוב, הוא השתמש במלים קצת יותר מעודנות). וכיוון שכך, הוא פונה מייד אל העולם הבייסיאני (הבייסיאניים לא משתמשים בתוחלת? אלה חדשות אפילו בשבילי), ומתחיל להציג שלל פתרונות מהסוג שגרמו לי לא להתלהב מהענף הזה של הסטטיסטיקה. עלי לציין כי הגבתי לרשימה וציינתי מהיכן מגיע הפרדוקס, ומדוע תוחלת הרווח מהחלפת המעטפות היא אפס (ולכן לא משנה אם מחליפים או לא). בתגובה בריגס דרש ממני "להוכיח" (?!) כי החישוב שלו לפיו התוחלת היא 1.25X אינו נכון. אני לא מבין את זה. הוא הוא יטען כי 2 ועוד 2 שווים ל-5 ואני אטען כי התשובה הנכונה היא 4 (למניעת תשובות מתחכמות – אני מדבר על שדה הממשיים), האם אדרש להוכיח כי התשובה 5 אינה נכונה? בריגס הוסיף וטען כי התוחלת הוא מושג שכיחותי (frequentist) ואילו ניסוי המעטפות נערך פעם אחת בלבד, ולכן מושג התוחלת אינו תקף. אני לא מבין את הטיעון הזה. ואם נערוך סדרה של ניסויים זהים, אז הטיעון שלי יהיה תקף לפתע? אשמח למי שיאיר את עיניי. את הרשימה השניה של בריגס כבר לא קראתי, אבל אתם מוזמנים.
    • נתן יאו מהבלוג Flowing Data העוסק בויזואליזציה של נתונים כתב רשימה על 7 הכללים הבסיסיים ליצירת גרפים ותרשימים. 7 הכללים הם: בדוק את הנתונים, הסבר את הקידוד, הוסף תוויות לצירים, ציין את יחידות המדידה, שמור על פרופרציות גיאומטריות נכונות, ציין את מקור הנתונים, וזכור מי קהל היעד שלך. כעת פוצח יאו בסדרה של שבע רשימות שתסביר ביתר פירוט את כל אחד מהכללים. הנה הלינק לרשימה הראשונה בסדרה: בדוק את הנתונים.
    • שמוליק הביא בבלוג שלו דוגמא בה הכלל החמישי של יאו מופר בגסות.
    • והנה הצגה גרפית יפה (בוושינגטון פוסט) המשווה בין תכניות המס של שני נשיאי ארה"ב האחרונים, בוש ואובאמה.
    • רנדום ג'ון מדווח על הרצאה של פרנק הארל בכנס useR!  שעסקה ב"אלרגיה לאינפורמציה". תופעה זו באה לידי ביטוי בהתנגדות להשיג אינפורמציה הדרושה לקבלת החלטה נכונה ובהתעלמות מאינפורמציה חשובה וזמינה. הוא מביא לינק למצגת של גירסה יותר ישנה של ההרצאה.
    • ועוד דיווח מכנס: ג'ון ג'ונסון מחברת קאטו מדווח על התובנות שלו מכנס JSM2010 שנערך בואנקובר בתחילת החודש.
    • למתעניינים בכריית נתונים (שלאחרונה הצטרפתי לשורותיהם): ג'ון אלדר כותב על עשרת הטעויות האפשריות הגדולות ביתר בדאטה מיינינג. כשערך את ספירת המלאי גילה שיש לו למעשה 11 טעויות ברשימה. הפתרון שלו: הן דורגו החל מ-0 ועד 10. זה לא רעיון מקורי. גם בליגת המכללות הנקראת "Big10" יש 11 מכללות (שימו לב ללוגו).
    • וזה לא שייך למקבץ, אבל הפריט הקודם הזכיר לי אנקדוטה על המתמטיקאי נורברט ווינר, אולי האבטיפוס של דמות הפרופסור המפוזר. באחת הפעמים שעבר דירה, ביקשה ממנו אשתו לברר כי אל הדירה החדשה הגיעו 10 מזוודות. ווינר חזר ודיווח לרעייתו כי ספר 9 מזוודות בלבד, והדגים בנוכחותה את הספירה החוזרת: 0, 1, 2,…
    • כריסטיאן רוברט (Xian) מאוניברסיטת דופין בפריז החליט להעביר סמינר על המארים הקלאסיים של הסטטיסטיקה. כדי להחליט אלו מאמרים ילמדו בסמינר, הוא ערך סקר בין קוראי הבלוג שלו. בין המועמדים: מאמרם הקלאסי של ניימן ופירסון, מאמרו של ברדלי אפרון (מספר 8 ברשימת 15 הסטטיסטיקאים הגדולים שערכתי), מאמרו של קוקס (מספר 10) על ניתוח השרדות, ועוד רבים וטובים. בולטים בהעדרם מהרשימה  מאמר כלשהו מאת פישר (עליו כתבתי כאן רבות, הקישור לביוגרפיה קצרה שכתבתי עליו בפורום מתמטיקה של התפוז) ומאמרו של בייס (עליו כתבתי ברשימה "הכוכב, הסמים והכומר"). כשצפיתי בתוצאות הסקר הופתעתי: המאמר של ניימן ופירסון הגיע רק למקום החמישי, אותו הוא חולק במשותף עם מאמרו של הייסטינגס על שיטת MCMC. למקום הראשון הגיע מאמרו של אפרון על שיטת הבוטסטרפ; במקום השני: דמפסטר, ליירד ורבין במאמרם על שאלגוריתם EM. שלישי היה מאמרו של רוברט טיבשירני על שיטת הלאסו, ובמקום הרביעי – ישראל על המפה: מאמרם של יוסי הוכברג ויואב בנימיני מאוניברסיטת תל אביב על גישת ה-FDR  לבדיקת השערות מרובות.
    • תמר בן יוסף כותבת על התייקרות הדירות בישראל, ובפרט על הקשיים והכשלים במדידת מחירי הדירות.
    • בבלוג עבודה שחורה כותב יפתח גולדמן על סקר שערך משרד התמ"ת אודות התפלגות השכר בישראל ומסקנתו: התפלגות השכר מוּטה, והשכר הממוצע לא מייצג את התפלגות השכר במשק. קוראי הבלוג הותיקים, שקראו את רשימתי על המנהל והפועלים, בודאי לא מופתעים.

    הודעה: הרצאה בפטיבל אייקון

    אייקון TLV, הפסטיבל הבינלאומי למדע בדיוני ופנטזיה, נערך מדי שנה בתל אביב בחול המועד סוכות.

    במסגרת הפסטיבל שייערך השנה, אתן הרצאה על ההיסטוריה של הניסויים הקליניים, נושא שהיה בבחינת מדע בדיוני בהיסטוריה הלא ממש רחוקה שלנו. ההרצאה תתבסס על הרצאה "מהלימון ועד הקופקסון" שנתתי לפני כחצי שנה, אולם ההדגשים יהיו שונים, בהתאם לקהל היעד.

    פרטים על מועד ההרצאה יפורסמו בקרוב באתר הפסטיבל וגם כאן.

    ואנקובר – סיכום הכנס

    הכנס נגמר היום (כאן עדיין יום חמישי), ורגע לפני הטיסה חזרה לארץ, הנה סיכום של הצד המקצועי של הכנס.

    יום ראשון

    היום הזה היה אמור להיות מוקדש כולו לקורס בכריית נתונים (data mining). הקורס היה מאכזב מאוד. שלושת המרצים עברו על השקפים שהכינו במהירות הבזק, אבל גרוע מכך – לא ממש תרמו לידע שלי. הם הקדישו זמן רב להסברים מדוע הנושא חשוב (אני יודע שזה חשוב, אחרת לא הייתי נרשם לקורס הזה), הרבה באזוורדס עפו באוויר, והוקדש המון המון זמן לרגרסיה לוגיסטית. רגרסיה לוגיסטית! זה קורס לסטטיסטיקאים מקצועיים, כמעט כולם בעלי תואר שני לפחות, אם לא שלישי. ציפיתי למשהו יותר מתוחכם. רגרסיה לוגיסטית אני יודע מהבית. לפני היציאה להפסקת צהריים הודיע המרצה הראשי כי סקירת החומר של הקורס הסתיימה, ושאר זמן הקורס (אחרי ההפסקה) יוקדש להדגמה של תוכנות שונות, "בעיקר SAS". ויתרתי על ההמשך. הייתי צריך לדרוש את כספי בחזרה.

    מעז יצא מתוק. אחרי הצהריים הלכתי לשמוע מושב הרצאות בנושא אמידת משך חיי המדף (כלומר תאריכי התפוגה) של תרופות, תחום שאני עוסק בו רבות. המושב התחיל בסקירה של השיטה הנוכחית לקביעת תאריך התפוגה המוכתבת על הרשויות הרגולטריות, והבעייתיות שבשיטה זו. הבעיה העיקרית היא שהשיטה הנוכחית נותנת אמדן חסר של משך חיי המדף, ובמלים אחרות – חלק גדול מהתרופות עדיין טובות לשימוש זמן רב (בחלק מהמקרים שנים רבות) אחרי שעבר תאריך התפוגה הרשמי שלהם. זה אולי טוב לרשויות, אבל רע לכל השאר: לחברות התרופות, לצרכנים באופן ישיר, ולמי שמממן את העלויות של השלכת תרופות טובות לפח: חברות ביטוח, קופות חולים, ממשלות – וחלק נכבד מהעלויות האלה שוב מתגלגלות לצרכנים. בהמשך הוצגו דרכים בהם מנסים להתמודד עם הבעיה (שיחות בין חברות התרופות לרגולטורים), ושיטות סטטיסטיות חדשניות להערכת תאריכי התפוגה.

    משם המשכתי למושב שעסק בתכנון ניסויים קליניים שלב I, המיועדים לזיהוי המינון המקסימלי האפשרי של תרופה חדשה (מה שנקרא בז'רגון MTD, ראשי תיבות של Maximal Tolerated Dose). היה מעניין למדי, זה תחום שאני לא ממש עוסק בו ולכן גם לא מתמצא.

    יום שני

    את היום הזה התחלתי  בהרצאת סקירה שנשאה את הכותרת היומרנית "כיוונים עתידיים בניתוח נתוני גנום". ההרצאה הייתה מאכזבת. שני מרצים עם מבטאים נוראיים (אוסטרלי וסיני), שנתנו מצד אחד סקירה בסיסית ביותר של מבנה הגנום והדנ"א, התעכבו רבות על פרטים טכניים הקשורים לטכניקות של sequencing, ולא ממש פירטו מהם הכיוונים העתידיים. אה. הם אמרו שהמטרה היא לזהות גנים הקשורים למחלות.

    המושב השני של אותו יום היה מושב לזכרו של הסטטיסטיקאי ג'ק גוּד (Good), שנפטר לפני מספר חודשים בגיל 91. שמעתי את שמו פעם, אולם לא הכרתי את עבודתו. הלכתי לשם בעיקר בגלל שאחד הדוברים היה סטיב פיינברג, שאת ספריו על ניתוח נתונים קטגוריים קראתי בשקיקה בצעירותי. מהר מאוד הבנתי למה לא הכרתי את פועלו של גוּד. הוא היה סטטיסטיקאי בייסיאני, ולא סתם סטטיסטיקאי בייסיאני, אלא אחד המייסדים של האסכולה, ולדידו אין סטטיסטיקה אחרת מלבד הבייסיאנית. שלושה מהמרצים היו חברים של גוּד (גוּד היה גם מדריך הדוקטורט של אחד מהם), והם סיפרו אודות עבודתו וחייו. הופתעתי, למשל, לגלות כי גוּד היה עבד בצוותא עם אלן טיורינג ביחידת פענוח הצפנים בבלצ'לי פארק במהלך מלחמת העולם השניה. ההרצאות היו מרתקות. אני בהחלט מתכוון לנסות להכיר עוד את האיש ופועלו, ואולי גם לקרוא את אחד מספריו.

    אחר הצהריים הייתי במושב שעסק בתכנון וניתוח של ניסויי bioassay. ההרצאות היו טכניות מאוד, אבל בהחלט לא משעממות (זהו עוד תחום שאני עוסק בו, אז אני קצת משוחד).

    יום שלישי

    כל היום הזה הוקדש לקורס על שיטות לניתוח ניסויי Genome-Wide Association, הידועים בשמם המקוצר GWAS. הקורס היה מצויין. ההסברים על הרקע הביולוגי היו בהירים ולא-טכניים. המרצים הסבירו היטב את כל השיטות הסטטיסטיות הבסיסיות (שאני מכיר חלקית), ודנו בהרחבה במגוון שיטות לניתוח נתונים קטגוריים (שהן הלחם והחמאה של הקורס). גירדתי את החלודה מהידע שלי בתחום והופתעתי לגלות שאני עדיין זוכר לא רע את העקרונות (הדוקטורט שלי עסק בניתוח נתונים קטגוריים, ופעם שלטתי היטב ברזי המודלים הלוג-לינאריים). התחום גם התפתח מאז שסיימתי את הדוקטורט (לפני כמעט 15 שנה), ושמחתי לראות חלק מההתפתחויות בתחום – כולל גישות בייסיאניות. אני לא מגדיר את עצמי כסטטיסטיקאי בייסיאני, אבל בהחלט מוכן לנסות את השיטות האלה, מה גם שהמרצה שהציג את השיטת האלה נתן הצדקות טובות לשימוש בהן.

    יום רביעי

    המושב הראשון בו הייתי היה מושב לזכרו של אריק להמן, שנפטר לפני 11 חדשים, בגיל 92. אלמנתו של להמן, ג'ולי שפר, סטטיסטיקאית בזכות עצמה, סקרה את תרומותיו של בעלה לתחום ההשוואות המרובות, והראתה כיצד עבודותיו משנות החמישים של המאה הקודמת, שנדחקו מאוחר יותר לשוליים עם התקדמות המחקר בתחום, חזרו ונעשו רלוונטיות בשנים האחרונות לאור התקדמויות נוספות במחקר (בייחוד עלייתה של שיטת ה-FDR). פיטר ביקל, תלמידו של להמן ואחר כך עמיתו באוניברסיטת ברקלי, סקר את עבודתו לאורך השנים. את המושב נעל פרסי דיאקוניס, בהרצאה נפלאה על חשיבותו של המחקר בתיאוריה הסטטיסטית.

    בחלק השני של הבוקר נכחתי במושב טכני אך חשוב שעסק בשיטת לניטור ניסויים קליניים.

    את אחר הצהריים ביליתי באופן לא צפוי לחלוטין: הלכתי למושב שעסק בשיטות בייסיאניות לפיתוח פרמצבטי ומחקרים קליניים. ללא ספק, המושב לזכרו של גוּד והשיטות הבייסיאניות לניתוח נתונים קטגוריים אליהן נחשפתי ביום שלישי השפיעו עלי. היה מעניין.

    יום חמישי

    היום האחרון של הכנס – בו היו שני מושבים בלבד (הכנס ננעל בצהריים). המושב בראשון עסק בעוד תחום בו אני עוסק רבות – חישוב והערכה מחדש של גדלי מדגם (כתבתי על כך לפני כשנה). המושב השני של הבוקר עסק ב-GWAS, ובו הוצגו כמה מחקרים חדשים בתחום.

    מקבץ 3

    במקבץ השבוע גם כמה קישורים מהשבוע הקודם שנדחו בגלל פול התמנון.

    • ב-7 ביולי צוין יום השנה ה-104 להולדתו של הסטטיסטיקאי וחוקר תורת ההסתברות ויליאם פלר. צייצתי את המאורע בתוספת הערה כי "מי שלא ציטט את ספרו של פלר בעבודת המאסטר או הדוקטורט שלו, לא באמת עשה תואר בסטטיסטיקה". טוב, אולי קצת הגזמתי, אבל הספר אכן מצוטט בעבודת המוסמך שלי.
    • כאשר ערכתי את רשימת 15 הסטטיסטיקאים הגדולים כללתי בה 5 סטטיסטיקאים חיים.  אחד מהם הלך לעולמו ב-8 ביולי, בגיל 91. דויד בלקוול, בנו של פועל רכבת מדרום אילינוי, אשר לימד את עצמו לקרוא, הפך לאחד הסטטיסטיקאים המשפיעים ביותר במאה העשרים. בלקוול חקר גם את תורת המשחקים, וכתב ספר לימוד פופולרי בתחום. ויליאם בריגס כותב גם הוא בבלוג שלו על בלקוול, ומתאר שם את פתרונו של בלקוול לבעית ההימורים הידועה כ-"פרדוקס סנט-פטרסבורג".
    • נניח שאתם מתכנתים קוד מחשב. ודאי שיש בו באגים. איך תדעו כמה באגים יש בו? ג'ון ד. קוק מסביר בבלוג שלו איך לעשות את זה: אפשר לבקש ממישהו לבדוק את הקוד. נניח שימצא 20 באגים. זה אומר שיש בקוד לפחות 20 באגים, אבל לא מקדם אתכם הרבה. הפתרון – לתת לעוד מישהו לבדוק את הקוד. סביר להניח שימצא חלק מהבאגים שמצא הבודק הראשון, ואולי גם יעלה על באגים אחרים. עכשיו, בעזרת קצת סטטיסטיקה, תוכלו לאמוד את מספר הבאגים שנמצאים ועדיין לא התגלו.
    • מעולם לא כתבתי מכתב אהבה כזה, אבל מלים כאלה רק סטטיסטיקאי יכול לכתוב.
    • בהמשך לפול התמנון: האם העובדה כי מישהי זכתה ארבע פעמים בלוטו "סותרת את כל הסטטיסטיקות"? ממש לא.
    • חובבי הבייסבול יודעים כי קבוצת פיטסבורג פיראטס היא אחת הקבוצות החלשות ביותר בליגת הביססבול האמריקנית (MLB). ובכל זאת, הליגה מציעה לאוהדים לרכוש אופציה לרכישת כרטיס למשחק השביעי של הפיראטים  בסדרת הגמר (ה"וורלד סירייס"), אם יהיה משחק כזה, כמובן. האם כדאי לקנות את האופציה? ואם כן, האם המחיר המוצע "משתלם"? בלוג הבייסבול FanGraphs מציג שילוב של ניתוח סטטיסטי וכלכלי, עם הסבר נאה למושג התוחלת ומשמעות האופציה.