boxplot – האהבה שהכזיבה

אהבה שנמשכת שנים רבות עד שלפתע מתגלה משהו שלא שמתם לב אליו קודם. מכירים? הנה סיפור אישי: הכרתי אותה כאשר הייתי בשנה ב באוניברסיטה, וזו הייתה אהבה ממבט ראשון: ה-boxplot, או כפי שהיא נקראת בעברית, דיאגרמת הקופסה. כל כך נאה, כל כך אלגנטית, כל כך אינטליגנטית.

הקופסה הירוקה מציגה את החציון ואת שני הרבעונים – התחתון והעליון: . ה-"שפמים" מראים את הנתון המינימלי והנתון המקסימלי, או, כמו בדוגמה הזו, את הגבול שמעליו תצפיות נחשבות לחריגות.

בדוגמה הספציפית הזו, המציגה את הגילאים של חלק מנוסעי הטיטניק, הגיל המינימלי הוא קצת יותר מאפס (תינוק בן 5 חודשים). הרבעון התחתון הוא בערך 20, החציון הוא בערך 28 והרבעון העליון הוא בערך 38. המשמעות היא כי רבע מהנוסעים הם בגילאי 0 עד עד 20, רבע בגילאי 20 עד 28, רבע בגילאי 28 עד 38, והשאר בגילאי 38 ומעלה. כמו כן ניתן לראות כי הגילאים של נוסעים שגילם גבוה מ-65 נחשבים כגילאים חריגים ביחס לגילאים שאר הנוסעים.

בפוסט שפירסם בבלוג הוויזואליזציה נייטינגייל, ניק דספרטס (Nick Desbarats) מסביר למה הוא הפסיק להשתמש ב-boxplot, והוא צודק.

ראשית, דספרטס מספר כי מניסיונו, רוב האנשים בסדנאות שהוא מעביר מתקשים להבין את ה-boxplot, בוודאי בהשוואה לסוגים אחרים של וויזואליזציה. גם כאשר אנשים מבינים את העקרונות של הדיאגרמה, הם עדיין נזקקים ל-"התעמלות קוגניטיבית", כדבריו, כדי לפרש נכונה את האינפורמציה המוצגת, ונוטים לפרשנות לא נכונה, שוב בהשוואה לאלטרנטיבות ויזואליזציה אחרות. וכאן אני יכול להעיד גם על ניסיוני מהעבר המאוד לא רחוק: בבחינה בקורס המבוא לסטטיסטיקה שלימדתי לא מזמן, היו שתי שאלות על דיאגרמת קופסה שחשבתי כי הן "שאלות מתנה". למרבה הצער, שיעור הטעויות בשאלות האלה היה גבוה בהשוואה לשאלות אחרות.

דספרטס מביא 3 נימוקים נגד השימוש ב-boxplot, ואסקור אותם כאן בקצרה. הנימוק הראשון הוא של-boxplot אין הגיון וויזואלי. לקופסה יש שטח/נפח בניגוד לשפמים, ולכן היא נתפשת כמייצגת יותר נתונים. אולם, כל חלק של ה-boxplot (שני חצאי קופסה ושני שפמים) מייצג בדיוק את אותה כמות נתונים – כל אחד מהם מייצג רבע מכלל הנתונים (פרט לחריגים). שנית, שני חלקי הקופסה נתפשים ויזואלית כחלק אחד, כלומר ההתרשמות היא כי הנתונים מתחלקים לשלוש קבוצות ולא לארבע. שלישית, אנשים נוטים לקשר אורך עם כמות, ושוב, ה-boxplot מתעלם מכך (בדוגמה שלי, השפם הימני ארוך יותר מאורך הקופסה, בעוד שהוא מייצג חצי מכמות הנותנים שמייצגת הקופסה).

הנימוק השני הוא כי ה-boxplot דורש מהקהל להבין מושגים אבסטרקטיים יחסית, חציון ורבעונים, כאשר לא נדרש צורך אמיתי בכך. בדרך כלל, אם לא מדובר בקהל של סטטיסטיקאים המיומנים בקריאת boxplots, יש צורך להסביר את מבנה ה-boxplot ואת המושגים שהיא מייצגת לפני שדנים במשמעות של הנתונים עצמם. ואין צורך בכך כי יש אלטרנטיבות טובות יותר להצגת נתונים בהם החציון ושאר האחוזונים נתפשים באופן אינטואיטיבי.

הנימוק השלישי, אולי החשוב ביותר, הוא הטענה כי לעיתים קרובות ה-boxplot מציג את ההתפלגות של הנתונים באופן לא נכון, ואף ייתכן כי הboxplots של שתי התפלגויות שונות לגמרי יהיו זהות. בפוסט יש מספר דוגמאות לכך.

אז זהו. אני כנראה אפסיק להשתמש ב-boxplot אלא אם אחשוב שזה ממש הכרחי. למי שמלמד מבוא לסטטיסטיקה, אני ממליץ להפסיק ללמד את ה- boxplot, אם אתם עושים זאת.

  • התוכן של הפוסט הזה הופיע לראשונה בניוזלטר של נסיכת המדעים. הרשמו ותקבלו עדכון חודשי על כל מה שקורה עכשיו בסטטיסטיקה: http://www.sci-princess.info/updates

ויזואליזציה של נתונים קטגוריים

פוסט זה עוסק בתחום שאני אוהב במיוחד: משתנים קטגוריים.

תזכורת: יש ארבעה סולמות מדידה, ומשתנים קטגוריים הם משתנים שנמדדים בשני סולמות המדידה התחתונים (אך לא נחותים).

הסולם הנמוך ביותר הוא סולם שמי/נומינלי, בו לערכים המספריים של הנתונים אין כל משמעות מספרית פרט לזיהוי המשתנה. דוגמה אופיינית היא מספרי החולצות של שחקני קבוצת ספורט. בעזרת המספר אנו יכולים לזהות את השחקן, אך השחקן שלובש את חולצה מספר 11 אינו בהכרח שחקן יותר טוב מהשחקן שלובש את חולצה מספר 10.

שלב אחד מעל הסולם השמי נמצא הסולם הסודר/אורדינלי. כאן יש לערכי המספריים משמעות מוגבלת: הערכים מבטאים סדר בין הנתונים, אך לא הפרשים או יחסים. משתנים כאלה מופעים בכל מיני שאלונים, אך לא רק שם. אם אתם נשאלים עד כמה אתם מסכימים עם משפט כלשהו, התשבות האפשריות הן: לא מסכים בכלל, לא מסכים, אין דעה, מסכים ומסכים בהחלט, התשובות נמדדות בסולם אורדינלי. ניתן לקודד את התשובות במספרים 1 עד 5 למשל, אך מי שמסכים ותשובתו מקודדת ב-4, אינו מסכים עם הטענה כפליים מזה שאינו מסכים עם הטענה ותשובתו מקודדת ב-2, אם כי למרבה הצער יש לא מעט אנשים שחושבים כך. (יש עוד הרבה בעיות בפרשנות של נתונים מהסולם הזה, אבל אני אעצור כאן).

לדעתי זהו תחום מרתק, ועבודת הדוקטורט שלי הייתה קשורה לתחום זה. כאן אי אפשר לחשב ממוצעים, סטיות תקן וכולי. צריך כלים אחרים, וצורת חשיבה אחרת. אחד הפרוייקטים שלקחתי על עצמי הוא ליצור שתעסוק במשתנים כאלה. אני מרשה לעצמי להפנות גם לפוסט נוסף שכתבתי על המריבה ההיסטורית בין קרל פירסון ותלמידו אדני יול שסבבה סביב השאלה כיצד לבדוק הם יש קשר בין שני משתנים קטגוריים.

בבלוג הוויזואליזציה נייטינגייל הופיע לא מזמן פוסט העוסק בהצגה ויזואלית של נתונים קטגוריים. מה שמוזר הוא שבפוסט לא הוזכרה דיאגרמת הפרחים המפורסמת של פלורנס נייטינגייל שמציגה שלושה משתנים קטגוריים שונים. הפוסט מתמקד בארבעה סוגי ויזואליזציה של משתנים קטגוריים (יש עוד), ואני מודה שאת אחד מהם לא הכרתי קודם, אם כי ניתן לראות בסוג דיאגרמה אחרת שהוצגה בפוסט כהכללה שלו. אני לא אכנס כאן לפרטים, אבל ממליץ לכם להיכנס, וגם אם לא תקראו את כל הפוסט,  אני ממליץ לכם לצפות בדוגמאות היסטוריות של דיאגרמות sankey ו-sunburst מהמאה ה-19.

  • התוכן של הפוסט הזה הופיע בניוזלטר של נסיכת המדעים. הרשמו ותקבלו עדכון חודשי על כל מה שקורה עכשיו בסטטיסטיקה: http://www.sci-princess.info/updates

משחקי הכנסת

אני מניח שכולכם מודעים למצב הפוליטי הנוכחי, שבו הגוש המעוניין להקים ממשלה שבראשה לא יעמוד בנימין נתניהו מורכב ממספר לא קטן של מפלגות בגודל בינוני עד נמוך. במצב הזה, מספר אנים טוענים כי עליהם לקבל את המנדט להרכבת הממשלה ולעמוד בראשה, וביניהם יאיר לפיד (יש עתיד, 17 חברי כנסת), בני גנץ (כחול לבן, 8 חברי כנסת) ונפתלי בנט (ימינה, 7 חברי כנסת).

אני לא הולך לנהל כאן דיון פוליטי, דעותיי הפוליטיות ידועות. הפוסט הזה נכתב כי מישהו הזכיר לי היום בטוויטר את הפוסט משחקי המשילות שכתבתי לפני כשבע שנים, ועסק במושג "ערך שאפלי", המחשב את כוחן היחסי של המפלגות בהרכבת קואליציות אפשריות. לא אחזור כאן על כל ההסבר, אבל אתן דוגמה קיצונית שתבהיר את המצב: נניח שבכנסת מיוצגות 3 מפלגות. לשתיים מהן יש 59 ח"כים כל אחת, ולשלישית שני ח"כים. במצב הזה כל שתי מפלגות יכולות להקים קואליציה ולהשאיר את השלישית באופוזיציה, ולכן ערך השאפלי של כל מפלגה הוא שליש.

אבל יש כאן טוויסט: ערך שאפלי הוא סימטרי ואינו מבדיל בין ימין לשמאל. נניח ששתי המפלגות הגדולות הו מפלגת ימין ומפלגת שמאל, ואינן יכולות להגיע להסכמה על קואליציה ביניהן. המפלגה הקטנה היא מפלגת מרכז, ויכולה להצטרף לכל אחת משתי המפלגות האחרות להקמת קואליציה. במילים אחרות: היא לשון המאזניים. זה נותן לה יתרון על שתי המפלגות האחרות, ולכן היא תובעת לעצמה את תפקיד ראש הממשלה. מה עושים?

על פניו, התביעה מוצדקת, לפחות באופן תיאורטי – לתורת המשחקים יש גם מושגי פתרון אחרים שיתנו לה את הבכורה. באופן מעשי? כבר היו דברים מעולם.

אז הנה: בכנסת התיאורטית שלנו הוקמה קואליציית ימין-מרכז או שמאל-מרכז לפי טעמכם, ובראשה הממשלה עומד מנהיג מפלגת המרכז. איך ממשיכים מכאן? אפשרות אחת היא להקים ממשלה פריטטית, כמו ממשלת נתניהו-גנץ. למרבה הצער התברר שזה מתכון לצרות, גם בתוך הממשלה וגם בכנסת. המפלגה הקטנה ככל הנראה לא תצליח למצות את כל ערך השאפלי שלה, כי, מה לעשות, ערך שאפלי מתייחס לנקודה ספציפית בזמן, ואילו המדינה צריכה להמשיך להתנהל בהובלת הממשלה והכנסת גם לאחר הקמת הקואליציה.

עד כאן הדיון הפילוסופי, ועכשיו אשחק קצת במספרים, באדיבות מחשבון ערך השאפלי של דניס ליץ' מאוניברסיטת וורוויק. אבל לפני שנתחיל, עלי להזהיר אתכם כי אם אתם מצפים לתובנות חדשות על המצב הפוליטי, אל תעצרו את נשימתכם. מה שתראו כאן זה רק משחקים במספרים שימחישו את יתרונות והחסרונות של ערך שאפלי כמדד להערכת כח פוליטי.

הנה ערכי שאפלי של כל אחת ממפלגות הכנסת:

מפלגהחברי כנסתערך שאפליכח נומינלי
הליכוד3030.2%25.0%
יש עתיד1714.0%14.2%
ש"ס96.6%7.5%
כחול לבן86.3%6.7%
ימינה75.4%5.8%
העבודה75.4%5.8%
יהדות התורה75.4%5.8%
ישראל ביתנו75.4%5.8%
הציונות הדתית64.5%5.0%
הרשימה המשותפת64.5%5.0%
תקווה חדשה64.5%5.0%
מרצ64.5%5.0%
רע"מ43.5%3.3%

אפשר לראות כאן כל מיני דברים מעניינים. למשל מספר חברי הכנסת של הליכוד, 30, הוא 25% מסך חברי הכנסת, אך ערך השאפלי של הליכוד גבוה יותר וערכו כ-30%. ערך השאפלי של יש עתיד שווה בערך לכוחה הנומינלי בכנסת, שהוא כ-14%. לכל שאר המפלגות ערך שאפלי נמוך יותר מהכוח הנומינלי.

כל זה קורה לפני שמתחילות להיווצר קואליציות. כרגע, למיטב ידיעתי יש לנו שתי קואליציות: גוש אחד הוא גוש הימין שכולל את הליכוד, ש"ס, יהדות התורה והציונות הדתית, בסך הכל 52 חברי כנסת.

הקואליציה השניה היא "גוש השינוי", שלא ברור מהו. הגוש הזה כולל את יש עתיד, ישראל ביתנו, העבודה, מרץ, תקווה חדשה, וביום טוב גם את כחול לבן, ומונה 43 או 51 חברי כנסת. מצבה של הרשימה המשותפת לא ברור. ברור לי שהיא תתנגד לממשלה בראשות גוש הימין, אבל האם היא תוזמן להצטרף לממשלה בהובלת גוש השינוי? האם היא תתמוך גם אם לא תצורף? האם היא תימנע בהצבעה? לצורך הדיון בלבד אני אצרף את כחול לבן ואת הרשימה המשותפת לגוש השינוי, שימנה לכן 57 חברי כנסת.

ועשיו נותרנו עם ימינה ורע"ם, ששומרות את הקלפים צמודים לחזה. כל זה מוביל אותנו לכנסת עם ארבעה גושים/סיעות, והנה טבלת ערכי השאפלי שלהם:

גוש/מפלגהחברי כנסתערך שאפליכח נומינלי
שינוי5750.0%47.5%
ימין5216.7%43.3%
ימינה716.7%5.8%
רע"ם416.7%3.3%

כמובן שקואליציה מוקמת בסופו של דבר לפי מספר חברי הכנסת ולא לפי ערכי שאפלי, ולכן השאלה הגדולה היא האם גוש השינוי יצליח לנצל את ערך השאפלי המוסף שלו (2.5%) כדי לצרף אליו את רע"ם או את ימינה ולהקים ממשלה ((וזאת בהנחה שאנשי ימין בגוש השינוי יסכימו לשיתוך הרשימה המשותפת ורע"ם בקואליציה בצורה כזו או אחרת)) ? הוא יוכל לעשות את זה אם הגוש יפעל כגוש.

אבל מה קורה כשבגוש השינוי אין הסכמה? כרגע הנושא המרכזי הוא המלצה לנשיא לגבי המועמד לקבלת המנדט. למיטב ידיעתי ((לא שמעתי חדשות מאז הבוקר)) חלק מתכוונים להמליץ על יאיר לפיד בפני הנשיא, גנץ חושב שהוא האיש הראוי, ולא ברור מה חושבים בתקווה חדשה וברשימה המשותפת. ולכן, במשחק האחרון לפוסט הזה אפצל את הגוש, ונראה מה קורה:

גוש/מפלגהחברי כנסתערך שאפליכח נומינלי
ימין5250.0%43.3%
שינוי מצומצם3713.3%30.8%
כחול לבן810.0%6.7%
ימינה76.7%5.8%
הרשימה המשותפת66.7%5.0%
תקווה חדשה66.7%5.0%
רע"מ46.7%3.3%

התוצאה הלא מפתיעה: כאשר כחול לבן ותקווה חדשה עדיין אינן מוכנות להמליץ לנשיא להטיל את המנדט על יאיר לפיד, הן מחזקות את כוחן היחסי, אבל המחיר הוא חיזוק משמעותי של גוש הימין. יותר מכך, אם הן לא ימליצו להטיל את המנדט על יאיר לפיד, הרי שעל פניו (או לפחות על פי ערך שאפלי) האדם בעל הסיכוי הטוב ביותר להקים ממשלה הוא מנהיג גוש הימין.

האם כל זה טוב או לא? אני מניח שכל אחד יסיק מסקנות אחרות בהתאם לדעותיו הפוליטיות. לכן אני מבקש מכולם לא לקיים את הדיון הפוליטי כאן.

סקירה על סקרים – הקלטת מפגש הזום

בעקבות ההתפתחויות הפוליטיות, נושא מפגש הזום האחרון של נסיכת המדעים היה "סקירה על סקרים", ובו דנתי במשמעות של טעות הדגימה, הצגתי הטיות ומניפולציות אפשריות, וייעצתי מה כדאי לבדוק כאשר קוראים סקר.

ניתן לצפות בהקלטת המפגש . למעבר ישיר להקלטה לחצו כאן. צפיה נעימה!

סטטיסטיקה בבית המשפט – הקלטת מפגש הזום

אשה חפה מפשע הורשעה ברצח, רוצחת מורשעת זוכתה בערעור, אדם הורשע ברצח ללא ראיות הקושרות אותו ישירות למעשה – הכל בגלל טעויות בסטטיסטיקה.

נושא מפגש הזום האחרון של נסיכת המדעים היה "מעבר לספק סביר – סטטיסטיקה בבית המשפט". ניתן לצפות בהקלטת המפגש בערוץ היוטיוב של נסיכת המדעים. השקפים של המצגת זמינים בעמוד המצגות.

ממתינים לתוצאות הסופיות

אני מניח שכולכם יודעים מה קורה/קרה בבחירות בארה"ב בשנת 2020.  תהליך ספירת הקולות נמשך על פני מספר ימים, וכל מה שאפשר לעשות זה לעקוב אחרי התהליך: מי מוביל הספירה באיזו מדינה ובכמה. דוגמה אקראית מבוקר כתיבת שורות אלה: הכותרת של כלכליסט היא "הדרמה בארה"ב: כמעט שוויון בפנסילבניה ובג'ורג'יה, טראמפ מצמצם הפער באריזונה".

יש נקודה חשובה שמשום מה מתעלמים ממנה: ההצבעה הסתיימה, ותוצאות הבחירות כבר נקבעו. רק שאנחנו עדיין לא יודעים מי ניצח כי לא סיימו לספור את כל הקולות. (( איזה קולות סופרים? זו שאלה אחרת שחורגת מתחומי העניין של הבלוג הזה)).

כל הדרמה הזו הזכירה לי בעיה ישנה  מסוף המאה ה-19, שנקראת פשוט "בעיית הבחירות" (The ballot problem). הניסוח מאוד פשוט. שני מועמדים מתחרים בבחירות. אם מוציאים את פתקי ההצבעה מהקלפי זה אחד זה באופן אקראי, מה הסיכוי כי המועמד שקיבל את רוב הקולות יוביל לאורך כל מהלך הספירה?

הקישור שהופיע בפיסקה הקודמת יוביל אתכם לעמוד בויקיפדיה שבו תוכלו לקרוא על ההיסטוריה של הבעיה הזו, ועל כל מיני דרכים שנמצאו כדי לפתור אותה. אפשר למשל לנסות לרשום/לספור את כל המהלכים האפשריים של ספירת הקולות, ואת כל המהלכים האפשריים שבהם המנצח מוביל לאורך כל הספירה. אפשר להשתמש באינדוקציה מתמטית. הפתרון המקורי השתמש בנוסחת נסיגה. אני רוצה להציג כאן פתרון אחר  שמבוסס על הפתרון של המתמטיקאי הצרפתי Désiré André.

סיפורנו מתחיל בעיירה ציורית במרכז אילינוי, שם מתגוררים כמה אלפי אנשים, ויש בה רק קלפי אחת. הם בוחרים באחד משני המתמודדים לנשיאות, בואו נקרא להם ג'ו ודונלד. כל קשר לפוליטיקה מקרי לחלוטין. בחרתי בשם ג'ו מכיוון שכאשר התגוררתי בארה"ב האמריקאים הכירו אותי בשם ג'ו, ובשם דונלד כי בין היתר יש לי אוסף מפואר של כ-150 ברווזים.

נניח שג'ו קיבל A קולות, ודונלד קיבל B קולות, ובאופן מסתורי אנחנו יודעים את הערכים המספריים של A ו-B לפני שהתחילה ספירת הקולות, ואנחנו גם יודעים כי A גדול מ-B, כלומר ג'ו ניצח. מה הסיכויים שג'ו יוביל לאורך כל תהליך ספירת הקולות?

יש מספר תרחישים אפשריים. נתחיל במקרה הכי קל: הפתק הראשון שהוצא מהקלפי הוא של דונלד. דונלד מוביל, ולכן ג'ו לא מוביל לאורך כל הספירה. הסיכוי לתרחיש הזה הוא B/(A+B).

עכשיו בואו נשים לב כי מכיוון שג'ו ניצח, אם דונלד מוביל בשלב מסויים, אז בנקודת זמן כלשהי לאחר מכן ייווצר שיוויון קולות, כי ג'ו קיבל יותר קולות. הנה דוגמה לתרחיש אפשרי שבו זה קורה:

מספר הקולות
שנספרו
למי ניתן הקולהיתרון של ג'ו
1דונלד1-
2דונלד2-
3דונלד3-
4ג'ו2-
5דונלד3-
6דונלד4-
7ג'ו3-
8ג'ו2-
9ג'ו1-
10ג'ו0

מה שקורה אחר כך לא ממש משנה. כל תרחיש שבו הקול הראשון הוא קול לדונלד מגיע בנקודה כלשהי לשוויון בספירה, וההסתברות לתרחיש הזה היא כאמור B/(A+B) . אפשר לתאר את התרחיש הזה בגרף הבא:

מה קורה אם הקול הראשון שנספר ניתן לג'ו? כאן ג'ו מוביל בתחילת הספירה, ולאר מכן יש שתי אפשרויות: או שג'ו ימשיך להוביל לאורך כל הספירה, או שבשלב מסויים ייווצר שיוויון בקולות.

בואו נוסיף לגרף שלנו תרחיש אפשרי שבו ג'ו מתחיל להוביל, אבל לאחר מכן הספירה מגיעה לשוויון:

אני לא בחרתי את התרחיש הזה באופן מקרי! התרחיש השני (הכחול) הוא השיקוף של התרחיש הראשון (האדום). למעשה, לכל אחד מהתרחישים שבהם דונלד מוביל בתחילת הספירה (לאחר שהקול הראשון נספר), יש תרחיש מקביל שבו ג'ו מקבל את הקול הראשון שנספר והספירה מגיעה לשוויון. גם ההיפך נכון: לכל אחד מהתרחישים שבהם ג'ו מוביל בתחילת הספירה (לאחר שהקול הראשון נספר) והספירה מגיעה בשלב כלשהו לשוויון, יש תרחיש מקביל שבו דונלד מקבל את הקול הראשון שנספר ואז הספירה חייבת להגיע לשוויון.

לכן ההסתברויות לשני סוגי התרחישים – תרחיש שבו דונלד מוביל בתחילת הספירה, ותרחיש שבו ג'ו מוביל בתחילת הספירה אך אינו מוביל לאורך כל הספירה – שוות, וכל אחת מהן שווה ל- B/(A+B). אם נחבר אותן נקבל את ההסתברות לתרחיש שבו ג'ו אינו מוביל לאורך כל הספירה, והסתברות זו שווה ל- 2B/(A+B).

מכאן קל לחשב כי ההסתברות שג'ו יוביל לאורך כל הספירה שווה ל-1 פחות ההסתברות שהוא לא יוביל לאורך כל הספירה, כלומר ל- (A+B)/(A-B).

שימו לב כי התוצאה היא בעצם ההפרש בין מספרי הקולות שניתנו למועמדים חלקי סך כל הקולות. מעניין, אבל לא בהכרח אינטואיטיבי.

אתם מוזמנים להמשיך להחזיק אצבעות למען המועמד המועדף שלכם.

על תבונה, רגישות ודברים אחרים – הקלטת מפגש הזום

הלכתם לקופת החולים וביצעתם בדיקה כלשהי. אמרו לכם שהדיוק של הבדיקה הוא 90%. מה זה אומר בעצם? איזה שאלות אתם צריכים לשאול את הרופא (או לברר עם ד”ר גוגל?) ואם אתם מחפשים בגוגל – מה בדיוק צריך לחפש?

אתמול ערכתי את מפגש הזום שני של נסיכת המדעים שעסק באבחנות רפואיות ובאופנים בהן ניתן להעריך את איכותן ואת המשמעות של התוצאות שהתקבלו.

הקלטת המפגש זמינה לצפיה בלינק https://www.youtube.com/watch?v=08F96yeDUzI

מקווה שתיהנו

ויזואליזציה: מבט לעבר – צילום מפגש זום

ב-16.9.2020 נערך מפגש הזום הראשון של נסיכת המדעים שכותרתו הייתה ויזואליזציה: מבט לעבר.
אומר כי אני מאוד מאוכזב מהאופן שבו המפגש הזה התנהל, ואבהיר כי אני מאוכזב מעצמי, ולא מאף אחד אחר. למדתי, בדרך הקשה, כי זום הוא מדיום מאוד שונה מהרצאה/מפגש פנים אל פנים, והשוני מתבטא גם באופי הקשר עם הקהל, וגם בטכנולוגיה שאני, מה לעשות, לא מכיר מספיק טוב ((למרות שעברתי הדרכה אצל הבן שלי… )). אני מקווה שבמפגש הבא אצליח לשפר את את אופן השימוש שלי בזום.
בכל אופן, כפי שהבטחתי, המפגש הוקלט והוא זמין לצפיה. מקווה שבכל זאת תיהנו:

יום הולדת 100 לק. ר. ראו

ק. ר. ראו

ק. ר. ראו

היום, 10.9.2020, הסטטיסטיקאי ק. ר. ראו, מחשובי הסטטיסטיקאים של המאה ה-20 חוגג את יום הולדתו ה-100.

בפוסט הזה לא תקראו על הביוגרפיה שלו ,עבודתו המדעית ,והפרסים ואותות הכבוד שקיבל. בשביל זה כתבתי לכם ערך בויקיפדיה אודותיו. כאן אני רוצה לספר סיפורים. למעשה אלה סיפורים שראו עצמו סיפר, בשלושה ראיונות שנערכו איתו שנערכו ב-1985, 2003 ו-2016.

ראו, כמו המון סטטיסטיקאים אחרים, הגיע לסטטיסטיקה במקרה. הוא מספר כי לאחר שסיים את לימודי התואר השני במתמטיקה נסע לכלכותה כדי להתראיין למשרה בצבא הוד מלכותו, כלומר להתגייס. הוא מספר כי הם חיפשו מתמטיקאים לכל מיני תפקידים. הוא לא התקבל לצבא בגלל גילו הצעיר. בכל מקרה, הוא פגש מישהו שסיפר לו על המכון לסטטיסטיקה שנמצא בעיר. הוא הגיע למכון ודיבר עם ראש המכון ומייסדו, פ. צ'. מהלנוביס. מהלנוביס קיבל אותו לעבודה במכון כחוקר, ובמקביל שלח אותו ללמוד לתואר שני בסטטיסטיקה באוניברסיטת כלכותה, שזה עתה פתחה תכנית ללימודי סטטיסטיקה. במכון עסק בניתוח נתונים במחקרים אנתרופולוגיים. כאשר מהלנוביס קיבל פניה לעזרה בניתוח נתונים דומים מהמוזיאון האנתרופולוגי של אוניברסיטת קיימברידג', ראו נשלח לשם. מדובר היה באוסף גדול של עצמות ושלדים בני כאלף שנה שנחפרו בצפון אפריקה.

ראו עם אחד העכברים של רונלד פישר, 1947

במקביל לעבודתו שם, ראו פנה לרונלד פישר כדי שידריך אותו בעבודת דוקטורט. פישר הסכים, אולם התנה זו בכך שראו יערוך ניסויים במעבדה הגנטית שלו, ללא כל קשר לעבודת הדוקטורט. ראו מספר כי לפישר הייתה מעבדה ובה אלפי עכברים, והוא העסיק שם 10 עובדים, חלקם הגדול סטודנטים, שטיפלו בעכברים וערכו ניסויים בהכלאות בין העכברים. ניסויי העכברים לא נכללו לבסוף בעבודת בדוקטורט שלו, שהתבססה על השיטות שפיתח לניתוח נתוני העצמות במוזיאון. חלק לא מבוטל משיטות אלה היו הכללות של שיטות סטטיסטיות שפישר עצמו פיתח. ראו מספר כי פישר היה מאוד מרוצה מעבודתו. עם זאת, ראו מספר כי הציע גישה בייסיאנית לאחת הבעיות שהתמודד איתן. פישר שהיה אנטי-בייסיאני, ביקש מראו לנסות גישה אחרת, אבל ראו מספר בחיוך כי הוא התעלם מהבקשה. (( כאן יש לציין כי הפעם הראשונה בה הוזכרה המילה "Bayesian" בספרות הסטטיסטית הייתה במאמר של פישר, בו הבהיר כי המתודולוגיה שבה עסק המאמר אינה בייסיאנית. ))

ראו מספר גם על החיים בקיימברידג', ובעיקר בקינג'ס קולג'. הוא מספר כי באותה עת דווקא היו הרבה סטודנטים ממוצא הודי בקיימברידג'. באופן רשמי ראו למד בקינג'ס קולג', אבל למעשה בילה את כל זמנו במוזיאון (חוץ מהזמן שבילה במעבדה של פישר, כמובן). הוא מספר כי רק לעמיתי המכללה (( חברי הסגל האקדמי))  מותר לדרוך על המדשאות שם, כלל שקיים עד עצם היום הזה. בסופו שלדבר ראו מונה לעמית במכללה לכל ימי חייו בשנת 1974, וכעת הוא יכול לדרוך שם על הדשא, לאכול משולחן הקולג' ולשתות יין ככל שיחפוץ.

ראו ובלקוול, 1977

ראו ובלקוול, 1977

שמו של ראו קשור בשתי תוצאות חשובות בחום תורת האמידה: משפט ראו-בלקוול וחסם קרמר-ראו. ראו מספר כי כאשר חזר להודו ולימד באוניברסיטת כלכותה, הוכיח בכיתה משפט של פישר שהתייחס למדגמים גדולים, למעשה אינסופיים (( בשפת המתמטיקה מדובר בתוצאה אסימפטוטית )) . אחד הסטודנטים שאל אותו מדוע הוא לא מוכיח את התוצאה למדגמים סופיים. ראו מספר כי באותו לילה חשב על השאלה של התלמיד ומצא את ההוכחה עבור מדגם סופי. זה היה חסם קרמר-ראו. כאשר הוכיח את התוצאה בכיתה שבוע לאחר מכן, עלה בדעתו דבר נוסף. הדבר הנוסף הזה הוא משפט ראו-בלקוול. ראו פרסם את שתי התוצאות במאמר שהופיע בשנת 1945. קרמר פירסם את החסם שגילה באופן עצמאי בשנת 1946. בלקוול, שגילה את מה שנקרא כיום משפט ראו-בלקוול בכוחות עצמו, פרסם את התוצאה שלו ב-1947.

משפט ידוע נוסף הוא משפט פישר-ראו. כאן ראו מספר כי פישר כתב מאמר מאוד טכני וביקש ממנו לבדוק את החישובים, ואז הוא שיפר את התוצאות של פישר.

מעניין לציין כי כאשר ראו נשאל מהם לדעתו הישגיו החשובים ביותר, הוא לא מציין את שלושת המשפטים שעמם הוא מזוהה יותר מכל, אלא את עבודותיו בתחומים של מערכים אורתוגונליים ואנטרופיה ריבועית (( לא להיבהל, גם אני לא מבין בזה כלום )), וכן את ה-score test שפיתח.

באופן לא מפתיע ראו מספר כי שני האנשים שלהם הייתה ההשפעה הגדולה ביותר עליו הם מהלנוביס ופישר. את מהלנוביס הוא מתאר כאדם קשה, ולדבריו כל אנשי המכון חששו ממנו. איש לא קרא לו בשמו, גם שלא בנוכחותו. מהלנוביס היה "הפרופסור". כינוי זה נשמר לו גם אחרי מותו. ראו מונה כמנהל המכון, אך לא החליף את מהלנוביס כפרופסור. גם בראיונות שנתן הוא מתייחס אל מהלנוביס כאל הפרופסור.

ראו ופישר, 1960

ראו ופישר, 1960

גם לפישר היה מוניטין של אדם קשה, ולפי מספר סיפורים די בצדק. מעניין לראות כי לראו היו יחסים מאוד טובים עם פישר. הוא משבח את פישר גם כמרצה וגם כמנטור, שהתייחס בכבוד לסטודנטים שלו . הוא מספר כי פישר תמיד דרש ממנו לא להסתפק בפיתוחים מתמטיים אלא גם ליישם אותם על נתונים. לכן, סיפר ראו, שיטת העבודה שלו הייתה לאסוף קודם כל נתונים ולפתח מתודולוגיה לבעיה שמציגים הנתונים. במובן הזה, ראו היה data scientist כבר בשנות הארבעים של המאה ה-20. (( את המונח data science טבע הסטטיסטיקאי ג'ון טוקי במאמר The Future of Data Analysis  שיצא לאור ב-1962 )) בראיון שנתן ב-2016 ראו מסביר כי זו למעשה הדרך שבה ה-data science פועל, וכאן אצטט את דבריו:

"Data science … is a scientific discipline because it uses an experiment-oriented scientific approach. Based on empirical evidence, a hypothesis is formulated, and evidence is gathered to perform the hypothesis testing"

ראו, מהלנוביס ואנדריי קולמוגורוב, 1962

ראו, מהלנוביס ואנדריי קולמוגורוב, 1962

ראו סיפר בהרחבה גם על קשרי העבודה שלו עם מתמטיקאים וסטטיסטיקאים מברית המועצות החל משנות ה-60 ועד אמצע שנות ה-80, בשיא המלחמה הקרה, שנמשכו גם כאשר עבר לאוניברסיטת פיטסבורג ב-1979. הוא מציין כי קיבל תמלוגים על ספריו שתורגמו לרוסית, אך הכסף כמובן רובלים שהופקדו בבנק בברית המועצות. כאשר ביקר שם, נהג להשתמש בכסף הזה כדי להזמין את כל חבריו שם למסיבות שערך.

מה מאחלים לאדם בן 100? עד 120? נאחל לו יום הולדת שמח.

מקורות

מה אומרת הסטטיסטיקה -הניוזלטר החדש של נסיכת המדעים

אני שמח להודיע על השקתו של הניוזלטר החדש של נסיכת המדעים. העדכון החודשי, ב-15 לכל חודש, יכלול לינקים והפניות לתכנים מעניינים העוסקים בנושאי הבלוג.
הנכם מוזמנים להירשם כאן:
http://www.sci-princess.info/updates