נסיכת המדעים » האנשים שמאחורי הסטטיסטיקה

ארכיב עבור 'האנשים שמאחורי הסטטיסטיקה'

שלושים למותו של אריק ליאו להמן

את הידיעה על מותו של אריק לאו להמן פרסמתי בקצרה באתר האיגוד הישראלי לסטטיסטיקה לפני חודש בדיוק. הידיעה הגיעה אלי במקרה, דרך הודעה לקונית שפורסמה בפורום המתמטיקה של תפוז. האישור היחיד שמצאתי לנכונותה היה בויקיפדיה, שם אכן צויין כי להמן נפטר ב-12.9.2009. זהו. חיפוש באתרי החדשות דרך גוגל העלה רק ידיעות על שחקן כדורגל גרמני הנושא את אותו השם, ורק בפורום ברזילאי כלשהו מצאתי עותק של המייל ששלח תלמידו ועמיתו, פיטר ביקל, לחברי הסגל של המחלקה לסטטיסטיקה באוניברסיטת ברקלי ובה הודיע על הפטירה. כעבור מספר ימים הופיעה הודעה גם באתר המחלקה לסטטיסטיקה של ברקלי, והועלה קובץ pdf המסכם את מורשתו של להמן.

אריק לאו להמן

אני מודה שהופתעתי מכך שמותו של להמן לא הדהד בעולם הסטטיסטיקה (ובמחשבה שניה, סיפור שאספר עוד מעט יראה שאולי לא הייתי צריך להיות מופתע). שמו מוכר לכל סטטיסטיקאי, בזכות שני הספרים המונומנטליים שכתב: האחד על אמידה נקודתית, והשני על בדיקת השערות (הקישורים לגוגל בוקס, שם תוכלו גם לעיין בחלקים מהספרים). הספרים אינם רק סיכום של ידע, אלא מכילים את מחקריו של להמן בנושאים האלה, ולמרות שנכתבו לראשונה בשנות החמישם של המאה הקודמת הם עדיין רלוונטיים, גם בזכות המהדורות המעודכנות שהוציא להמן לאור יחד בסיוע שניים מתלמידיו.

למעשה, ספר הסטטיסטיקה הראשון שרכשתי נכתב גם הוא על ידי להמן (ביחד עם ג. ל. הודג'ס): "מושגים בסיסיים בהסתברות וסטטיסטיקה" (זה שוב לינק לגוגל בוקס. אני רכשתי את המהדורה העברית), כאשר הייתי תלמיד שנה א. אני חייב לציין שהספר שמרתק תרם תרומה רבה להחלטתי לוותר על לימודי הכלכלה ולהתמקד בסטטיסטיקה.

כאשר הייתי תלמיד שנה ג, הגיע להמן לביקור בישראל ונתן הרצאה בסמינר של המחלקה לסטטיסטיקה. הסמינר מיועד אמנם לאנשי סגל המחלקה, אבל החלטתי לבוא בכל זאת. לא התאכזבתי. להמן נתן הרצאה בהירה, מעניינת ומשעשעת בנושא הקשור לבדיקת השערות (אני לא זוכר את הפרטים כמובן). עצם העובדה שכתלמיד שנה ג הצלחתי בכל זאת לעקוב אחרי רוב הדברים שאמר מעידה על יכולתו כמרצה מעולה.

התלבטתי אם להביא עימי את העותק של ספרו ולבקש ממנו לכתוב לי הקדשה עליו. בסוף התביישתי וויתרתי. היום אני קצת מצטער. בכל מקרה, אזרתי אומץ, ניגשתי אליו אחרי ההרצאה, והחלפתי איתו כמה מלים.

את להמן ראיתי שוב, מרחוק, בקיץ 1997, בכנס האיגוד האמריקני לסטטיסטיקה שנערך באנהיים, קליפורניה. היום אני יודע שהוא כבר היה בן 80 70 באותה עת. ראיתי אותו פוסע באיטיות באיזור הצפוף של מכירת הספרים, מקווה שלא יידרס על ידי ההמון. הוא נראה מבולבל ועייף, נראה שאף אחד לא ממש ראה אותו. עד ששמתי לב כי זה אכן להמן, הוא נעלם בין הסטטיסטיקאים הרבים שהיו שם, רובם למדו מספריו, אני מניח.

נשלח: 13 באוקטובר, 2009. נושאים: בנימה אישית, האנשים שמאחורי הסטטיסטיקה.
תגובות: 3 | טראקבק

קריירה בסטטיסטיקה – גליון מיוחד של AMSTAT NEWS

גליון חודש ספטמבר 2009 של AMSTAT NEWS, המגזין החודשי של האיגוד האמריקני לסטטיסטיקה, מוקדש לנושא המעניין במיוחד של קריירה בסטטיסטיקה. בין היתר, תוכלו למצוא שם כתבה בנושא עבודה מול ממשקים, מאמר על אסטרטגיה בחיפוש עבודה, וטיפים לכתיבת תוצאות מחקר במאמר מדעי – שלושה נושאים שיכולים לעניין גם את אלה שאינם סטטיסטיקאים.

במאמרים שיעניינו יותר את ציבור הסטטיסטיקאים מסביר הסטטיסטיקאי סיו-לי מנג מדוע הסטטיסטיקה היא הסיכוי שלך לאושר (או לסבל), וסטטיסטיקאים מרחבי ארצות הברית מתארים את עיסוקיהם הרבים והמגוונים.

חמישה מאמרים נוספים מביטים לאחור ומסכמים את הקריירות של חמישה סטטיסטיקאים נודעים.

ניתן לעיין בגליון און-ליין באתר האיגוד האמריקני לסטטיסטיקה.

נשלח: 22 בספטמבר, 2009. נושאים: האנשים שמאחורי הסטטיסטיקה.
תגובות: אין | טראקבק

הכוכב, הסמים והכומר

לפני כחודשיים דיווחתי כאן על השעייתו של סופרסטאר הבייסבול מני רמירז ל-50 משחקים, לאחר שבבדיקת סמים שנערכה לו התקבלה תוצאה חיובית. עם הדיווח העליתי נקודה למחשבה: לאור העובדה שבבדיקה התקבלה תוצאה חיובית, מה ההסתברות כי רמירז אכן השתמש בסמים אסורים? נתתי גם רמז עבה לפתרון: מספר 4 ברשימת 15 הסטטיסטיקאים הגדולים.

הבטחתי רשימה בנושא, והנה אני סוף סוף מקיים. לזירוז העניין תרם דוברמן, שפרסם בבלוג שלו את החידה הזו. ההקשר היה שונה (שפעת החזירים במקום סמים אסורים), אבל העקרון זהה. מי שמעוניין לקרוא את הפתרון של דוברמן יכול לקרוא אותו בלינק הזה, אם כי אני מייד אתן הסבר משלי וגם ארחיב על הנושא.

ובכן, מה ההסתברות כי רמירז אכן השתמש בסמים אסורים אם בדיקת הסמים שלו הייתה חיובית? התשובה האמיתית והכנה ביותר שאני יכול לתת לכם היא שאני לא יודע. חסרים נתונים. אז בואו ונמציא נתונים לצורך התרגיל. בדיקת הסמים יכולה לטעות. יכול להיות שנבדק כלשהו משתמש בסמים אסורים, ובכל זאת מתקבלת תוצאה שלילית בבדיקה. גם יכול להיות שהנבדק לא השתמש בסמים אסורים ותוצאת הבדיקה בכל זאת הייתה חיובית משום מה (רמירז לא טען זאת, דרך אגב). אלה הן שתי הטעויות שעשויות לקרות בכל תהליך קבלת החלטות. אבל באיזה סיכוי עשויה כל טעות להתרחש? אני אניח, כמו דוברמן בחידה שלו, כי לכל טעות יש סיכוי של אחוז אחד, כלומר 0.01. (את הסיכויים האמיתיים יודעים מן הסתם יצרני ערכת הבדיקה). עדיין אין מספיק נתונים. כדי לענות על השאלה צריך גם לדעת מהו אחוז משתמשי הסמים באוכלוסיה הרלוונטית, ואת האחוז הזה קשה מאוד לברר. אני מעריך את המספר הזה ב-5 עד 10 אחוז. מסמך פנימי של ליגת ה-MLB שהודלף לאחרונה אמר כי בשנת 2003 התקבלו תוצאות חיוביות אצל 104 שחקנים שנבדקו (אשמח ללינק – לא מצאתי את הידיעה המקורית). בליגה יש כ-1000 שחקנים, ולכן אחוז המשתמשים הוא בסביבות 10. יש הסבורים כי "תקופת הסטרואידים" שהחלה לקראת סוף שנות התשעים של המאה הקודמת כנראה חלפה כבר מן העולם. אני סבור כי השחקנים פשוט עברו להשתמש בחומרים חדשים, שבבדיקות הנוכחיות לא מזהות. יש להם תמריץ כלכלי לכך. בואו ניקח את המספר העגול של 10% לצורך התרגיל.

נניח שכל 1000 השחקנים נבדקים. מתוכם 100 משתמשים בסמים אסורים, על פי הנחתנו, ומכיוון שהבדיקה תתן תוצאה חיובית אם הנבדק משתמש בסמים ב-99 אחוז מהמקרים, נקבל (תיאורטית) 99 תוצאות חיוביות ותוצאה שלילית אחת. 900 השחקנים האחרים נקיים, ועבור 99% מהם תוצאת הבדיקה תהיה שלילית. כלומר, יתקבלו 891 תוצאות שליליות , ואילו 9 שחקנים חסרי מזל יקבלו תוצאה חיובית (ואלי יושעו) הגם שלא השתמשו בסמים אסורים. נרכז את המספרים האלה בטבלה:

		תוצאת הבדיקה
		חיובית	שלילית	סה"כ
משתמש בסמים אסורים?	משתמש	99	1	100
משתמש בסמים אסורים?	לא משתמש	9	891	900
	סה"כ	108	892	1000

מתוך 108 שחקנים עבורם התקבלה תוצאה חיובית, 99 אכן משתמשים בסמים, ולכן ההסתברות כי שחקן שתוצאת הבדיקה שלו חיובית אכן משתמש בסמים היא 99/108 כלומר כמעט 92%.

שימו לב כי התוצאה תלויה בהנחה הראשונית על אחוז השחקנים המשתמשים בסמים, שאינו ידוע לנו. אם האחוז הזה הוא רק 5% ולא 10%, אז ההסתברות כי השחקן "שלנו" אכן השתמש בסמים תהיה "רק" 84%.

עכשיו בואו נעזוב את החישובים, ונעבור לדיון עקרוני בתרגיל שנעשה. אנו התמקדנו בשני מאורעות. צפינו במאורע "בבדיקת הסמים התקבלה תוצאה חיובית" והתעניינו במאורע "השחקן שנבדק משתמש בסמים אסורים". כמו כן היו נתונות לנו מספר הסתברויות. הייתה ידועה לנו, בין היתר ההסתברות כי תוצאת בדיקת הסמים היא חיובית כאשר ידוע כי השחקן הנבדק משתמש בסמים אסורים. אבל ההסתברות שעניינה אותנו באמת הייתה ההסתברות כי השחקן הנבדק משתמש בסמים אסורים כאשר ידוע כי תוצאת בדיקת הסמים היא חיובית. שתי ההסתברויות שתיארתי הן הסתברויות מותנות, אבל מתארות מצבים שונים. אחת מתארת הסתברות של מאורע שקורה בהווה (תוצאת הבדיקה חיובית) בהנתן מאורע שקרה בעבר (השחקן השתמש בסמים אסורים). השניה מתארת הסתברות של מאורע שקרה בעבר בהנתן מאורע שקרה בהווה. החישוב שלנו "הפך" את כיוון זרימת הזמן: מההווה לעבר במקום מעבר להווה. וכזכור, כל התרגיל שלנו לא היה מתאפשר ללא הנחה אפריורית כלשהי על אחוז השחקנים המשתמשים בסמים אסורים. הבדיקה אפשרה לנו לעדכן את ההסתברות האפריורית לכך שהשחקן השתמש בסמים אסורים, ולהחליף אותה בהסתברות אפוסטריורית.

הנה תיאור אפשרי אחר של התהליך: בהתחלה לא היה לנו כל ידע לגבי הרגלי השימוש של השחקן המסוים בסמים אסורים, ולכן הנחנו כי הסיכוי לכך שהוא משתמש בסמים כאלה שווה לפרופורציית השחקנים המשתמשים בסמים. הבדיקה שנערכה ותוצאתה נתנו לנו אינפורמציה חדשה, וממנה למדנו כי ההסתברות שהשחקן משתמש בסמים גבוהה הרבה יותר. החישוב שעשינו הוא מעין ביטוי מתמטי לתהליך למידה.

הראשון שניסח את התרגיל ההסתברותי הזה בכתובים היה כומר אנגלי שחי לו במאה ה-18, ושמו תומאס בייס. בייס היה ידוע כמי שעוסק במתמטיקה, ואף היה חבר החברה המלכותית, אם כי בימי חייו לא פרסם אף לא מאמר אחד שתיעד את עבודתו. המאמר המתמטי היחיד שהתפרסם תחת שמו הופיע רק שנתיים לאחר מותו, וזהו למעשה מכתב ששלח לידידו ג'ון קאנטון. במכתב תיאר בייס את הדרך לחשב "הסתברות מותנה הפוכה" (שתיארתי זה עתה). הדוגמא שהביא בייס עסקה, אגב, בסיכויי הנצחון במשחק ביליארד, במיטב המסורת של התפתחות תורת ההסתברות בהתאם לצרכיהם של המהמרים. למעוניינים לקרוא את המאמר עצמו, הנה קישור לקובץ pdf. עותק מקורי של המאמר, דרך אגב, יעלה לכם כ-4200 דולר, אם תמצאו מישהו שמוכן למכור.

הקוראים הותיקים של הבלוג הזה אמורים לדעת כי הזכרתי את בייס בעבר. הוא מופיע במקום ה-4 ברשימת 15 הסטטיסטיקאים הגדולים שערכתי. בעבר קוננתי על כך שמשפט בייס לא הופיע ברשימת 100 המשפטים הגדולים של המתמטיקה שערך מישהו. במסגרת התחקיר לרשימה זו הגעתי ל"פרוייקט מילניום" שנערך על ידי המרכז למדעים קוגניטיביים אוניברסיטת מינסוטה, שניסה לבחור ולדרג את 100 העבודות המשפיעות ביותר על המדעים הקוגניטיביים. מאמרו של בייס היה בין 306 העבודות המועמדות, אך פאנל המומחים שביצע את מלאכת הדירוג לא חשב שהעבודה ראויה דיה כדי להכלל ב-Top 100.

כפי שציינתי כאן בעבר, על הבסיס שהניח בייס צמח ענף שלם של הסטטיסטיקה שנקרא כמובן "סטטיסטיקה בייסיאנית". לסטטיסטיקה הבייסיאנית שימושים מרחיקי לכת. היא עומדת בבסיסן של מערכות הבינה המלאכותית למינהן, ומיושמת במגוון תחומים, החל בגנטיקה וכלה בסינון דואר זבל. אני מסתפק כאן בהפניה למאמר שפרסם פרופ' ישראל בנימיני ב-Ynet לפני מספר שנים, בו יש סקירה נאה של המשפט ושימושיו.

נשלח: 19 באוגוסט, 2009. נושאים: האנשים שמאחורי הסטטיסטיקה, היסטוריה, המשפטים הגדולים של הסטטיסטיקה.
תגובות: 6 | טראקבק

סטטיסטיקה זה סקסי

סטטיסטיקה זה סקסי. אני ידעתי את זה מאז ומתמיד, אבל עכשיו כולם (כנראה) מתחילים לראות את האור.
האל וריאן הוא פרופסור למדעי המידע, עסקים וכלכלה באוניברסיטת קליפורניה בברקלי. הוא גם הכלכלן הראשי של חברה שאולי שמעתם עליה, שנקראת בשם המוזר גוגל. בראיון שנתן וריאן בתחילת השנה לכתב העת של חברת הייעוץ מקינזי, אמר וריאן:

.I keep saying the sexy job in the next ten years will be statisticians

והסביר את דבריו (תרגום חופשי שלי):

"היכולות לקחת נתונים, להבין אותם, לעבד אותם, להעניק להם ערך, להציג אותם, לתקשר אותם – יהיו כישורים בעלי חשיבות עצומה בעשורים הקרובים, לא רק ברמה המקצועית, אלא גם ברמה החינוכית מבית הספר היסודי ועד לאוניברסיטה. הנתונים זמינים לכולנו באופן חפשי. היתרון נמצא ביכולת להבין את הנתונים ואת ערכם.

דבריו של וריאן הגיעו במהירות אל הניו-יורק טיימס, שם הופיעה אתמול כתבה תחת הכותרת: "For Today’s Graduate, Just One Word: Statistics", ובה מתוארים השימושים המתקדמים של הסטטיסטיקה בתחומים שונים, החל ממדעי המחשב וכלה בארכיאולוגיה. אתם מוזמנים לקרוא.

ובכל זאת, אני לא התרגשתי מהדברים. וריאן רק חזר, במלים אחרות, על דבריו של סופר המדע הבדיוני ה. ג'. וולס:

"Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write." – H. G. Wells

ששימשו אותי כמוטו להרצאה שנתתי לפני כשנתיים וחצי ביום העיון של האיגוד הישראלי לסטטיסטיקה שעסק בנושא "הסטטיסטיקה בתעשייה לאן?".

תודה לכל מי ששלח לי את הלינקים לשתי הכתבות.

נשלח: 7 באוגוסט, 2009. נושאים: האנשים שמאחורי הסטטיסטיקה, הממ... מעניין..., על סדר היום.
תגובות: 4 | טראקבק

כנס האיגוד הישראלי לסטטיסטיקה 2009

כנס האיגוד הישראלי לסטטיסטיקה ייערך השנה בבאר שבע בתאריך 17.6.התכנית (הלא סופית) של הכנס פורסמה היום באתר האיגוד.

מי שיעיין בתכנית יוכל לראות שאני אהיה שם. אני מארגן את אחד המושבים, שיעסוק בביוסטטיסטיקה (הכותרת הלא מדוייקת של המושב היא "סטטיסטיקה בתעשיית התרופות"), וגם אתן את אחת ההרצאות במושב הזה, שתעסוק באספקט מסויים של ניסויים קליניים להערכת שרידות (survival). מצגת ההרצאה תהיה זמינה כאן בסמוך למועד הכנס. כמו כן ירצו במושב זה: אלי אייל – על תכנון ניסוי קליני במחלת הפרקינסון, דני רוטשטיין – על תפקיד הסטטיסטיקאי בתעשיה הפרמצבטית, וחבי מורד – בהרצאה יותר מתודולוגית על אמידה ובדיקה של אינטראקציות במודל רגרסיה כאשר טעות המדידה לא מקיימת את הנחות הקלאסיות.

גם המושבים האחרים יהיו מעניינים, ונראה שתהיה לי התלבטות קשה בין מושב הביוסטטיסטיקה השני ומושב הסטטיסטיקה התעשייתית שבשניהם יש לי עניין רב.

וכמובן, יהיה משמח לראות שוב כל כך הרבה סטטיסטיקאים במקום אחד.

נשלח: 28 במאי, 2009. נושאים: ביוסטטיסטיקה, האנשים שמאחורי הסטטיסטיקה.
תגובות: אין | טראקבק

הרהורים מקליפורניה

1) רשימה זו נכתבת בחדר המלון בו אני שוהה כעת, אי שם בדרום קליפורניה. כאשר הגעתי אתמול בצהריים למלון, 25 שעות לאחר שיצאתי לדרכי מביתי, הייתי עייף, אך עוד יותר רעב. לאחר מקלחת מהירה, ירדתי לארוחת צהריים במסעדת המלון. לא חיפשתי ארוחת גורמה, ולמעשה בחרתי מהתפריט המבורגר, זה הכל. אבל בקליפורניה כמו בקליפורניה. ההמבורגר הוגש עם כרובית, גזר ואספרגוס כתוספת.

2) קליפורניה (ולמעשה ארה"ב כולה) רועשת לאחר שהיום הושעה כוכב קבוצת הבייסבול לוס-אנג'לס דודג'רס מני ראמירז ל-50 משחקים, לאחר שבבדיקת סמים שנערכה לו התקבלה תוצאה חיובית. למי שזוכר, זה אותו ראמירז שסירב לחתום על חוזה שיעניק לו שכר מעליב של 45 מליון דולר במשך שנתיים (אם כי לבסוף נכנע וחתם). הנה שתי נקודות למחשבה: לאור העובדה שבבדיקה התקבלה תוצאה חיובית, מה ההסתברות כי רמירז אכן השתמש בסמים אסורים? ומה בכלל לא בסדר בשימוש בסמים? רמזים: התשובה לשאלה הראשונה נמצאת בעולם הסטטיסטיקה (רמז עבה: מספר 4 ברשימת 15 הסטטיסטיקאים הגדולים), והתשובה לשאלה השניה נמצאת בעולם הכלכלה. תשובות יגיעו מתישהו כשאתפנה לכתוב רשימות על שני הנושאים. עדכון (19.8.2009): הנה הרשימה עם התשובה לשאלה הראשונה. עדכון (27.1.2010): הנה הרשימה עם התשובה לשאלה השניה.

3) הנסיעה הארוכה אפשרה לי לקרוא סוף סוף בספר The Drunkard's Walk שקניתי לי בנסיעתי הקודמת לארה"ב. בנקודה מסויימת הספר עוסק באפשרות (או אי האפשרות) לייצר מספרים מקריים (ראו גם את רשימתו של גדי אלכסנדרוביץ’ על הנושא בבלוג שלו). בדיון שבספר מצוטט סטטיסטיקאי ירושלמי העונה לשם משה, שטען כי אין אפשרות לייצר סדרה אמיתית של מספרים מקריים, בודאי לא באמצעות מחשב, ואף לא באמצעות הטלת קוביה, למשל, וזאת בשל חוסר האפשרות הפיזית לייצר קוביה הוגנת מושלמת. בטווח הארוך, טען משה, יתגלו אי סדירויות בסדרה של תוצאות ההטלות, שישקפו את היות הקוביה בלתי מושלמת. אני מכיר שני סטטיסטיקאים באוניברסיטה העברית שעונים לשם משה, אולם מחבר הספר צמצם את מספר האפשרויות, כמסר גם כי אותו משה הוא יהודי דתי. האימות בוצע במייל, ומשה מהספר הוא פרופ' משה פולק מהאוניברסיטה העברית, האדם אשר פתח לפני את שערי עולם הסטטיסטיקה כאשר הייתי תלמיד שנה א.

4) זהו ביקורי השני בקליפורניה. הביקור הקודם היה בקיץ 1997. הטיסה חזרה אז כללה עצירת ביניים והחלפת מטוס בפניקס, אריזונה, שהתארכה הרבה מעבר לצפוי עקב תקלה טכנית במטוס. אני ומשפחתי ניסינו לשרוד בטרמינל הצפוף והמחניק, כלפתע הופיעו מולנו חברת הילדות של דודתי ובעלה. וואו! מה הסיכוי שזה יקרה? הסיכוי שאני ומשפחתי נפגוש את חברת הילדות של דודתי בפניקס אריזונה הוא קטן למדי, אבל הסיכוי שמתישהו אפגוש מישהו שאני מכיר במקום לא צפוי הוא כבר גדול למדי. אני מניח שחלק ניכר מהקוראים יכולים להזכר באירוע דומה (או אפילו יותר מאחד) שאירע להם. ומה עם הטלפון המצלצל שמעברו השני נמצא מישהו שבדיוק חשבת עליו? או החלום שחלמתם ש"התגשם"? צירופי מקרים קורים, וקורים כל הזמן. הסיפור שסיפרתי לא ממש מפתיע. מי שלא ממש מבין למה, יכול לנסות לצפות בסרטון הבא, שמסביר מדוע צירופי מקרים אינם כה נדירים, ואין בהם כל משמעות נסתרת:

נשלח: 8 במאי, 2009. נושאים: בנימה אישית, האנשים שמאחורי הסטטיסטיקה.
תגובות: 5 | טראקבק

15 הסטטיסטיקאים הגדולים

הקדמה

אמנם יש כאלה שאומרים שפוסטים של רשימות הם כל כך 2006, אבל רשימות הן בכל זאת דבר נחמד, ובמונחי הזמן שלי, 2006 לא כל כך רחוקה. הבלוג המעניין The list universe שאני קורא באופן קבוע (מומלץ) מביא כמעט כל יום רשימה מעניינת של 10 או 15 או 20 ה<שימו כאן כל דבר כמעט>. גם לי מתחשק לכתוב רשימה מהסוג הזה, ואני כידוע לא רק סטטיסטיקאי, אלא גם אדם שאוהב סטטיסטיקה, ולכן הרשימה שלי מביאה באופן טבעי את 15 הסטטיסטיקאים הגדולים ביותר, לדעתי, כמובן. אני צופה שיהיו כאלה שיחלקו על דעתי, יטענו כי הדירוג מקפח את זה ועושה חסד עם זה, ואולי יש מישהו שאינו ראוי להכלל ברשימה ואני כללתי אותו, או להיפך. זה רק שעשוע.

הקריטריון לפיו בחרתי להכניס סטטיסטיקאי (או סטטיסטיקאית) לרשימה הוא אחד ויחיד: מידת ההשפעה שלו על הסטטיסטיקה המודרנית, ואני מתכוון להשפעה ישירה. לכן כל אבות תורת ההסתברות, ובכללם פרמה, הברנולים, פסקל, לפלס, דה-מואבר, ואפילו קולמוגורוב ומרקוב לא מופיעים ברשימה שלי. הם הניחו יסודות, אבל את הסטטיסטיקה שנבנתה על היסודות האלה בנו אחרים. כמו לכל כלל, גם לכלל הזה יש יוצא מן הכלל (נא להמנע מתגובות שעוסקות בפרדוקס השקרן), ומי שתהיה לו סבלנות ימצא את היוצא מהכלל הזה קרוב מאוד לראש הרשימה.

השתדלתי לשמור על ראייה היסטורית. עשרה מהנכללים ברשימה כבר אינם חיים עימנו היום, שלושה נוספים הם בני 90, והצעיר ביותר הינו בן 71. אני יכול לחשוב על כמה סטטיסטיקאים הפעילים כיום שיכולים להימנות ביחד עם ה-15 שבחרתי, אולי במסגרת "רשימת 20", אחד או שניים אף יכולים להכנס לרשימת ה-15 על חשבון אלה שדירגתי בתחתית. אבל אני מעדיף להמתין להיסטוריה שתאמר את דברה.

אז הנה הרשימה שלי. על חלק הנזכרים הרשימה כבר כתבתי בעבר, ואני מצרף לינקים (אני גם מצרף לכל אחד לינק לביוגרפיה שלו בויקיפדיה – לחצו על השם בכותרת). על השאר אני מקווה לכתוב בעתיד, ואעדכן את הלינקים בהתאם. תיהנו.

15. דויד בלקוול (נולד 1919)

דויד בלקוול

סטטיסטיקאי מאוניברסיטת ברקלי, קליפורניה, חוגג באפריל השנה את יום הולדתו ה-90. תרומתו הידועה ביותר לסטטיסטיקה היא חלקו במשפט ראו-בלקוול, המאפשר בניה קונסרוקטיבית של אמד לפרמטר, שהינו עדיף על פני אמד נתון נאיבי כלשהו. בלקוול תרם גם תרומות משמעותיות לסטטיסטיקה הבייסיאנית, תורת המשחקים ותורת ההחלטות הסטטיסטיות.

14. ג'ורג' בוקס (נולד 1919)

ג'ורג' בוקס

סטטיסטיקאי אנגלי שפעל רוב ימיו באוניברסיטת ויסקונסין במדיסון. מחלוצי המחקר בתחומים של סטטיסטיקה בייסיאנית, בקרת איכות, ניתוח סדרות עיתיות ותכנון ניסויים.

13.ק.ר. ראו (נולד 1920)

ק.ר. ראו

סטטיסטיקאי הודי, מתלמידיו של רונלד פישר. שותפו של דויד בלקוול למשפט ראו-בלקוול. תוצאה ידועה נוספת הנושאת את שמו היא אי-שוויון ראו-קראמר, הנותן חסם תחתון לשונותו של אמד, ובכך מהווה הערכה לטיבו. מלבד תרומותיו לתורת האמידה, נודע ראו גם בתרומותיו לפיתוח שיטות לניתוח רב-משתני.

12. פרנק וילקוקסון (1892-1965)

פרנק וילקוקסון

את וילקוקסון אני אוהב במיוחד, כי הוא הגיע אל העיסוק בסטטיסטיקה כמוני – במקרה. הוא בכלל היה כימאי, וחיפש שיטת ניתוח סטטיסטית שלא תהיה תלויה בהתפלגות של הנתונים. הוא חשב על שיטה פשוטה למדי, אך לא הצליח למצוא מראה מקום ביבליוגרפי עבורה. לכן כתב מאמר שתיאר אותה ושלח אותו לכתב עת סטטיסטי, מתוך מחשבה כי המאמר יידחה עם הפניה לעבודה המקורית שמתארת את השיטה, וכך סוף סוף ישיג את ההפניה הביבליוגרפית שחסרה לו למאמר שלו. למרבה הפתעתו, המאמר ששלח התקבל לפירסום, וכך נולד תחום סטטיסטי חדש – הסטטיסטיקה האי-פרמטרית, וגם סטטיסטיקאי חדש.

11. ויליאם סילי גוסט (1876-1937)

ויליאם סילי גוסט

הסטטיסטיקאי שכמעט אף אחד לא שמע עליו, כולל בעלי תארים אקדמיים בסטטיסטיקה, אבל כ-ו-ל-ם מכירים. גוסט עבד במבשלות הבירה "גינס", ושם פיתח במסגרת עבודתו טכניקות סטטיסטיות שונות שעסקו בתכנון ניסויים וניתוח נתונים סטטיסטיים. את עבודותיו פרסם תחת הכינוי "סטודנט" בכתב העת ביומטריקה, הודות לקשריו הטובים עם העורך, קרל פירסון. את השיטה המפורסמת שפיתח להשוואת ממוצעים של שתי אוכלוסיות, מבחן t, מכיר כל מי שלמד קורס מבוא לסטטיסטיקה כלשהו.

10. דויד קוקס (נולד 1924)

דויד קוקס

סטטיסטיקאי אנגלי, נודע בעיקר בזכות תרומתו המכרעת לתחום של ניתוח נתוני השרדות (למשל, משך הזמן העובר עד שינוי במצבו הקליני של חולה). המודל של קוקס הוא סוס העבודה של ניתוח נתונים מסוג זה. תוצר לואי חשוב מאין כמוהו של מודל קוקס הוא שיטת אמידה חדשנית – "נראות חלקית" שמהווה אלטרנטיבה עמידה (רובסטית) לשיטת הנראות המירבית של פישר. הקוראים חדי העין שמו לב לדמיון בין שמו של קוקס ובין סטטיסטיקאי אנגלי אחר שנמצא ברשימה זו – ג'ורג' בוקס. השניים גם שמו לב לכך, והחליטו לכתוב מאמר משותף, פשוט כי מאמר שנושא את השמות בוקס-קוקס נראה להם משעשע (נסו להגיד "בוקס קוקס" עשר פעמים בקול רם בלי לצחוק). התוצאה הייתה מאמר חשוב שהגדיר, ניתח, והכניס לשימוש נרחב משפחה של טרנספומציות לנתונים, שנודעת מאז בשם טרנספומציית בוקס-קוקס.

9. ג'ון טוקי (1915-2000)

ג'ון טוקי

סטטיסטיקאי אמריקני זה היה "general practitioner". תופתעו אולי לשמוע שהוא זה שנמציא את המלים "ביט" ו-"software". אפשר לתאר כאן את עבודתו על טרנספומציות פורייה מהירות (FFT) ועל שיטת ה-jackknife, שהיא וריאציה של שיטת ה-bootstrap שפותחה מאוחר יותר על ידי ברדלי אפרון (שתשמעו עליו מייד). אבל טוקי נכנס לרשימה הזו בזכות גישת ה-"Exploratory Data Analysis" שפיתח וקידם. גישה זו דוגלת בהתבוננות בנתונים ואיתור תבניות בתוכם, בניגוד לגישה השלטת של "Confirmatory Data Analysis", שדוגלת בניסוח השערות ובדיקתן. ניתן לראות בשיטות כריית הנתונים (data mining) הפופולריות כיום כהרחבה של גישת טוקי, וללא ספק ההתפתחות העצומה בתחום מדעי המחשב סייעה לגישתו של טוקי להפוך לפופולרית ולגיטימית. מעניין לדעת האם טוקי חזה כל זאת כאשר עבד בשיתוף פעולה עם ג'ון פון ניומן בשנות הארבעים של המאה הקודמת.

8. ברדלי אפרון (נולד 1938)

ברדלי אפרון

אני נתקל בהרבה אנשים שמתייחסים לסטטיסטיקה כאל סוג של קסם, אבל אם יש שיטה סטטיסטית קסומה באמת, הרי זו שיטת ה-bootstrap שהגה ופיתח ברדלי אפרון מאוניברסיטת סטנפורד. חלקכם אולי מכירים את סיפורו של הברון מינכהאוזן, ששקע עם סוסו בבוץ טובעני. הברון רב התושיה וסוסו ניצלו מטביעה כאשר אחז הברון ברצועת המגף שלו עצמו ומשך את עצמו כלפי מעלה. תאמינו או לא, אבל בסטטיסטיקה הדבר אפשרי. אפרון הוכיח כי ניתן לאמוד מאפיינים סטטיסטיים של אמדים על ידי דגימה חוזרת ונשנית מתוך הנתונים שבידינו (שגם הם, מן הסתם, מהווים מדגם). כך נוצרת הדמיה (סימולציה) של מדגמים אלטרנטיביים שהיינו עשויים לראות. הטכניקה של אפרון עתירת מחשוב, והוצגה לראשונה בשנות השבעים של המאה הקודמת.

7. וו. אדוארדס דמינג (1900-1993)

ןן. אדוארדס דמינג

זהו אחד משני הסטטיסטיקאים ברשימה שלא היו חוקרים באקדמיה, השני הוא ויליאם גוסט. אך בעוד שגוסט עבד בחברה אחת, ונאלץ לפרסם את עבודותיו בעילום שם בגלל מדיניות החברה, דמינג סבב בעולם והרצה את הפילוסופיה הניהולית-סטטיסטית שלו שדגלה באבטחת איכות תהליכית באמצעים סטטיסטיים (תחום הידוע כ-SPC , Statistical Process Control). לכל מי שהיה מוכן לשמוע. מי שהקשיבו והפנימו היו היפנים, ודמינג נחשב לאחראי העיקרי לזינוק הטכנולוגי של יפן בשנות החמישים והשישים של המאה הקודמת.

6. קרל פרידריך גאוס (1777-1855)

קרל פרידריך גאוס

הרי אמרתי בדברי הפתיחה כי ברשימה יכללו אלה שיש להם השפעה ישירה על הסטטיסטיקה המודרנית, אז מה עושה כאן, ועוד במקום השישי, מתמטיקאי מהמאה ה-19? ובכן, לגאוס יש שתי השפעות כאלה: חלקו בגילוי משפט הגבול המרכזי ויישומיו, וכמובן, שיטת הריבועים הפחותים שפיתח. תוכלו לקרוא על שתי תרומות מכריעות אלה בהרחבה בשתי רשימות שפירסמתי כאן בעבר: למי צלצל הפעמון? וכן הכוכב הנעלם והאמד הכחול: משפט גאוס מרקוב ושיטת הריבועים הפחותים.

5. פלורנס נייטינגייל (1820-1910)

פלורנס נייטינגייל

נייטינגייל ידועה בציבור הרחב בעיקר כאחות, אך מדובר בסטטיסטיקאית חשובה, מחלוצות הביוסטטיסטיקה. "כדי להבין את מחשבותיו של האלוהים עלינו לדעת סטטיסטיקה, משום שזהו כלי המדידה של כוונותיו", אמרה נייטינגייל. היא הבהירה היטב את דבריה כאשר השתמשה בנתונים סטטיסטיים שאספה בקפדנות והציגה באמצעות שיטות שפיתחה כדי להוכיח כי שמירה על רמת סניטציה נכונה יכולה להוריד את שיעור התמותה בבתי החולים מ-80% ל-2% בלבד. על חייה של ניטינגייל ופועלה כתבתי כאן בהרחבה בעבר: הסטטיסטיקה שהצילה חיים – סיפורה של פלורנס נייטינגייל.

4. תומאס בייס (1702-1761)

תומאס בייס

תומאס בייס היה כומר אנגלי שחי לו במאה ה-18. בימי חייו הוא פרסם שני מאמרים בנושאים תיאולוגיים פילוסופיים, אך ככל הנראה התעניין גם במתמטיקה ובהסתברות. הסטטיסטיקה עוד לא נולדה בימיו. אז מה הוא עושה ברשימה הזו, ועוד במקום הרביעי? לאחר מותו של בייס פרסם ידידו, ריצ'רד פרייס, את אחד המכתבים ששלח אליו בייס. במכתב זה הראה בייס כיצד לחשב הסתברות מותנה "הפוכה" כאשר נתונה הסתברות מותנה. לא אכנס כאן לפרטים הטכניים (זה דורש רשימה נפרדת), אבל ההשלכות מהפכניות. בייס הראה כי במובן מסויים אין חשיבות לכיוון בו זורם הזמן – ניתן להסתכל על מאורעות בסדר בו הם מתרחשים או בכיוון ההפוך. אינטרפרטציה מיידית אחרת של התוצאה של בייס היא כי הסתברות אינה בהכרח אובייקטיבית אלא יכולה להיות תלויה ב"אמונות", כלומר בהנחות שמניחים על טבעו של העולם. על סמך אינטרפרטציה זו נבנה ענף שלם וחדש של הסטטיסטיקה – שנקרא, איך לא – סטטיסטיקה בייסיאנית. הניצנים של ענף זה החלו להופיע בשנות החמישים של המאה העשרים, והסטטיסטיקה הבייסיאנית כובשת לה אט אט עוד מעריצים.

3. ג'רזי ניימן (1894-1981)

ג'רזי ניימן

על ג'רזי ניימן וחלק מפועלו כבר כתבתי כאן בהרחבה ברשימה "בין שתי טעויות", שתיארה את התהליך של בדיקת השערות/קבלת החלטות, ואת הלמה של ניימן ופירסון, שהראתה כיצד ניתן לבנות כלל החלטה אופטימלי. למה זו היא ללא ספק המשפט השימושי ביותר בסטטיסטיקה, ורק היא לבדה מקנה לבעליה חיי נצח סטטיסטיים. בכל זאת, אני מציב במקום השלישי את ניימן לבדו, ודוחק מהרשימה את שותפו אגון פירסון (בנו של קרל פירסון). מעניין לציין כי הלמה של ניימן ופירסון דחקה את מתודולוגיית בדיקת ההשערות ששלטה עד אז בכיפה – המתודולוגיה של קרל פירסון, שניימן עבד בשיתוף פעולה עימו במשך כשנתיים. מי שלא אהב כלל לשתף פעולה עם ניימן היה רונלד פישר. הסיבה – שניהם הציגו שיטות לאמידה מרווחית של פרמטרים, כלומר שיטה למצוא תחום שהפרמטר נמצא בתוכו ברמת בטחון מסויימת. ניימן הציע את רווח הסמך – Confidence interval, בעוד שפישר הציע את הגבולות המהימנים – Fiducial limits. פישר כעס על ניימן כי חשב שגנב ממנו את הרעיון. אכן, במקרים מסויימים שתי השיטות נתנו את אותה התוצאה בדיוק. אולם, שיטתו של ניימן עדיפה על זו של פישר, כיוון שהיא מגובה בלמה שלו ושל פירסון, ולכן היא אופטימלית. פישר לא השתכנע עד יום מותו. השיטה שפיתח עדיין בשימוש במקרים בהם לא ניתן להפעיל את שיטתו של ניימן.

2. קרל פירסון (1857-1936)

קרל פירסון

קרל פירסון הוא הראשון שממש נשא בתואר "סטטיסטיקאי". הוא יסד את המחלקה לסטטיסטיקה האקדמית הראשונה בעולם, ביוניברסיטי קולג' שבלונדון, ואת כתב העת הראשון שעסק בסטטיסטיקה בלבד – ביומטריקה. תרומותיו העיקריות לסטטיסטיקה הן בפיתוח התיאוריה של הרגרסיה הלינארית (שיסודותיה הונחו, כזכור, על ידי גאוס שהמציא את שיטת הריבועים הפחותים), פיתוח מקדם המתאם, עבודתו במיון וסיווג ההתפלגויות הסטטיסטיות השונות, ופיתוח מבחן טיב ההתאמה (שידוע גם בשם "מבחן חי-בריבוע").

1. רונלד פישר (1890-1962)

רונלד פישר

לו ניתנה לי הזדמנות לפגוש באדם אחד אשר אינו בין החיים היום, האדם אותו הייתי בוחר לפגוש היה רונלד פישר. פישר למד אסטרונומיה בקיימברידג´, והתעניין במיוחד בהערכת הטעויות בחישובים אסטרונומיים. לאחר סיום לימודיו עסק מספר שנים בהוראת מתמטיקה, וב-1919 עזב את ההוראה לטובת משרת מחקר בחווה לניסויים חקלאיים, שם עסק בניסויים גנטיים. עבודתו בחווה הוליכה אותו אל העיסוק בסטטיסטיקה, שהייתה אז ענף זנוח של המתמטיקה. במסגרת עבודתו היה עליו לתכנן ניסויים ולנתח את תוצאותיהם – שני השלבים הקריטיים בכל מחקר המתבסס על איסוף נתונים ועיבודם. במשך שנות עבודתו בחווה הניח פישר את היסודות לסטטיסטיקה המודרנית. הוא הגה ופיתח את שיטת הרנדומיזציה לתכנון ניסויים, ואת ניתוח השונות (ANOVA), כלים יסודיים ומרכזיים בסטטיסטיקה המודרנית. פישר הדגיש כי שלב התכנון הוא השלב הקריטי ביותר בכל ניסוי. "לקרוא לסטטיסטיקאי לאחר שהניסוי הסתיים זה כמו לקרוא לרופא לאחר שהחולה מת", אמר פישר. "לכל היותר יוכל הסטטיסטיקאי לומר מדוע הניסוי נכשל". כמו כן הגה פישר מושג מרכזי נוסף בסטטיסטיקה – מושג הנראות (Likelihood) וממנו פיתח את שיטת האמידה הידועה כשיטת הנראות המקסימלית. פיתוחים מרכזיים נוספים שלו כללו שיטות סטטיסטיות לניתוח מדגמים קטנים, וחישובי פונקציות ההתפלגות המדויקות של מדדים סטטיסטיים רבים. חלק מעבודתו של פישר נתקל בביקורת מצידו של בכיר העוסקים בסטטיסטיקה באותה תקופה, קרל פירסון, שהתנגד במיוחד למושג הנראות ושיטת הנראות המירבית. פישר, בתגובה, פירסם מאמר ובו הצביע על טעויות באחת מעבודותיו של פירסון. היריבות בין השניים נמשכה עד מותו של פירסון, ולמעשה גם אחריה, כאשר בנו של קרל פירסון, סטטיסטיקאי נודע בזכות עצמו, המשיך לריב את ריבו של אביו. נצחון בעל משמעות סמלית נחל פישר כאשר התמנה לכהן בקתדרה על שם גאלטון בקיימברידג´ במקום פירסון, כאשר האחרון פרש לגמלאות (העלבון כפול, כי פירסון היה כזכור תלמידו של גאלטון). גם בראיה היסטורית, ניצח פישר בויכוח עם פירסון ובנו. הוא זכה להכרה בהישגיו כאשר נבחר לחברה המלכותית, זכה בפרסים רבים, כולל מדליית דרוין, וכן הוענק לו תואר אצולה. פישר פרסם מאמרים רבים הן בסטטיסטיקה והן בגנטיקה. נציין כאן את שני ספריו החשובים ביותר: "שיטות סטטיסטיות למחקר", בו סיכם את תרומותיו לסטטיסטיקה, ו-"תיאוריה גנטית של הברירה הטבעית", בו סיכם את מחקריו בתחום הגנטיקה.

הקוראים הותיקים של הבלוג הזה בודאי זוכרים את האנקדוטה אודות פישר שסירב להשתכנע כי עישון גורם לסרטן על סמך מתאם שנצפה בין שתי התופעות (ראו את הרשימה הראשונה שפירסמתי: האם החסידה מביאה ילדים לעולם?), נאמן לעקרון הסטטיסטי לפיו מתאם אינו מעיד על סיבתיות. פישר, מעשן כבד כל חייו, מת לאחר שחלה בסרטן המעי הגס בשנת 1962.

נשלח: 12 באפריל, 2009. נושאים: האנשים שמאחורי הסטטיסטיקה, היסטוריה.
תגובות: 15 | טראקבק

שני סוקרים מדברים

בתאריך 29.1.2009 התראיינו שני סוקרים: מינה צמח ממכון דחף ואיציק רוזנבלום ממכון PORI בתכנית תיק תקשורת שהנחה עמנואל רוזן. נושא הראיון (איך לא?): סקרי הבחירות. להלן הראיון (שהועלה במקור באתר העין השביעית תחת הכותרת "טוטו בחירות"). לאחר שתצפו, תוכלו לקרוא כמה מלים משלי.

תיק תקשרות 3-29.1.09 from the7eye on Vimeo.

אני נוטה להסכים עם רוזנבלום. הבעיה עם סקרי הבחירות כפי שתוצאותיהם מפורסמות כיום, בחלוקה למנדטים, כוללים בתוכם שני מרכיבי טעות. מרכיב אחד הוא טעות הדגימה המפורסמת, שניתן לשלוט בה בעזרת הקפדה על דגימה מקרית ולהקטינה בעיקר על ידי הגדלת גודל המדגם, וגם על ידי הפעלת שיטות דגימה מורכבות יותר, כדון דגימת שכבות.

אבל יש מרכיב טעות נוסף – שנובעת ממה שמינה צמח מכנה "נוסחת הפיצוח". כשצמח, או כל סוקר אחר, עורכים מדגם, הם נתקלים בתופעה הידועה של "הקולות הצפים" – אותם אנשים שלא החליטו, מתלבטים, או סתם מסרבים לענות. מה עושים איתם? למינה צמח יש נוסחא כלשהי, לפיה היא מסווגת את הקולות הצפים ומנסה לנבא לנחש באופן אינטליגנטי למי יצביעו נסקרים אלה, וזאת בהסתמך על תשובותיהם לשאלות אחרות (משתני רקע). דוגמא פופולרית לפרוצדורת קלאסיפיקציה כזו "מצפן הבחירות" של המכון הישראלי לדמוקרטיה. ענו על שאלות שונות, והאפליקציה תאמר לכם באיזה מפלגה אתם תומכים.

נושא הקלאסיפיקציה הוא מורכב למדי. אפשר להקדיש קריירה שלמה לנושא הזה בלבד. ביישום של שיטת קלאסיפיקציה, כמו ביישום של כל שיטה סטטיסטית אחרת, התוצאות תלויות (לאחר שנבחרה השיטה הספציפית) בהנחות שמניחים, בנתונים לפיהם מתבצעת הקלסיפיקיציה הראשונית, וברמת המרווח לטעויות שמשאירים. טעות – יש תמיד, וניתן לשלוט בה במידה מסויימת, אך הדבר הרבה יותר מסובך משליטה בגודל טעות הדגימה.

לרוע המזל, טעות הקלאסיפיקציה ("הפיצוח" של מינה צמח) מצטרפת אל טעות הדגימה, ואם שני סוקרים משתמשים בשתי שיטות שונות, הם יקבלו תוצאות שונות, כפי שאנו רואים (לצערנו) יום יום.

וכאן עולה בעיה אתית חמורה. תקנון האתיקה לעוסקים בסטטיסטיקה קובע במפורש כי:

מסירת ממצאים סטטיסטיים לציבור תלווה בהסברים הדרושים כדי לאפשר לציבור להעריך נכון את מהימנותם. במחקרי דגימה יפרט סטטיסטיקן את האוכלוסייה, שיטת הדגימה, גודל המדגם, שיעור אי-ההשבה, צורת הראיון וכיו"ב וכן יביא לידיעת הציבור אם מדובר בממצאים ישירים, או בפירוש של ממצאים או התחזיות המבוססות עליהם.

מה שאנחנו רואים ב"תוצאות סקרים" המפורמות בעיתונות זה למעשה תחזיות המבוססות על פירוש של הממצאים. לא נמסרים הנתונים המאפשרים לציבור להעריך את מהימנות הסקרים. בודאי שלא נמסרת הערכה של מידת הטעות ב"נוסחת הפיצוח". האם מינה צמח מוסרת לעיתון את כל הפרטים האלה והם לא מפורסמים? או שמה צמח (ו/או סוקרים אחרים) לא מעבירים כלל את הנתונים האלה? במקרה הראשון זו עבירה אתית על העיתון (וגם עבירה פלילת על פי חוק הבחירות – דרכי תעמולה, שלצערנו אינו נאכף). במקרה השני זו עבירה אתית חמורה של הסוקר/ת. לצערי, אין באפשרותי לדעת מה קורה בפועל.

נשלח: 3 בפברואר, 2009. נושאים: האנשים שמאחורי הסטטיסטיקה, סקרים, על סדר היום.
תגובות: 6 | טראקבק

הכוכב הנעלם והאמד הכחול: משפט גאוס מרקוב ושיטת הריבועים הפחותים

שמחה גדולה אחזה בעולם האסטרונומיה בשנת 1781, עם גילויו של כוכב הלכת אוראנוס. לאחר שכוכב לכת זה נצפה, מסלולו חושב ומרחקו מהשמש הוערך, התברר כי מרחקו מהשמש מתאים לתחזית של "חוק טיטיוס-בודה", מעין להטוט חשבוני (שגוי, כך התברר בדיעבד) המתאר את מרחקו של כוכב לכת מהשמש כפונקציה של מספרו הסידורי. החוק תיאר בצורה טובה את מרחקיהם של כל כוכבי הלכת שהיו חדועים עד אז, אך השאיר "חור" בין מאדים לצדק. לפי החוק, "צריך" היה להיות שם עוד כוכב לכת, שלא נתגלה עדיין.

האסטרונומים הפנו את מאמציהם לגילוי כוכב הלכת האבוד. המאמץ נשא פרי כעבור 20 שנה. באחד בינואר 1801 גילה האסטרונום האיטלקי ג'וזפה פיאצי גוף שמימי שנע במסלול המיועד לכוכב הלכת האבוד. הוא כינה כוכב לכת חדש זה בשם צרס, לכבוד אלת החקלאות הרומית.

שמחתם של פיאצי ועמיתיו הייתה קצרה. לאחר שצפו בצרס במשך 41 לילות, "התקרב" מסלולו אל השמש, ובשל אורה החזק לא יכלו המשיך ולצפות בו. כמובן, כאשר יסיים צרס את הקפתו ויופיע מצידה השני של השמש יוכלו לצפות בו שוב, אבל, היכן בדיוק יופיע בשמי הלילה? הנתונים המועטים שנצברו (רק 22 תצפיות בפועל נאספו במשך 41 הלילות) לא אפשרו חישוב מדוייק של מסלולו.

מספר מלומדים ניסו לחזות את מסלולו של הכוכב הסורר. אחד מהם היה קרל פרידריך גאוס, מתמטיקאי ואסטרונום מהאוניברסיטה של גטינגן (אני מניח שכבר שמעתם עליו אי אלו פעמים). גאוס פרסם את תחזיתו למסלול של צרס בספטמבר 1801. צרס ציית לתחזיותיו של גאוס, והופיע בשמים בהתאם. עם גילוים של אסטרואידים נוספים שנעו במסלול בין מאדים לצדק, חזר גאוס על התרגיל וחישב את מסלולם של רבים מהם.

שרטוט המסלולים של האסטרואידים צרס ופאלאס על ידי גאוס (מקור: http://www.math.rutgers.edu/~cherlin/History/Papers1999/weiss.html)

מה היה הסוד של גאוס? רק ב-1809 פרסם גאוס ברבים את שיטתו, הידועה כיום כשיטת הריבועים הפחותים. ככל הנראה, גאוס נכנע ופרסם את השיטה רק לאחר שהמתמטיקאי הצרפתי לז'נדר פרסם בשנת 1806 את שיטתו לחישוב מסלולי שביטים, ולמעשה הוא שטבע את שם השיטה :"Méthode des Moindres Quarrés ". עם זאת, ידוע כי גאוס הכיר את השיטה כבר ב-1795, והוכיח ב-1798 כי אמד הריבועים הפחותים הוא אמד נראות מירבית – Maximum Likelihood Estimator (כמובן, המושגים האלה, שלקוחים מתחום התיאוריה הסטטיסטית, עדיין לא היו ידועים בימיו). ב-1823 הוכיח גאוס כי השיטה אכן מספקת את האמד הלינארי הטוב ביותר במובן שזהו האמד הלינארי חסר ההטיה ששונותו מינימלית. מכאן הופיע הביטוי "אמד כחול" בכותרת הרשימה. כחול – BLUE- הם ראשי התיבות של Best Linear Unbiased Estimator. אין צורך להבהל מהמונחים הטכניים האלה, שלא אסביר בפירוט. אומר רק כי במלים פשוטות, גאוס הוכיח כי השיטה אופטימלית בשלושה מובנים שונים – גם נראות מירבית, גם שונות מינימלית וגם חסר הטיה.

גאוס (משמאל) ומרקוב חולקים בתהילה של שיטת הריבועים הפחותים

המתמטיקאי הרוסי אנדריי אנדרייביץ מרקוב, שידוע בעיקר בזכות תרומתו לחקר התהליכים המקריים, תיאר בפירוט את שיטת הריבועים הפחותים בספר שפרסם ב-1912, וניסח אותה מחדש באופן ברור יותר, ובכך תרם את תרומתו להפצתה של השיטה ולפיתוחה. בזכות תרומתו זו זכה לחלוק בתהילה עם גאוס, והמשפט המוכיח את האופטימליות של שיטת הריבועים הפחותים נקרא משפש גאוס-מרקוב.

השיטה והכללותיה משמשות עד היום ככלי מרכזי לניתוח סטטיסטי של נתונים, ונמצאת בשימוש גם במדעים המדוייקים וגם במדעי החברה, בעיקר בתחום הכלכלה. סטיבן לויט, מחבר הספר רב המכר "פריקונומיקס", כתב בספרו כי השימוש בשיטה הוא "יותר אמנות מאשר מדע". אני חולק על דבריו. זוהי שיטה מדעית, המבוססת על תיאוריה מתמטית. יש לה יתרונות עצומים, כמובן, אך גם מגבלות. המשתמש בה חייב תמיד להיות מודע למגבלות האלה, ולא, מסקנותיו יהיו שגויות.

עד כאן ה"ציונות". אבל מהי בעצם שיטת הריבועים הפחותים? אנסה כעת לתת הסבר שווה לכל נפש.

נניח כי יש בידינו קבוצת נתונים, שנאספה ממדגם כלשהו. לכל פרט במדגם יש שני נתונים כמותיים. לדוגמא, אם אנו מסתכלים על מדגם של כפרים, נתון אחד יכול להיות מספר החסידות שקיננו בכפר באביב, והנתון השני יכול להיות מספר הלידות שהיו בכפר בקיץ שלאחר מכן. כלכלנים יעדיפו אולי להסתכל על מדגם של מדינות, כאשר נתון אחד הוא גובה המס שמטילה ממשלת המדינה על העסקים בתחומה, והנתון השני הוא הכנסות הממשלה ממסים באחוזים מהתמ"ג. חוקרים בחברת תרופות יסתכלו על מדגם של חולים, ויאספו נתונים על מינון התרופה הנסיונית שניתן לכל חולה ועל השינוי במצבו. בכל מקרה, אפשר לשרטט את הנתונים שהתקבלו על מערכת צירים, ומתקבלת דיאגרמת פיזור (scatterplot). בשרטוט אנו רואים מדגם בגודל עשרה כפרים. הנקודה המסומנת בחץ, לדוגמא, מייצגת כפר במדגם בו קיננו עשר חסידות ונולדו שני תינוקות (הנתונים לא אמיתיים, כמובן, אלא נדגמו ממוחי הקודח):

נניח שאנו רוצים לגלות האם קיים קשר קווי בין שני המשתנים. במלים אחרות, אנו שואלים את עצמנו האם ניתן לשרטט על מערכת הצירים קו שיתאר את הקשר בין המשתנים? כמובן שאי אפשר לשרטט קו ישר שיעבור דרך כל 10 הנקודות, אבל ישנם הרבה (אינסוף) קוים שעוברים דרך "ענן" הנקודות שלנו. שרטטתי כמה מהם על פני מערכת הצירים. איזה מהם מתאר את הקשר בין שני המשתנים בצורה הטובה ביותר?

הנה הרעיון של גאוס. הוא בחר קו ישר אחד, ומדד את המרחק האנכי מכל נקודה אל הקו. סימנתי את המרחק האנכי מכל נקודה אל הקו על השרטוט שלנו. בכפר הראשון, בו קיננו 2 חסידות והיו 10 לידות, המרחק האנכי (כלומר אורך הקו האדום) הוא בערך 5. בכפר השני, בו קיננו 3 חסידות והיו 5 לידות, אורך הקו האדום הוא בערך 0.5, אבל כיוון שהנקודה נמצאת מתחת לקו, המרחק האנכי הוא 0.5-.

הקו האידיאלי הוא זה שעבורו כל המרחקים האנכיים שוים לאפס, אבל קו כזה לא קיים בדרך כלל. לכן אין ברירה אלא לחשב את הקו האופטימלי. אפשר, למשל, לחפש את הקו שעבורו סכום המרחקים בערכיהם המוחלטים הוא מינימלי. גאוס הבין כי עדיף לחפש את הקו שעבורו סכום ריבועי המרחקים הוא מינימלי (מכאן השם "ריבועים פחותים" – "Least Squares"). גאוס גם הראה כיצד ניתן למצוא את הקו האופטימלי. כל קו ישר ניתן לאפיון מלא על ידי שני פרמטרים – שיפועו ונקודת החיתוך שלו עם הציר האנכי. לכן ניתן לרשום את סכום ריבועי המרחקים האנכיים כפונקציה של שני הפרמטרים האלה, ולמצוא את נקודת המינימום של הפונקציה. ניתן לעשות זאת על ידי שימוש בחשבון דיפרנציאלי או תוך כדי שימוש בשיקולים גיאומטריים/אלגבריים. אפשר לחשב ולמצוא כי הקו האופטימלי לנתונים שבדוגמא הוא:

ניתן לפרש זאת בערך כך: גם ללא חסידות יהיו בממוצע 6.8 לידות, וכל חמש (בערך) חסידות נוספות יביאו ללידת תינוק נוסף. אינטרפרטציה מפתה נוספת היא אינטרפרטצית הניבוי: מה יקרה בכפר בו יקננו 20 חסידות? אם נציב 20 בנוסחא, קו הריבועים הפחותים ינבא כי יהיו בכפר זה 10.6 לידות.

אבל, אבוי, קו הריבועים הפחותים אינו מאפשר ניבוי אמיתי. הפרמטרים הנאמדים (שהם כזכור שיפוע הקו ונקודת החיתוך שלו עם הציר האנכי) תלויים ישירות במקדם המתאם בין שני המשתנים. קו הריבועים הפחותים מתאר קשר אפשרי בין המשתנים, אבל לא סיבה ותוצאה. גם אם היינו מחליפים את תפקידי המשתנים, כמספר הלידות הוא המשתנה ה"מסביר" את מספר החסידות (כמשתנה ה"מוסבר"), מקדם המתאם בין שני המשתנים לא היה משתנה, וההסבר לפיו מספר החסידות מנבא את מספר הלידות הגיוני בדיוק כמו ההסבר לפיו מספר הלידות מנבא את מספר החסידות.

זאת ועוד: קו הריבועים הפחותים מתאר רק את מה שקורה בתחום הערכים בו צפינו. הוא לא יכול לומר לנו שום דבר על מהות הקשר בין המשתנים מחוץ לטווח הזה. במלים אחרות: קו הריבועים הפחותים הוא מודל תיאורי של הנתונים, וככזה הוא מוגבל להסברה של הנתונים המתוארים ותו לא. המציאות עשויה להיות שונה. באיור הבא מובאות ארבע דיאגרמות פיזור שמצאתי באינטרנט, עם קוי הריבועים הפחותים שהיו עשויים להתקבל לו הייינו מסתכלים רק על טווח חלקי של הנתונים:

קו הריבועים הפחותים מול המציאות - ארבע דוגמאות

גאוס הצליח בניבוי המסלול של צרס בעזרת קו הריבועים הפחותים כיוון שהסתבך על מודל מוצק, לפיו צרס (כמו שאר כוכבי הלכת) מקיף את השמש במסלול אליפטי. לאחר שיש מודל, הכלים הסטטיסטיים יכולים לאפשר את אמידת הפרמטרים שלו. ההיפך לא בהכרח נכון. ניתן להשתמש בכלים הסטטיסטיים כדי לתאר את הנתונים, אך אין די בכך כדי לבנות ולאשר מודל. לצערנו, ישנם אנשים שבכל זאת בונים מודל סביב הנתונים הסטטיסטיים שלהם, מבלי להתחשב במגבלות של כלי הרגרסיה.

נשלח: 1 בינואר, 2009. נושאים: האנשים שמאחורי הסטטיסטיקה, המשפטים הגדולים של הסטטיסטיקה, מה אומרת הסטטיסטיקה.
תגובות: 14 | טראקבק

סקרים: הזדמנויות ואתגרים – מאמר אורח מאת פרופ' רון קנת

הקדמה

בקישורים ברשימה ההערות בעקבות כשלון הסקרים בפריימריס של קדימה, כללתי גם את הרשימה על דבריו פרופ' ישראל אומן בנושא הסקרים. הדברים הנ"ל נאמרו, כזכור, בכנס האיגוד הישראלי לסטטיסטיקה שנערך במאי 2006 (סקרי דעת קהל – מי כאן הטיפש?). לאחר שדברים אלה עלו שוב לדיון, פנה אלי ידידי פרופ' רון קנת והציע לפרסם את התגובה שכתב לדבריו של פרופ' אומן, והופיעה בזמנה באתר הישן של האיגוד הישראלי לסטטיסטיקה. אני נענה להצעתו בשמחה. פרופ' קנת הוא יו"ר ומנכ"ל חברת הייעוץ KPA ומרצה באוניברסיטת טורינו, איטליה ובמרכז לחקר סיכונים, אוניברסיטת ניו יורק, ארה"ב. הדברים נכתבו במקור בשפה האנגלית, ותורגמו על ידי.

סקרים: הזדמנויות ואתגרים

תגובה להרצאתו של פרופ' ישראל אומן בכנס האיגוד הישראלי לסטטיסטיקה ב 8.05.2008

מאת פרופ' רון קנת

חלק משמעותי מהכנסותיה של חברת KPA נובע מעריכת סקרים. פרופ' אומן התייחס בהערותיו לסקרים באופן גורף ומכליל, אולם הסקרים שאנו עורכים עבור לקוחותינו שונים מהסקרים אליהם התייחס פרופ' אומן. בתגובה לדבריו של פרופ' אומן על הסקרים, מן ההכרח להגדיר היטב את המונחים בהם אנו משתמשים, ולהבדיל בין סקרי דעת קהל, סקרי יציאה מקלפי, סקרי בחירות, סקרים בהם האוכלוסיה מוגדרת ונתונה (closed list surveys), סקרי דגימה, סקרי עובדים, סקרי משקי בית, סקרים מבוססי פאנל, וכן הלאה.

ההגדרות והתכונות של כלי איסוף נתונים אלה נחקרו בהרחבה, ופורסמו בספרות המקצועית ([1]) . הסוקר מנו גבע, שהשתתף בדיון שנערך לאחר דבריו של פרופ' אומן, הקפיד להבחין בין הסוגים השונים של הסקרים, והתייחס בדבריו רק לנושאים הקשורים בתכנון וניתוח של סקרי יציאה מקלפי (סקרים הנערכים בקרב מצביעים מייד לאחר שהצביעו הצבעת אמת, עם יציאתם מהקלפי).

ארגונים (ציבוריים ועסקיים) נעזרים בסקרים כדי לתמוך בתהליכי קבלת החלטות. חברות נעזרות בסקרים כדי להחליט איזה מוצרים לפתח, לדעת אלו שירותים זקוקים לשיפור, ללמוד מה מצפים הלקוחות מהמוצרים והשירותים המסופקים להם, להבין מה משפיע על נאמנות הלקוחות וכך להגדיל את הסיכוי לשמרם, ועוד. האמדנים המתקבלים מסקרים אלה תומכים בהחלטות עסקיות רבות, ותוקפם מתבטא, בסופו של דבר, בדו"חות הכספיים ([2], [3]).

לסקרים תפקיד חשוב גם באסטרטגיות ניהוליות כוללות, כגון גישת ה-six-sigma. בהקשר זה נערכים ניתוחי מגמה והשפעה של מדדים כגון שביעות רצון לקוחות או מדדי שירות שונים הנאספים לאורך זמן. "מדד השלום", שפרופ' אפי יער הציג בדיון שנערך לאחר דבריו של פרופ' אומן,משתמש בגישות דומות. באמצעות ניתוחים כאלה ניתן לבסס ולהוכיח גורמי סיבה ותוצאה. הסקרים משקפים את ההחלטות הניהוליות, וכשבעיות מופיעות או נפתרות, נתוני הסקרים מראים זאת ([5]). טענתו של פרופ' אומן, לפיה סקרים מספקים מידע בלתי אמין, אינה מבוססת, לפחות במקרים אלה.

הטכנולוגיה יצרה אתגרים חדשים עבור סקרי הדגימה. כיצד מנתחים סקרים שתוצאותיהם נאספות באינטרנט? או על ידי הודעות SMS? לסקרים כאלה יש מאפיינים מיוחדים, העלולים להשפיע על שיעורי השתתפות ולגרום הטיה פוטנציאלית בתוצאות. לדוגמא, הטלפונים הסלולריים הופכים בהדרגה לתחליף יחיד לטלפון הקווי. עקב כך, דגימה מקרית מספר הטלפונים הישן והטוב כבר אינה יעילה כפי שהייתה בעבר. יותר מכך: משתמשי הטלפון הסלולרי נמצאים במגוון רחב של תנאים סביבתיים, ועקב כך עלולה להיווצר הטיה בדפוסי התגובה שמימדיה עדיין אינם ידועים. פיתוח מתודולוגיות סטטיסטיות לטיפול בבעיות אלו נמצא בשלביו הראשוניים ([4]).
בתכנון שאלונים, ניתן להיעזר רבות במדעי הקוגניציה בכל הנוגע לניסוח השאלות, השמתן בקונטקסט הנכון, וקביעת טווח התשובות האפשריות ([6],[7]). לשם כך, יש צורך בשיתוף פעולה בין תחומי בו סטטיסטיקאים ואנשי המדעים הקוגניטיביים ולעודד מחקר משותף. כך יוכלו לעלות רעיונות חדשים, שיביאו ליצירת שיטות דגימה חדשות.

לסיום, גישות לא סטנדרטיות (כגון Structural Equation Models, Decision Trees, Partial Order Maps and Rasch models ) לניתוח סקרי שביעות רצון של לקוחות מיושמות כעת ויישומן מביא לגילוי תובנות חדשות ואתגרים מתודולוגיים חדשים (, [9][8]).

מטרת כל הדברים שנאמרו עד כה הייתה לאזן במידת מה את דברי הביקורת של פרופ' אומן בנושא הסקרים. ככל הנראה הוא כיוון את דבריו לסקרי דעת הקהל, אך נוצר הרושם כאילו דבריו התייחסו לסקרים בכללותם. מתודולוגית הסקרים מתפתחת ומתאימה את עצמה להזדמנויות והאתגרים החדשים, ומספקת אותות חזקים יותר ומידע נרחב יותר למקבלי ההחלטות. לכן דבריו הגורפים של פרופ' אומן בגנות הסקרים אינם מסתייעים. עם זאת, עלינו להודות לפרופ' אומן על כך שדבריו דירבנו דיון ענייני בצורך לבסס סטנדרטים מקצועיים שיהוו בסיס לעריכת כל סוג של סקר. האיגוד הישראלי לסטטיסטיקה הוא אכן מסגרת ראויה לדיון כזה, ואני מקווה כי הדיון יניב תוצרים מועילים.

רשימת ספרות

[1] R. Kenett, "Customer Surveys: Why and How" (in Hebrew) in Surveys: Some Good, Some Less edited by S. Bar-Lev and C. Fuchs, Hakibbutz Hameuchad Publishing House Ltd. And Haifa University press, 1998.

[2] R. Kenett, "Issues in Customer Satisfaction Surveys", DEINDE 2002, Torino, Italy, February 2002.

[3] R. Kenett and R. Fainstein, "Customer Retention: The Key to Success in Unstable Economic Times" (in Hebrew) in Researchers Speak: Market Research and its application in the Israeli Market edited by O. Kaplan, Globes Business Publishing, 2003.

[4] R. Kenett, O. Kaplan and Y. Raanan, "Statistical properties of internet based market research surveys", European Network for Business and Industrial Statistics (ENBIS) Third Annual Conference on Business and Industrial Statistics, Barcelona, Spain, August 2003.

[5] R. Kenett, "The Integrated Model, Customer Satisfaction Surveys and Six Sigma", The First International Six Sigma Conference, CAMT, Wroclaw, Poland, January 2004.

[6] R. Kenett, "On the Planning and Design of Sample Surveys", European Network for Business and Industrial Statistics (ENBIS) Fourth Annual Conference on Business and Industrial Statistics, Copenhagen, Denmark, September 2004.

[7] R. Kenett, "On the Planning and Design of Sample Surveys", Journal of Applied Statistics. Vol. 33, No. 4, 405-415, May 2006.

[8] Non standard analysis of customer satisfaction surveys, University of Torino and University of Milan, Italy, www.economia.unimi.it/projects/CSProject%20 , to appear as a special issue in Quality Technology and Quantitative Management, 2009.

[9] R. Kenett and S. Salini, “New Frontiers in Survey Data Analysis”, Quality Progress, to appear in 2009.

פורסם לראשונה באתר "רשימות" בתאריך 7 בנובמבר 2008

נשלח: 8 בדצמבר, 2008. נושאים: האנשים שמאחורי הסטטיסטיקה, מה אומרת הסטטיסטיקה, סקרים, על סדר היום.
תגובות: אין | טראקבק