יוסי לוי | נסיכת המדעים

15 הסטטיסטיקאים הגדולים

הקדמה

אמנם יש כאלה שאומרים שפוסטים של רשימות הם כל כך 2006, אבל רשימות הן בכל זאת דבר נחמד, ובמונחי הזמן שלי, 2006 לא כל כך רחוקה. הבלוג המעניין The list universe שאני קורא באופן קבוע (מומלץ) מביא כמעט כל יום רשימה מעניינת של 10 או 15 או 20 ה<שימו כאן כל דבר כמעט>. גם לי מתחשק לכתוב רשימה מהסוג הזה, ואני כידוע לא רק סטטיסטיקאי, אלא גם אדם שאוהב סטטיסטיקה, ולכן הרשימה שלי מביאה באופן טבעי את 15 הסטטיסטיקאים הגדולים ביותר, לדעתי, כמובן. אני צופה שיהיו כאלה שיחלקו על דעתי, יטענו כי הדירוג מקפח את זה ועושה חסד עם זה, ואולי יש מישהו שאינו ראוי להכלל ברשימה ואני כללתי אותו, או להיפך. זה רק שעשוע.

הקריטריון לפיו בחרתי להכניס סטטיסטיקאי (או סטטיסטיקאית) לרשימה הוא אחד ויחיד: מידת ההשפעה שלו על הסטטיסטיקה המודרנית, ואני מתכוון להשפעה ישירה. לכן כל אבות תורת ההסתברות, ובכללם פרמה, הברנולים, פסקל, לפלס, דה-מואבר, ואפילו קולמוגורוב ומרקוב לא מופיעים ברשימה שלי. הם הניחו יסודות, אבל את הסטטיסטיקה שנבנתה על היסודות האלה בנו אחרים. כמו לכל כלל, גם לכלל הזה יש יוצא מן הכלל (נא להמנע מתגובות שעוסקות בפרדוקס השקרן), ומי שתהיה לו סבלנות ימצא את היוצא מהכלל הזה קרוב מאוד לראש הרשימה.

השתדלתי לשמור על ראייה היסטורית. עשרה מהנכללים ברשימה כבר אינם חיים עימנו היום, שלושה נוספים הם בני 90, והצעיר ביותר הינו בן 71. אני יכול לחשוב על כמה סטטיסטיקאים הפעילים כיום שיכולים להימנות ביחד עם ה-15 שבחרתי, אולי במסגרת "רשימת 20", אחד או שניים אף יכולים להכנס לרשימת ה-15 על חשבון אלה שדירגתי בתחתית. אבל אני מעדיף להמתין להיסטוריה שתאמר את דברה.

אז הנה הרשימה שלי. על חלק הנזכרים הרשימה כבר כתבתי בעבר, ואני מצרף לינקים (אני גם מצרף לכל אחד לינק לביוגרפיה שלו בויקיפדיה – לחצו על השם בכותרת). על השאר אני מקווה לכתוב בעתיד, ואעדכן את הלינקים בהתאם. תיהנו.

15. דויד בלקוול (נולד 1919)

דויד בלקוול

סטטיסטיקאי מאוניברסיטת ברקלי, קליפורניה, חוגג באפריל השנה את יום הולדתו ה-90. תרומתו הידועה ביותר לסטטיסטיקה היא חלקו במשפט ראו-בלקוול, המאפשר בניה קונסרוקטיבית של אמד לפרמטר, שהינו עדיף על פני אמד נתון נאיבי כלשהו. בלקוול תרם גם תרומות משמעותיות לסטטיסטיקה הבייסיאנית, תורת המשחקים ותורת ההחלטות הסטטיסטיות.

14. ג'ורג' בוקס (נולד 1919)

ג'ורג' בוקס

סטטיסטיקאי אנגלי שפעל רוב ימיו באוניברסיטת ויסקונסין במדיסון. מחלוצי המחקר בתחומים של סטטיסטיקה בייסיאנית, בקרת איכות, ניתוח סדרות עיתיות ותכנון ניסויים.

13.ק.ר. ראו (נולד 1920)

ק.ר. ראו

סטטיסטיקאי הודי, מתלמידיו של רונלד פישר. שותפו של דויד בלקוול למשפט ראו-בלקוול. תוצאה ידועה נוספת הנושאת את שמו היא אי-שוויון ראו-קראמר, הנותן חסם תחתון לשונותו של אמד, ובכך מהווה הערכה לטיבו. מלבד תרומותיו לתורת האמידה, נודע ראו גם בתרומותיו לפיתוח שיטות לניתוח רב-משתני.

12. פרנק וילקוקסון (1892-1965)

פרנק וילקוקסון

את וילקוקסון אני אוהב במיוחד, כי הוא הגיע אל העיסוק בסטטיסטיקה כמוני – במקרה. הוא בכלל היה כימאי, וחיפש שיטת ניתוח סטטיסטית שלא תהיה תלויה בהתפלגות של הנתונים. הוא חשב על שיטה פשוטה למדי, אך לא הצליח למצוא מראה מקום ביבליוגרפי עבורה. לכן כתב מאמר שתיאר אותה ושלח אותו לכתב עת סטטיסטי, מתוך מחשבה כי המאמר יידחה עם הפניה לעבודה המקורית שמתארת את השיטה, וכך סוף סוף ישיג את ההפניה הביבליוגרפית שחסרה לו למאמר שלו. למרבה הפתעתו, המאמר ששלח התקבל לפירסום, וכך נולד תחום סטטיסטי חדש – הסטטיסטיקה האי-פרמטרית, וגם סטטיסטיקאי חדש.

11. ויליאם סילי גוסט (1876-1937)

ויליאם סילי גוסט

הסטטיסטיקאי שכמעט אף אחד לא שמע עליו, כולל בעלי תארים אקדמיים בסטטיסטיקה, אבל כ-ו-ל-ם מכירים. גוסט עבד במבשלות הבירה "גינס", ושם פיתח במסגרת עבודתו טכניקות סטטיסטיות שונות שעסקו בתכנון ניסויים וניתוח נתונים סטטיסטיים. את עבודותיו פרסם תחת הכינוי "סטודנט" בכתב העת ביומטריקה, הודות לקשריו הטובים עם העורך, קרל פירסון. את השיטה המפורסמת שפיתח להשוואת ממוצעים של שתי אוכלוסיות, מבחן t, מכיר כל מי שלמד קורס מבוא לסטטיסטיקה כלשהו.

10. דויד קוקס (נולד 1924)

דויד קוקס

סטטיסטיקאי אנגלי, נודע בעיקר בזכות תרומתו המכרעת לתחום של ניתוח נתוני השרדות (למשל, משך הזמן העובר עד שינוי במצבו הקליני של חולה). המודל של קוקס הוא סוס העבודה של ניתוח נתונים מסוג זה. תוצר לואי חשוב מאין כמוהו של מודל קוקס הוא שיטת אמידה חדשנית – "נראות חלקית" שמהווה אלטרנטיבה עמידה (רובסטית) לשיטת הנראות המירבית של פישר. הקוראים חדי העין שמו לב לדמיון בין שמו של קוקס ובין סטטיסטיקאי אנגלי אחר שנמצא ברשימה זו – ג'ורג' בוקס. השניים גם שמו לב לכך, והחליטו לכתוב מאמר משותף, פשוט כי מאמר שנושא את השמות בוקס-קוקס נראה להם משעשע (נסו להגיד "בוקס קוקס" עשר פעמים בקול רם בלי לצחוק). התוצאה הייתה מאמר חשוב שהגדיר, ניתח, והכניס לשימוש נרחב משפחה של טרנספומציות לנתונים, שנודעת מאז בשם טרנספומציית בוקס-קוקס.

9. ג'ון טוקי (1915-2000)

ג'ון טוקי

סטטיסטיקאי אמריקני זה היה "general practitioner". תופתעו אולי לשמוע שהוא זה שנמציא את המלים "ביט" ו-"software". אפשר לתאר כאן את עבודתו על טרנספומציות פורייה מהירות (FFT) ועל שיטת ה-jackknife, שהיא וריאציה של שיטת ה-bootstrap שפותחה מאוחר יותר על ידי ברדלי אפרון (שתשמעו עליו מייד). אבל טוקי נכנס לרשימה הזו בזכות גישת ה-"Exploratory Data Analysis" שפיתח וקידם. גישה זו דוגלת בהתבוננות בנתונים ואיתור תבניות בתוכם, בניגוד לגישה השלטת של "Confirmatory Data Analysis", שדוגלת בניסוח השערות ובדיקתן. ניתן לראות בשיטות כריית הנתונים (data mining) הפופולריות כיום כהרחבה של גישת טוקי, וללא ספק ההתפתחות העצומה בתחום מדעי המחשב סייעה לגישתו של טוקי להפוך לפופולרית ולגיטימית. מעניין לדעת האם טוקי חזה כל זאת כאשר עבד בשיתוף פעולה עם ג'ון פון ניומן בשנות הארבעים של המאה הקודמת.

8. ברדלי אפרון (נולד 1938)

ברדלי אפרון

אני נתקל בהרבה אנשים שמתייחסים לסטטיסטיקה כאל סוג של קסם, אבל אם יש שיטה סטטיסטית קסומה באמת, הרי זו שיטת ה-bootstrap שהגה ופיתח ברדלי אפרון מאוניברסיטת סטנפורד. חלקכם אולי מכירים את סיפורו של הברון מינכהאוזן, ששקע עם סוסו בבוץ טובעני. הברון רב התושיה וסוסו ניצלו מטביעה כאשר אחז הברון ברצועת המגף שלו עצמו ומשך את עצמו כלפי מעלה. תאמינו או לא, אבל בסטטיסטיקה הדבר אפשרי. אפרון הוכיח כי ניתן לאמוד מאפיינים סטטיסטיים של אמדים על ידי דגימה חוזרת ונשנית מתוך הנתונים שבידינו (שגם הם, מן הסתם, מהווים מדגם). כך נוצרת הדמיה (סימולציה) של מדגמים אלטרנטיביים שהיינו עשויים לראות. הטכניקה של אפרון עתירת מחשוב, והוצגה לראשונה בשנות השבעים של המאה הקודמת.

7. וו. אדוארדס דמינג (1900-1993)

ןן. אדוארדס דמינג

זהו אחד משני הסטטיסטיקאים ברשימה שלא היו חוקרים באקדמיה, השני הוא ויליאם גוסט. אך בעוד שגוסט עבד בחברה אחת, ונאלץ לפרסם את עבודותיו בעילום שם בגלל מדיניות החברה, דמינג סבב בעולם והרצה את הפילוסופיה הניהולית-סטטיסטית שלו שדגלה באבטחת איכות תהליכית באמצעים סטטיסטיים (תחום הידוע כ-SPC , Statistical Process Control). לכל מי שהיה מוכן לשמוע. מי שהקשיבו והפנימו היו היפנים, ודמינג נחשב לאחראי העיקרי לזינוק הטכנולוגי של יפן בשנות החמישים והשישים של המאה הקודמת.

6. קרל פרידריך גאוס (1777-1855)

קרל פרידריך גאוס

הרי אמרתי בדברי הפתיחה כי ברשימה יכללו אלה שיש להם השפעה ישירה על הסטטיסטיקה המודרנית, אז מה עושה כאן, ועוד במקום השישי, מתמטיקאי מהמאה ה-19? ובכן, לגאוס יש שתי השפעות כאלה: חלקו בגילוי משפט הגבול המרכזי ויישומיו, וכמובן, שיטת הריבועים הפחותים שפיתח. תוכלו לקרוא על שתי תרומות מכריעות אלה בהרחבה בשתי רשימות שפירסמתי כאן בעבר: למי צלצל הפעמון? וכן הכוכב הנעלם והאמד הכחול: משפט גאוס מרקוב ושיטת הריבועים הפחותים.

5. פלורנס נייטינגייל (1820-1910)

פלורנס נייטינגייל

נייטינגייל ידועה בציבור הרחב בעיקר כאחות, אך מדובר בסטטיסטיקאית חשובה, מחלוצות הביוסטטיסטיקה. "כדי להבין את מחשבותיו של האלוהים עלינו לדעת סטטיסטיקה, משום שזהו כלי המדידה של כוונותיו", אמרה נייטינגייל. היא הבהירה היטב את דבריה כאשר השתמשה בנתונים סטטיסטיים שאספה בקפדנות והציגה באמצעות שיטות שפיתחה כדי להוכיח כי שמירה על רמת סניטציה נכונה יכולה להוריד את שיעור התמותה בבתי החולים מ-80% ל-2% בלבד. על חייה של ניטינגייל ופועלה כתבתי כאן בהרחבה בעבר: הסטטיסטיקה שהצילה חיים – סיפורה של פלורנס נייטינגייל.

4. תומאס בייס (1702-1761)

תומאס בייס

תומאס בייס היה כומר אנגלי שחי לו במאה ה-18. בימי חייו הוא פרסם שני מאמרים בנושאים תיאולוגיים פילוסופיים, אך ככל הנראה התעניין גם במתמטיקה ובהסתברות. הסטטיסטיקה עוד לא נולדה בימיו. אז מה הוא עושה ברשימה הזו, ועוד במקום הרביעי? לאחר מותו של בייס פרסם ידידו, ריצ'רד פרייס, את אחד המכתבים ששלח אליו בייס. במכתב זה הראה בייס כיצד לחשב הסתברות מותנה "הפוכה" כאשר נתונה הסתברות מותנה. לא אכנס כאן לפרטים הטכניים (זה דורש רשימה נפרדת), אבל ההשלכות מהפכניות. בייס הראה כי במובן מסויים אין חשיבות לכיוון בו זורם הזמן – ניתן להסתכל על מאורעות בסדר בו הם מתרחשים או בכיוון ההפוך. אינטרפרטציה מיידית אחרת של התוצאה של בייס היא כי הסתברות אינה בהכרח אובייקטיבית אלא יכולה להיות תלויה ב"אמונות", כלומר בהנחות שמניחים על טבעו של העולם. על סמך אינטרפרטציה זו נבנה ענף שלם וחדש של הסטטיסטיקה – שנקרא, איך לא – סטטיסטיקה בייסיאנית. הניצנים של ענף זה החלו להופיע בשנות החמישים של המאה העשרים, והסטטיסטיקה הבייסיאנית כובשת לה אט אט עוד מעריצים.

3. ג'רזי ניימן (1894-1981)

ג'רזי ניימן

על ג'רזי ניימן וחלק מפועלו כבר כתבתי כאן בהרחבה ברשימה "בין שתי טעויות", שתיארה את התהליך של בדיקת השערות/קבלת החלטות, ואת הלמה של ניימן ופירסון, שהראתה כיצד ניתן לבנות כלל החלטה אופטימלי. למה זו היא ללא ספק המשפט השימושי ביותר בסטטיסטיקה, ורק היא לבדה מקנה לבעליה חיי נצח סטטיסטיים. בכל זאת, אני מציב במקום השלישי את ניימן לבדו, ודוחק מהרשימה את שותפו אגון פירסון (בנו של קרל פירסון). מעניין לציין כי הלמה של ניימן ופירסון דחקה את מתודולוגיית בדיקת ההשערות ששלטה עד אז בכיפה – המתודולוגיה של קרל פירסון, שניימן עבד בשיתוף פעולה עימו במשך כשנתיים. מי שלא אהב כלל לשתף פעולה עם ניימן היה רונלד פישר. הסיבה – שניהם הציגו שיטות לאמידה מרווחית של פרמטרים, כלומר שיטה למצוא תחום שהפרמטר נמצא בתוכו ברמת בטחון מסויימת. ניימן הציע את רווח הסמך – Confidence interval, בעוד שפישר הציע את הגבולות המהימנים – Fiducial limits. פישר כעס על ניימן כי חשב שגנב ממנו את הרעיון. אכן, במקרים מסויימים שתי השיטות נתנו את אותה התוצאה בדיוק. אולם, שיטתו של ניימן עדיפה על זו של פישר, כיוון שהיא מגובה בלמה שלו ושל פירסון, ולכן היא אופטימלית. פישר לא השתכנע עד יום מותו. השיטה שפיתח עדיין בשימוש במקרים בהם לא ניתן להפעיל את שיטתו של ניימן.

2. קרל פירסון (1857-1936)

קרל פירסון

קרל פירסון הוא הראשון שממש נשא בתואר "סטטיסטיקאי". הוא יסד את המחלקה לסטטיסטיקה האקדמית הראשונה בעולם, ביוניברסיטי קולג' שבלונדון, ואת כתב העת הראשון שעסק בסטטיסטיקה בלבד – ביומטריקה. תרומותיו העיקריות לסטטיסטיקה הן בפיתוח התיאוריה של הרגרסיה הלינארית (שיסודותיה הונחו, כזכור, על ידי גאוס שהמציא את שיטת הריבועים הפחותים), פיתוח מקדם המתאם, עבודתו במיון וסיווג ההתפלגויות הסטטיסטיות השונות, ופיתוח מבחן טיב ההתאמה (שידוע גם בשם "מבחן חי-בריבוע").

1. רונלד פישר (1890-1962)

רונלד פישר

לו ניתנה לי הזדמנות לפגוש באדם אחד אשר אינו בין החיים היום, האדם אותו הייתי בוחר לפגוש היה רונלד פישר. פישר למד אסטרונומיה בקיימברידג´, והתעניין במיוחד בהערכת הטעויות בחישובים אסטרונומיים. לאחר סיום לימודיו עסק מספר שנים בהוראת מתמטיקה, וב-1919 עזב את ההוראה לטובת משרת מחקר בחווה לניסויים חקלאיים, שם עסק בניסויים גנטיים. עבודתו בחווה הוליכה אותו אל העיסוק בסטטיסטיקה, שהייתה אז ענף זנוח של המתמטיקה. במסגרת עבודתו היה עליו לתכנן ניסויים ולנתח את תוצאותיהם – שני השלבים הקריטיים בכל מחקר המתבסס על איסוף נתונים ועיבודם. במשך שנות עבודתו בחווה הניח פישר את היסודות לסטטיסטיקה המודרנית. הוא הגה ופיתח את שיטת הרנדומיזציה לתכנון ניסויים, ואת ניתוח השונות (ANOVA), כלים יסודיים ומרכזיים בסטטיסטיקה המודרנית. פישר הדגיש כי שלב התכנון הוא השלב הקריטי ביותר בכל ניסוי. "לקרוא לסטטיסטיקאי לאחר שהניסוי הסתיים זה כמו לקרוא לרופא לאחר שהחולה מת", אמר פישר. "לכל היותר יוכל הסטטיסטיקאי לומר מדוע הניסוי נכשל". כמו כן הגה פישר מושג מרכזי נוסף בסטטיסטיקה – מושג הנראות (Likelihood) וממנו פיתח את שיטת האמידה הידועה כשיטת הנראות המקסימלית. פיתוחים מרכזיים נוספים שלו כללו שיטות סטטיסטיות לניתוח מדגמים קטנים, וחישובי פונקציות ההתפלגות המדויקות של מדדים סטטיסטיים רבים. חלק מעבודתו של פישר נתקל בביקורת מצידו של בכיר העוסקים בסטטיסטיקה באותה תקופה, קרל פירסון, שהתנגד במיוחד למושג הנראות ושיטת הנראות המירבית. פישר, בתגובה, פירסם מאמר ובו הצביע על טעויות באחת מעבודותיו של פירסון. היריבות בין השניים נמשכה עד מותו של פירסון, ולמעשה גם אחריה, כאשר בנו של קרל פירסון, סטטיסטיקאי נודע בזכות עצמו, המשיך לריב את ריבו של אביו. נצחון בעל משמעות סמלית נחל פישר כאשר התמנה לכהן בקתדרה על שם גאלטון בקיימברידג´ במקום פירסון, כאשר האחרון פרש לגמלאות (העלבון כפול, כי פירסון היה כזכור תלמידו של גאלטון). גם בראיה היסטורית, ניצח פישר בויכוח עם פירסון ובנו. הוא זכה להכרה בהישגיו כאשר נבחר לחברה המלכותית, זכה בפרסים רבים, כולל מדליית דרוין, וכן הוענק לו תואר אצולה. פישר פרסם מאמרים רבים הן בסטטיסטיקה והן בגנטיקה. נציין כאן את שני ספריו החשובים ביותר: "שיטות סטטיסטיות למחקר", בו סיכם את תרומותיו לסטטיסטיקה, ו-"תיאוריה גנטית של הברירה הטבעית", בו סיכם את מחקריו בתחום הגנטיקה.

הקוראים הותיקים של הבלוג הזה בודאי זוכרים את האנקדוטה אודות פישר שסירב להשתכנע כי עישון גורם לסרטן על סמך מתאם שנצפה בין שתי התופעות (ראו את הרשימה הראשונה שפירסמתי: האם החסידה מביאה ילדים לעולם?), נאמן לעקרון הסטטיסטי לפיו מתאם אינו מעיד על סיבתיות. פישר, מעשן כבד כל חייו, מת לאחר שחלה בסרטן המעי הגס בשנת 1962.

נשלח: 12 באפריל, 2009. נושאים: האנשים שמאחורי הסטטיסטיקה, היסטוריה.
תגובות: 15 | טראקבק

סקירה על סולמות מדידה

הקדמה

בעקבות דיון שהתפתח בתגובות לאחת הרשימות האחרונות שלי (וכן מספר חיפושים בגוגל על הנושא שהגיעו אל הבלוג) החלטתי להקדיש רשימה לנושא של סולמות המדידה.

עלי לציין כי במסגרת לימודיי הפורמליים מעולם לא למדתי את הנושא, ואיכשהו מניחים כי הוא ברור מאליו. אבל כשלימדתי קורסים במבוא לסטטיסטיקה מחוץ למסגרת האוניברסיטה העברית (במכללה למנהל ובאוניברסיטה הפתוחה) היה עלי ללמד את הנושא (כמובן, אחרי שלמדתי אותו היטב בכוחות עצמי), והתברר לי כי הוא גורם לקשיים אצל הסטודנטים. בחוברות המבוא לסטטיסטיקה של האוניברסיטה הפתוחה קיים טקסט ממצה של הנושא, ולכאורה, קריאה בו אמורה להקנות לקורא את כל הידע הבסיסי בנושא. אמנם האינטואיציה של הנושא ברורה לכל מי שיש לו אינטואיציה לסטטיסטיקה, כך שלי הנושא נראה טריוויאלי, אבל לא כך הדברים נראים מזוית המבט של סטודנט למדעי החברה/כלכלה/מנהל עסקים שצריך ללמוד קורס חובה בסטטיסטיקה בסיסית. כמו כן, למרות שמדובר בנושא בסיסי ופשוט יחסית, הוא דורש בכל זאת מעט חשיבה לא שגרתית, התגברות על הנטייה לייחס למושגים מתמטיים את משמעותם היומיומית, ומעל לכל, הבנה טובה של הנושא היא בסיס הכרחי להבנה של הכלים הסטטיסטיים אליהם נחשפים בהמשך.

הרשימה הזו כוללת את עיקרי הדברים המופיעים בכל טקסט בסיסי, עם מספר דוגמאות והבהרות שנהגתי לתת כהסברתי את הנושא לסטודנטים.

מהי מדידה?

כל אחד יכול לחשוב על דוגמא כלשהי למדידה. אפשר לקחת סרט מדידה ולמדוד את רוחב החלון בסנטימטרים. אנחנו לעמוד על מאזניים ביתיים ולמדוד את משקל גופנו (פעולה שאני נמנע מלבצע בדרך כלל). שוטרים משתמשים במערכות אלקטרוניות כדי למדוד את מהירות נסיעתה של מכונית. כל אלה דוגמאות נפוצות מחיי היום יום.

סטטיסטיקאי יכול לחשוב על דוגמאות נוספות שלא יעלו בדעתו של אדם רגיל, שלא נתקל בנושא סולמות המדידה באיזה קורס או טקסט. הסיבה? הגדרת המושג "מדידה". "מדידה" בלשון הסטטיסטיקה היא התאמה של ערך מספרי לתכונה. ההתאמה יכולה להיות מבוססת על מערכת פיזיקלית כלשהי, או אולי מערכת קוגניטיבית, או שרירותית לחלוטין.

לדוגמא, אם אני רוצה לשמור במחשב נתונים של מינם של המשתתפים בניסוי קליני, אני יכול להצמיד לגברים את הערך המספרי "0" ולנשים את הערך המספרי "1". "מדדתי" את מינו של כל משתתף בניסוי, על ידי כל שהתאמתי ערך מספרי (בדוגמא הזו 0 או 1) לתכונה (בדוגמא הזו: מין המשתתף בניסוי).

מנסיוני, זהו המוקש הראשון עליו עולים רוב סטודנטים. וזו בעיה ידועה, לא רק בסטטיסטיקה אלא בכל לימודי המדעים המדויקים. צריך לעשות הפרדה בין המושג האינטואיטיבי של "מדידה", שתואר בפסקה הראשונה בסעיף זה, ובין המושג הסטטיסטי של מדידה, כפי שהוגדר בפסקה השניה.

לסיכום הסעיף הזה: בכל פעם שאתם משתמשים במספר כדי לתאר משהו – ביצעתם מדידה.

מהם סולמות מדידה?

אם מדידה היא התאמה של ערך מספרי לתכונה, אז מערכת מספרית ספציפית לפיה מתאימים מספר לתכונה נקראת "סולם מדידה".

בדוגמא שנתתי בסעיף הקודם השתמשתי בסולם המדידה: גבר=0, אשה=1. לא הייתי חייב לבחור דווקא בסולם הזה. יש עוד סולמות אפשריים למדידת התכונה של מין המשתתף בניסוי, למשל: גבר=2, אשה=1. או: גבר=17, אשה=23, וכולי וכולי. חדי העין שבין הקוראים ישימו לב בודאי שיש תכונה משותפת לשלוש הדוגמאות שנתתי לסולם המדידה למין המשתתף בניסוי.

אנחנו יכולים לנסות לבדוק את כל ההתאמות האפשריות ולנסות לסווג אותן על פי תכונותיהן. מייד אציג דרך אפשרית לסווג את כל סולמות המדידה (כלומר את כל ההתאמות האפשריות של מערכות מספריות לתכונות) לארבע קבוצות עיקריות המכונות: סולם שמי, סולם סודר, סולם רווח וסולם מנה. מתברר כי החלוקה הגסה הזו מספיקה לרוב צרכי הסטטיסטיקה.

סולם המדידה השמי

סולם המדידה השמי הוא סולם בו הערך המספרי משמש לזיהוי בלבד של התכונה נמדדת, ואין כל משמעות נוספת לערך המספרי מעבר לכך. סולמות המדידה שהצגתי למין המשתתפים בניסוי הוא דוגמא לכך (חשבו מדוע לפני שתמשיכו לקרוא, ואח"כ חישבו איזה הסתייגות אפשר להוסיף לדברים האלה).

הנה עוד מספר דוגמאות:

מספרים של קווי אוטובוסים
מספרי תעודת זהות
מספרים אישיים בצה"ל
מספרי החולצות של שחקנים בקבוצת ספורט
סוג הקפה הנמס (המבוטא על יד בר-קוד) שקנה לקוח בסופרמרקט

בכל המקרים האלה (כמעט) אין משמעות למספרים מעבר למתן האפשרות לזיהוי. אם בקבוצת כדורסל מסוימת מיקי לובש את הגופיה מספר 9 ומוטי את הגופיה מספר 7, זה לא אומר בהכרח כי מיקי שחקן טוב יותר ממוטי (אולי כן, אבל זה לא נובע ממספר החולצה). אם אפשר לנסוע מבת-ים לתל-אביב במספר קווי אוטובוס, כולל 10, 18, 25 ו-26, זה לא אומר שנסיעה בקו 25 עדיפה על נסיעה בקו 18 (אלא אם אתה רוצה להגיע לרמת אביב). נסיעה בקו 44 בודאי שאינה עדיפה כפליים על נסיעה בקו 22, והאמירה לפיה קו האוטובוס הממוצע הנוסע בבת-ים הוא 53.12 (סתם המצאתי) חסרת כל משמעות. אין משמעות לטענה המתייחסת לטיב החבטות של שחקני בייסבול שמספר החולצה שלהם קטן מ-17.

מיקי ומוטי

עם זאת, קיים מקרה מיוחד בו לממוצע של משתנה שמי יש משמעות. נסו לגלות מהו. התשובה תופיע בהמשך הרשימה.

המדדים הסטטיסטיים היחידים שיש להם משמעות בהקשר של מדידה שמית הם נתוני שכיחות ושכיחות יחסית. יש משמעות לטענות כמו "34% מהלקוחות קנו קפה נמס מסוג X", או "סוג הקפה הנרכש ביותר הוא קפה נמס מסוג Y". עם זאת, הניתוח הסטטיסטי של נתונים מסולם מדידה שמי, המכונים לעיתים "נתונים קטגוריים" אינו מוגבל רק ליצירת טבלאות שכיחות, וקיימות שיטות סטטיסטיות מתוחכמות לניתוח נתונים כאלה (עבודת הדוקטורט של כותב שורות אלה עסקה בניתוח נתונים קטגוריים).

קוראים ששירתו בצבא יאמרו בודאי כי הדוגמא של מספרים אישיים אולי אינה מתאימה: מי שהתגייס קודם, המספר האישי שלו קטן יותר, ואכן קיימת בצבא תרבות שלמה של "ותיקות" ששלוש הספרות הראשונות במספר האישי, המהוות אינדיקציה למחזור הגיוס, הן אחד הסממנים שלה. זה מביא אותנו אל הסולם הבא בתור.

סולם המדידה הסודר

סולם מדידה סודר הוא סולם בו הערכים המספריים מבטאים סדר טבעי של התכונה הנמדדת.

סולמות כאלה נפוצים מאוד גם במדעי החברה וגם ברפואה. כל מי שמילא שאלון או השתתף בסקר כלשהו בודאי ענה לשאלה בסגנון הבא: "בסולם של 1 עד 5, כאשר 1 מבטא חוסר הסכמה מוחלטת ו-5 מבטא הסכמה מלאה, עד כמה אתה מסכים עם המשפט הבא….". מדדים קליניים רבים לחומרת מחלה מבוססים על סולם סדר. חומרת המחלה של טרשת נפוצה, למשל, נמדד על ידי סולם בן 21 שלבים, המכונה EDSS. סולם זה מתחיל ב-0 ועולה בקפיצות של 0.5 עד 10.

מה משותף לסולמות האלה? קודם כל, הם מזהים את כל אחד מהנמדדים כשייכים לקבוצה מסויימת. סולם ההסכמה 1-5 מזהה כל נסקר כשייך לאחת מחמש קבוצות: קבוצת הנסקרים שמבטאים חוסר הסכמה מוחלטת (1), קבוצת הנסקרים שמבאים חוסר הסכמה מסויים (2) וכך הלאה. גם סולם EDSS מחלק את כל חולי הטרשת הנפוצה ל-19 קבוצות על פי חומרת מחלתם. במלים אחרות, כל סולם מדידה סודר הוא גם סולם מדידה שמי. ההיפך לא נכון. מדוע? כי אנו יכולים לדעת שחולה עם ערך EDSS השווה ל- 4, למשל, הוא חולה שמצבו הקליני חמור יותר מחולה שערך ה-EDSS שלו הוא 3.

וכאן המקום להזהיר: למספרים שבסולם המדידה הסודר אין משמעות מעבר לסדר שהם מגדירים. את הסולם ההסכמה "1-5" אנו יכולים להפוך לסולם "0-4" או "12-16" או להצמיד לחוסר הסכמה מוחלטת את המספר 1, לאי הסכמה חלקית את 3.14, לאדישות את 17, להסכמה חלקית את 100 ולהסכמה מלאה את המספר מליון ואחת עשרה. על המערכות האלה שקולות, ושינוי מערכת המספור לא ישנה את האינפורמציה הטמונה בנתונים. מכאן שעדיין אין משמעות למשפטים כמו "דרגת ה-EDSS הממוצעת של החולים היא 4.1" או "רמת ההסכמה הממוצעת לטענה היא 2.7 עם סטיית תקן 0.3". אם תחליפו את הסולם בסולם אחר השומר על הסדר המספרי בין התכונות, הנתונים המספריים ישתנו למרות שמהותית לא השתנה דבר.

לעומת זאת, יש בהחלט מדדים סטטיסטיים בעלי משמעות לתיאור משתנים סודרים. הידוע שבהם הוא החציון, ואליו מתלווים אחיו האחוזונים. יש משמעות לטענות כמו "70% מהמשיבים לסקר לא הביעו חוסר הסכמה (מוחלטת או חלקית) עם הטענה", או "דרגת החומרה החציונית של החולים שהשתתפו בניסוי הייתה 3.5 בסולם EDSS".

סולם הרווח

זהו הסולם הראשון בו יש משמעות כמותית לערכים המספריים הנמדדים, ולכן מותר לבצע עליהם פעולות אריתמטיות מסוימות. המגבלה שמוטלת על סולם הרווח היא שיש משמעות להפרשים (רווחים) שבין הערכים הנמדדים, אך לא ליחסים שבין הערכים. בסולם זה גם יש לראשונה התאמה בין המשמעות האינטואיטיבית של המילה "מדידה" ובין המשמעות הסטטיסטית שלה.

הדוגמא העיקרית המוכרת לי היא סולמות המדידה של הטמפרטורות. אם היום הטמפרטורה היא 20 מעלות צלזיוס, ומחר הטמפרטורה היא 25 מעלות צלזיוס, אז לגיטימי לומר כי הבדלי הטמפרטורות בין שני הימים הם חמש מעלות צלזיוס. כמי שגר בשיקגו כמה שנים טובות, אני יכול בהחלט להעיד כי ההבדל בין טמפרטורה של 25 מעלות צלזיוס וטמפרטורה של 10 מעלות צלזיוס זהה להבדל בין הטמפרטורות מינוס 10 מעלות ומינוס 25 מעלות, מבחינת ההרגשה.

אבל, אם היום הטמפרטורה הייתה 20 מעלות ולפני שבוע היא הייתה 10 מעלות, האם פירוש הדבר כי היום חם כפליים מאשר אתמול? לא ולא. אילו מדדנו את הטמפרטורות בסולם פרנהייט, כמו ידידינו שמעבר לאוקיינוס האטלנטי, היינו מודדים היום 68 מעלות פרנהייט, ולפני שבוע 50 מעלות פרנהייט, ו-68 אינו גדול כפליים מ-50. החום הוא אותו חום, אך הטמפרטורות שונות. אין משמעות ליחס שבין הטמפרטורות (מדוע – נראה מייד).

מבחינה מעשית, רוב המדדים הסטטיסטיים והשיטות הסטטיסטיות ניתנים ליישום על גבי נתונים שנמדדו בסולם הרווח. לממוצע טמפרטורת יש משמעות, גם לסטיית התקן שלהן. עם זאת, יש להיזהר באינטרפרטציה של התוצאות.

סולם המנה

בסולם המנה יש משמעות כמותית לערכים המספריים הנמדדים, כולל ליחסים ביניהם. זה אפשרי רק כאשר ערך האפס של הסולם הינו מוחלט. לכן אם משקלו של אדם אחד הוא 100 ק"ג ומשקלו של חברו רק 50 ק"ג, אפשר בהחלט לומר כי משקל האדם הראשון גדול כפליים ממשקל חברו. אתם יכולים לחשוב על המון דוגמאות למדדים כאלה: משקל, גובה, מרחק, מהירות, מחירים ועוד. כל המדדים הסטטיסטיים ניתנים לחישוב עבור נתונים שנמדדים בסולם מנה, וכל השיטות הסטטיסטיות ניתנות בעיקרון ליישום על נתונים אלה.

יוצא הדופן

ציינתי למעלה כי יש מקרה מיוחד בו לממוצע של משתנה שמי יש משמעות. מי שהייתה לו סבלנות להגיע עד כאן יגלה עכשיו את התשובה. כזכור, משתנה שמי הוא משתנה בו הערך המספרי משמש לזיהוי בלבד של התכונה נמדדת, ואין כל משמעות נוספת לערך המספרי מעבר לכך. כך למשל, אם המשתנה הוא מינו של הנבדק בניסוי הקליני, אז סימון של 0 לגבר ו-1 לאשה הוא פשוט קידוד שרירותי המתאים ערך מספרי למין הנבדק. ובכל זאת, נניח שעכשיו אנו מחשבים את הממוצע של המשתנה הזה. מה נקבל? נניח שבניסוי שלנו היו 500 משתתפים ומתוכם 300 נשים. כדי לחשב את הממוצע, נחבר 300 אחדים (אחד לכל אישה) ו-200 אפסים (עבור 200 גברים). את התוצאה, 300, נחלק ב-500. נקבל כי המין הממוצע הוא 0.6, וזו בדיוק פרופורציית הגברים באוכלוסיה.

נשלח: 4 באפריל, 2009. נושאים: מה אומרת הסטטיסטיקה.
תגובות: אין | טראקבק

הכנס השני של isENBIS

הכנס השני של הקבוצה הישראלית ליישומי סטטיסטיקה בתעשייה ובעסקים- isENBIS יתקיים בתאריך 6.4.2009 בבית חיל האויר שבהרצליה. אמנם לא אוכל להגיע, אך נראה כי הכנס יהיה מעניין.

European Network of Business and industrial Statistics) ENBIS ) הינה התאגדות של סטטיסטיקאים מרחבי אירופה ובכלל, המתמחה ביישומי סטטיסטיקה בתעשייה ובעסקים. מטרת הארגון הינה לפתח דו שיח בין סטטיסטיקאים למנהלים. החברות בארגון חינם אבל מחייבת רישום ב http://www.enbis.org/register . פעילות isENBIS הקבוצה הישראלית מתוארת ב http://www.enbis.org/ln/isenbis/index .

נושא הכנס הינו "Predictive Analytics" (מתודולוגיה אשר מסייעת ללקוחות לחקור תסריטי עבר והווה עסקיים כדי לחזות מגמות עתידיות, לזהות מכשולים ולצפות התנהגות לקוחות). מרבית ההרצאות יידונו ביישום שיטה זו בעולם האינטרנטי, ההרצאה המרכזית בנושא זה תינתן ע"י יאיר שמשוני- חוקר ראשי בחברת "Google". לצערי אין לי לינק לתכנית המלאה של הכנס.

ניתן להירשם לכנס (חינם) בלינק הזה.

נשלח: 23 במרץ, 2009. נושאים: כללי.
תגובות: אין | טראקבק

עדכון מירב ארלוזורוב

מירב ארלוזורוב כתבה היום ב"הארץ/דה-מרקר" מאמר דיעה (לא, אין לינק, לא מגיעה לה) ובו היא תוקפת את המערכת האקדמית (שוב), הפעם לאור הידיעה שהודלפה לה לפיה חבורה מכובדת של פרופסורים לכלכה לא התמצאה בנתונים של כלכלת ישראל.
יכולתי לכתוב על זה רשימה, אבל: (1) עם כל הכבוד למירב ארלוזורוב (והאמת, אין כל כך הרבה כבוד), כבר נמאס לי לכתוב רשימה כל פעם שהיא כותבת איזשהו מאמר מופרך. (2) שאול אמסטרדמסקי כבר חשף את חולשות המאמר הזה בפוסט שפרסם הבוקר בבלוג המצויין שלו. אני ממליץ לכם בחום לקרוא את דבריו של שאול.

נשלח: 9 במרץ, 2009. נושאים: כלכלה וחברה, על סדר היום.
תגובות: 3 | טראקבק

גיל קלעי כותב על פוליטיקה ורציונליות

היום התפרסם ב"הארץ" מאמר מאת גיל קלעי, פרופסור למתמטיקה וחבר במרכז לחקר הרציונליות באוניברסיטה העברית בירושלים, שכותרתו "על פוליטיקה ורציונליות". קלעי סוקר מספר מהלכים פוליטיים, וביניהם גם התנהלותה של הילרי קלינטון במירוץ מול ברק אובמה להשגת המועמדות לנשיאות ארה"ב.

כצפוי, מאמר של חוקר מהזרם המרכזי של תורת המשחקים הוא בהכרח שיר הלל לרציונליות. הילרי קלינטון פעלה באופן רמיונלי לגמרי במסע הבחירות שלה, טוען קלעי. בנימין נתניהו וציפי לבני פעלו ברציונליות כשהכריזו, שניהם, על ניצחון בליל הבחירות, מסביר קלעי. "תומכי מרצ שהצביעו לקדימה לא נהגו בחוסר רציונליות", כותב קלעי, ומסביר מדוע. "מובן שגם תומכי מרצ שהצביעו מרצ פעלו באופן רציונלי", מוסיף קלעי.

רגע, אני פיספסתי משהו. תומך מרץ שהצביע עבור מרץ פעל באופן רציונלי, את זה אני מבין. גם תומך מרץ שלא הצביע עבור מרץ אלא עבור מפלגה אחרת (קדימה, במקרה הזה) פעל באופן רציונלי? איכשהו זה לא מסתדר לי.

אני מניח שלפרופסור קלעי יש איזשהו הסבר כדי ליישב את הסתירה הזו. אני מניח שחלק מקוראיי יטרחו ויסבירו לי מדוע אין כאן שום סתירה (אולי אני לא בוחן את דבריו של קלעי באופן רציונלי?)

קוראיי הותיקים יודעים בודאי שאני לא תומך של הטענה כי אנשים תמיד מקבלים החלטות באופן רציונלי. מקבל החלטות רציונלי עושה את החיים של אנשי תורת המשחקים והמודלים הכלכליים הרבה יותר קלים. אבל יש עדויות כבדות משקל נגד הטענה הזו. דניאל כהנמן זכה בפרס נובל לכלכלה על מחקריו המשותפים עם עמוס טברסקי ז"ל, שהראו כיצד החלטות לא מתקבלות באופן רציונלי אצל בני אדם, ואף פירטו את מנגננוני ההטיה המרחיקים את מקבל ההחלטות האנושי מההחלטה שהיה מקבל "האדם הרציונלי".

לכן אני סבור כי מסקנתו של פרופ' קלעי, כי התנהלות הפוליטיקאים אצלנו איננה התנהגות בלתי רציונלית, אלא קושי בקבלת החלטות בתנאי אי ודאות, גורפת מדי. אני חושש שיש לנו דוגמאות רבות מדי של התנהגות בלתי רציונלית של פוליטיקאים. נכון, לא כולם, אבל ההתנהלות הנוכחית במשא ומתן להרכבת הממשלה (שהיא הטריגר לכתיבת המאמר של קלעי) בהחלט מראה כי חלק מהשחקנים אינם פועלים באופן רציונלי.

נשלח: 9 במרץ, 2009. נושאים: על סדר היום, קבלת החלטות.
תגובות: 12 | טראקבק

חשיפה: מערכת אבטחה וזיהוי ביומטרי

עיתונאות במיטבה: בלוג "נסיכת המדעים" חושף כאן תמונה ראשונה ובלעדית של מערכת אבטחה וזיהוי ביומטרי. ניתן לראות בבירור חלק מממשק ההפעלה של המערכת בפינה הימנית התחתונה של צילום המסך:

מערכת אבטחה וזיהוי ביומטרי

מומחה האבטחה של הבלוג, אלון לוי (ניתן לראות את ידו בתמונה), מוסר כי מדובר באחת המערכות המתקדמות מסוגה, למרות שתוכננה והופעלה כבר בראשית שנות התשעים של המאה הקודמת. המערכת מאבטחת את בית הטלטאביז, ומונעת שימוש בלתי מורשה במתקני הבית, לרבות שימוש לא מורשה במכונת הטאבי-טוסט, במתקן הטאבי-פודינג, במגלשות ובמקפצות.

נשלח: 8 במרץ, 2009. נושאים: אותי זה מצחיק, בנימה אישית.
תגובות: אין | טראקבק

תמונה אחת שווה אלף מלים

הטור של דילברט מהיום מדגים כיצד הצגה גרפית טובה יכולה להעביר את המסר בצורה אופטימלית. לחצו על התמונה כדי לראות אותה בגודל מלא באתר דילברט.קומ

וברצינות – דיאגרמת עוגה (pie chart) היא אחת ההצגות הגרפיות הגרועות ביותר שיש, ומומלץ מאוד לא להשתמש בהן (הערה לעצמי: צריך לכתוב בהזדמנות רשימה על הנושא).

נשלח: 7 במרץ, 2009. נושאים: אותי זה מצחיק, ויזואליזציה.
תגובות: 7 | טראקבק

זוית מבט נוספת על מתאם וסיבתיות

לחצו על התמונה כדי לראות אותה (ואת הפאנצ'ליין, שמופיע בתור כיתובית לתמונה) בגודל מלא באתר xkcd, שם פורסמה היום.

כמובן שהתרעתי ואמשיך להתריע כאן בבלוג כי מתאם אינו מעיד על סיבתיות. בכל מקרה, במצב המתואר בקריקטורה זו יש בעיה סטטיסטית נוספת – גודל מדגם קטן מדי.

נשלח: 7 במרץ, 2009. נושאים: אותי זה מצחיק.
תגובות: 1 | טראקבק

עדכון שפן הבייסבול

לפני מספר שבועות כתבתי כאן על משחק השפן שמשחקים כוכב הבייסבול מני רמירז וסוכנו סקוט בוראס מול קבות הלוס אנג'לס דודג'רס. כזכור רמירז דחה שתי הצעות שהוצעו לו על ידי הדודג'רס: תחילה דחה הצעה של 45 מליון דולר לשנתיים, אחר כך דחה הצעה של 25 מליון דולר לשנה.

הבוקר דווח כי הדודג'רס חזרו עם הצעה חדשה: שוב 45 מליון דולר לשנתיים, אך באופן שהשחקן יקבל סכום גדול יותר בשנת 2009 לעומת הסכום שהיה אמור לקבל בהצעה הראשונית. בעידן שבו הריבית קרובה ל-0 זה לא משהו, אבל עדיין מדובר בשיפור לעומת ההצעה הקודמת. עד כה לא דחה רמירז את ההצעה. האם העובדה שאימוני האביב כבר החלו בשבוע שעבר והדודג'רס כבר שיחקו אתמול את משחק הידידות הראשון שלהם גורמת לכוכב העל וסוכן העל שלו ללחוץ על הגז קצת יותר בעדינות? אמשיך לעקוב ולדווח.

עדכון: הבוקר (27.2.2009) דחה רמירז גם את ההצעה הזו.

עדכון מאוחר (שבת 7.3.2009): בתאריך 4.3.2009 חתמו רמירז והדודג'רס על חוזה חדש, לפיו רמירז ישחק בשנתיים הבאות בשורות הדודג'רס ויקבל תמורת שירותיו 45 מליון דולר. היה שווה לחכות.

נשלח: 26 בפברואר, 2009. נושאים: הממ... מעניין..., ספורט, קבלת החלטות.
תגובות: 1 | טראקבק

בעיית מונטי הול חוזרת

גיל גרינגרוז פרסם רשימה מצויינת על בעיית מונטי הול בבלוג שלו ב"רשימות" – אותה בעיה בה יש שלוש דלתות, מאחורי אחת מהן פרס גדול, וכולי וכולי.

הקוראים שמכירים את הבעיה יודעים בודאי כי החוכמה היא לא למצוא את הפתרון הנכון, אלא להשתכנע שזהו אכן הפתרון הנכון, ובכך עוסקת רוב הרשימה של גיל. בהזדמנות זו אפנה את קוראיי שוב לרשימה שאני כתבתי על בעיית מונטי הול, שעסקה בקשיים שלי להסביר את הפתרון ואת האינטואיציה שמאחוריו.

נשלח: 25 בפברואר, 2009. נושאים: מה אומרת הסטטיסטיקה.
תגובות: 1 | טראקבק