קישורים

ניווט

נושאים

ארכיב עבור תגית פישר

סטטיסטיקה רעה: אי אבחנה בין מתאם לסיבתיות

בנושא המתאם והסיבתיות דנתי רבות ((זה היה הפוסט הראשון שהופיע בנסיכת המדעים!)). יש הרבה דוגמאות משעשעות: מתאם בין יבוא לימונים לבטיחות בדרכיםבין צבעה של מכונית והסיכוי כי תהיה מעורבת בתאונת דרכים, ובין מחזורי הירח ומחירי המניות. קוריוזים כאלה בדרך כלל לא גורמים נזק ((אם כי עלולים להיגרם הפסדים כספיים למי שישקיע את כספו על פי מחזורי הירח)). אף אחד לא יציע להטיל מגבלות על יבוא לימונים, או לצבוע מכוניות שחורות בצבע אחר. למעוניינים יש אתר שלם וספר שעוסק בכך.

ברשותכם אעבור לדוגמאות יותר רציניות.

דוגמא מפורסמת קשורה לגדול הסטטיסטיקאים, רונלד פישר, שהיה מעשן כבד. באמצע שנות החמישים של המאה העשרים, התגלו המתאמים הראשונים בין העישון ובין הסיכוי לחלות בסרטן הריאות. תלמידיו של פישר פנו אליו, וביקשו ממנו שינסה לעשן פחות למען בריאותו. הם נימקו את בקשתם במתאם הסטטיסטי שזה עתה התגלה. פישר דחה אותם, בנימוק שהמתאם עצמו אינו מראה סיבה ותוצאה, ואף הביע את דעתו זו בכתב העת החשוב Nature. ייתכן, אמר פישר, כי מחלת הסרטן גורמת בשלב הראשון של המחלה לצורך בניקוטין, המתבטא בכך שהחולה מעשן, ורק אחר כך מתפתחים הגידולים. פישר נפטר בשנת 1962. רק בשנות השבעים של המאה העשרים הוכיחו המדענים כי צריכה מוגברת של ניקוטין אכן גורמת לעליית הסיכון לחלות בסרטן הריאות.

טענה אחרת שהועלתה היא כי צמחונות אצל נערות בגיל ההתבגרות גורמת לאנורקסיה, וזאת על סמך מתאם גבוה בין שתי התופעות. ניתוח יותר זהיר הראה כי אורח חיים צמחוני לכשעצמו לא בהכרח גורם לאנורקסיה, אך בשילוב עם גורמי סיכון נוספים המחלה עלולה להתפתח.

הסקת סיבתיות עקב קיומו של מתאם עלולה בקלות להגיע לאבדן חיי אדם. הדוגמא המפורסמת ביותר (ואחת המזיקות ביותר) היא הטענה שחיסונים גורמים לאוטיזם, וזאת על פי מחקר גרוע במיוחד ((שתוצאותיו התבררו לאחר מכן כמזוייפות, אבל גם אם היו אמיתיות לא היה ניתן להסיק מהן דבר)). מאמר מאת אנדרו וייקפילד ((שהיה ד”ר לרפואה עד שרישיונו נשלל)) , שפורסם בכתב העת Lancet בשנת 1998, הראה מתאם בין מתן חיסון MMR לילדים ובין אבחון אוטיזם אצל ילדים שחוסנו. זה הספיק כדי להצית תנועה רחבה של התנגדות לחיסונים, שקיימת עד היום. אי מתן חיסונים מוביל להתפרצות מגיפות ולמקרי מוות שהיו יכולים להימנע.

ב-2010 התפרסם מחקר שמצא כי צריכת חומצות שומניות כגון אומגה 3 יכולה להפחית את הסיכון להתקף לב. הטענה התבססה על מספר מחקרים תצפיתיים, וכן מספר ניסויי מעבדה. התברר כי לחומצות שומניות יש תכונות אנטי דלקתיות, וכי יש מתאם שלילי בין רמת הצריכה שלהן ובין רמת הטריגליצרידים בדם. כמו כן יש מתאם בין שלילי בין רמת הטריגליצרידים ובין הסיכון להתקף לב. מכאן הדרך קצרה להשערה כי צריכת חומצות שומניות תוביל להורדת הסיכון להתקף לב. זו תיאוריה יפה, אך היא מבוססת על מתאמים. היא התבררה כלא נכונה. בשנת 2013 התפרסמו התוצאות של מחקר קליני מבוקר, בו המטופלים צרכו, על פי הקצאה רנדומלית, שמן דגים (העשיר באומגה 3) או פלסבו. המחקר הראה כי אין עדות לאפקט חיובי של צריכת שמן דגים.

הדוגמא הטריה ביותר היא המחקר PURE, שתוצאותיו החלו להתפרסם לפני מספר חודשים. בין היתר, טענו החוקרים כי “יש מתאם גבוה בין צריכה גבוהה של פחמימות לשיעורי התמותה, בעוד שצריכת שומנים קשורה לשיעורי תמותה נמוכים”. במחקר יש בעיות מתודולוגיות רבות המעמידות בספק רב את עצם קיומו של המתאמים המתוארים, אולם זה לא הפריע לעיתונים לצאת בכותרות כמו “שומן מפחית את הסיכון לתמותה“, “שומן לא מזיק, הבעיה עם פחמימות“, ו-“תזונה דלת שומן מעלה סיכון למוות מוקדם“. שוב, פרשנות מוטעית של מתאם רשלני עלולה להביא להגברה של צריכת שומן, שתוביל לשיעורי תמותה גבוהים יותר ממחלות לב ומחלות נוספות.

כפי שכתב סטיבן ג’יי גולד בספרו The Mismeasure of Man: “ההנחה חסרת התוקף לפיה ממתאם נובעת סיבתיות היא ככל הנראה אחת מתוך שתיים או שלוש השגיאות החמורות ביותר והנפוצות ביותר בשיקול הדעת האנושי”.


רשימות נוספות בסדרה:

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

15 הסטטיסטיקאים הגדולים

הקדמה

אמנם יש כאלה שאומרים שפוסטים של רשימות הם כל כך 2006, אבל רשימות הן בכל זאת דבר נחמד, ובמונחי הזמן שלי, 2006 לא כל כך רחוקה. הבלוג המעניין The list universe שאני קורא באופן קבוע (מומלץ) מביא כמעט כל יום רשימה מעניינת של 10 או 15 או 20 ה<שימו כאן כל דבר כמעט>. גם לי מתחשק לכתוב רשימה מהסוג הזה, ואני כידוע לא רק סטטיסטיקאי, אלא גם אדם שאוהב סטטיסטיקה, ולכן הרשימה שלי מביאה באופן טבעי את 15 הסטטיסטיקאים הגדולים ביותר, לדעתי, כמובן. אני צופה שיהיו כאלה שיחלקו על דעתי, יטענו כי הדירוג מקפח את זה ועושה חסד עם זה, ואולי יש מישהו שאינו ראוי להכלל ברשימה ואני כללתי אותו, או להיפך. זה רק שעשוע.

הקריטריון לפיו בחרתי להכניס סטטיסטיקאי (או סטטיסטיקאית) לרשימה הוא אחד ויחיד: מידת ההשפעה שלו על הסטטיסטיקה המודרנית, ואני מתכוון להשפעה ישירה. לכן כל אבות תורת ההסתברות, ובכללם פרמה, הברנולים, פסקל, לפלס, דה-מואבר, ואפילו קולמוגורוב ומרקוב לא מופיעים ברשימה שלי. הם הניחו יסודות, אבל את הסטטיסטיקה שנבנתה על היסודות האלה בנו אחרים. כמו לכל כלל, גם לכלל הזה יש יוצא מן הכלל (נא להמנע מתגובות שעוסקות בפרדוקס השקרן), ומי שתהיה לו סבלנות ימצא את היוצא מהכלל הזה קרוב מאוד לראש הרשימה.

השתדלתי לשמור על ראייה היסטורית. עשרה מהנכללים ברשימה כבר אינם חיים עימנו היום, שלושה נוספים הם בני 90, והצעיר ביותר הינו בן 71. אני יכול לחשוב על כמה סטטיסטיקאים הפעילים כיום שיכולים להימנות ביחד עם ה-15 שבחרתי, אולי במסגרת “רשימת 20”, אחד או שניים אף יכולים להכנס לרשימת ה-15 על חשבון אלה שדירגתי בתחתית. אבל אני מעדיף להמתין להיסטוריה שתאמר את דברה.

אז הנה הרשימה שלי. על חלק הנזכרים הרשימה כבר כתבתי בעבר, ואני מצרף לינקים (אני גם מצרף לכל אחד לינק לביוגרפיה שלו בויקיפדיה – לחצו על השם בכותרת). על השאר אני מקווה לכתוב בעתיד, ואעדכן את הלינקים בהתאם. תיהנו.

15. דויד בלקוול (נולד 1919)

דויד בלקוול

סטטיסטיקאי מאוניברסיטת ברקלי, קליפורניה, חוגג באפריל השנה את יום הולדתו ה-90. תרומתו הידועה ביותר לסטטיסטיקה היא חלקו במשפט ראו-בלקוול, המאפשר בניה קונסרוקטיבית של אמד לפרמטר, שהינו עדיף על פני אמד נתון נאיבי כלשהו. בלקוול תרם גם תרומות משמעותיות לסטטיסטיקה הבייסיאנית, תורת המשחקים ותורת ההחלטות הסטטיסטיות.

14. ג’ורג’ בוקס (נולד 1919)

ג'ורג' בוקס

סטטיסטיקאי אנגלי שפעל רוב ימיו באוניברסיטת ויסקונסין במדיסון. מחלוצי המחקר בתחומים של סטטיסטיקה בייסיאנית, בקרת איכות, ניתוח סדרות עיתיות ותכנון ניסויים.

13.ק.ר. ראו (נולד 1920)

ק.ר. ראו

סטטיסטיקאי הודי, מתלמידיו של רונלד פישר. שותפו של דויד בלקוול למשפט ראו-בלקוול. תוצאה ידועה נוספת הנושאת את שמו היא אי-שוויון ראו-קראמר, הנותן חסם תחתון לשונותו של אמד, ובכך מהווה הערכה לטיבו. מלבד תרומותיו לתורת האמידה, נודע ראו גם בתרומותיו לפיתוח שיטות לניתוח רב-משתני.

12. פרנק וילקוקסון (1892-1965)

פרנק וילקוקסון

את וילקוקסון אני אוהב במיוחד, כי הוא הגיע אל העיסוק בסטטיסטיקה כמוני – במקרה. הוא בכלל היה כימאי, וחיפש שיטת ניתוח סטטיסטית שלא תהיה תלויה בהתפלגות של הנתונים. הוא חשב על שיטה פשוטה למדי, אך לא הצליח למצוא מראה מקום ביבליוגרפי עבורה. לכן כתב מאמר שתיאר אותה ושלח אותו לכתב עת סטטיסטי, מתוך מחשבה כי המאמר יידחה עם הפניה לעבודה המקורית שמתארת את השיטה, וכך סוף סוף ישיג את ההפניה הביבליוגרפית שחסרה לו למאמר שלו. למרבה הפתעתו, המאמר ששלח התקבל לפירסום, וכך נולד תחום סטטיסטי חדש – הסטטיסטיקה האי-פרמטרית, וגם סטטיסטיקאי חדש.

11. ויליאם סילי גוסט (1876-1937)

ויליאם סילי גוסט

הסטטיסטיקאי שכמעט אף אחד לא שמע עליו, כולל בעלי תארים אקדמיים בסטטיסטיקה, אבל כ-ו-ל-ם מכירים. גוסט עבד במבשלות הבירה “גינס”, ושם פיתח במסגרת עבודתו טכניקות סטטיסטיות שונות שעסקו בתכנון ניסויים וניתוח נתונים סטטיסטיים. את עבודותיו פרסם תחת הכינוי “סטודנט” בכתב העת ביומטריקה, הודות לקשריו הטובים עם העורך, קרל פירסון. את השיטה המפורסמת שפיתח להשוואת ממוצעים של שתי אוכלוסיות, מבחן t, מכיר כל מי שלמד קורס מבוא לסטטיסטיקה כלשהו.

10. דויד קוקס (נולד 1924)

דויד קוקס

סטטיסטיקאי אנגלי, נודע בעיקר בזכות תרומתו המכרעת לתחום של ניתוח נתוני השרדות (למשל, משך הזמן העובר עד שינוי במצבו הקליני של חולה). המודל של קוקס הוא סוס העבודה של ניתוח נתונים מסוג זה. תוצר לואי חשוב מאין כמוהו של מודל קוקס הוא שיטת אמידה חדשנית – “נראות חלקית” שמהווה אלטרנטיבה עמידה (רובסטית) לשיטת הנראות המירבית של פישר. הקוראים חדי העין שמו לב לדמיון בין שמו של קוקס ובין סטטיסטיקאי אנגלי אחר שנמצא ברשימה זו – ג’ורג’ בוקס. השניים גם שמו לב לכך, והחליטו לכתוב מאמר משותף, פשוט כי מאמר שנושא את השמות בוקס-קוקס נראה להם משעשע (נסו להגיד “בוקס קוקס” עשר פעמים בקול רם בלי לצחוק). התוצאה הייתה מאמר חשוב שהגדיר, ניתח, והכניס לשימוש נרחב משפחה של טרנספומציות לנתונים, שנודעת מאז בשם טרנספומציית בוקס-קוקס.

9. ג’ון טוקי (1915-2000)

ג'ון טוקי

סטטיסטיקאי אמריקני זה היה “general practitioner”. תופתעו אולי לשמוע שהוא זה שנמציא את המלים “ביט” ו-“software”. אפשר לתאר כאן את עבודתו על טרנספומציות פורייה מהירות (FFT) ועל שיטת ה-jackknife, שהיא וריאציה של שיטת ה-bootstrap שפותחה מאוחר יותר על ידי ברדלי אפרון (שתשמעו עליו מייד). אבל טוקי נכנס לרשימה הזו בזכות גישת ה-“Exploratory Data Analysis” שפיתח וקידם. גישה זו דוגלת בהתבוננות בנתונים ואיתור תבניות בתוכם, בניגוד לגישה השלטת של “Confirmatory Data Analysis”, שדוגלת בניסוח השערות ובדיקתן. ניתן לראות בשיטות כריית הנתונים (data mining) הפופולריות כיום כהרחבה של גישת טוקי, וללא ספק ההתפתחות העצומה בתחום מדעי המחשב סייעה לגישתו של טוקי להפוך לפופולרית ולגיטימית. מעניין לדעת האם טוקי חזה כל זאת כאשר עבד בשיתוף פעולה עם ג’ון פון ניומן בשנות הארבעים של המאה הקודמת.

8. ברדלי אפרון (נולד 1938)

ברדלי אפרון

אני נתקל בהרבה אנשים שמתייחסים לסטטיסטיקה כאל סוג של קסם, אבל אם יש שיטה סטטיסטית קסומה באמת, הרי זו שיטת ה-bootstrap שהגה ופיתח ברדלי אפרון מאוניברסיטת סטנפורד. חלקכם אולי מכירים את סיפורו של הברון מינכהאוזן, ששקע עם סוסו בבוץ טובעני. הברון רב התושיה וסוסו ניצלו מטביעה כאשר אחז הברון ברצועת המגף שלו עצמו ומשך את עצמו כלפי מעלה. תאמינו או לא, אבל בסטטיסטיקה הדבר אפשרי. אפרון הוכיח כי ניתן לאמוד מאפיינים סטטיסטיים של אמדים על ידי דגימה חוזרת ונשנית מתוך הנתונים שבידינו (שגם הם, מן הסתם, מהווים מדגם). כך נוצרת הדמיה (סימולציה) של מדגמים אלטרנטיביים שהיינו עשויים לראות. הטכניקה של אפרון עתירת מחשוב, והוצגה לראשונה בשנות השבעים של המאה הקודמת.

7. וו. אדוארדס דמינג (1900-1993)

ןן. אדוארדס דמינג

זהו אחד משני הסטטיסטיקאים ברשימה שלא היו חוקרים באקדמיה, השני הוא ויליאם גוסט. אך בעוד שגוסט עבד בחברה אחת, ונאלץ לפרסם את עבודותיו בעילום שם בגלל מדיניות החברה, דמינג סבב בעולם והרצה את הפילוסופיה הניהולית-סטטיסטית שלו שדגלה באבטחת איכות תהליכית באמצעים סטטיסטיים (תחום הידוע כ-SPC , Statistical Process Control). לכל מי שהיה מוכן לשמוע. מי שהקשיבו והפנימו היו היפנים, ודמינג נחשב לאחראי העיקרי לזינוק הטכנולוגי של יפן בשנות החמישים והשישים של המאה הקודמת.

6. קרל פרידריך גאוס (1777-1855)

קרל פרידריך גאוס

הרי אמרתי בדברי הפתיחה כי ברשימה יכללו אלה שיש להם השפעה ישירה על הסטטיסטיקה המודרנית, אז מה עושה כאן, ועוד במקום השישי, מתמטיקאי מהמאה ה-19? ובכן, לגאוס יש שתי השפעות כאלה: חלקו בגילוי משפט הגבול המרכזי ויישומיו, וכמובן, שיטת הריבועים הפחותים שפיתח. תוכלו לקרוא על שתי תרומות מכריעות אלה בהרחבה בשתי רשימות שפירסמתי כאן בעבר: למי צלצל הפעמון? וכן הכוכב הנעלם והאמד הכחול: משפט גאוס מרקוב ושיטת הריבועים הפחותים.

5. פלורנס נייטינגייל (1820-1910)

פלורנס נייטינגייל

נייטינגייל ידועה בציבור הרחב בעיקר כאחות, אך מדובר בסטטיסטיקאית חשובה, מחלוצות הביוסטטיסטיקה. “כדי להבין את מחשבותיו של האלוהים עלינו לדעת סטטיסטיקה, משום שזהו כלי המדידה של כוונותיו”, אמרה נייטינגייל. היא הבהירה היטב את דבריה כאשר השתמשה בנתונים סטטיסטיים שאספה בקפדנות והציגה באמצעות שיטות שפיתחה כדי להוכיח כי שמירה על רמת סניטציה נכונה יכולה להוריד את שיעור התמותה בבתי החולים מ-80% ל-2% בלבד. על חייה של ניטינגייל ופועלה כתבתי כאן בהרחבה בעבר: הסטטיסטיקה שהצילה חיים – סיפורה של פלורנס נייטינגייל.

4. תומאס בייס (1702-1761)

תומאס בייס

תומאס בייס היה כומר אנגלי שחי לו במאה ה-18. בימי חייו הוא פרסם שני מאמרים בנושאים תיאולוגיים פילוסופיים, אך ככל הנראה התעניין גם במתמטיקה ובהסתברות. הסטטיסטיקה עוד לא נולדה בימיו. אז מה הוא עושה ברשימה הזו, ועוד במקום הרביעי? לאחר מותו של בייס פרסם ידידו, ריצ’רד פרייס, את אחד המכתבים ששלח אליו בייס. במכתב זה הראה בייס כיצד לחשב הסתברות מותנה “הפוכה” כאשר נתונה הסתברות מותנה. לא אכנס כאן לפרטים הטכניים (זה דורש רשימה נפרדת), אבל ההשלכות מהפכניות. בייס הראה כי במובן מסויים אין חשיבות לכיוון בו זורם הזמן – ניתן להסתכל על מאורעות בסדר בו הם מתרחשים או בכיוון ההפוך. אינטרפרטציה מיידית אחרת של התוצאה של בייס היא כי הסתברות אינה בהכרח אובייקטיבית אלא יכולה להיות תלויה ב”אמונות”, כלומר בהנחות שמניחים על טבעו של העולם. על סמך אינטרפרטציה זו נבנה ענף שלם וחדש של הסטטיסטיקה – שנקרא, איך לא – סטטיסטיקה בייסיאנית. הניצנים של ענף זה החלו להופיע בשנות החמישים של המאה העשרים, והסטטיסטיקה הבייסיאנית כובשת לה אט אט עוד מעריצים.

3. ג’רזי ניימן (1894-1981)

ג'רזי ניימן

על ג’רזי ניימן וחלק מפועלו כבר כתבתי כאן בהרחבה ברשימה “בין שתי טעויות“, שתיארה את התהליך של בדיקת השערות/קבלת החלטות, ואת הלמה של ניימן ופירסון, שהראתה כיצד ניתן לבנות כלל החלטה אופטימלי. למה זו היא ללא ספק המשפט השימושי ביותר בסטטיסטיקה, ורק היא לבדה מקנה לבעליה חיי נצח סטטיסטיים. בכל זאת, אני מציב במקום השלישי את ניימן לבדו, ודוחק מהרשימה את שותפו אגון פירסון (בנו של קרל פירסון). מעניין לציין כי הלמה של ניימן ופירסון דחקה את מתודולוגיית בדיקת ההשערות ששלטה עד אז בכיפה – המתודולוגיה של קרל פירסון, שניימן עבד בשיתוף פעולה עימו במשך כשנתיים. מי שלא אהב כלל לשתף פעולה עם ניימן היה רונלד פישר. הסיבה – שניהם הציגו שיטות לאמידה מרווחית של פרמטרים, כלומר שיטה למצוא תחום שהפרמטר נמצא בתוכו ברמת בטחון מסויימת. ניימן הציע את רווח הסמך – Confidence interval, בעוד שפישר הציע את הגבולות המהימנים – Fiducial limits. פישר כעס על ניימן כי חשב שגנב ממנו את הרעיון. אכן, במקרים מסויימים שתי השיטות נתנו את אותה התוצאה בדיוק. אולם, שיטתו של ניימן עדיפה על זו של פישר, כיוון שהיא מגובה בלמה שלו ושל פירסון, ולכן היא אופטימלית. פישר לא השתכנע עד יום מותו. השיטה שפיתח עדיין בשימוש במקרים בהם לא ניתן להפעיל את שיטתו של ניימן.

2. קרל פירסון (1857-1936)

קרל פירסון

קרל פירסון הוא הראשון שממש נשא בתואר “סטטיסטיקאי”. הוא יסד את המחלקה לסטטיסטיקה האקדמית הראשונה בעולם, ביוניברסיטי קולג’ שבלונדון, ואת כתב העת הראשון שעסק בסטטיסטיקה בלבד – ביומטריקה. תרומותיו העיקריות לסטטיסטיקה הן בפיתוח התיאוריה של הרגרסיה הלינארית (שיסודותיה הונחו, כזכור, על ידי גאוס שהמציא את שיטת הריבועים הפחותים), פיתוח מקדם המתאם, עבודתו במיון וסיווג ההתפלגויות הסטטיסטיות השונות, ופיתוח מבחן טיב ההתאמה (שידוע גם בשם “מבחן חי-בריבוע”).

1. רונלד פישר (1890-1962)

רונלד פישר

לו ניתנה לי הזדמנות לפגוש באדם אחד אשר אינו בין החיים היום, האדם אותו הייתי בוחר לפגוש היה רונלד פישר. פישר למד אסטרונומיה בקיימברידג´, והתעניין במיוחד בהערכת הטעויות בחישובים אסטרונומיים. לאחר סיום לימודיו עסק מספר שנים בהוראת מתמטיקה, וב-1919 עזב את ההוראה לטובת משרת מחקר בחווה לניסויים חקלאיים, שם עסק בניסויים גנטיים. עבודתו בחווה הוליכה אותו אל העיסוק בסטטיסטיקה, שהייתה אז ענף זנוח של המתמטיקה. במסגרת עבודתו היה עליו לתכנן ניסויים ולנתח את תוצאותיהם – שני השלבים הקריטיים בכל מחקר המתבסס על איסוף נתונים ועיבודם. במשך שנות עבודתו בחווה הניח פישר את היסודות לסטטיסטיקה המודרנית. הוא הגה ופיתח את שיטת הרנדומיזציה לתכנון ניסויים, ואת ניתוח השונות (ANOVA),  כלים יסודיים ומרכזיים בסטטיסטיקה המודרנית. פישר הדגיש כי שלב התכנון הוא השלב הקריטי ביותר בכל ניסוי. “לקרוא לסטטיסטיקאי לאחר שהניסוי הסתיים זה כמו לקרוא לרופא לאחר שהחולה מת”, אמר פישר. “לכל היותר יוכל הסטטיסטיקאי לומר מדוע הניסוי נכשל”. כמו כן הגה פישר מושג מרכזי נוסף בסטטיסטיקה – מושג הנראות (Likelihood) וממנו פיתח את שיטת האמידה הידועה כשיטת הנראות המקסימלית. פיתוחים מרכזיים נוספים שלו כללו שיטות סטטיסטיות לניתוח מדגמים קטנים, וחישובי פונקציות ההתפלגות המדויקות של מדדים סטטיסטיים רבים. חלק מעבודתו של פישר נתקל בביקורת מצידו של בכיר העוסקים בסטטיסטיקה באותה תקופה, קרל פירסון, שהתנגד במיוחד למושג הנראות ושיטת הנראות המירבית. פישר, בתגובה, פירסם מאמר ובו הצביע על טעויות באחת מעבודותיו של פירסון. היריבות בין השניים נמשכה עד מותו של פירסון, ולמעשה גם אחריה, כאשר בנו של קרל פירסון, סטטיסטיקאי נודע בזכות עצמו, המשיך לריב את ריבו של אביו. נצחון בעל משמעות סמלית נחל פישר כאשר התמנה לכהן בקתדרה על שם גאלטון בקיימברידג´ במקום פירסון, כאשר האחרון פרש לגמלאות (העלבון כפול, כי פירסון היה כזכור תלמידו של גאלטון). גם בראיה היסטורית, ניצח פישר בויכוח עם פירסון ובנו. הוא זכה להכרה בהישגיו כאשר נבחר לחברה המלכותית, זכה בפרסים רבים, כולל מדליית דרוין, וכן הוענק לו תואר אצולה. פישר פרסם מאמרים רבים הן בסטטיסטיקה והן בגנטיקה. נציין כאן את שני ספריו החשובים ביותר: “שיטות סטטיסטיות למחקר”, בו סיכם את תרומותיו לסטטיסטיקה, ו-“תיאוריה גנטית של הברירה הטבעית”, בו סיכם את מחקריו בתחום הגנטיקה.

הקוראים הותיקים של הבלוג הזה בודאי זוכרים את האנקדוטה אודות פישר שסירב להשתכנע כי עישון גורם לסרטן על סמך מתאם שנצפה בין שתי התופעות (ראו את הרשימה הראשונה שפירסמתי: האם החסידה מביאה ילדים לעולם?), נאמן לעקרון הסטטיסטי לפיו מתאם אינו מעיד על סיבתיות. פישר, מעשן כבד כל חייו, מת לאחר שחלה בסרטן המעי הגס בשנת 1962.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

האם החסידה מביאה ילדים לעולם?

האם החסידה מביאה ילדים לעולם? ניתן לאסוף שפע של נתונים שיתמכו בתיאוריה המעניינת הזו, אבל אני סבור כי שום מתאם בין תנועת החסידות מעל לעיר ובין שיעורי הלידה לא ישכנעו איש מכם כי אכן כך הדבר.

האם יש קשר בין מספר הנעליים ורמת הידע במתמטיקה? לכו לבית הספר הקרוב ותיווכחו בעצמכם. לילדים בכיתות הגבוהות בודאי יש ידע נרחב יותר במתמטיקה, והם גם גדולים יותר פיזית, ולכן מספרי הנעליים שלהם גבוהים יותר.

האם ככל שנשלחות יותר מכוניות כיבוי כדי לכבות שריפה, כך גדול יותר הנזק שנגרם בשריפה? כן, בודאי. האם עלינו להסיק מכך שניתן לבטל את שירותי הכבאות? לא ולא. שריפות גדולות מצריכות כח כיבוי גדול יותר, וכמובן גורמות נזקים גדולים יותר.

האם בבתי חולים גדולים ומשוכללים שיעורי התמותה גבוהים יותר מבתי חולים קטנים ופחות מצויידים? לפעמים זה אכן כך. אולם לכל חולה אמליץ תמיד לבחור בבית החולים הגדול והמשוכלל. אכן, לבתי חולים כאלה מגיעים חולים יותר קשים, ולכן גם שיעורי ההצלחה שלהם יותר נמוכים לפעמים.

טוענים כי קיים קשר בין תוצאות המשחקים של קבוצת הבייסבול ניו-יורק יאנקיס, ובין ביצועי מדד הבורסה של ניו-יורק. כאשר היאנקיס מנצחים, הבורסה עולה, ולהיפך. האם כדאי לבסס את אסטרטגיית הכספים שלך על הביצועים של היאנקיס במגרש? אפשר לטעון כי כאשר הקבוצה המקומית מנצחת, משקיעי ניו-יורק שמחים ואופטימיים יותר, והדבר מתבטא במסחר. תיאוריה נחמדה, אבל המשחקים נערכים בשעות אחר הצהריים והערב , בעוד שהמסחר בבורסה מתקיים בבוקר. מאידך ייתכן כי כאשר שערי הבורסה עולים, השחקנים יותר שמחים ומשחקים במרץ רב יותר. וייתכן גם כי המתאם הנצפה הוא מקרי בלבד.

דוגמא קיצונית סיפק לנו הסטטיסטיקאי רונלד פישר, שהיה מעשן כבד. באמצע שנות החמישים של המאה העשרים, התגלו המתאמים הראשונים בין העישון ובין הסיכוי לחלות בסרטן הריאות. תלמידיו של פישר פנו אליו, וביקשו ממנו שינסה לעשן פחות למען בריאותו. הם נימקו את בקשתם במתאם הסטטיסטי שזה עתה התגלה. פישר דחה אותם, בנימוק שהמתאם עצמו אינו מראה סיבה ותוצאה. ייתכן, אמר פישר, כי מחלת הסרטן גורמת בשלב הראשון של המחלה לצורך בניקוטין, המתבטא בכך שהחולה מעשן, ורק אחר כך מתפתחים הגידולים. פישר נפטר בשנת 1962. רק בשנות השבעים של המאה העשרים הוכיחו המדענים כי צריכה מוגברת של ניקוטין אכן גורמת לעליית הסיכון לחלות בסרטן הריאות.

יש אנשים שיאמרו כי פישר נהג בטיפשות, אולם מבחינה סטטיסטית, פישר צדק לחלוטין. המתאם הסטטיסטי מראה קשר בלבד, ולא סיבה ותוצאה. הסטטיסטיקה יכולה לספק עדויות לתופעות, אך לא לספק פירוש לתופעה הנצפית. את הפירוש חייבים לספק המומחים, בעזרת כלים מתחום מומחיותם. בדוגמא של העישון והסרטן, הוכח הקשר הסיבתי (עישון גורם סרטן, ולא סרטן ורם עישון) בניסויים בתנאי מעבדה.

האם יש קשר בין היד הדומיננטית ובין הכשרון למתמטיקה? ייתכן, איני יודע. יש הטוענים כי קיים מתאם סטטיסטי בין התופעות, וראיתי פה ושם קטעי עיתונות המצטטים מארים בהם “הוכיחו” כי אטרי יד ימינם מגלים כישורים מתמטיים מיוחדים. אולם, מי שטוען טענה כזו, צריך להביא נימוקים משכנעים, מתחום הפסיכולוגיה ו/או נוירולוגיה. הקשר הסטטיסטי הוא רק עדות לתופעה, אך לא מספק שום מידע על הסיבות לתופעה הנצפית.

כיום כאשר עומדים לרשותנו מאגרי נתונים עצומים, ומחשבים רבי עוצמה. קל מאוד לתת למחשב לעבוד ולחפש מתאמים. זה יותר קל מלחפש מטבע תחת הפנס. אולם יש תמיד לזכור כי גם אם צופים במתאם בין שני משתנים, אין הדבר אומר כי קיים קשר ישיר בינם.

לא אפרט כאן כיצד מחושב מקדם המתאם הסטטיסטי. אומר רק שזהו אכן כלי רב עוצמה, אבל גם בעל מגבלות שיש להכיר ולהיזהר מפניהן. שימוש לא נכון במתאם הסטטיסטי עלול להוביל למסקנות מגוחכות, במקרה הטוב, ואף למסקנות מסוכנות, במקרה הגרוע.

 

 פורסם לראשונה ב 27 ביוני 2004 באתר רשימות, שם התקבלו 4 תגובות

 

אביבה  [אתר]  בתאריך 7/12/2004 11:13:01 PM

ברוך הבא ובהצלחה.

יובל  בתאריך 7/15/2004 2:20:46 PM

אכן, מתאם אינו בהכרח קשור לקשר בין סיבה ותוצאה.
למרות זאת, יש חוקרים המנסים להסיק קשרים
סיבתיים באופן מבוסס בשיטות הסתברותיות.
אחד מהם הוא יהודה פרל, מדען מחשב ותיק ומוכשר:
http://bayes.cs.ucla.edu/jp_home.html

יוסי ל  בתאריך 7/15/2004 3:48:31 PM

מעניין.
תודה על הלינק.

תראזימאכוס   בתאריך 7/20/2004 4:55:43 PM

תודה ובהצלחה

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו