חיפוש באתר

קישורים

RSS סטטיסטיקה ברשת

עמודים

קטגוריות

תגיות

ארכיב עבור 'האנשים שמאחורי הסטטיסטיקה'

מבט להיסטוריה של הניסויים הקליניים

רשימה זו נכתבה בעקבות המפגש האחרון של קבוצת הדיון בהיסטוריה של הסטטיסטיקה שעסקה בניסויים קליניים. אציין כי אני הוא שהעלה את הנושא לדיון, והייתי אחראי לאיסוף והפצת חומר הקריאה למפגש. חלק מהחומרים שנקראו כבר סקרתי בעבר בהרצאה "מהלימון ועד הקופקסון" שנתתי במסגרת "ספקנים בפאב" (ואפשר לצפות בהקלטתה על ידי לחיצה על הקישור). רשימה זו כוללת סקירה היסטורית קצרה של חמשת הניסויים הקליניים שנדונו.לאחר הסקירה ההיסטורית שנתתי נערך דיון מעניין שעסק בהיסטוריה ובפילוסופיה של המדע, ובהשפעות של בייקון ומיל על התפתחות השיטה המדעית והשתקפותם בתהליך התפתחות הניסויים הקליניים. למרבה הצער, לא הצלחתי לארגן את ההערות שרשמתי לעצמי בזמן הדיון לטקסט קוהרנטי שאני יכול לפרסם כאן.

הניסוי הראשון הוא ניסוי הצפדינה של ג'יימס לינד, שנחשב בעיני רבים לנקודת ההתחלה של הרפואה המודרנית. זהו הניסוי הקליני המבוקר המתועד הראשון[1]. לינד ערך ניסוי לבדיקת טיפולים אפשריים למחלת הצפדינה, גורם המוות העיקרי בקרב מלחים עד סוף המאה ה-18.[2]. בניסוי שנערך בהפלגה קצרה יחסית בים התיכון בשנת 1749, חילק לינד את 12 המלחים שחלו בעת ההפלגה לשש קבוצות שוות. כולם שוכנו באותו מקום בספינה וקיבלו תפריט זהה, שנבדל רק בטיפול הניסיוני שניתן להם. הטיפולים היו: שתיית ליטר סיידר ביום, שתיית 25 טיפות חומצה גופרתית 3 פעמים ביום, שתיית שתי כפות חומץ 3 פעמים ביום, שתיית חצי ליטר מי ים ביום, משחה שהוכנה משום, חרדל, צנון ושרף, או  אכילת שני תפוזים ולימון ביום. המטופלים בפירות הדר החלימו כליל, ובמצבם של המטופלים בסיידר חל שיפור קל. ההשוואה בין הקבוצות אפשרה ללינד להעריך את יעילותו של כל טיפול ביחס לאלטרנטיבות הטיפוליות האחרות.

ציון הדרך הבא הוא סדרת הניסויים של וויליאם ווטסון לבחינת טיפולים להפחתת הסיכון במחלת האבעבועות השחורות. כבר במאה ה-11 היה ידוע כי מי שחלה במחלה זו ושרד לא יחלה בה שוב. עקב כך התפתחה פרקטיקה של מעין חיסון למחלה על ידי "הדבקה קלה" של אנשים בריאים במחלה. עם זאת, בין הרופאים היו מחלוקות בדבר אופן ההדבקה האופטימלי ובדבר טיפול נלווה להדבקה. ווטסון ערך סדרה של שלושה ניסויים קליניים בבית החולים לילדים בלונדון בשנת 1767[3]. המתודולוגיה שלו הייתה דומה לזו של לינד: הילדים המשתתפים בכל ניסוי חולקו לקבוצות, ובכל קבוצה בוצעה בנבדקים "הדבקה מבוקרת" על ידי שימוש בשלפוחית משלב מוקדם של המחלה. לכל קבוצה ניתן טיפול נלווה אחר שהיה אמור להפחית את הסיכון בהדבקה. בתכנון הניסויים של ווטסון יש מספר חידושים לעומת הניסוי של לינד. ווטסון דאג כי בכל קבוצת טיפול יהיה מספר שווה של בנים ובנות, כדי למנוע הטיה אפשרית למקרה שהתגובה לטיפול שונה בין המינים. כמו כן, קבוצה אחת בכל ניסוי לא קיבלה טיפול נלווה אלא שימשה כקבוצת ביקורת. והחשוב מכל: ווטסון היה הראשון שהנהיג מדידה כמותית של התוצאות. המדד להצלחת הטיפול היה מספר האבעבועות שהופיעו בכל ילד שהשתתף בניסוי. הוא אף ערך ניתוח סטטיסטי בסיסי ופרסם את ממוצע מספר השלפוחיות לילד בכל קבוצה. מסקנתו של ווטסון הייתה כי הטיפולים המקובלים להפחתת הסיכון, שכללו כספית, צמחים שונים ומיני משלשלים, לא הביאו להקלה בחומרת ההדבקה בהשוואה למודבקים שלא קיבלו טיפול נלווה.

נקודת הציון המשמעותית הבאה היא ניסוי החלב במחוז לאנרקשיר בסקוטלנד בראשית המאה ה-20[4]. מטרת הניסויים היה לבדוק האם הזנה יומית בחלב משפרת את הגדילה של ילדים (וילדות) בהשוואה לילדים שלא שתו חלב על בסיס יומי, וכן לבדוק האם יש הבדל בשיעורי הגדילה בין ילדים שהוזנו בחלב טרי ובין אלה שהוזנו בחלב מפוסטר. הניסוי, שנערך ב-1930 היה רחב היקף וכלל בסך הכל כעשרים אלף ילדים בגילאי 6-12, שלמדו ב-67 בתי ספר. כ-5000 הוזנו בחלב טרי, כ-5000 בחלב מפוסטר, וכ-10000 ילדים שויכו לקבוצת הביקורת. גובהם ומשקלם של הילדים נמדדו בתחילת הניסוי (פברואר 1930) ובסופו (יוני 1930). המסקנה הייתה כי תזונה יומית של חלב משפרת את גדילת הילדים, וכי אין הבדל משמעותי בין חלב טרי לחלב מפוסטר. כמו כן הסיקו החוקרים כי אין השפעה לגיל הילדים על האפקט של קצב הגדילה.

ניסוי זה נכנס לרשימה שלי דוקא בשל הביקורת שהוטחה בו. עם המבקרים נמנו פישר ובארטלט, אולם את הביקורת המקיפה ביותר הטיח "סטודנט", הלא הוא ויליאם סילי גוסט. במאמר שפרסם בכתב העת ביומטריקה[5] קבע למעשה סטודנט כללים שקיומם הכרחי להבטחת התקפות של ניסוי קליני:

  • סטודנט מעיר כי בכל בית ספר בניסוי הוזנו הילדים המטופלים בחלב טרי או בחלב מפוסטר, אך לא הייתה נציגות לשתי הקבוצות יחד באף בית ספר. עקב כך, אין אפשרות להשוות באופן ישיר בין חלב טרי ומפוסטר, עקב הבדלים בין בתי הספר השונים.
  • שיוך התלמידים בניסוי לקבוצת הטיפול (הזנה בחלב או ביקורת) נקבע על ידי המורים בכל כיתה ולא באופן רנדומלי. עקב כך, נוצר מצב בו התלמידים בקבוצת הביקורת היו גדולים יותר במימדי גופם לעומת התלמידים בקבוצות הטיפול.
  • המדידות נערכו בפברואר ויוני. בגדי חורף הינם כבדים יותר מבגדי אביב/קיץ, והבדל המשקל בין הבגדים קיזז את ההבדלים במשקל האמיתי. החוקרים הניחו כי ההבדל במשקל הבגדים יהיה דומה בין הקבוצות, אולם סטודנט טען כי יש ההטיה בחלוקת התלמידים לקבוצות מושפעת ממצבם הכלכלי – תלמידים ממשפחות אמידות הוכללו בדרך כלל בקבוצות הביקורת – הביאה לכך שמשקל בגדי החורף של קבוצת הביקורת יהיה גבוה יותר.

סטודנט הסיק לכן כי התוצאות שהתקבלו לא תומכות בטענה כי אין הבדל בין תזונה בחלב טרי ותזונה בחלב מפוסטר, וגם כי אי אפשר להסיק שאין קשר בין הגיל ובין השינוי בקצב הגדילה. הוא מזכיר גם את הניתוח של פישר וברטלט[6] המראה כי לחלב טרי יתרון על חלב מפוסטר באשר לקצב הגדילה.

סטודנט הביא גם מספר המלצות, ובהן הצעה לערוך את הניסוי באוכלוסיה של תאומים, כאשר אחד התאומים יוזן בחלב והשני ישמש כביקורת (או שאחד מהם יוזן בחלב טרי והשני בחלב מפוסטר לצורך השוואה בין שני סוגי החלב). אני סבור כי תכנון כזה לא מקובל בימינו מבחינה אתית, המלצה יותר מעשית היא לנתח מחדש את הנתונים שנאספו כדי לנסות להתגבר על ההטיה שנוצרה בהקצאה הלא רנדומלית לקבוצות טיפול וביקורת. ההמלצה האוטינטיבית שלו היא לערוך מחדש את הניסוי, תוך כדי הקפדה על רנדומיזציה, לקיחה בחשבון של הטיה עקב משקל הבגדים שלובש כל תלמיד, ותכנון הניסוי כך שבכל בית ספר יהיה ייצוג לשלוש קבוצות הטיפול.

ההמלצה העיקרית של סטודנט, להקפיד על הקצאה רנדומלית של המטופלים לקבוצות, לא התקבלה מייד, שכן רעיון זה נתפש בעיני חלק מהקהילה המדעית כ-"לא אתי". יש לציין כי עקרון הרנדומיזציה רק הוצג על ידי פישר ב-1923, ועדיין לא  הייתה הכרה מספקת בחשיבותו. הניסוי הקליני הראשון עם הקצאה רנדומלית לקבוצת טיפול ולקבוצת ביקורת נערך רק ב-1947, והוא הרביעי ברשימה שלי. מדובר בניסוי לבדיקת היעילות של אנטיביוטיקה מסוג סטרפטומיצין לטיפול בדלקת ריאות[7]. עקב המחסור באנטיביוטיקה, לא הייתה ברירה אלא להחליט על ידי ביצוע "הגרלה" בין החולים מי יקבל טיפול ומי לא, וכך התגבר תכנון הניסוי על המחסום האתי. עם זאת, הניסוי לא היה כפול סמיות (Double Blind), ולא נעשה שימוש בפלסבו כטיפול דמה לקבוצת הביקורת,[8] וזאת למרות שכבר היה תקדים לקיום ניסוי כזה: הניסוי הקליני הראשון שנערך בשיטת הסמיות הכפולה נערך כבר בשנת 1943 לבדיקת היעילות של פניצילין כטיפול להצטננות. החולים המטופלים לא ידעו האם הם שויכו לקבוצת טיפול ואכן טופלו בפניצילין, או שמא שויכו לקבוצת הביקורת וטופלו בפלסבו. גם הרופאים שטיפלו בחולים לא ידעו מהו הטיפול שקיבל כל חולה. תכנון כזה מונע הטיה שעלולה לנבוע מדיעה קדומה של הרופאים לגבי יעילות הטיפול, ולמעשה מכריח אותם לתת חוות דעת אובייקטיבית לגבי המצב הרפואי של החולה המטופל. עם זאת, בניסוי זה לא נערכה הקצאה רנדומלית של החולים לטיפול או ביקורת.

הויכוח בדבר חשיבות העקרונות שהתוו סטודנט ופישר הסתיים סופית בניסוי לבדיקת יעילות החיסון של סאלק נגד נגיף הפוליו, שנערך ב-1954[9]. למעשה נערכו שני ניסויים. הניסוי שבראשו עמד הסטטיסטיקאי פול מאייר היה ניסוי כפול סמיות בהקצאה רנדומלית, והוא הראה ירידה של 70% במקרי השיתוק עקב פוליו בקבוצת הטיפול לעומת קבוצת הביקורת. גודל המדגם הגדול (כ-400 אלף ילדים בגילאי 6-8) סייע לביסוס התקפות החיצונית של התוצאות. במקביל נערך ניסוי נוסף, בו הקצאת הטיפול (חיסון או פלסבו) לא הייתה רנדומלית. 725,000 תלמידי כיתות א ו-ג שהשתתפו בניסוי שימשו כקבוצת ביקורת, ואליהם צורפו גם 125,000 ילדים מכיתות ב' שהוריהם סירבו לחיסון. נתוניהם הושוו עם הנתונים של 225,000 תלמידי כיתות ב' שהוריהם הסכימו לחסנם. סה"כ השתתפו בניסוי מעל מליון תלמידים, כמעט פי 3 מגודל הניסוי של מאייר. ניסוי זה הראה ירידה של 44% בלבד בשיעור מקרי השיתוק עקב פוליו, ואולם התברר כי האפקט הוקטן עקב הטיה הקשורה למצב הסוציו-אקונומי של קבוצת הטיפול. ילדי קבוצת הטיפול הגיעה ממשפחות אמידות יותר, ובשכבת אוכלוסיה זו שיעור מקרי השיתוק עקב פוליו היה גבוה יותר מכיוון ששיעור הילדים המחוסנים טבעית (חלו בפוליו באופן קל והחלימו ללא תיעוד) הינו נמוך יותר עקב רמת הסניטציה הגבוהה יותר בסביבתם. המקרה של ניסוי הפוליו הוכיח כי גודל המדגם אינו בהכרח הפרמטר החשוב ביותר בניסוי הקליני[10], וכי רק הקצאה רנדומלית וסמיות כפולה מבטיחים את התקפות הפנימית של הניסוי.


הערות
  1. 1. אם מתעלמים מפרק א' של ספר דניאל []
  2. 2. 2 מתוך כל 3 מלחים לקו במחלה ומתו. במלחמת 7 השנים בין אנגליה לצרפת, 1512 מלחים אנגלים נהרגו בקרבות, כ-100,000 מתו מצפדינה. []
  3. 3. Boylston, A. W. (2002). Clinical investigation of smallpox in 1767.New England Journal of Medicine, 346(17), 1326-1328. []
  4. 4.  Leighton G, McKinlay P (1930). Milk consumption and the growth of school-children. Department of Health forScotland, Edinburgh and London: HM Stationery Office. []
  5. 5. Student (1931). The Lanarkshire Milk Experiment. Biometrika 23:398-406. []
  6. 6. Fisher RA, Bartlett S (1931). Pasteurised and raw milk. Nature 127:591-592.  []
  7. 7. Medical Research Council Streptomycin in Tuberculosis Trials Committee. (1948). Streptomycin treatment for pulmonary tuberculosis. BMJ2, 769-82. []
  8. 8. Hart, P. D. A. (1999). A change in scientific approach: from alternation to randomised allocation in clinical trials in the 1940s.BMJ, 319(7209), 572-573. []
  9. 9. Meier, Paul. "Polio trial: an early efficient clinical trial." Statistics in medicine 9.1‐2 (1990): 13-16.  []
  10. 10. ראו גם את הרשימה בחירות 1936 – המנצח שלא היה, שעסקה במקרה מפורסם אחר בו מדגם גדול לא הצליח לחזות את המנצח בבחירות לנשיאות ארצות הברית עקב הטיה בתכנונו []

ההיסטוריה של ההתפלגות הנורמלית

המפגש השני של קבוצת הדיון בהיסטוריה של הסטטיסטיקה עסק בתולדות ההתפלגות הנורמלית. הדיון הסתמך בעיקר על פרק 13 מספרו של איאן האקינג, "אילוף הגורל"[1], ובמידה פחותה על מאמרה של לוריין דאסטון[2], שעקבה אחרי תולדות ההתפלגות בין 1770 ל-1870. עם זאת, רשימה זו הולכת בדרך שהתוותה דאסטון. בכתיבת הרשימה נעזרתי גם בפרק  2 מספרו של סטיגלר[3].

ההתפלגות הנורמלית, אותה התפלגות פעמונית מפורסמת, הופיעה ככל הנראה לראשונה כאשר המתמטיקאי הצרפתי-הוגנוטי אברהם דה-מואבר חקר את התפלגות מספר ה-"ראשים" המתקבלים בסדרה של הטלות מטבע, כאשר מספר ההטלות הולך וגדל. ב-1733 הוכיח דה-מואבר כי כאשר מספר ההטלות שואף לאינסוף, אז ההתפלגות הולכת ומתקרבת בצורתה לאותו פעמון מיוחד:

 

פעמון ההתפלגות הנורמלית והנוסחה המאפיינת אותו

אותו פעמון הופיע במפתיע במקום אחר לגמרי – מדידות אסטרונומיות. מי שגרם למהומה הוא האסטרונום הדני טיכו ברהה, שבסוף המאה ה-16 החליט לבצע מדידות מרובות של גרמי שמיים והמרחקים בינם. תוצאות המדידות לא היו זהות. בכך הראה טיכו לא רק כי קיימת אפשרות לטעות במדידה, אלא אף כי טעויות המדידה הן אולי בלתי נמנעות. נעשו נסיונות לשפר את איכות המדידה ודיוק המכשירים, אך הבעיה נשארה. עד אמצע המאה ה-18 הצטברו ערימות של מדידות אסטרונומיות וגיאודזיות, והתגלע ויכוח עז בין האסטרונומים מה לעשות בקשר לכך: האם לקחת ממוצע של התצפיות, לבחור את המדידה ה-"טובה ביותר", או לפטר את עוזר המחקר שחישוביו היו שונים במיוחד מאלה על עמיתיו?

המתמטיקאי הצרפתי פייר סימון לפלס הציע ב-1810 פתרון שיכונה בימינו "בייסיאני"[4] – הוא הניח כי לטעויות המדידה יש התפלגות מסויימת, ובהתאם לכך בנה פרוצדורה לצירוף המדידות כך שטעות המדידה הכוללת תהיה מינימלית. יותר מכך, לפלס הראה כי אם התפלגות טעויות המדידה היא ההתפלגות הפעמונית, אז ממוצע המדידות יביא למינימום את טעות המדידה הכוללת. שנה לפני כן, נקט קרל פרידריך גאוס בגישה הפוכה: הוא הניח כי הדבר הנכון הוא לחשב את ממוצע המדידות, כלומר ממוצע המדידות יביא למינימום את טעות המדידה הכוללת, ועל סמך הנחה זו חישב ומצא כי התפלגות טעויות המדידה צריכה להיות אותה התפלגות פעמונית. ההתפלגות הפעמונית, שהופיעה לראשונה בהקשר של משחקי מזל והטלות מטבע, תפסה לעצמה מקום מרכזי במדע האסטרונומיה. גאוס אף זיהה את הקשר בין ההימורים והטלות המטבע ובין טעויות המדידה האסטרונומיות. הוא הבחין בין טעויות שיטתיות, בהן ניתן לטפל ולהקטין למינימום את השפעתן, ובין טעויות מקריות ("chance errors") שמקורן בחושים לא חדים דיים, תנאים אטמוספריים וכדומה. גאוס וגם לפלס סברו כי יש מספר רב של גורמים לטעויות המקריות האלה, חלקם מטים את המדידה כלפי מעלה וחלקם כלפי מטה. במובן מסויים, לדעתי, הם הבינו את רעיון משפט הגבול המרכזי. עם זאת, הקישור בין ההתפלגות הנורמלית כגבול של תוצאות הימורים/הטלות מטבע, ובין התפלגות טעויות המדידה, נעשה עדיין באופן פורמלי בלבד, על ידי זיהוי הפונקציה המשותפת לשניהם. ההתפלגות הנורמלית מכונה עד היום בשם "התפלגות לפלסיאנית" בצרפת, ובשם "התפלגות גאוסיאנית" בגרמניה ובקרב מספר בעלי מקצוע (פיזיקאים, מהנדסים ועוד), לציון תרומתם של שני מתמטיקאים אלה לגילויה.

 

 מניחי היסודות (משמאל לימין): דה-מואבר, לפלס, גאוס

האקינג מדגיש כי ההתפלגות הנורמלית הופיעה בהקשר של ערכים ממשיים: ההסתברות של מטבע ליפול על ראש, ההסתברות לנצח במשחק מזל מסויים, או המרחק בין שני כוכבים. ההתפלגות עצמה, והפרמטרים שלה (הממוצע וסטיית התקן) נותרו ערכים אידאליים, פרמטרים מתמטיים בלבד. האסטרונום הבלגי אדולף קטלה[5] שינה את כללי המשחק. בתחילת שנות ה-30 של המאה ה-19 פרסם קטלה סדרת מאמרים בה הראה כי עקומת ההתפלגות הנורמלית מופיעה גם כאשר מתבוננים בתופעות ביולוגיות וחברתיות. ב-1835 הוא הציג בפני העולם את "האדם הממוצע", שבוהו 168 ס"מ, התגרש 0.17 פעמים והינו אב ל-2.2 ילדים. קטלה לא טען כי יש אדם כזה, בניגוד לגאוס ולפלס, שאמרו כי אם ממוצע המדידות למרחק בין שני כוכבים הוא 10 שנות אור, אז המרחק האמיתי קרוב מאוד לערך זה. קטלה תיאר באמצעות ערכים אלה מאפיינים כמותיים  של אוכלוסיה, בדיוק כמו שמוצא אתני, למשל, הינו מאפיין איכותי. קטלה הפך את הממוצע מפרמטר מתמטי לערך כמותי ממשי.

ב-1844 צעד קטלה צעד גדול נוסף קדימה: הוא שינה את התיאוריה של מדידת ערך ממשי לא ידוע עם טעויות מדידה, לתיאוריה של מדידת ערך מאפיין של אוכלוסיה. במלים אחרות, הוא הופך את השיטות הסטטיסטיות של תיאור וסיכום תצפיות לחוקים המתייחסים לתופעות בטבע ובחברה, ועוסקים במהותן ובגורמים להן. זה נעשה בארבעה צעדים:

  1. קטלה מזכיר כי אם ימדוד את גובהו של אדם מסויים מספר פעמים, המדידות לא יהיו זהות עקב טעויות המדידה, ותתקבל התפלגות סביב הגובה האמיתי.
  2. הוא משווה את הסיטואציה הקודמת למדידות חוזרות של ערך אסטרונומי, בה מתקבלת התקבלות "גאוסיאנית" סביב הערך האמיתי. אין הבדל עקרוני, טוען קטלה, בין מדידת גובהו של אדם ובין מדידת ערך אסטרונומי.
  3. עכשיו מציע קטלה להתבונן באוסף של מדידות גובה, כאשר אנו לא יודעים האם מדובר במספר מדידות של אותו אדם, או במדידות של מספר אנשים. האם נוכל לדעת באיזה מקרה מדובר? לא נוכל לדעת מכיוון שהתפלגות המדידות החוזרות של אדם אחד היא אותה התפלגות כמו מדידות של אנשים שונים מתוך האוכלוסיה.
  4. ומכיוון שקטלה הראה כי ההתפלגות הנורמלית מופיעה במגוון רחב של מדידות תכונות של אוכלוסיות, הוא מצדיק בכך את המעבר מדיון בערך ממשי בלתי ידוע (כמו גובה של אדם מסויים) לערך שמניחים כי הוא ממשי, המהווה תכונה אובייקטיבית של האוכלוסיה (הגובה הממוצע של האוכלוסיה, שאינו בהכרח ממוצע הגבהים של המדגם שנלקח).

האקינג מנסה להסביר את הלך המחשבה של קטלה שהוביל אותו למסקנה כי אכן ההתפלגויות המופיעות בטבע ובתופעות חברתיות היא אכן פעמונית/נורמלית. אני מודה שלא ירדתי לסוף דעתו של האקינג, ובודאי לא אוכל לתמצת כאן את ההסבר שלו. אומר רק כי למיטב הבנתי, האקינג טוען כי קטלה תפס גם הוא את משפט הגבול המרכזי באופן אינטואיטיבי בדומה ללפלס ולגאוס,[6] ומקור ההתפלגות הוא בהצטברות של סיבות רבות בלתי תלויות אשר כל אחת מהן מושכת את הגובה של אדם אל מעל או מתחת לממוצע האוכלוסיה.

 

 מתווי הדרך (מימין לשמאל): קטלה, גאלטון, מקסוול

החוקר האנגלי פרנסיס גאלטון אימץ את שיטותיו של קטלה במחקריו שלו. גאלטון היה חובב נלהב של מדידות: באפריקה מדד את גופן של בנות השבטים ממרחק בעזרת סקסטנט, הוא אסף נתונים על גיל המוות כדי לבדוק האם כמרים, המבלים זמן רב בתפילות לאל חיים זמן רב יותר מאנשים "רגילים" (הם לא), והמציא מכשירים למדידת רמת השעמום בישיבות. בהיותו מושפע עמוקות מהתיאוריה של בן-דודו, צ'ארלס דארווין, כי מוטציות מקריות הן הכוח המניע של האבולוציה הביולוגית, התעניין גאלטון בפיזור, למעשה בסטיית התקן, של ההתפלגות, בניגוד לקטלה שהתעניין בממוצעים. עבודתו של גאלטון בפיתוח הרגרסיה ומקדם המתאם מתבססת במפורש על ההנחה כי למשתנים המעורבים יש התפלגות נורמלית, ולפי סטיגלר, מנסה ליישב בין הטענה של קטלה להומוגניות של האוכלוסיות (הניתנות לאפיון על ידי פרמטר בודד) ובין מגוון הסיבות המובילות לשונות בין פרטי האוכלוסיה.

גאלטון התעניין גם במדידת אינטליגנציה ובדרך בה היא עוברת בתורשה. אם גובה ומשקל של אדם מפולגים נורמלית, שאל גאלטון, מדוע שהתפלגות האינטליגנציה לא תהיה נורמלית?[7] גאלטון עצמו לא הצליח למדוד אינטליגנציה באופן שהשביע את רצונו, לא כל שכן את מידת ההורשה שלה. מבחני אינטליגנציה החלו להכנס לשימוש בשנות ה-20 של המאה ה-20.

ההתפלגות הנורמלית המשיכה להופיע במקומות מפתיעים. ב-1873 נאם הפיזיקאי ג'יימס קלרק מקסוול הרצאה בפני האגודה הבריטית לקידום המדע, והציג בה את תגליותיו האחרונות בתחום הדינמיקה והקינטיקה של הגזים. מקסוול דיבר גם על הבעיות המתודולוגיות בהן נאבק במחקריו. אין זה אפשרי, הסביר, למדוד את מהירותן של מיליוני מולקולות גז ולחשב את מסלוליהן, כאשר הן נעות במהירות ומתנגשות זו בזו. לכן אימץ מקסוול, יחד עם עמיתיו למחקר, שיטות מתחום מדעי החברה: במקום לדון במהירות ובמסלול של כל מולקולה ומולקולה, חקר מקסוול את התפלגות המהירויות. הוא עשה זאת כבר ב-1859, בגישה דומה לגישתו של לפלס. ההתפלגות, המכונה כיום התפלגות מקסוול-בולצמן, אינה התפלגות נורמלית, אך קשורה אליה קשר הדוק. הסטטיסטיקאים מכירים התפלגות זו בשם "התפלגות חי-בריבוע", והיא מתקבלת על ידי העלאה בריבוע של ערכי ההתפלגות הנורמלית.

בהרצאתו ב-1873 מקסוול סטה סטייה חדה מהדרך שהתוו עד כה לפלס וממשיכיו. לפלס טען כי העולם הינו דטרמיניסטי, והמקריות הנצפית בו (המתבטאת במשחקי מזל, וגם במדידות אסטרונומיות) משקפת למעשה חוסר ידע ויכולת שלנו, בני האדם, לדעת מהם כל הכוחות הפועלים על המטבע המוטל, למשל, ולו ידענו מהם יכולנו לדעת מראש אם יפול על ראש או על זנב. מקסוול טען כי השונות בתופעות פיזיקליות הינה אמיתית, ולא רק שיקוף של הבורות האנושית. הוא אמנם נמנע מלטעון כי קיימת מקריות אמיתית בעולם; טענה זו הועלתה רק בתחילת המאה ה-20, ובקונטקסט של תורת הקוואנטים[8]. עם זאת, מקסוול הראה כיצד ניתן ליישם את התיאוריה הסטטיסטית, שצמחה מניתוח משחקי הימורים, ופותחה ככלי למחקרים סוציולוגיים וביולוגיים, במדע מדוייק יותר כפיזיקה.


הערות
  1. 1. Hacking, I. (1990). The taming of chance (Vol. 17). Cambridge University Press. []
  2. 2. Daston, L. (2008). Analogies and the migration of scientific ideas: the strange career of the normal curve. Nova Acta Leopoldina, N. F, 97(358), 169-185. []
  3. 3. Stigler, S. M. (2002). Statistics on the table: The history of statistical concepts and methods. Harvard University Press. []
  4. 4. על הסטטיסטיקה הבייסיאנית אכתוב, אולי, בפעם אחרת []
  5. 5. אותו קטלה שלכבודו סומן מקדם המתאם של יול באות Q []
  6. 6. משפט הגבול המרכזי הוכח רק בראשית המאה ה-20. גירסה ראשונית הוכחה על ידי ליאפונוב ב-1901, והמשפט כפי שהוא מוכר כיום הוכח על ידי לינדברג ב-1920 []
  7. 7. המונח "התפלגות נורמלית" נטבע ככל הנראה על ידי צ'רלס פירס, פרנסיס גאלטון, ווילהלם לקסיס, באופן בלתי תלוי, בסביבות 1875 []
  8. 8. שבה הבנתי דלה ביותר []

כשפירסון ויול הסירו את הכפפות

לא מכבר התחלתי להשתתף בקבוצת דיון בהיסטוריה של הסטטיסטיקה, ואשתדל לתעד את המפגשים החודשיים של הקבוצה. המפגש הראשון של הקבוצה עסק במחלוקת ביןקרל פירסון ותלמידו אדני יוּל בדבר הדרך הראויה למדוד את עצמת ההקשר ("מתאם") בין שני משתנים איכותיים (כלומר משתנים שסולם המדידה שלהם אינו רציף).  בתחילה אסביר בקצרה את הבעיה הסטטיסטית. לאחר מכן אתאר את הגישות השונות של השניים לפתרון הבעיה, את הרקע שהוביל כל אחד מהם לגישה אחרת, וכמובן, את ההתגוששות בין השניים (חלק זה יסתמך בעיקר על מאמרו של דונלד מקנזי מ-1978[1].  לסיום אביע את דעתי בנושא. לטובת הקוראים שאינם בקיאים בסטטיסטיקה, אשתדל לבדל את הקטעים הטכניים בפסקאות נפרדות. אם תחושו כי אתם הולכים לאיבוד, המשיכו ללא חשש לפיסקה הבאה.

 Yule and Pearson

 אדני יול (מימין) וקרל פירסון

הבעיה הסטטיסטית מאוד פשוטה למעשה[2] . אסביר אותה על ידי דוגמה שיול עצמו הציג. מדובר בנתונים שנאספו במהלך התפרצות מחלת האבעבועות השחורות בעיר שפילד בשנים 1877-1878. בסך הכל נרשמו 4703 מקרים של המחלה. קרוב ל-90% מהחולים קיבלו קודם לכן חיסון נגד מחלה זו ורובם המכריע (כ-95%) החלימו. מבין אלה שלא חוסנו, קרוב ל-50% מתו מהמחלה. יול הציג את הנתונים בטבלה:

החלימו

נפטרו

חוסנו

3951

200

לא חוסנו

278

274

מעניין כמובן לשאול האם החיסון גרם לשיפור סיכויי ההחלמה במקרה של הדבקות, אך לפני כן יש לשאול האם יש קשר בין עצם העובדה שחולה קיבל (או לא קיבל) חיסון מוקדם נגד המחלה ובין מצבו לאחר המחלה (החלים או מת).

אני מניח (ובודאי מקווה) כי רוב הקוראים שיעיינו בנתונים הנ"ל יגיעו למסקה כי אכן קיים קשר בין שני המשתנים. ובכל זאת, עולות מהנתונים מספר שאלות. ניתן למשל לשאול לגבי עצם יעילותו של החיסון – כיצד יותר מ-4000 איש שחוסנו נגד המחלה בכל זאת חלו? לא ניתן לענות על שאלה זו מתוך נתונים אלו. שאלה אחרת לגבי יעילות החיסון עולה מהעובדה שבכל זאת 200 מבין המחוסנים שחלו מתו במחלה. האם זה טוב? כנראה שלא. האם יכלה להתקבל תוצאה יותר טובה? בודאי. עד כמה התוצאה הייתה יכולה להיות טובה יותר? התוצאה הטובה ביותר הייתה אילו כל המחוסנים היו מחלימים. תוצאה זו הייתה מדגימה קשר חיובי חזק ביותר בין שני המשתנים.

התוצאה גם הייתה יכולה להיות גרועה יותר. תוצאה גרועה אפשרית היא שכ-50% מהמחוסנים מתים, כפי שגם כ-50% מהלא מחוסנים מתו. מצב כזה מראה שאין כל קשר בין עצם קבלת החיסון ובין הסיכוי לשרוד את המחלה.

יש תוצאה עוד יותר גרועה: על המחוסנים מתים, כל הלא מחוסנים מחלימים. תוצאה כזו הייתה מעלה מייד את הטענה שיש קשר שלילי בין מתן החיסון וסיכויי ההחלמה.

מה הייתם אומרים על הקשר אילו המספרים בטבלה היו משתנים מעט יחסית? למשל, אם 205 מחוסנים מתו במקום 200 (ו-3946 החלימו), ומבין הלא מחוסנים מספר המחלימים היה 273 במקום 278 (ומספר המתים הוא 279)? האם הקשר בין המשתנים שמראים נתונים אלה חזק יותר מהקשר שמראים הנתונים המקוריים או חלש יותר? איך בכלל מודדים את חוזקו/עוצמתו של הקשר? על שאלה זו ניסו פירסון ויול לענות בתחילת המאה ה-20.

השאלה הדומה, אשר נשאלה לגבי משתנים כמותיים (למשל גובה ומשקל), נחשבה כבר לפתורה. הפתרון התבסס על עבודתו החלוצית של פרנסיס גאלטון בנושא הרגרסיה והמתאם, ופירסון עצמו הוא זה שחתם את הדיון בנושא וסיפק את נוסחת מקדם המתאם הנמצאת השימוש עד עצם היום הזה וידועה בשם "מקדם המתאם של פירסון". מקדם המתאם של פירסון מקבל ערך 1 כאשר יש קשר לינארי מלא וחיובי בין שני המשתנים, ערך 1- כאשר יש קשר לינארי מלא ושלילי בין שני המשתנים, וערך 0 כאשר אין כלל קשר לינארי בין המשתנים (כלומר הם "בלתי מתואמים" בשפת הסטטיסטיסטיקאים). המקדם של פירסון יכול לקבל למעשה כל ערך תחום שבין 1- ל-1. ערכים קרובים ל-1 (או ל-1-)  מעידים כי הקשר הלינארי בין המשתנים חזק, וככל שהערכים מתקרבים ל-0 זה מעיד על החלשות הקשר הלינארי.

בצומת דרכים זו נפרדו דרכיהם של פירסון ויול. פירסון סבר כי תיאוריה למדידת עצמת הקשר בין שני משתנים איכותיים צריכה להתבסס על התיאוריה הקיימת למשתנים כמותיים ולהכליל אותה. יול, לעומת זאת, סבר כי משתנים איכותיים שונים באופן מהותי ממשתנים כמותיים, ולכן יש צורך לפתח עבורם תיאוריה נפרדת.

אפתח בתיאור הגישה של יול. הוא טען כי מדד לעצמת הקשר צריך לקיים שלוש תכונות (בדומה למקדם המצתם של פירסון): ערכו שווה ל-0 כאשר אין קשר בין המשתנים, שווה ל-1 כאשר יש קשר חיובי מלא בין המשתנים, ושווה ל-1- כאשר יש קשר שלילי מלא בין המשתנים.

 כמו כן, יול הבחין כי כאשר אין קשר בין שני משתנים איכותיים, אז השורות בטבלה כגון זו שהוצגה קודם פרופורציוניות זו לזו (כפי שהדגמתי קודם לכן, זה עשוי להיות מקרה בו 50% מהמחוסנים מחלימים מהמחלה, וגם 50% מהלא מחוסנים מחלימים ממנה). קשר חיובי מלא קיים כאשר במשבצת השמאלית העליונה מופיע אפס  (בדוגמא שלנו- איש מהמחוסנים לא נפטר), ו/או כאשר מופיע 0 במשבצת הימנית התחתונה ( כלומר מי שלא חוסן לא החלים, רק למי שחוסן היה סיכוי להחלים). קשר שלילי מלא יתבטא לעומת זאת על ידי הופעת 0  במשבצת השמאלית התחתונה ו/או במשבצת הימנית העליונה (המחוסנים לא מחלימים, הלא מחוסנים דוקא כן)[3] .

מכאן הייתה קצרה הדרך להגדיר מדד שמקיים בדיוק את התכונות האלה: שווה ל-0 כאשר ארבעת המספרים בטבלה יוצרים שתי שורות מספרים פרופורציוניות, שווה ל-1 כאשר באלכסון הראשי מופיע 0 באחד התאים (או שניהם), ושווה ל-1- כאשר מופיע באלכסון המשני מופיע 0 באחד התאים (או שניהם). יול כינה את המדד שלו Q, לכבודו של הסטטיסטיקאי הבלגי אדולף קאטלה.

למדד Q שהציע יול היו גם חולשות, ויול היה מודע להן. אחת החולשות העיקריות הייתה ש-Q אינו המדד היחיד העומד בשלושת הקריטריונים שדרש יול – יש עוד מדדים רבים כאלה. יול עצמו הציע עוד מספר מדדים, וניסה להצדיק כמיטב יכולתו את הצעת Q כמדד הקשר העיקרי.

פירסון כאמור, בחר ללכת בדרך אחרת, וניסה לבנות תיאוריה שתכליל את מקדם המתאם שלו, שנבנה למשתנים כמותיים, כך שישמש למדידת קשר בין שני משתנים איכותיים. אתאר את הגישה שלו בעזרת דוגמה.

נניח שאנו מעוניינים לבדוק האם יש קשר בין גובהו של אדם ומשקלו (באוכלוסיה נתונה). אין בעיה. אם נתונים לנו גובהו ומשקלו של כל אדם באוכלוסיה, אפשר לעבד את הנתונים בעזרת נוסחת מקדם המתאם ולקבל איזשהו מספר. אבל מה קורה אם אין לנו את הנתונים המלאים? נניח שיש לנו רק נתון איכותי לגבי כל אדם. אנו יודעים האם הוא "גבוה" או "נמוך", וכן אם הוא "רזה" או "שמן", ואין אינפורמציה לגבי הגבול המפריד בין גבוה לנמוך ובין רזה לשמן. כל מה שיש לנו זה ארבעה מספרים, מסודרים בטבלה דומה לזו שהוצגה בתחילת הרשימה: יש כך וכך אנשים גבוהים ורזים, כך וכך אנשים גבוהים ורזים, וכולי. מה עושים?

פירסון טען כי הנתונים האלה מקורם בהתפלגות נורמלית ("פעמונית"). ידוע כי התפלגות גובהם של בני אדם היא בקירוב נורמלית, וידוע גם כי התפלגות המשקל היא בקירוב נורמלית. יתר על כן, ידוע כי לגובה ולמשקל יש התפלגות משותפת דו-נורמלית (תחשבו על פעמון תלת מימדי).

להתפלגות נורמלית יש שני פרמטרים – התוחלת וסטיית התקן של ההתפלגות. להתפלגות דו-נורמלית יש חמישה פרמטרים: התוחלת וסטיית התקן של כל אחד מהמשתנים, וכן פרמטר נוסף הקושר את שני המשתנים בהתפלגות המשותפת.

לו היו בידינו נתוני המשקל והגובה המקוריים, אזי מקדם המתאם של פירסון מהווה אמד לפרמטר חמישי של ההתפלגות הדו נורמלית (ופרמטר זה מכונה אכן בשם "מקדם המתאם"). פירסון פיתח שיטה מתמטית לאמידת הפרמטר החמישי של ההתפלגות הדו-נורמלית מהנתונים החלקיים של החלוקה גבוה/רזה/נמוך/שמן. את האמד שקיבל כינה "מקדם המתאם הטטרהכורי" – " Tetrachoric correlation coefficient".  פירסון יישם את השיטה שלו גם כאשר לא היה ברור לחלוטין כי מקורם של הנתונים האיכותיים הוא בהתפלגות נסתרת (בלתי ניתנת לצפיה) דו-נורמלית.

פירסון ידע היטב כי המקדם הטטרהכורי אינו אמד טוב במיוחד עבור מקדם המתאם של ההתפלגות הדו-נורמלית. עם זאת, הוא סבר כי זהו האמדן הטוב ביותר שניתן להגיע אליו כאשר הנתונים הם איכותיים. הוא סבר גם כי מקדם ה-Q של יול הינו אמד למקדם המתאם של ההתפלגות הדו-נורמלית, וטען כי המקדם שהוא פיתח עדיף על Q.

יול, מצידו, טען כי במקרים רבים ההנחה הבסיסית של פירסון לפיה מקורם של הנתונים האיכותיים נמצא בהתפלגות דו-נורמלית שאינה ניתנת לצפיה אינה נכונה. האם ערכים של "מוות ממחלה" ו-"החלמה ממחלה" מקורם במשתנה רציף נורמלי? שאל ולא נענה. יול פיתח שיטות לבדיקת ההנחה של פירסון, ובדק בדקדקנות את כל הדוגמאות שפירסון הביא במאמריו. במקרים רבים הגיע למסקנה כי הנחת הנורמליות של פירסון אינה ניתנת להצדקה.

גם פירסון היה מודע לבעיות של המקדם הטטרהכורי. הוא השקיע עבודה בפיתוחו ושיפורו, וב-1922 הציג את מקדם המתאם הפוליכורי[4] . עם זאת, החליט לנסות ולפתח מקדם קשר אחר, המבוסס על מבחן החי-בריבוע לבדיקת אי תלות בין שני משתנים (שהוא עצמו פיתח מוקדם יותר).

חילוקי הדיעות בין השניים היו ידועים. בדצמבר 1905 תקף יול את מורו וחברו פירסון בפומבי כאשר הרצה בפני החברה הסטטיסטית המלכותית, וטען כי ההנחות שבבסיס המקדם הטטרהכורי אינן תקפות. פירסון השיב ליול במאמר שפרסם בעיתון הבית שלו, ביומטריקה[5]. אולם השניים הקפידו לשמר את הויכוח במסגרת מדעית במידת האפשר.

הכפפות הוסרו כאשר פרסם יול את ספרו "מבוא לתיאוריה של הסטטיסטיקה" ב-1911. יול הציג בספרו את מקדם המתאם של פירסון למשתנים כמותיים, ולמשתנים איכותיים המליץ לקוראיו להשתמש ב-Q או במדד נוסף שאותו פיתח, אך נמנע מלציין את המקדם הטטרהכורי של פירסון כאפשרות נוספת למדידת עצמת הקשר. תלמיד אחר של פירסון, דויד הרון, הגיב על כך במאמר שכותרתו "הסכנה שבנוסחאות מסויימות המוצעות כתחליף למקדם המתאם"[6].

היחסים בינו ובין פירסון הדרדרו במהירות למריבה אישית. בהרצאה נוספת שנשא בפני החברה הסטטיסטית המלכותית ב-1912[7] , יול תקף את גישתו של פירסון ואף את פירסון אישית. "הצגת הנחות בלתי נחוצות שאינן ניתנות לאימות אינה נראית לי כהתקדמות רצויה במחקר המדעי", אמר יול. והעיר כי בכל זאת קיימים מקרים מעטים בהם הנחה זו הינה "פחות בלתי מתקבלת על הדעת" ועדיין לעיתים קרובות יש להטיל ספק, לדעתו, בטענה כי ההתפלגות הבלתי נצפית היא דו-נורמלית.

פירסון והרון לא נשארו חייבים. הם השיבו ליול ב-1913, עת  פירסמו מאמר נוסף בביומטריקה שהשתרע על פני לא פחות מ-157 עמודים[8] . "המחלוקת בינינו", הבהירו פירסון והרון, "היא המחלוקת ארוכת הימים בין הגישה הנומינליסטית והגישה הריאליסטית. מר יול מלהטט בהגדרות מושגים כאילו מדובר בעצמים אמיתיים. ניתוחיו הסטטיסטיטיים הם למעשה סוג של לוגיקה סימבולית. תיאוריות כאלה לא הניבו מעולם שום תועלת מעשית. ייתכן כי יש בתרגילים לוגיים כאלה יש ערך חינוכי עבור סטודנטים, אבל ייגרם נזק גדול לסטטיסטיקה כמקצוע מודרני, אם המתודולוגיות של מר יול ייעשו מקובלות. יש בכך סכנה ממשית[9] , כי קל ללכת בדרך שיול מתווה, ורוב האנשים מתעלמים מהסכנות".

ב-1914 פרצה מלחמת העולם הראשונה והשעתה את הויכוח בין השניים. לאחר המלחמה, תחומי העניין המחקריים של פירסון השתנו, ועימם גם ירדה המוטיבציה שלו לעסוק בבעיית מדידת עצמת הקשר. יתר על כן, גישה חדשה לתיאוריה הסטטיסטית, שהוביל רונלד פישר, הפנתה את תשומת הלב של הסטטיסטיקאים לבעיות אחרות. למרות שהויכוח בין השניים שכך, היחסים בין פירסון ויול לא שבו לקדמותם.

לדעת מקנזי, מקור הסיבה למחלוקת בין פירסון ויול הוא ב-"אינטרסים הקוגניטיביים" השונים שלהם. מטרות המחקר שלהם היו שונות, וכל אחד מהם נקט בגישה המתאימה למטרותיו, אך לא למטרות של חברו/יריבו.

פירסון היה בין החוקרים המובילים בתחום האאוגניקה , ועבודתו בתחום הסטטיסטיקה נעשתה כדי לקדם את מחקריו האאוגניים/ביומטריים[10] . הוא היה מעוניין בעיקר בכלים לחיזוי: אם ידוע ערכו של משתנה אחד, מהי תוחלת ערכו הצפוי של המשתנה האחר? משום כך היה סבור כי יש להכליל את תיאוריית הרגרסיה של גאלטון גם למשתנים איכותיים. ההנחה של ההתפלגות הדו-נורמלית הייתה עבורו רק הנחה. התפלגות זו הייתה חלק מהמודל שלו, לא חלק מהנתונים. התוצאות שקיבל היו די טובות, לדעתו, גם אם ההנחה לא הייתה נכונה. לעומת זאת, שאלות בדבר סיבתיות לא עניינו אותו – אין זה סביר כי תכונה מסויימת של אדם (למשל, רגל גדולה) תגרום לתכונה אחרת (כמו ראש גדול, למשל). שתי התכונות מושפעות מהרקע הגנטי/משפחתי של האדם.

מחקריו של יול, לעומת זאת, היו בתחום מדעי החברה, ושם שאלת הסיבתיות האפשרית הייתה חשובה יותר. לכן, בעיניו של יול, הקשר בין המשתנים היה ביטוי לקשר סיבתי אפשרי בינם, ולא רק תכונה של ההתפלגות המשותפת[11]. העובדה שאדם הוא קבצן, טען יול, אינה תלויה ברקע (ובניוון) הגנטי שלו כפי שטוענים תומכי האאגוניקה.[12] במחקריו הראה יול כיצד רפורמות חברתיות הביאו להקטנה במספר הקבצנים.

מקנזי מרחיק לכת ומעלה השערה כי התיאוריה/אידיאולוגיה האאוגנית ביטאה את ההעדפות החברתיות של חלק מסויים בלבד בחברה הבריטית של סוף המאה ה-19 ותחילת המאה ה-20, המאופיין על ידי רקע מעמדי והעדפות פוליטיות. לדעת מקנזי, ייתכן כי ההבדלים האלה שבין יול ופירסון גרמו לכיווני המחקר השונים שלהם, ומכך נבע הניגוד שבין גישותיהם לנושא מדידת עצמת הקשר בין המשתנים.

מי ניצח בסופו של דבר בויכוח? לדעת מקנזי, הויכוח לא הוכרע עד ימינו, ומסתמך, בין היתר, על מאמרם הקלאסי של גודמן וקראסקל מ-1954.[13], אך מציין כי מדד ה-Q של יול עדיין פופולרי, בעוד שמקדם המתאם הטטרהכורי כמעט ונעלם. אציין כי נתקלתי במהלך לימודי הסטטיסטיקה שלי במקדם המתאם הטטרהכורי. היה זה כאשר קראתי, בהיותי תלמיד שנה ג' לתואר ראשון בסטטיסטיקה, את אותו מאמר של גודמן וקראסקל. הם מציינים בפירוש כי ניתן להשתמש במקדם הטטרהכורי במקרים בהם מקור הנתונים בהתפלגות דו-נורמלית. למען ההגינות, אומר גם כי לא זכרתי זאת במשך השנים שעברו. חזרתי למאמר של גודמן וקראסקל בעקבות הקריאה המאמר של מקנזי, ראיתי כי המקדם הטטרהכורי הוזכר בתחילת המאמר, והסקתי כי נתקלתי בו גם בפעם הראשונה בה קראתי את המאמר.

למיטב הבנתי, גודמן וקראסקל ממליצים בפועל על הגישה של יול, לפיה יש לבחור את מדד הקשר בהתאם לבעיה הנדונה, ואינם מעודדים הנחת התפלגות נסתרת. לכן, לדעתי יול הם למעשה הכתירו את יול כמנצח בקרב הזה. המקדם הטטרהכורי כמעט ונכחד, בעוד שכל תכנה סטטיסטית המכבדת את עצמה מחשבת את Q ומדדים דומים נוספים.

עם זאת, גישתו של פירסון המניחה התפלגות נסתרת/בלתי-נצפית עדיין חיה וקיימת. בסטטיסטיקה המודרנית, סוס העבודה העיקרי לניתוח נתונים איכותיים הוא הרגרסיה הלוגיסטית. בבסיסה של שיטה זו טמונה ההנחה כי מקורו של המשתנה האיכותי הוא במשתנה נסתר/בלתי-נצפה, שמניחים כי התפלגותו היא התפלגות לוגיסטית[14] . אם ערכו של המשתנה הנסתר נמוך מסף מסויים, המשתנה האיכותי מקבל ערך מסויים ("החלים מהמחלה", אם ניצמד לדוגמה של יול שהובאה בראשית הרשימה הזו), וכאשר ערכו של המשתנה הנסתר חוצה את הסף, המשתנה האיכותי מקבל ערך אחר ("מת מהמחלה"). גישה זו ננקטת גם בשיטת סטטיסטיות נוספות, כאשר הסטטיסטיקאי מודע לכך כי המשתנה הנסתר אינו חלק מהנתונים שלו, אלא רק חלק מהמודל. מכאן, למרות שגישתו של פירסון נוצחה בקרב המסויים שתיארתי כאן, היא הוכיחה את עצמה כגישה יעילה לניתוח נתונים איכותיים ונמצאת בשימוש יומיומי במחקר המדעי.


הערות
  1. 1. MacKenzie, D. (1978). Statistical Theory and Social Interests A Case-Study. Social studies of science, 8(1), 35-83. []
  2. 2. יש לציין כי המחלוקת בין פירסון ויול לא הייתה מוגבלת לדיון בבעיה זו בלבד []
  3. 3. יש להגדרה זו ניואנסים שלא פירטתי []
  4. 4. Pearson, K., & Pearson, E. S. (1922). On polychoric coefficients of correlation. Biometrika, 14(1-2), 127-156. []
  5. 5. פירסון יסד את כתב העת ביומטריקה וערך אותו עד מותו ב-1936 []
  6. 6. Heron, D. (1911). The danger of certain formulae suggested as substitutes for the correlation coefficient. Biometrika, 109-122. []
  7. 7. Yule, G. U. (1912). On the methods of measuring association between two attributes. Journal of the Royal Statistical Society, 579-652. []
  8. 8. Pearson, K., & Heron, D. (1913). On theories of association.Biometrika, 9(1-2), 159-315.  []
  9. 9. פירסון והרון השתמשו בבביטוי "grave danger", כלומר סכנת נפשות []
  10. 10. למעשה פירסון לא ראה את עצמו כסטטיסטיקאי, למרות שהיה האדם הראשון שנשא בתואר "פרופסור לסטטיסטיקה". הוא מעולם לא ביקש להצטרף לחברה הסטטיסטית המלכותית, וממילא לא היה חבר בה []
  11. 11. ראו גם Stigler, S. M. (1986). The history of statistics: The measurement of uncertainty before 1900. Harvard University Press. Pages 352-358. []
  12. 12. יול התנגד לתורה זו. במכתב לחברו הטוב, מייג'ור גרינווד כתב: "התיאוריה האאוגנית מעוררת בי סלידה כמו הרעיון לתת זכות הצבעה לנשים". []
  13. 13. Goodman, L. A., & Kruskal, W. H. (1954). Measures of association for cross classifications*. Journal of the American Statistical Association49(268), 732-764.  []
  14. 14. אם מניחים כי התפלגות של המשתנה הנסתר היא נורמלית, הכלי המתקבל הוא "מודל פרוביט" []

פרופ' יוסי הוכברג הלך לעולמו

פרופ' יוסי הוכברג, מהחוג לסטטיסטיקה באוניברסיטת תל אביב, והנשיא השביעי של האיגוד הישראלי לסטטיסטיקה, נפטר אתמול. בשנים האחרונות לחייו פרש הוכברג ממחקר עקב מחלתו. הוכברג היה בין החוקרים המובילים בעולם בתחום בדיקת ההשערות המרובות, והיה שותפו של פרופ' יואב בנימיני לכתיבת מאמרים רבים בתחום, ובכלל זה המאמר פורץ הדרך שהציג את שיטת ה-False Discover Rate משנת 1995, (FDR), מתודולוגיה המאפשרת לשלוט בתוחלת מספר התגליות השגויות במחקרים מדעיים. עבור מחקר זה והישגים אחרים, זכה יואב בנימיני בפרס ישראל בשנת 2012.

לא הכרתי את הוכברג אישית, אולם הייתה לי ההזדמנות להיות נוכח במספר הרצאות שנתן. יהי זכרו ברוך.

 

על מתאם וסיבתיות, או האם צמחונות גורמת לאנורקסיה

אני מניח שרוב הקוראים כבר שמעו על גרי יורופסקי ועל הטענה (המגוחכת לכשעצמה) כי ההרצאה שלו היא ההרצאה הכי טובה שתשמעו אי פעם. למי שלא יודע, יורופסקי הוא טבעוני קיצוני המטיף לטבעונות קיצונית והטמעתה בשיטות קיצוניות. אני לא מתכוון לדון בהרצאה שלו ובטיעוניו (וגם לא לתת לינק), כיוון שרוב הטיעונים (לשני הצדדים) כבר הושמעו.

אני מתכוון להתייחס כאן לטענה אחת בלבד שהועלתה על ידי הבלוגר (המומלץ) המכנה את עצמו "קנקן התה" וכותב את הבלוג "חשיבה חופשית". קנקן התה טוען כי מעבר לנזקים בריאותיים מיידיים (כגון אנמיה), ההטפה לצמחונות/טבעונות של יורופסקי ומרעיו עלולה לגרום להתפתחות של אנורקסיה נרבוזה.

זו האשמה חמורה. אני מצטט כאן את קנקן התה, שמצטט מצידו כתבה שפורסמה ב"מעריב":

על פי מחקר שבוצע במרכז הרפואי "רמב"ם", 96 אחוז מהנערות הישראליות שמפתחות אנורקסיה נרבוזה נמנעות מאכילת בשר אדום ו-75 אחוז נמנעות מאכילת עוף ובשר לבן – פי עשרה יותר משיעור הצמחונים בקרב המבוגרים הבריאים. "בבולימיה אנו מוצאים מגמה דומה, אם כי לא בטוטליות כזו".

"לקשר בין צמחונות להפרעות אכילה יש הסבר גופני", מבהירה ד"ר יעל לצר, מנהלת המרפאה להפרעות אכילה ברמב"ם. "בגיל ההתבגרות מובילה אי אכילת בשר למחסור באבץ, שמשמש רכיב חיוני לתהליך הצמיחה והגדילה. הפחתת כמות האבץ מובילה לעיתים לחוסר תיאבון, וכך מתפתח מעגל קסמים שמוביל להפחתת המזון ובהמשך להפרעת אכילה".

כשפרסמתי את הלינק לפוסט של קנקן התה בדף הפייסבוק של "ספקנים בפאב" המופעל על ידי ארגון הספקנים בישראל (שאני בין מייסדיו), התקבלו כמובן תגובות מעורבות, כצפוי בכל העלאה של נושא כה קונטרוברסלי. כאן אתייחס רק לתגובה של עפרה מהודר, שתמיד שואלת שאלות טובות: "אוי, יוסי, אני מתפלאת עליך. בתור סטטיסטיקאי, שקופץ כל כך בקלות ממתאם לסיבתיות. אם הרבה מהאנורקטיות הן טבעוניות, זה לא אומר שבהכרח הטבעונות גרמה לאנורקסיה. אולי, כמו שאמרו בכתבה, לנערות האלה יש צורך חזק בשליטה, וזה מתבטא במשטרים תזונתיים שונים."

עפרה צודקת, כמובן. הנתון לפיו 96% מהנערות הישראליות שמפתחות אנורקסיה הן צמחוניות מעיד על מתאם בין שתי התופעות. מתאם לא בהכרח מעיד על אינו מהווה ראיה מספיקה לקביעת סיבתיות. (תיקנתי את הטקסט ב-21.10.2012. רוצים לדעת מדוע? כי מתאם כן מעיד על סיבתיות.)

אבל רגע. גם רונלד פישר בשעתו גייס טענה זו כדי לשכנע את עצמו כי עישון אינו גורם לסרטן, אך ניתוחים סטטיסטיים מעמיקים יותר שנעשו על יד ג'רום קורנפילד ועמיתיו העמידו אותו על טעותו. כלומר – הטיעון כי מתאם אינו בהכרח מעיד על סיבתיות הינו נכון אך כללי מדי, ויש לבחון נתונים נוספים. יש לזכור כי כאשר יש מתאם ייתכן כי יש סיבתיות, מלאה או חלקית. וכמובן, מתאם יכול בהחלט לנבוע מסיבתיות. יותר מכך – סיבתיות מובילה תמיד למתאם. מנגנון אפשרי לסיבתיות שכזו תיארה ד"ר יעל לצר, מנהלת המרפאה להפרעות אכילה בבית החולים רמב"ם (ראו את הציטוט מהפוסט של קנקן התה לפני שלוש פסקאות). יש לנו מתאם, ומנגנון סיבתי. זה כבר יותר מאשר סתם מתאם.

ויש עוד. יש גם נתונים לגבי שיעור הצמחונים (והצמחוניות) באוכלוסיה ולגבי שיעור החולות באנורקסיה, שמאפשרים לשים את אותם 96% שהוזכרו בקונטקסט הנכון. בעזרת הנתונים הנוספים ניתן לחשב עד כמה גדול הסיכון לאנורקסיה בקרב נערות צמחוניות בהשוואה לחברותיהן הלא צמחוניות. הניתוח שאביא כאן הינו כמובן פשטני לעין ערוך מעבודתו ההיסטורית של קורנפילד, אך לדעתי מבהיר היטב את הנקודה.

לפי הכתבה במעריב שתיארה את המחקר של ד"ר לצר, 11.6% מהמתבגרות מגדירות עצמן כצמחוניות. לפי אתר אנונימוס, המצטט מחקר של הלשכה המרכזית לסטטיסטיקה, 9.8% מהנשים בישראל הן צמחוניות ושיעור הצמחונות באוכלוסייה עולה קלות עם הגיל, כלומר, בקרב נערות בגיל הסיכון לאנורקסיה שיעור הצמחוניות הוא נמוך יותר. לצורך החישובים אשתמש בערך 10%.

על פי ויקיפדיה, בחברה המערבית אחוז החולות במחלה נע בין 0.5% ל-1%. (0.2% מהמתגייסות לצה"ל לקו באנורקסיה, אך סביר להניח כי חולות רבות לא גויסו כלל). לפי מאמר של מיטרני ועמיתיה מ-1995 יש בישראל 29 מקרים חדשים של אנורקסיה לכל 100,000 נערות בגיל 12-18 כל שנה, וזה מוביל אותנו לבערך 0.5% חולות בסך הכל בקבוצת הגיל הנ"ל. דו"ח שהוגש לועדה לזכויות הילד של הכנסת ב-2004 (קישור לקובץ pdf) נוקב בשכיחות של 1%, בהתחשב בזמן שעבר מאז המחקר של מיטרני, ובהנחה ששיעור הסובלים מהפרעות אכילה שונות בישראל עלה באופן דומה לעלייתו בארצות מערביות אחרות. לכן אשתמש בחישובים שאציג מייד בערך של 1%.

ומכיוון שכאמור לפיו 96% מהנערות הישראליות החולות באנורקסיה הן צמחוניות, הרי ש-0.96% (96% מ-1) מהנערות הינן צמחוניות וגם חולות באנורקסיה.

בואו נשרטט לנו טבלה קטנה. שלושת נתוני הבסיס מסומנים באדום (כמו בטקסט). שאר הנתונים נקבעים על ידי נתוני הבסיס:

צמחונות

סה"כ

כן

לא

אנורקסיה

כן

0.96%

0.04%

1.00%

לא

9.04%

89.96%

99.00%

סה"כ

10.00%

90.00%

100.00%

בעזרת הטבלה אפשר לחשב הסתברויות מותנות:

מה ההסתברות כי נערה צמחונית חולה באנורקסיה? 10% מהנערות הינן צמחוניות, 0.96% הינן גם צמחוניות וגם חולות באנורקסיה, ולכן התשובה היא 0.96 חלקי 10, כלומר 0.096.

מה ההסתברות כי נערה שאינה צמחונית חולה באנורקסיה? 90% מהנערות אינן צמחוניות, 0.04% אינן צמחוניות וגם חולות באנורקסיה, ולכן התשובה היא 0.04 חלקי 90, כלומר 0.000444.

ההסתברות כי נערה צמחונית חולה באנורקסיה גבוהה פי 216 מההסתברות כי נערה שאינה צמחונית חולה באנורקסיה. בשפת הסטטיסטיקה והאפידמיולוגיה אומרים כי הסיכון היחסי לאנורקסיה המקושר לצמחונות הוא 216. זה מראה קשר חזק מאוד בין שתי התופעות, וזה כבר יותר מסתם מתאם.

מדד מקובל יותר לחוזק הקשר הוא ה-Odds Ratio (אין לי מושג איך לתרגם זאת לעברית. Odds הוא יחס הסתברויות, ולכן Odds Ratio הוא יחס של יחסי הסתברויות). החישוב הוא כדלקמן:

בקרב הצמחוניות, הסיכוי לחלות באנורקסיה הוא 0.96/10 כלומר 0.096 והסיכוי לא לחלות הוא לכן 0.904. היחס בין הסיכוי לחלות לבין הסיכוי לא לחלות, ה-Odds, הוא לכן 0.096 חלקי 0.904, כלומר 0.1062.

חישוב דומה מראה כי היחס בין הסיכוי לחלות באנורקסיה לבין הסיכוי לא לחלות בקרב הלא הצמחוניות הוא 0.000445.

ה-Odds Ratio, היחס בין  0.1062 ל-0.000445 שווה לכן ל-238.8 ומשמעותו כי הסיכון לאנורקסיה בקרב נערות צמחוניות גדול כמעט פי 239 מהסיכון בקרב נערות לא צמחוניות.

זה מספר עצום. לשם השוואה, תרופה בה ה-Odds Ratio להתרחשות אירוע קליני של מחלת הטרשת הנפוצה קרוב ל-2 (הסיכון ללא טיפול גדול פי  קצת פחות מ-2 מהסיכון תחת טיפול תרופתי) נמכרת במיליארדי דולרים כל שנה.

מסקנות

האם צמחונות גורמת לאנורקסיה? ודאי שלא. הרי יש נערות צמחוניות רבות (בערך 9 מתוך כל 10) שאינן חולות באנורקסיה.

האם יש מנגנון סיבתי המסביר כיצד אנורקסיה יכולה להתפתח מצמחונות? בהחלט כן.

האם הסיכון לחלות באנורקסיה גבוה באופן משמעותי עבור נערות צמחוניות? בהחלט כן. גבוה מאוד, אפילו. צמחונות היא גורם סיכון לאנורקסיה.

מכאן שאמנם אורח חיים צמחוני לכשעצמו לא בהכרח גורם לאנורקסיה, אך בשילוב עם גורמי סיכון נוספים המחלה עלולה להתפתח.

האם הורים לבת עשרה שהחליטה להיות צמחונית צריכים להיכנס לפאניקה? בהחלט לא, אבל הם צריכים להיות קשובים לביתם, למצוקות אפשריות אותן היא חווה, להיות עם אצבע על הדופק, ולוודא שאין סימנים אחרים המעידים על התפתחות מחלה קשה זו. המלצות אלה נכונות כמובן תמיד, לכל הורה, וכמובן גם להורים לבנים, וגם אם הבן או הבת אינם צמחונים.

האם צמחונות לכשעצמה היא דבר רע? אני לא חושב שמישהו העלה את הטענה הזו ברצינות. אני בודאי לא טוען זאת (אם כי איני צמחוני).

רק בריאות.