חיפוש באתר

קישורים

RSS סטטיסטיקה ברשת

עמודים

קטגוריות

תגיות

כמה הערות על "מכונת האמת המוחלטת"

בעתון דה מרקר הופיעה אתמול כתבה שכותרתה:הסטארט-אפיסט שבונה את מכונת האמת המוחלטת: "זדורוב חף מפשע".מדובר בראיון עם הסטאראפיסט המצליח סער וילף. לאחר מספר שאלות מתבקשות על הצלחותיו עד כה, איך עשה את כספו, וכדומה, מגיעים לחלק המעניין, בו הוא מספר על הסטארטאפ הנוכחי שלו, ותוך כדי כך הוא מביע את דעתו על מערכת המשפט שלנו.

ובכן, הסטארטאפ הנוכחי "רוצה לשנות את האופן שבו אנחנו מבינים את העולם סביבנו, את האופן שבו אנחנו מתקשרים מידע ותובנות ומשתפים פעולה", מטרה אולי קצת יומרנית אבל בהחלט ראויה. "אנשים אינטליגנטים ורציונלים", אומר וילף, "מסתכלים על אותו מידע מגיעים למסקנות הפוכות לחלוטין, וכל אחד משוכנע בוודאות גמורה שהמסקנה שלו נכונה. מה חדש? זה העולם. זה לא אמור לקרות במערכת שמסיקה מסקנות בצורה מכוילת. למעשה, כל אחד מאתנו מחזיק במספר לא קטן של אמונות על העולם, שהוא בטוח שהן נכונות". הדרך להגיע לאמת מוחלטת על העולם היא "לאסוף נתונים, לבנות מודלים מתמטיים מורכבים, לחשב הסתברויות. הדיון הציבורי הוא נונסנס. המוח לא מסוגל להתמודד עם כזאת כמות של מידע ואי־ודאויות, ולכן כל אחד נותן משקל אחר לעובדות ומסנן את המידע בצורה שנוחה לו — ואז יוצאות מסקנות שונות". כך, טוען וילף, יוכל למשל להעריך האם להתנתקות הייתה השפעה חיובית או שלילית, "בוודאות של 90%". (בניגוד לדיון הציבורי שהוא, לדברי וילף, נונסנס) אני אמנם קטונתי מלהבין כיצד יעשה זאת, אבל עד כאן אני מוכן לפרגן.[1] יש לו, לדעתי, סיכוי טוב להצליח למכור קופסה שחורה למקבלי החלטות.

בשלב הזה הראיון עובר לדיון על מערכת המשפט שלנו. אביא שוב דברים בשם אומרם: "מערכת המשפט היא אחד המקומות שבהם המגבלות בתפישת הסתברות גורמות נזקים עצומים…למרות הניסיון וההכשרה, המוח של השופטים מוביל אותם פעם אחר פעם לקבל החלטות לא סבירות…נסים חדד, שבית המשפט המחוזי קבע שהוא אשם "מעבר לספק סביר" באונס תינוק. בחישוב של דקה אפשר היה להראות שההסתברות שהוא אשם קטנה מ–1%…מדובר בכשל ידוע בהסקה האנושית שנקרא "כשל התובע". זה כשל שבו אנחנו מתמקדים רק בעוצמת הראיות ומתעלמים מהשכיחות הכללית של התופעה. מבחינה הסתברותית, ככל שההשערה שאנחנו בוחנים יותר נדירה או לא סבירה, כך צריך ראיות יותר חזקות כדי להשתכנע שדווקא הפעם היא כן נכונה…אונס תינוק הוא עבירה נדירה ביותר. ברמה של אחד לעשרות מיליונים. השופטים התמקדו בראיות — דו"ח פתולוגי שלפיו התינוק סבל מפגיעה שיכולה להתאים לאונס…הם שכחו להתייחס לנדירות של העבירה. הסיכוי שהיתה כאן טעות אנוש בבדיקה הפתולוגית גבוה בהרבה מהסיכוי שחדד רוצה לאנוס תינוקות. וזה עוד לפני שהתייחסנו לכך ששום דבר בעברו של חדד לא מצביע על סטייה חמורה כל כך" "מחשב", אומר וילף, "לא צריך להיות שופט, אבל הוא יכול לסייע בקבלת ההחלטות. ואם זה יקרה, הרבה פחות חפים מפשע יישבו בכלא והרבה פחות אשמים יסתובבו חופשי ובאופן כללי יהיו הרבה פחות טעויות".

הטענה שעולה מדבריו של וילף כי יש בכלא הרבה חפים מפשע וכי הרבה אשמים מסתובבים חופשי היא בעייתית, לדעתי. יש טרייד אוף בין שני סוגי הטעויות. הצבת רף ראיות גבוה גורמת לזיכוי אשמים, אבל גם לרמה גבוהה של זיכויים, וכתוצאה מכך לא יהיו הרבה זכאים שיורשעו. באופן דומה, הצבת רף ראיות נמוך תגרום לשיעור גבוה יותר של הרשעת זכאים, אבל גם לשיעור נמוך של זיכוי נאשמים. המצב שוילף טוען שהוא קיים (הרבה הרשעות שוא והרבה זיכויי שוא) יכול לקרות כאשר בפני זכאים מוצב רף ראיות נמוך ובפני אשמים מוצב רף ראיות גבוה. אבל השופט לא יודע מראש האם הנאשם אשם זכאי, והוא אמור להחליט מראש מה רף הראיות הדרוש. המצב שויף מתאר יכול גם לקרות כאשר השופטים מגבשים את דעתם לפני שהוצגו בפניהם כל הראיות. אם זה המצב, ההאשמה שוילף מטיח במערכת המששפט היא חמורה. אבל, וזה אבל גדול, וילף לא מביא נימוקים לטענתו.

הדברים שאומר וילף בהמשך הם הרבה יותר חמורים. אני לא רוצה להתייחס ספציפית לפרשת ניסים חדד, שהורשע בפשע חמור ביותר בבית המשפט המחוזי וזזוכה אחר כך בערעור בבית המשפט העליון. אני תוהה איזה חישוב יכול להראות כי ההסתברות שהוא אשם קטנה מ-1%. אם מישהו מהקוראים יודע, אשמח אם יסביר לי את זה. גם הנפנוף בכשל התובע((רושם לעצמי לכתוב על כך רשימה ביום מן הימים)) מוזר לי, כיוון שוילף לא מתייחס כלל לכשל תובע שאירע אולי באחת הדוגמאות האחרות שהביא.((התחושה שלי היא שכשל התובע משמש כאן כבאזוורד ותו לא))

החומרה בדבריו של וילף נמצאת באופן שבו הוא חושב שמערכת המשפט צריכה לפעול. במקרה חדד, אומר למעשה וילף, הייתה לדעתו הסתברות אפריורית של פחות מ-1% לכך שחדד אשם בפשע שביצע. לכן, אמר וילף, על התביעה היה להציג ראיות חזקות במיוחד כדי להרשיעו. מה שנובע מדבריו של וילף הוא שאם יש נאשם שההסתברות האפריורית לאשמתו היא 99%, אזי גם בדל ראיה צריך להיות מספיק להרשעתו. מי יקבע את ההסתברות האפריורית הזו? הקופסה השחורה של וילף? השלטון? וילף לא מספק תשובה.

אני טוען שאין דבר כזה "הסתברות אפריורית לאשמה". נאשם הוא אשם או זכאי. זה שאנחנו לא יודעים אם הוא אשם או זכאי לא הופך את עצם האשם למשתנה מקרי. ומשום כך, אין דבר כזה "הסתברות כי הנאשם אשם". יבוא הבייסיאני ויגיד כי ההסתברות הזו משקפת למעשה את מידת האמונה באשמתו של הנאשם. ובכן, האם אנחנו רוצים כי השופט יבסס את החלטתו על סמך אמונות, או על סמך ראיות אובייקטיביות?

וכאן טמונה חומרת הדברים. וילף מציע לשנות כליל את הדרך בה מערכת המשפט פועלת. מערכת המשפט שלנו מניחה כי הנאשם שמובא למשפט זכאי, ועל התביעה להוכיח את אשמתו. וילף מציע להניח כי יש אמונה מסויימת בכך שהנאשם אשם, וכי רמת האמונה הזו תקבע את תוצאת המשפט. אם השופט מאמין מראש כי הנאשם אשם, עליו להרשיע אותו, ולעזאזל הראיות. יש מדינות כאלה. האם אנחנו רוצים לחיות במדינה כזאת?


הערות
  1. אני גם מוכן להתערב שאיש לא ישנה את דעתו על ההתנתקות גם לנוכח חוות דעת עם וודאות של  90%, אבל זה סיפור אחר []

הסבר קצר על overfitting

כמה הערות על AB testing

בהרבה הצעות עבודה למשרות בתחום הטכנולוגיה (בעיקר למשרות Data Scientist, אך לא רק) נדרש ידע ו/או נסיון ב-"AB testing".

מה זה AB testing? עיון קצר בויקיפדיה (הסבר נרחב באנגלית או הסבר מצומצם יותר בעברית) עולה כי זו שיטה להערכת ההשפעה של שינוי מסויים שיתבצע, למשל בדף אינטרנט (שאלות כמו האם הוספת תמונה לדף תגדיל את מספר הקליקים, וכדומה), כאשר A ו-B הם המצב שלפני השינוי, והמצב שאחריו. לפי ויקיפדיה (האנגלית),הגישה הזו החלה להתפשט בעולם הטכנולוגיה לפני כשבע שנים. כן מצויין שם, בצדק, כי זו בעצם גישה לתכנון ניסויים שגוסט (ראו גם כאן) פיתח עוד ב-1908.

למרות שזו התקדמות מתודולוגית משמעותית בחברות הטכנולוגיה, אני חושב שזו גישה נאיבית, בייחוד לאור ההתקדמות הרבה שחלה בתחום מאז 1908. הבעיה העיקרית במתודולוגיה הזו שהיא מיושמת בשיטת one factor at a time דבר שמתעלם מיחסי גומלין (אינטראקציות) בין מספר משתנים. על בעיה זו עמד פישר כבר בשנות העשרים של המאה הקודמת ואף הציע פתרון ראשוני (ניתוח שונות דו כיווני: two-way ANOVA) וכמובן יש פתרונות מתקדמים יותר שהציעו ממשיכי דרכו.

בעיות נוספות יכולות לצוץ בתכנון הניסוי עצמו: איך נקבע גודל המדגם?[1] איך בוחרים את המדגם כך שלא יהיו בו הטיות?[2] איך מנתחים את התוצאות, כלומר האם משתמשים בשיטה הסטטיסטית המתאימה, אם בכלל?[3] האם יש מודעות לטעויות האפשריות ולהסתברויות שבהן הן יקרו? ואם יש מודעות, מה עושים כדי לשלוט בגדלי ההסתברויות האלה? האם יש הבחנה בין אפקט מובהק לאפקט משמעותי?[4]

אני מצטער לומר כי ביקרתי לא מזמן בחברה טכנולוגית גדולה ומצליחה, שם הוצגו לפני מספר טבלאות של "ניתוח נתונים", ואני זיהיתי שם את כל הכשלים שמניתי זה עתה.[5]

אפשר לומר: "מה אתה רוצה, עובדה שהם מצליחים גם ככה", אבל האמת היא שהם הצליחו למרות הבעייתיות במתודולוגיה שלהם, בייחוד כאשר לב האלגוריתם שלהם מבוסס על הסתברות וסטטיסטיקה.

אורן צור ניסח את זה יפה בטוויטר: "נדמה לי שהטענה היא שזה זול ומיידי ורואים תוצאות גם אם אין מודל "טוב".או שאי אפשר לשפר או להצביע על טעויות. הגישה היא "למה לי להשקיע בזה". לפעמים זה עובד".

גם רפאל כהן כתב לי בטוויטר: "כשאני מגיע לתחום מסוים אני מניח שהמומחה יודע משהו (domain knowledge) ושהניתוח שלי אמור לעזור לו. לקחתי מעצב לאתר, אני לא אעשה AB על כל פיקסל ואני צריך להחליט על הניסוחים, מיקום של כפתורים (עדיף שההרשמה לtrial תהיה למעלה או למטה?) וכו'. ואין לי מיליארד משתמשים ביום. גם אם יש לי אלפי משתמשים ביום אני עדיין ארצה לא לבזבז אותם על קונפיגורציות גרועות. בהרצאה לעיל סמולה הראה איך לחסום את מספר המשתמשים שצריך אבל אחד הדברים שצריך ללמוד מזה הוא שהניתוח הסטטיסטי הנאיבי היה מביא אותו לכך שצריך 80 אלף כניסות בשביל כל ניסוי, הוא מראה ש 13 מספיקים 13 אלף כמובן. אז מי שהסתפק בפחות בגלל תחושת בטן סביר להניח שהגיע לתוצאות סבירות קודם, יצר מספיק הכנסות לחברה שלו ולא פשט רגל.". זוהי הבינוניות בהתגלמותה. למה לחשוב ולתכנן, שואל כהן, אם אפשר להשתמש בגישה נאיבית ולקבל משהו? אז מה אם אפשר לעשות יותר טוב?

לפני מספר שנים כתבתי כאן על עתיד הסטטיסטיקה בתעשיה. הדוגמאות לסטטיסטי-פוביה שהבאתי שם היו מנסיוני בתעשייה הפרמצבטית. אחזור על עיקרי הדברים כאן:

סופר המדע הבדיוני ה. ג'. וולס כתב כי "Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write."

בכל הנוגע לתעשייה הפרמצבטית, העתיד אותו חזה וולס כבר כאן. הסטטיסטיקה מהווה נדבך מרכזי בכל תהליכי המחקר, הפיתוח, והייצור של התעשיה. איש אינו מעלה על דעתו לצאת לניסוי קליני ללא ליווי סטטיסטי צמוד, ובשנים האחרונות גוברת הדרישה לתמיכה סטטיסטית גם בשלבי פיתוח מוקדמים יותר, וגם בתהליכי הייצור.

אני מקווה שהמודעות לערך המוסף שמביאה הסטטיסטיקה עמה תחלחל גם לתעשייה הטכנולוגית, ככל שמתרחב השימוש בסטטיסטיקה כך גדלה הנחיצות של יכולת חשיבה סטטיסטית מצד השותפים לתהליך, והסתפקות במישהו "שיודע קצת יותר סטטיסטיקה מהמתכנת הממוצע" (כפי שהגדיר זאת אורן צור) מבטאת בינוניות ונאיביות במקרה הטוב.


הערות
  1. מישהו שלח לי לינק לסרטון הרצאה ביוטיוב בו המרצה נותן חסם לגודל המדגם הדרוש לאמידת התוחלת באוכלוסיה בעזרת אי שוויון גאוס-מרקוב, דבר שלומדים בשנה א סטטיסטיקה. את גודל המדגם הדרוש אפשר לחשב במדוייק – גם את זה לומדים בשנה א. []
  2. דוגמאות מפורסמות – הבחירות של 1936 ו-1948 בארצות הברית []
  3. למשל, משתמשים במבחן סטטיסטי שמניח שקבוצת הניסוי וקבוצת הביקורת בלתי תלויות, למרות שבפועל הן תלויות זו בזו []
  4. בפסקה האחרונה של רשימה זו יש דיון בנושא בהקשר של ניסויים קליניים []
  5. עוד יותר עצובה העובדה כי בצוות היו שני סטטיסטיקאים, אחד מהם בעל תואר שני []

איך סופרים את המתים

בתחילת אוגוסט 2014 השתתפתי בכנס האיגוד האמריקני לסטטיסטיקה בבוסטון, שם נכחתי בשני מושבים שעסקו בנושא של אמידת מספר הנפגעים/הרוגים בסכסוכים אלימים. רשימה זו מבוססת על ההרצאות ששמעתי.

בערך של ויקיפדיה על הסכסוך/מלחמת אזרחים בקולומביה מצויין כי נהרגו בסכסוך (נכון לעד מתי?) 4286 חיילים ושוטרים, וכן 13197 מבין חברי שני הארגונים הנאבקים בכוחות הממשלה. איך הם הגיעו למספרים האלה? וברמת דיוק כל כך גבוהה? מספר ההרוגים הכללי בסכסוך, על פי המקורות שויקיפדיה מצטטת, הוא הרבה יותר ערטילאי: בין 50 ל-200 אלף. האם ניתן להגיע למספר מדוייק יותר?

נתוני מספר ההרוגים בסכסוך בקולומביה כפי שהם מוצגים בויקיפדיה

 

שאלות דומות עולות בכל סכסוך. עד כמה מדוייקים מספרי ההרוגים המתפרסמים בדבר מלחמת האזרחים בסוריה? או בעירק? כמה אזרחים נהרגו בסכסוך האחרון בעזה? מדובר בבעיה סטטיסטית לא פשוטה. אנסה להסביר בקצרה ובפשטות את הבעיה ואת הגישות להתמודדות איתה.

מתברר שבל סכסוך אלים יש אנשים וארגונים העוסקים בתיעוד מקרי המוות (כמו ד"ר אשרף אל-קודרה בעזה). במקרה של הסכסוך בקולומביה, ד"ר שירה מיטשל מאוניברסיטת הארווארד הציגה נתונים שנאספו על ידי שישה ארגונים שונים, שלושה מהם ממשלתיים, לאורך תקופות זמן משתנות. בסוריה, לפי ד"ר מגאן פרייס מה-Human Rights Data Analysis Group, יש כחמישה ארגונים האוספים את נתוני ההרוגים, ואילו ד"ר דניאל מנריק-ואלייר מאוניברסיטת אינדיאנה אמד את מספר ההרוגים במלחמת האזרחים בקוסובו על סמך דיווחים של ארבעה ארגונים שונים. בכל מקרה, הדיווחים הם רשימות של שמות ההרוגים, לעיתים בתוספת מידע נוסף אודות ההרוגים (למשל גיל, מין, מקום מגורים) או נסיבות מותה (כמו לדוגמה הפצצה או הוצאה להורג).

נתוני ארבע רשימות הרוגים מממלחמת האזרחים בקוסובו, כפי שהוצגו על ידי דניאל מנריק-ואלייר בכנס JSM2014

 

בפני הסטטיסטיקאים המנסים לאמוד את סך ההרוגים הכללי בסכסוך עומדות שתי בעיות. הבעיה הראשונה היא לזהות אנשים שמותם מתועד יותר מפעם אחת. ייתכן כי מותו של אדם מסויים מופיע בשתי רשימות (או יותר) שהכינו ארגונים שונים, או אפילו מופיע פעמיים (או יותר) באותה רשימה. בשלב הראשון יש לעבור על כל הרשומות שבכל הרשימות, ולהשוות כל זוג רשומות כדי לקבוע האם מדובר באותו אדם או בשני אנשים שונים. האם יוסי לוי ויוסף לוי הם אותו אדם? מה בקשר לשני שמות פחות דומים אך יותר נדירים, לגביהם מקום המוות, זמנו ונסיבותיו זהות? צריך לבדוק כל מקרה (למעשה כל זוג מקרים) לגופו. זה לוקח זמן. אם בסך כל הרשימות יש 1000 רשומות של מקרי מוות, יש לנו כמעט חצי מיליון זוגות שצריך להשוות. כאשר מדובר ב-100,000 רשומות (וזה לא מספר דמיוני, בסוריה מדובר עד כה על כ-170 אלף הרוגים, ואם מדובר ב-5 רשימות אזי מספר הרשומות יכול להגיע בקלות לחצי מיליון), יש כבר 50 מיליון זוגות של רשומות שצריך להשוות. אין שום סיכוי לבצע את העבודה הזו באופן ידני, ויש להסתמך על עזרת המחשב והסטטיסטיקה. הרעיון הוא לבדוק מספר מצומצם של זוגות רשומות ובאופן ידני (כמה אלפים בדרך כלל) ולסווג אותן כמתארות אותו אדם או שני אנשים שונים. בעזרת הסיווג הידני והנתונים הנלווים לכל שם בונים מודל סטטיסטי שמחשב לכל זוג רשומות את ההסתברות כי הן מתארות בעצם את אותו האדם. בעזרת הפרמטרים של המודל הסטטיסטי אפשר לתכנת כעת אלגוריתם שישווה באופן אוטומטי את כל הזוגות ויקבע לכל אחד מהם האם מדובר באותו אדם (אם ההסתברות המחושבת גבוהה מסף מסויים) או לא. תהליך זה נקרא למידה סטטיסטית.[1]

לאחר שמסתיים תהליך ההשוואה וזיהוי הרשומות הכפולות, אנו נותרים למעשה עם נתונים מזוקקים, האומרים לנו כמה הרוגים נספרו רק ברשימה הראשונה, כמה ברשימה הראשונה והשניה, כמה ברשימה הראשונה והשלישית, וכך הלאה, עד מספר ההרוגים ששמם הופיע בכל הרשימות. מנתונים אלה אנחנו יכולים לקבל הערכת רצפה של מספר ההרוגים – זהו סך כל מספר הרשומות השונות בכל הרשימות. וכאן מופיעה הבעיה הסטטיסטית השניה: איך נדע מהו מספר האנשים שנהרגו אך שמם לא הופיע אף לא ברשימה אחת? סביר להניח כי יש גם כאלה. השיטה הסטטיסטית להתמודדות עם הבעיה הזו ידועה בשם "תפוש ותפוש שוב" ("capture – recapture") ואנסה לתאר אותה בפשטות בפסקאות הבאות.

נניח שאנחנו רוצים לדעת כמה דגים יש באגם מסויים. אפשר לאמוד מספרם בצורה הבאה: תופסים מספר מסויים של דגים, נניח 1000, מסמנים כל אחד מהם בנקודה אדומה, ומחזירים אותם לאגם. כעת באגם יש X  דגים, 1000 מתוכם מסומנים. ממתינים זמן מה כדי שהדגים המסומנים יתפזרו ברחבי האגם ויתערבבו עם חבריהם, ואז תופסים שוב 1000 דגים, ובודקים כמה מתוכם מסומנים בנקודה אדומה. אם 50 מתוך האלף מסומנים, מסיקים כי פרופורציית הדגים המסומנים באגם היא 5%, ומכיוון שידוע לנו כי יש באגם 1000 דגים מסומנים המהווים 5% מכלל הדגים באגם, ולכן אמדן של סך כל מספר הדגים באגם הוא 20,000.

מקרה ספירת המתים דומה. הדג המסומן בנקודה אדומה הוא המשל, ההרוג במלחמה הוא הנמשל. אבל יש כאן כמה בעיות. ראשית, במקרה של ספירת ההרוגים, בניגוד לספירת הדגים, אנחנו לא באמת יודעים כמה דגים מסומנים יש באגם. שנית, מה קורה אם מי שביצע את התפיסה השניה של הדגים היה רשלן, ודיווח אמנם כי תפס 50 דגים המסומנים בנקודה אדומה, אך שכח לספור ולכן לא דיווח כמה דגים תפס בסך הכל, מסומנים ולא מסומנים? לא נוכל לבצע את התרגיל הפשוט שביצענו קודם. נוכל כמובן לשלוח אותו לבצע שוב את המשימה, בתקווה שיבצע אותה טוב יותר, אך במקרה של ספירת ההרוגים, אין דרך מעשית לדגום קבוצה של אנשים ולבדוק מי מהם נהרג במלחמה ומי לא. הנתונים הטובים ביותר שנוכל לקבל הן הרשימות, כאשר חלק מהאנשים מופיעים ביותר מרשימה אחת.

הבעיה השלישית היא הקשה ביותר: בסיפור של הדגים, המתנו בין התפיסה הראשונה והשניה, כדי שהדגים יתערבבו בינם לבין עצמם ותיווצר אי תלות סטטיסטית בין המדגם הראשון למדגם השני. אין שום סיבה להניח כי אי תלות כזו קיימת בין רשימות ההרוגים השונות, אדרבא. כאן דרושה עזרתו של הסטטיסטיקאי, שיבנה מודל (או מספר מודלים) למבנה התלות בין הרשימות השונות. ייתכן מאוד כי מודלים שונים יתנו תוצאות שונות, ולסטטיסטיקה יש גם כלים להשוואה בין מודלים ובחירה במודל "הטוב ביותר" לפי קריטריון כזה או אחר.

אז בפעם הבאה שאתם רואים הערכות שונות למספר ההרוגים בסכסוך מסויים (ובעצם הערכות שונות לספירה כמותית של פרטים או פריטים כלשהם), התייחסו למספרים בספקנות. שאלו אולי לגבי השיטות הסטטיסטיות שבהן נעשה שימוש. התעקשו על קבלת מדד למידת אי הודאות שבאמדן (סטיית תקן, רווח סמך וכדומה). ואל תכעסו אם אתם נתקלים בשני אמדנים שונים. מדובר בבעיה סטטיסטית קשה, וגישות שונות לפתרונה יביאו ככל הנראה לתוצאות שונות.

 

מקורות (הרצאות בכנס JSM, בוסטון, אוגוסט 2014):

* Global Impact: Statistical Analyses of Conflict Data in Syria, Guatemala, and Colombia — Shira Mitchell, Harvard ; Al Ozonoff, Harvard ; Kristian Lum, Virginia Tech ; Alan M. Zaslavsky, Harvard ; Brent Coull, Harvard School of Public Health

* Estimating Undocumented Deaths During the Syrian Conflict — Patrick Ball, Human Rights Data Analysis Group ; Anita Gohdes, Human Rights Data Analysis Group ; Megan Price, Human Rights Data Analysis Group

* Record Linkage and Capture-Recapture in the the Analysis of Genocide in Guatemala — Patrick Ball, Human Rights Data Analysis Group

* Large-Scale Clustering Approaches for Identifying Unique Human Rights Violations — Samuel Ventura, Carnegie Mellon

* Bayesian Multiple-Recapture Estimation of Casualties in Armed Conflicts Using Nonparametric Mixtures — Daniel Manrique-Vallier, Indiana University


הערות
  1. 1. אנשים מתחום מדעי המחשב מעדיפים לכנות תחום זה בשם "למידה ממוכנת". []

מבט להיסטוריה של הניסויים הקליניים

רשימה זו נכתבה בעקבות המפגש האחרון של קבוצת הדיון בהיסטוריה של הסטטיסטיקה שעסקה בניסויים קליניים. אציין כי אני הוא שהעלה את הנושא לדיון, והייתי אחראי לאיסוף והפצת חומר הקריאה למפגש. חלק מהחומרים שנקראו כבר סקרתי בעבר בהרצאה "מהלימון ועד הקופקסון" שנתתי במסגרת "ספקנים בפאב" (ואפשר לצפות בהקלטתה על ידי לחיצה על הקישור). רשימה זו כוללת סקירה היסטורית קצרה של חמשת הניסויים הקליניים שנדונו.לאחר הסקירה ההיסטורית שנתתי נערך דיון מעניין שעסק בהיסטוריה ובפילוסופיה של המדע, ובהשפעות של בייקון ומיל על התפתחות השיטה המדעית והשתקפותם בתהליך התפתחות הניסויים הקליניים. למרבה הצער, לא הצלחתי לארגן את ההערות שרשמתי לעצמי בזמן הדיון לטקסט קוהרנטי שאני יכול לפרסם כאן.

הניסוי הראשון הוא ניסוי הצפדינה של ג'יימס לינד, שנחשב בעיני רבים לנקודת ההתחלה של הרפואה המודרנית. זהו הניסוי הקליני המבוקר המתועד הראשון[1]. לינד ערך ניסוי לבדיקת טיפולים אפשריים למחלת הצפדינה, גורם המוות העיקרי בקרב מלחים עד סוף המאה ה-18.[2]. בניסוי שנערך בהפלגה קצרה יחסית בים התיכון בשנת 1749, חילק לינד את 12 המלחים שחלו בעת ההפלגה לשש קבוצות שוות. כולם שוכנו באותו מקום בספינה וקיבלו תפריט זהה, שנבדל רק בטיפול הניסיוני שניתן להם. הטיפולים היו: שתיית ליטר סיידר ביום, שתיית 25 טיפות חומצה גופרתית 3 פעמים ביום, שתיית שתי כפות חומץ 3 פעמים ביום, שתיית חצי ליטר מי ים ביום, משחה שהוכנה משום, חרדל, צנון ושרף, או  אכילת שני תפוזים ולימון ביום. המטופלים בפירות הדר החלימו כליל, ובמצבם של המטופלים בסיידר חל שיפור קל. ההשוואה בין הקבוצות אפשרה ללינד להעריך את יעילותו של כל טיפול ביחס לאלטרנטיבות הטיפוליות האחרות.

ציון הדרך הבא הוא סדרת הניסויים של וויליאם ווטסון לבחינת טיפולים להפחתת הסיכון במחלת האבעבועות השחורות. כבר במאה ה-11 היה ידוע כי מי שחלה במחלה זו ושרד לא יחלה בה שוב. עקב כך התפתחה פרקטיקה של מעין חיסון למחלה על ידי "הדבקה קלה" של אנשים בריאים במחלה. עם זאת, בין הרופאים היו מחלוקות בדבר אופן ההדבקה האופטימלי ובדבר טיפול נלווה להדבקה. ווטסון ערך סדרה של שלושה ניסויים קליניים בבית החולים לילדים בלונדון בשנת 1767[3]. המתודולוגיה שלו הייתה דומה לזו של לינד: הילדים המשתתפים בכל ניסוי חולקו לקבוצות, ובכל קבוצה בוצעה בנבדקים "הדבקה מבוקרת" על ידי שימוש בשלפוחית משלב מוקדם של המחלה. לכל קבוצה ניתן טיפול נלווה אחר שהיה אמור להפחית את הסיכון בהדבקה. בתכנון הניסויים של ווטסון יש מספר חידושים לעומת הניסוי של לינד. ווטסון דאג כי בכל קבוצת טיפול יהיה מספר שווה של בנים ובנות, כדי למנוע הטיה אפשרית למקרה שהתגובה לטיפול שונה בין המינים. כמו כן, קבוצה אחת בכל ניסוי לא קיבלה טיפול נלווה אלא שימשה כקבוצת ביקורת. והחשוב מכל: ווטסון היה הראשון שהנהיג מדידה כמותית של התוצאות. המדד להצלחת הטיפול היה מספר האבעבועות שהופיעו בכל ילד שהשתתף בניסוי. הוא אף ערך ניתוח סטטיסטי בסיסי ופרסם את ממוצע מספר השלפוחיות לילד בכל קבוצה. מסקנתו של ווטסון הייתה כי הטיפולים המקובלים להפחתת הסיכון, שכללו כספית, צמחים שונים ומיני משלשלים, לא הביאו להקלה בחומרת ההדבקה בהשוואה למודבקים שלא קיבלו טיפול נלווה.

נקודת הציון המשמעותית הבאה היא ניסוי החלב במחוז לאנרקשיר בסקוטלנד בראשית המאה ה-20[4]. מטרת הניסויים היה לבדוק האם הזנה יומית בחלב משפרת את הגדילה של ילדים (וילדות) בהשוואה לילדים שלא שתו חלב על בסיס יומי, וכן לבדוק האם יש הבדל בשיעורי הגדילה בין ילדים שהוזנו בחלב טרי ובין אלה שהוזנו בחלב מפוסטר. הניסוי, שנערך ב-1930 היה רחב היקף וכלל בסך הכל כעשרים אלף ילדים בגילאי 6-12, שלמדו ב-67 בתי ספר. כ-5000 הוזנו בחלב טרי, כ-5000 בחלב מפוסטר, וכ-10000 ילדים שויכו לקבוצת הביקורת. גובהם ומשקלם של הילדים נמדדו בתחילת הניסוי (פברואר 1930) ובסופו (יוני 1930). המסקנה הייתה כי תזונה יומית של חלב משפרת את גדילת הילדים, וכי אין הבדל משמעותי בין חלב טרי לחלב מפוסטר. כמו כן הסיקו החוקרים כי אין השפעה לגיל הילדים על האפקט של קצב הגדילה.

ניסוי זה נכנס לרשימה שלי דוקא בשל הביקורת שהוטחה בו. עם המבקרים נמנו פישר ובארטלט, אולם את הביקורת המקיפה ביותר הטיח "סטודנט", הלא הוא ויליאם סילי גוסט. במאמר שפרסם בכתב העת ביומטריקה[5] קבע למעשה סטודנט כללים שקיומם הכרחי להבטחת התקפות של ניסוי קליני:

  • סטודנט מעיר כי בכל בית ספר בניסוי הוזנו הילדים המטופלים בחלב טרי או בחלב מפוסטר, אך לא הייתה נציגות לשתי הקבוצות יחד באף בית ספר. עקב כך, אין אפשרות להשוות באופן ישיר בין חלב טרי ומפוסטר, עקב הבדלים בין בתי הספר השונים.
  • שיוך התלמידים בניסוי לקבוצת הטיפול (הזנה בחלב או ביקורת) נקבע על ידי המורים בכל כיתה ולא באופן רנדומלי. עקב כך, נוצר מצב בו התלמידים בקבוצת הביקורת היו גדולים יותר במימדי גופם לעומת התלמידים בקבוצות הטיפול.
  • המדידות נערכו בפברואר ויוני. בגדי חורף הינם כבדים יותר מבגדי אביב/קיץ, והבדל המשקל בין הבגדים קיזז את ההבדלים במשקל האמיתי. החוקרים הניחו כי ההבדל במשקל הבגדים יהיה דומה בין הקבוצות, אולם סטודנט טען כי יש ההטיה בחלוקת התלמידים לקבוצות מושפעת ממצבם הכלכלי – תלמידים ממשפחות אמידות הוכללו בדרך כלל בקבוצות הביקורת – הביאה לכך שמשקל בגדי החורף של קבוצת הביקורת יהיה גבוה יותר.

סטודנט הסיק לכן כי התוצאות שהתקבלו לא תומכות בטענה כי אין הבדל בין תזונה בחלב טרי ותזונה בחלב מפוסטר, וגם כי אי אפשר להסיק שאין קשר בין הגיל ובין השינוי בקצב הגדילה. הוא מזכיר גם את הניתוח של פישר וברטלט[6] המראה כי לחלב טרי יתרון על חלב מפוסטר באשר לקצב הגדילה.

סטודנט הביא גם מספר המלצות, ובהן הצעה לערוך את הניסוי באוכלוסיה של תאומים, כאשר אחד התאומים יוזן בחלב והשני ישמש כביקורת (או שאחד מהם יוזן בחלב טרי והשני בחלב מפוסטר לצורך השוואה בין שני סוגי החלב). אני סבור כי תכנון כזה לא מקובל בימינו מבחינה אתית, המלצה יותר מעשית היא לנתח מחדש את הנתונים שנאספו כדי לנסות להתגבר על ההטיה שנוצרה בהקצאה הלא רנדומלית לקבוצות טיפול וביקורת. ההמלצה האוטינטיבית שלו היא לערוך מחדש את הניסוי, תוך כדי הקפדה על רנדומיזציה, לקיחה בחשבון של הטיה עקב משקל הבגדים שלובש כל תלמיד, ותכנון הניסוי כך שבכל בית ספר יהיה ייצוג לשלוש קבוצות הטיפול.

ההמלצה העיקרית של סטודנט, להקפיד על הקצאה רנדומלית של המטופלים לקבוצות, לא התקבלה מייד, שכן רעיון זה נתפש בעיני חלק מהקהילה המדעית כ-"לא אתי". יש לציין כי עקרון הרנדומיזציה רק הוצג על ידי פישר ב-1923, ועדיין לא  הייתה הכרה מספקת בחשיבותו. הניסוי הקליני הראשון עם הקצאה רנדומלית לקבוצת טיפול ולקבוצת ביקורת נערך רק ב-1947, והוא הרביעי ברשימה שלי. מדובר בניסוי לבדיקת היעילות של אנטיביוטיקה מסוג סטרפטומיצין לטיפול בדלקת ריאות[7]. עקב המחסור באנטיביוטיקה, לא הייתה ברירה אלא להחליט על ידי ביצוע "הגרלה" בין החולים מי יקבל טיפול ומי לא, וכך התגבר תכנון הניסוי על המחסום האתי. עם זאת, הניסוי לא היה כפול סמיות (Double Blind), ולא נעשה שימוש בפלסבו כטיפול דמה לקבוצת הביקורת,[8] וזאת למרות שכבר היה תקדים לקיום ניסוי כזה: הניסוי הקליני הראשון שנערך בשיטת הסמיות הכפולה נערך כבר בשנת 1943 לבדיקת היעילות של פניצילין כטיפול להצטננות. החולים המטופלים לא ידעו האם הם שויכו לקבוצת טיפול ואכן טופלו בפניצילין, או שמא שויכו לקבוצת הביקורת וטופלו בפלסבו. גם הרופאים שטיפלו בחולים לא ידעו מהו הטיפול שקיבל כל חולה. תכנון כזה מונע הטיה שעלולה לנבוע מדיעה קדומה של הרופאים לגבי יעילות הטיפול, ולמעשה מכריח אותם לתת חוות דעת אובייקטיבית לגבי המצב הרפואי של החולה המטופל. עם זאת, בניסוי זה לא נערכה הקצאה רנדומלית של החולים לטיפול או ביקורת.

הויכוח בדבר חשיבות העקרונות שהתוו סטודנט ופישר הסתיים סופית בניסוי לבדיקת יעילות החיסון של סאלק נגד נגיף הפוליו, שנערך ב-1954[9]. למעשה נערכו שני ניסויים. הניסוי שבראשו עמד הסטטיסטיקאי פול מאייר היה ניסוי כפול סמיות בהקצאה רנדומלית, והוא הראה ירידה של 70% במקרי השיתוק עקב פוליו בקבוצת הטיפול לעומת קבוצת הביקורת. גודל המדגם הגדול (כ-400 אלף ילדים בגילאי 6-8) סייע לביסוס התקפות החיצונית של התוצאות. במקביל נערך ניסוי נוסף, בו הקצאת הטיפול (חיסון או פלסבו) לא הייתה רנדומלית. 725,000 תלמידי כיתות א ו-ג שהשתתפו בניסוי שימשו כקבוצת ביקורת, ואליהם צורפו גם 125,000 ילדים מכיתות ב' שהוריהם סירבו לחיסון. נתוניהם הושוו עם הנתונים של 225,000 תלמידי כיתות ב' שהוריהם הסכימו לחסנם. סה"כ השתתפו בניסוי מעל מליון תלמידים, כמעט פי 3 מגודל הניסוי של מאייר. ניסוי זה הראה ירידה של 44% בלבד בשיעור מקרי השיתוק עקב פוליו, ואולם התברר כי האפקט הוקטן עקב הטיה הקשורה למצב הסוציו-אקונומי של קבוצת הטיפול. ילדי קבוצת הטיפול הגיעה ממשפחות אמידות יותר, ובשכבת אוכלוסיה זו שיעור מקרי השיתוק עקב פוליו היה גבוה יותר מכיוון ששיעור הילדים המחוסנים טבעית (חלו בפוליו באופן קל והחלימו ללא תיעוד) הינו נמוך יותר עקב רמת הסניטציה הגבוהה יותר בסביבתם. המקרה של ניסוי הפוליו הוכיח כי גודל המדגם אינו בהכרח הפרמטר החשוב ביותר בניסוי הקליני[10], וכי רק הקצאה רנדומלית וסמיות כפולה מבטיחים את התקפות הפנימית של הניסוי.


הערות
  1. 1. אם מתעלמים מפרק א' של ספר דניאל []
  2. 2. 2 מתוך כל 3 מלחים לקו במחלה ומתו. במלחמת 7 השנים בין אנגליה לצרפת, 1512 מלחים אנגלים נהרגו בקרבות, כ-100,000 מתו מצפדינה. []
  3. 3. Boylston, A. W. (2002). Clinical investigation of smallpox in 1767.New England Journal of Medicine, 346(17), 1326-1328. []
  4. 4.  Leighton G, McKinlay P (1930). Milk consumption and the growth of school-children. Department of Health forScotland, Edinburgh and London: HM Stationery Office. []
  5. 5. Student (1931). The Lanarkshire Milk Experiment. Biometrika 23:398-406. []
  6. 6. Fisher RA, Bartlett S (1931). Pasteurised and raw milk. Nature 127:591-592.  []
  7. 7. Medical Research Council Streptomycin in Tuberculosis Trials Committee. (1948). Streptomycin treatment for pulmonary tuberculosis. BMJ2, 769-82. []
  8. 8. Hart, P. D. A. (1999). A change in scientific approach: from alternation to randomised allocation in clinical trials in the 1940s.BMJ, 319(7209), 572-573. []
  9. 9. Meier, Paul. "Polio trial: an early efficient clinical trial." Statistics in medicine 9.1‐2 (1990): 13-16.  []
  10. 10. ראו גם את הרשימה בחירות 1936 – המנצח שלא היה, שעסקה במקרה מפורסם אחר בו מדגם גדול לא הצליח לחזות את המנצח בבחירות לנשיאות ארצות הברית עקב הטיה בתכנונו []