כמה הערות על "מכונת האמת המוחלטת"

בעתון דה מרקר הופיעה אתמול כתבה שכותרתה:הסטארט-אפיסט שבונה את מכונת האמת המוחלטת: "זדורוב חף מפשע".מדובר בראיון עם הסטאראפיסט המצליח סער וילף. לאחר מספר שאלות מתבקשות על הצלחותיו עד כה, איך עשה את כספו, וכדומה, מגיעים לחלק המעניין, בו הוא מספר על הסטארטאפ הנוכחי שלו, ותוך כדי כך הוא מביע את דעתו על מערכת המשפט שלנו.

ובכן, הסטארטאפ הנוכחי "רוצה לשנות את האופן שבו אנחנו מבינים את העולם סביבנו, את האופן שבו אנחנו מתקשרים מידע ותובנות ומשתפים פעולה", מטרה אולי קצת יומרנית אבל בהחלט ראויה. "אנשים אינטליגנטים ורציונלים", אומר וילף, "מסתכלים על אותו מידע מגיעים למסקנות הפוכות לחלוטין, וכל אחד משוכנע בוודאות גמורה שהמסקנה שלו נכונה. מה חדש? זה העולם. זה לא אמור לקרות במערכת שמסיקה מסקנות בצורה מכוילת. למעשה, כל אחד מאתנו מחזיק במספר לא קטן של אמונות על העולם, שהוא בטוח שהן נכונות". הדרך להגיע לאמת מוחלטת על העולם היא "לאסוף נתונים, לבנות מודלים מתמטיים מורכבים, לחשב הסתברויות. הדיון הציבורי הוא נונסנס. המוח לא מסוגל להתמודד עם כזאת כמות של מידע ואי־ודאויות, ולכן כל אחד נותן משקל אחר לעובדות ומסנן את המידע בצורה שנוחה לו — ואז יוצאות מסקנות שונות". כך, טוען וילף, יוכל למשל להעריך האם להתנתקות הייתה השפעה חיובית או שלילית, "בוודאות של 90%". (בניגוד לדיון הציבורי שהוא, לדברי וילף, נונסנס) אני אמנם קטונתי מלהבין כיצד יעשה זאת, אבל עד כאן אני מוכן לפרגן. ((אני גם מוכן להתערב שאיש לא ישנה את דעתו על ההתנתקות גם לנוכח חוות דעת עם וודאות של  90%, אבל זה סיפור אחר)) יש לו, לדעתי, סיכוי טוב להצליח למכור קופסה שחורה למקבלי החלטות.

בשלב הזה הראיון עובר לדיון על מערכת המשפט שלנו. אביא שוב דברים בשם אומרם: "מערכת המשפט היא אחד המקומות שבהם המגבלות בתפישת הסתברות גורמות נזקים עצומים…למרות הניסיון וההכשרה, המוח של השופטים מוביל אותם פעם אחר פעם לקבל החלטות לא סבירות…נסים חדד, שבית המשפט המחוזי קבע שהוא אשם "מעבר לספק סביר" באונס תינוק. בחישוב של דקה אפשר היה להראות שההסתברות שהוא אשם קטנה מ–1%…מדובר בכשל ידוע בהסקה האנושית שנקרא "כשל התובע". זה כשל שבו אנחנו מתמקדים רק בעוצמת הראיות ומתעלמים מהשכיחות הכללית של התופעה. מבחינה הסתברותית, ככל שההשערה שאנחנו בוחנים יותר נדירה או לא סבירה, כך צריך ראיות יותר חזקות כדי להשתכנע שדווקא הפעם היא כן נכונה…אונס תינוק הוא עבירה נדירה ביותר. ברמה של אחד לעשרות מיליונים. השופטים התמקדו בראיות — דו"ח פתולוגי שלפיו התינוק סבל מפגיעה שיכולה להתאים לאונס…הם שכחו להתייחס לנדירות של העבירה. הסיכוי שהיתה כאן טעות אנוש בבדיקה הפתולוגית גבוה בהרבה מהסיכוי שחדד רוצה לאנוס תינוקות. וזה עוד לפני שהתייחסנו לכך ששום דבר בעברו של חדד לא מצביע על סטייה חמורה כל כך" "מחשב", אומר וילף, "לא צריך להיות שופט, אבל הוא יכול לסייע בקבלת ההחלטות. ואם זה יקרה, הרבה פחות חפים מפשע יישבו בכלא והרבה פחות אשמים יסתובבו חופשי ובאופן כללי יהיו הרבה פחות טעויות".

הטענה שעולה מדבריו של וילף כי יש בכלא הרבה חפים מפשע וכי הרבה אשמים מסתובבים חופשי היא בעייתית, לדעתי. יש טרייד אוף בין שני סוגי הטעויות. הצבת רף ראיות גבוה גורמת לזיכוי אשמים, אבל גם לרמה גבוהה של זיכויים, וכתוצאה מכך לא יהיו הרבה זכאים שיורשעו. באופן דומה, הצבת רף ראיות נמוך תגרום לשיעור גבוה יותר של הרשעת זכאים, אבל גם לשיעור נמוך של זיכוי נאשמים. המצב שוילף טוען שהוא קיים (הרבה הרשעות שוא והרבה זיכויי שוא) יכול לקרות כאשר בפני זכאים מוצב רף ראיות נמוך ובפני אשמים מוצב רף ראיות גבוה. אבל השופט לא יודע מראש האם הנאשם אשם זכאי, והוא אמור להחליט מראש מה רף הראיות הדרוש. המצב שויף מתאר יכול גם לקרות כאשר השופטים מגבשים את דעתם לפני שהוצגו בפניהם כל הראיות. אם זה המצב, ההאשמה שוילף מטיח במערכת המששפט היא חמורה. אבל, וזה אבל גדול, וילף לא מביא נימוקים לטענתו.

הדברים שאומר וילף בהמשך הם הרבה יותר חמורים. אני לא רוצה להתייחס ספציפית לפרשת ניסים חדד, שהורשע בפשע חמור ביותר בבית המשפט המחוזי וזזוכה אחר כך בערעור בבית המשפט העליון. אני תוהה איזה חישוב יכול להראות כי ההסתברות שהוא אשם קטנה מ-1%. אם מישהו מהקוראים יודע, אשמח אם יסביר לי את זה. גם הנפנוף בכשל התובע((רושם לעצמי לכתוב על כך רשימה ביום מן הימים)) מוזר לי, כיוון שוילף לא מתייחס כלל לכשל תובע שאירע אולי באחת הדוגמאות האחרות שהביא.((התחושה שלי היא שכשל התובע משמש כאן כבאזוורד ותו לא))

החומרה בדבריו של וילף נמצאת באופן שבו הוא חושב שמערכת המשפט צריכה לפעול. במקרה חדד, אומר למעשה וילף, הייתה לדעתו הסתברות אפריורית של פחות מ-1% לכך שחדד אשם בפשע שביצע. לכן, אמר וילף, על התביעה היה להציג ראיות חזקות במיוחד כדי להרשיעו. מה שנובע מדבריו של וילף הוא שאם יש נאשם שההסתברות האפריורית לאשמתו היא 99%, אזי גם בדל ראיה צריך להיות מספיק להרשעתו. מי יקבע את ההסתברות האפריורית הזו? הקופסה השחורה של וילף? השלטון? וילף לא מספק תשובה.

אני טוען שאין דבר כזה "הסתברות אפריורית לאשמה". נאשם הוא אשם או זכאי. זה שאנחנו לא יודעים אם הוא אשם או זכאי לא הופך את עצם האשם למשתנה מקרי. ומשום כך, אין דבר כזה "הסתברות כי הנאשם אשם". יבוא הבייסיאני ויגיד כי ההסתברות הזו משקפת למעשה את מידת האמונה באשמתו של הנאשם. ובכן, האם אנחנו רוצים כי השופט יבסס את החלטתו על סמך אמונות, או על סמך ראיות אובייקטיביות?

וכאן טמונה חומרת הדברים. וילף מציע לשנות כליל את הדרך בה מערכת המשפט פועלת. מערכת המשפט שלנו מניחה כי הנאשם שמובא למשפט זכאי, ועל התביעה להוכיח את אשמתו. וילף מציע להניח כי יש אמונה מסויימת בכך שהנאשם אשם, וכי רמת האמונה הזו תקבע את תוצאת המשפט. אם השופט מאמין מראש כי הנאשם אשם, עליו להרשיע אותו, ולעזאזל הראיות. יש מדינות כאלה. האם אנחנו רוצים לחיות במדינה כזאת?

הסבר קצר על overfitting

כמה הערות על AB testing

בהרבה הצעות עבודה למשרות בתחום הטכנולוגיה (בעיקר למשרות Data Scientist, אך לא רק) נדרש ידע ו/או נסיון ב-"AB testing".

מה זה AB testing? עיון קצר בויקיפדיה (הסבר נרחב באנגלית או הסבר מצומצם יותר בעברית) עולה כי זו שיטה להערכת ההשפעה של שינוי מסויים שיתבצע, למשל בדף אינטרנט (שאלות כמו האם הוספת תמונה לדף תגדיל את מספר הקליקים, וכדומה), כאשר A ו-B הם המצב שלפני השינוי, והמצב שאחריו. לפי ויקיפדיה (האנגלית),הגישה הזו החלה להתפשט בעולם הטכנולוגיה לפני כשבע שנים. כן מצויין שם, בצדק, כי זו בעצם גישה לתכנון ניסויים שגוסט (ראו גם כאן) פיתח עוד ב-1908.

למרות שזו התקדמות מתודולוגית משמעותית בחברות הטכנולוגיה, אני חושב שזו גישה נאיבית, בייחוד לאור ההתקדמות הרבה שחלה בתחום מאז 1908. הבעיה העיקרית במתודולוגיה הזו שהיא מיושמת בשיטת one factor at a time דבר שמתעלם מיחסי גומלין (אינטראקציות) בין מספר משתנים. על בעיה זו עמד פישר כבר בשנות העשרים של המאה הקודמת ואף הציע פתרון ראשוני (ניתוח שונות דו כיווני: two-way ANOVA) וכמובן יש פתרונות מתקדמים יותר שהציעו ממשיכי דרכו.

בעיות נוספות יכולות לצוץ בתכנון הניסוי עצמו: איך נקבע גודל המדגם? ((מישהו שלח לי לינק לסרטון הרצאה ביוטיוב בו המרצה נותן חסם לגודל המדגם הדרוש לאמידת התוחלת באוכלוסיה בעזרת אי שוויון גאוס-מרקוב, דבר שלומדים בשנה א סטטיסטיקה. את גודל המדגם הדרוש אפשר לחשב במדוייק – גם את זה לומדים בשנה א.)) איך בוחרים את המדגם כך שלא יהיו בו הטיות? ((דוגמאות מפורסמות – הבחירות של 1936 ו-1948 בארצות הברית)) איך מנתחים את התוצאות, כלומר האם משתמשים בשיטה הסטטיסטית המתאימה, אם בכלל? ((למשל, משתמשים במבחן סטטיסטי שמניח שקבוצת הניסוי וקבוצת הביקורת בלתי תלויות, למרות שבפועל הן תלויות זו בזו)) האם יש מודעות לטעויות האפשריות ולהסתברויות שבהן הן יקרו? ואם יש מודעות, מה עושים כדי לשלוט בגדלי ההסתברויות האלה? האם יש הבחנה בין אפקט מובהק לאפקט משמעותי? ((בפסקה האחרונה של רשימה זו יש דיון בנושא בהקשר של ניסויים קליניים))

אני מצטער לומר כי ביקרתי לא מזמן בחברה טכנולוגית גדולה ומצליחה, שם הוצגו לפני מספר טבלאות של "ניתוח נתונים", ואני זיהיתי שם את כל הכשלים שמניתי זה עתה. ((עוד יותר עצובה העובדה כי בצוות היו שני סטטיסטיקאים, אחד מהם בעל תואר שני))

אפשר לומר: "מה אתה רוצה, עובדה שהם מצליחים גם ככה", אבל האמת היא שהם הצליחו למרות הבעייתיות במתודולוגיה שלהם, בייחוד כאשר לב האלגוריתם שלהם מבוסס על הסתברות וסטטיסטיקה.

אורן צור ניסח את זה יפה בטוויטר: "נדמה לי שהטענה היא שזה זול ומיידי ורואים תוצאות גם אם אין מודל "טוב".או שאי אפשר לשפר או להצביע על טעויות. הגישה היא "למה לי להשקיע בזה". לפעמים זה עובד".

גם רפאל כהן כתב לי בטוויטר: "כשאני מגיע לתחום מסוים אני מניח שהמומחה יודע משהו (domain knowledge) ושהניתוח שלי אמור לעזור לו. לקחתי מעצב לאתר, אני לא אעשה AB על כל פיקסל ואני צריך להחליט על הניסוחים, מיקום של כפתורים (עדיף שההרשמה לtrial תהיה למעלה או למטה?) וכו'. ואין לי מיליארד משתמשים ביום. גם אם יש לי אלפי משתמשים ביום אני עדיין ארצה לא לבזבז אותם על קונפיגורציות גרועות. בהרצאה לעיל סמולה הראה איך לחסום את מספר המשתמשים שצריך אבל אחד הדברים שצריך ללמוד מזה הוא שהניתוח הסטטיסטי הנאיבי היה מביא אותו לכך שצריך 80 אלף כניסות בשביל כל ניסוי, הוא מראה ש 13 מספיקים 13 אלף כמובן. אז מי שהסתפק בפחות בגלל תחושת בטן סביר להניח שהגיע לתוצאות סבירות קודם, יצר מספיק הכנסות לחברה שלו ולא פשט רגל.". זוהי הבינוניות בהתגלמותה. למה לחשוב ולתכנן, שואל כהן, אם אפשר להשתמש בגישה נאיבית ולקבל משהו? אז מה אם אפשר לעשות יותר טוב?

לפני מספר שנים כתבתי כאן על עתיד הסטטיסטיקה בתעשיה. הדוגמאות לסטטיסטי-פוביה שהבאתי שם היו מנסיוני בתעשייה הפרמצבטית. אחזור על עיקרי הדברים כאן:

סופר המדע הבדיוני ה. ג'. וולס כתב כי "Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write."

בכל הנוגע לתעשייה הפרמצבטית, העתיד אותו חזה וולס כבר כאן. הסטטיסטיקה מהווה נדבך מרכזי בכל תהליכי המחקר, הפיתוח, והייצור של התעשיה. איש אינו מעלה על דעתו לצאת לניסוי קליני ללא ליווי סטטיסטי צמוד, ובשנים האחרונות גוברת הדרישה לתמיכה סטטיסטית גם בשלבי פיתוח מוקדמים יותר, וגם בתהליכי הייצור.

אני מקווה שהמודעות לערך המוסף שמביאה הסטטיסטיקה עמה תחלחל גם לתעשייה הטכנולוגית, ככל שמתרחב השימוש בסטטיסטיקה כך גדלה הנחיצות של יכולת חשיבה סטטיסטית מצד השותפים לתהליך, והסתפקות במישהו "שיודע קצת יותר סטטיסטיקה מהמתכנת הממוצע" (כפי שהגדיר זאת אורן צור) מבטאת בינוניות ונאיביות במקרה הטוב.

איך סופרים את המתים

בתחילת אוגוסט 2014 השתתפתי בכנס האיגוד האמריקני לסטטיסטיקה בבוסטון, שם נכחתי בשני מושבים שעסקו בנושא של אמידת מספר הנפגעים/הרוגים בסכסוכים אלימים. רשימה זו מבוססת על ההרצאות ששמעתי.

בערך של ויקיפדיה על הסכסוך/מלחמת אזרחים בקולומביה מצויין כי נהרגו בסכסוך (נכון לעד מתי?) 4286 חיילים ושוטרים, וכן 13197 מבין חברי שני הארגונים הנאבקים בכוחות הממשלה. איך הם הגיעו למספרים האלה? וברמת דיוק כל כך גבוהה? מספר ההרוגים הכללי בסכסוך, על פי המקורות שויקיפדיה מצטטת, הוא הרבה יותר ערטילאי: בין 50 ל-200 אלף. האם ניתן להגיע למספר מדוייק יותר?

נתוני מספר ההרוגים בסכסוך בקולומביה כפי שהם מוצגים בויקיפדיה

 

שאלות דומות עולות בכל סכסוך. עד כמה מדוייקים מספרי ההרוגים המתפרסמים בדבר מלחמת האזרחים בסוריה? או בעירק? כמה אזרחים נהרגו בסכסוך האחרון בעזה? מדובר בבעיה סטטיסטית לא פשוטה. אנסה להסביר בקצרה ובפשטות את הבעיה ואת הגישות להתמודדות איתה.

מתברר שבל סכסוך אלים יש אנשים וארגונים העוסקים בתיעוד מקרי המוות (כמו ד"ר אשרף אל-קודרה בעזה). במקרה של הסכסוך בקולומביה, ד"ר שירה מיטשל מאוניברסיטת הארווארד הציגה נתונים שנאספו על ידי שישה ארגונים שונים, שלושה מהם ממשלתיים, לאורך תקופות זמן משתנות. בסוריה, לפי ד"ר מגאן פרייס מה-Human Rights Data Analysis Group, יש כחמישה ארגונים האוספים את נתוני ההרוגים, ואילו ד"ר דניאל מנריק-ואלייר מאוניברסיטת אינדיאנה אמד את מספר ההרוגים במלחמת האזרחים בקוסובו על סמך דיווחים של ארבעה ארגונים שונים. בכל מקרה, הדיווחים הם רשימות של שמות ההרוגים, לעיתים בתוספת מידע נוסף אודות ההרוגים (למשל גיל, מין, מקום מגורים) או נסיבות מותה (כמו לדוגמה הפצצה או הוצאה להורג).

נתוני ארבע רשימות הרוגים מממלחמת האזרחים בקוסובו, כפי שהוצגו על ידי דניאל מנריק-ואלייר בכנס JSM2014

 

בפני הסטטיסטיקאים המנסים לאמוד את סך ההרוגים הכללי בסכסוך עומדות שתי בעיות. הבעיה הראשונה היא לזהות אנשים שמותם מתועד יותר מפעם אחת. ייתכן כי מותו של אדם מסויים מופיע בשתי רשימות (או יותר) שהכינו ארגונים שונים, או אפילו מופיע פעמיים (או יותר) באותה רשימה. בשלב הראשון יש לעבור על כל הרשומות שבכל הרשימות, ולהשוות כל זוג רשומות כדי לקבוע האם מדובר באותו אדם או בשני אנשים שונים. האם יוסי לוי ויוסף לוי הם אותו אדם? מה בקשר לשני שמות פחות דומים אך יותר נדירים, לגביהם מקום המוות, זמנו ונסיבותיו זהות? צריך לבדוק כל מקרה (למעשה כל זוג מקרים) לגופו. זה לוקח זמן. אם בסך כל הרשימות יש 1000 רשומות של מקרי מוות, יש לנו כמעט חצי מיליון זוגות שצריך להשוות. כאשר מדובר ב-100,000 רשומות (וזה לא מספר דמיוני, בסוריה מדובר עד כה על כ-170 אלף הרוגים, ואם מדובר ב-5 רשימות אזי מספר הרשומות יכול להגיע בקלות לחצי מיליון), יש כבר 50 מיליון זוגות של רשומות שצריך להשוות. אין שום סיכוי לבצע את העבודה הזו באופן ידני, ויש להסתמך על עזרת המחשב והסטטיסטיקה. הרעיון הוא לבדוק מספר מצומצם של זוגות רשומות ובאופן ידני (כמה אלפים בדרך כלל) ולסווג אותן כמתארות אותו אדם או שני אנשים שונים. בעזרת הסיווג הידני והנתונים הנלווים לכל שם בונים מודל סטטיסטי שמחשב לכל זוג רשומות את ההסתברות כי הן מתארות בעצם את אותו האדם. בעזרת הפרמטרים של המודל הסטטיסטי אפשר לתכנת כעת אלגוריתם שישווה באופן אוטומטי את כל הזוגות ויקבע לכל אחד מהם האם מדובר באותו אדם (אם ההסתברות המחושבת גבוהה מסף מסויים) או לא. תהליך זה נקרא למידה סטטיסטית. (( 1. אנשים מתחום מדעי המחשב מעדיפים לכנות תחום זה בשם "למידה ממוכנת".))

לאחר שמסתיים תהליך ההשוואה וזיהוי הרשומות הכפולות, אנו נותרים למעשה עם נתונים מזוקקים, האומרים לנו כמה הרוגים נספרו רק ברשימה הראשונה, כמה ברשימה הראשונה והשניה, כמה ברשימה הראשונה והשלישית, וכך הלאה, עד מספר ההרוגים ששמם הופיע בכל הרשימות. מנתונים אלה אנחנו יכולים לקבל הערכת רצפה של מספר ההרוגים – זהו סך כל מספר הרשומות השונות בכל הרשימות. וכאן מופיעה הבעיה הסטטיסטית השניה: איך נדע מהו מספר האנשים שנהרגו אך שמם לא הופיע אף לא ברשימה אחת? סביר להניח כי יש גם כאלה. השיטה הסטטיסטית להתמודדות עם הבעיה הזו ידועה בשם "תפוש ותפוש שוב" ("capture – recapture") ואנסה לתאר אותה בפשטות בפסקאות הבאות.

נניח שאנחנו רוצים לדעת כמה דגים יש באגם מסויים. אפשר לאמוד מספרם בצורה הבאה: תופסים מספר מסויים של דגים, נניח 1000, מסמנים כל אחד מהם בנקודה אדומה, ומחזירים אותם לאגם. כעת באגם יש X  דגים, 1000 מתוכם מסומנים. ממתינים זמן מה כדי שהדגים המסומנים יתפזרו ברחבי האגם ויתערבבו עם חבריהם, ואז תופסים שוב 1000 דגים, ובודקים כמה מתוכם מסומנים בנקודה אדומה. אם 50 מתוך האלף מסומנים, מסיקים כי פרופורציית הדגים המסומנים באגם היא 5%, ומכיוון שידוע לנו כי יש באגם 1000 דגים מסומנים המהווים 5% מכלל הדגים באגם, ולכן אמדן של סך כל מספר הדגים באגם הוא 20,000.

מקרה ספירת המתים דומה. הדג המסומן בנקודה אדומה הוא המשל, ההרוג במלחמה הוא הנמשל. אבל יש כאן כמה בעיות. ראשית, במקרה של ספירת ההרוגים, בניגוד לספירת הדגים, אנחנו לא באמת יודעים כמה דגים מסומנים יש באגם. שנית, מה קורה אם מי שביצע את התפיסה השניה של הדגים היה רשלן, ודיווח אמנם כי תפס 50 דגים המסומנים בנקודה אדומה, אך שכח לספור ולכן לא דיווח כמה דגים תפס בסך הכל, מסומנים ולא מסומנים? לא נוכל לבצע את התרגיל הפשוט שביצענו קודם. נוכל כמובן לשלוח אותו לבצע שוב את המשימה, בתקווה שיבצע אותה טוב יותר, אך במקרה של ספירת ההרוגים, אין דרך מעשית לדגום קבוצה של אנשים ולבדוק מי מהם נהרג במלחמה ומי לא. הנתונים הטובים ביותר שנוכל לקבל הן הרשימות, כאשר חלק מהאנשים מופיעים ביותר מרשימה אחת.

הבעיה השלישית היא הקשה ביותר: בסיפור של הדגים, המתנו בין התפיסה הראשונה והשניה, כדי שהדגים יתערבבו בינם לבין עצמם ותיווצר אי תלות סטטיסטית בין המדגם הראשון למדגם השני. אין שום סיבה להניח כי אי תלות כזו קיימת בין רשימות ההרוגים השונות, אדרבא. כאן דרושה עזרתו של הסטטיסטיקאי, שיבנה מודל (או מספר מודלים) למבנה התלות בין הרשימות השונות. ייתכן מאוד כי מודלים שונים יתנו תוצאות שונות, ולסטטיסטיקה יש גם כלים להשוואה בין מודלים ובחירה במודל "הטוב ביותר" לפי קריטריון כזה או אחר.

אז בפעם הבאה שאתם רואים הערכות שונות למספר ההרוגים בסכסוך מסויים (ובעצם הערכות שונות לספירה כמותית של פרטים או פריטים כלשהם), התייחסו למספרים בספקנות. שאלו אולי לגבי השיטות הסטטיסטיות שבהן נעשה שימוש. התעקשו על קבלת מדד למידת אי הודאות שבאמדן (סטיית תקן, רווח סמך וכדומה). ואל תכעסו אם אתם נתקלים בשני אמדנים שונים. מדובר בבעיה סטטיסטית קשה, וגישות שונות לפתרונה יביאו ככל הנראה לתוצאות שונות.

 

מקורות (הרצאות בכנס JSM, בוסטון, אוגוסט 2014):

* Global Impact: Statistical Analyses of Conflict Data in Syria, Guatemala, and Colombia — Shira Mitchell, Harvard ; Al Ozonoff, Harvard ; Kristian Lum, Virginia Tech ; Alan M. Zaslavsky, Harvard ; Brent Coull, Harvard School of Public Health

* Estimating Undocumented Deaths During the Syrian Conflict — Patrick Ball, Human Rights Data Analysis Group ; Anita Gohdes, Human Rights Data Analysis Group ; Megan Price, Human Rights Data Analysis Group

* Record Linkage and Capture-Recapture in the the Analysis of Genocide in Guatemala — Patrick Ball, Human Rights Data Analysis Group

* Large-Scale Clustering Approaches for Identifying Unique Human Rights Violations — Samuel Ventura, Carnegie Mellon

* Bayesian Multiple-Recapture Estimation of Casualties in Armed Conflicts Using Nonparametric Mixtures — Daniel Manrique-Vallier, Indiana University

מבט להיסטוריה של הניסויים הקליניים

רשימה זו נכתבה בעקבות המפגש האחרון של קבוצת הדיון בהיסטוריה של הסטטיסטיקה שעסקה בניסויים קליניים. אציין כי אני הוא שהעלה את הנושא לדיון, והייתי אחראי לאיסוף והפצת חומר הקריאה למפגש. חלק מהחומרים שנקראו כבר סקרתי בעבר בהרצאה "מהלימון ועד הקופקסון" שנתתי במסגרת "ספקנים בפאב" (ואפשר לצפות בהקלטתה על ידי לחיצה על הקישור). רשימה זו כוללת סקירה היסטורית קצרה של חמשת הניסויים הקליניים שנדונו.לאחר הסקירה ההיסטורית שנתתי נערך דיון מעניין שעסק בהיסטוריה ובפילוסופיה של המדע, ובהשפעות של בייקון ומיל על התפתחות השיטה המדעית והשתקפותם בתהליך התפתחות הניסויים הקליניים. למרבה הצער, לא הצלחתי לארגן את ההערות שרשמתי לעצמי בזמן הדיון לטקסט קוהרנטי שאני יכול לפרסם כאן.

הניסוי הראשון הוא ניסוי הצפדינה של ג'יימס לינד, שנחשב בעיני רבים לנקודת ההתחלה של הרפואה המודרנית. זהו הניסוי הקליני המבוקר המתועד הראשון (( 1. אם מתעלמים מפרק א' של ספר דניאל )). לינד ערך ניסוי לבדיקת טיפולים אפשריים למחלת הצפדינה, גורם המוות העיקרי בקרב מלחים עד סוף המאה ה-18. (( 2. 2 מתוך כל 3 מלחים לקו במחלה ומתו. במלחמת 7 השנים בין אנגליה לצרפת, 1512 מלחים אנגלים נהרגו בקרבות, כ-100,000 מתו מצפדינה. )). בניסוי שנערך בהפלגה קצרה יחסית בים התיכון בשנת 1749, חילק לינד את 12 המלחים שחלו בעת ההפלגה לשש קבוצות שוות. כולם שוכנו באותו מקום בספינה וקיבלו תפריט זהה, שנבדל רק בטיפול הניסיוני שניתן להם. הטיפולים היו: שתיית ליטר סיידר ביום, שתיית 25 טיפות חומצה גופרתית 3 פעמים ביום, שתיית שתי כפות חומץ 3 פעמים ביום, שתיית חצי ליטר מי ים ביום, משחה שהוכנה משום, חרדל, צנון ושרף, או  אכילת שני תפוזים ולימון ביום. המטופלים בפירות הדר החלימו כליל, ובמצבם של המטופלים בסיידר חל שיפור קל. ההשוואה בין הקבוצות אפשרה ללינד להעריך את יעילותו של כל טיפול ביחס לאלטרנטיבות הטיפוליות האחרות.

ציון הדרך הבא הוא סדרת הניסויים של וויליאם ווטסון לבחינת טיפולים להפחתת הסיכון במחלת האבעבועות השחורות. כבר במאה ה-11 היה ידוע כי מי שחלה במחלה זו ושרד לא יחלה בה שוב. עקב כך התפתחה פרקטיקה של מעין חיסון למחלה על ידי "הדבקה קלה" של אנשים בריאים במחלה. עם זאת, בין הרופאים היו מחלוקות בדבר אופן ההדבקה האופטימלי ובדבר טיפול נלווה להדבקה. ווטסון ערך סדרה של שלושה ניסויים קליניים בבית החולים לילדים בלונדון בשנת 1767 (( 3. Boylston, A. W. (2002). Clinical investigation of smallpox in 1767.New England Journal of Medicine, 346(17), 1326-1328. )). המתודולוגיה שלו הייתה דומה לזו של לינד: הילדים המשתתפים בכל ניסוי חולקו לקבוצות, ובכל קבוצה בוצעה בנבדקים "הדבקה מבוקרת" על ידי שימוש בשלפוחית משלב מוקדם של המחלה. לכל קבוצה ניתן טיפול נלווה אחר שהיה אמור להפחית את הסיכון בהדבקה. בתכנון הניסויים של ווטסון יש מספר חידושים לעומת הניסוי של לינד. ווטסון דאג כי בכל קבוצת טיפול יהיה מספר שווה של בנים ובנות, כדי למנוע הטיה אפשרית למקרה שהתגובה לטיפול שונה בין המינים. כמו כן, קבוצה אחת בכל ניסוי לא קיבלה טיפול נלווה אלא שימשה כקבוצת ביקורת. והחשוב מכל: ווטסון היה הראשון שהנהיג מדידה כמותית של התוצאות. המדד להצלחת הטיפול היה מספר האבעבועות שהופיעו בכל ילד שהשתתף בניסוי. הוא אף ערך ניתוח סטטיסטי בסיסי ופרסם את ממוצע מספר השלפוחיות לילד בכל קבוצה. מסקנתו של ווטסון הייתה כי הטיפולים המקובלים להפחתת הסיכון, שכללו כספית, צמחים שונים ומיני משלשלים, לא הביאו להקלה בחומרת ההדבקה בהשוואה למודבקים שלא קיבלו טיפול נלווה.

נקודת הציון המשמעותית הבאה היא ניסוי החלב במחוז לאנרקשיר בסקוטלנד בראשית המאה ה-20 (( 4.  Leighton G, McKinlay P (1930). Milk consumption and the growth of school-children. Department of Health forScotland, Edinburgh and London: HM Stationery Office. )). מטרת הניסויים היה לבדוק האם הזנה יומית בחלב משפרת את הגדילה של ילדים (וילדות) בהשוואה לילדים שלא שתו חלב על בסיס יומי, וכן לבדוק האם יש הבדל בשיעורי הגדילה בין ילדים שהוזנו בחלב טרי ובין אלה שהוזנו בחלב מפוסטר. הניסוי, שנערך ב-1930 היה רחב היקף וכלל בסך הכל כעשרים אלף ילדים בגילאי 6-12, שלמדו ב-67 בתי ספר. כ-5000 הוזנו בחלב טרי, כ-5000 בחלב מפוסטר, וכ-10000 ילדים שויכו לקבוצת הביקורת. גובהם ומשקלם של הילדים נמדדו בתחילת הניסוי (פברואר 1930) ובסופו (יוני 1930). המסקנה הייתה כי תזונה יומית של חלב משפרת את גדילת הילדים, וכי אין הבדל משמעותי בין חלב טרי לחלב מפוסטר. כמו כן הסיקו החוקרים כי אין השפעה לגיל הילדים על האפקט של קצב הגדילה.

ניסוי זה נכנס לרשימה שלי דוקא בשל הביקורת שהוטחה בו. עם המבקרים נמנו פישר ובארטלט, אולם את הביקורת המקיפה ביותר הטיח "סטודנט", הלא הוא ויליאם סילי גוסט. במאמר שפרסם בכתב העת ביומטריקה (( 5. Student (1931). The Lanarkshire Milk Experiment. Biometrika 23:398-406. )) קבע למעשה סטודנט כללים שקיומם הכרחי להבטחת התקפות של ניסוי קליני:

  • סטודנט מעיר כי בכל בית ספר בניסוי הוזנו הילדים המטופלים בחלב טרי או בחלב מפוסטר, אך לא הייתה נציגות לשתי הקבוצות יחד באף בית ספר. עקב כך, אין אפשרות להשוות באופן ישיר בין חלב טרי ומפוסטר, עקב הבדלים בין בתי הספר השונים.
  • שיוך התלמידים בניסוי לקבוצת הטיפול (הזנה בחלב או ביקורת) נקבע על ידי המורים בכל כיתה ולא באופן רנדומלי. עקב כך, נוצר מצב בו התלמידים בקבוצת הביקורת היו גדולים יותר במימדי גופם לעומת התלמידים בקבוצות הטיפול.
  • המדידות נערכו בפברואר ויוני. בגדי חורף הינם כבדים יותר מבגדי אביב/קיץ, והבדל המשקל בין הבגדים קיזז את ההבדלים במשקל האמיתי. החוקרים הניחו כי ההבדל במשקל הבגדים יהיה דומה בין הקבוצות, אולם סטודנט טען כי יש ההטיה בחלוקת התלמידים לקבוצות מושפעת ממצבם הכלכלי – תלמידים ממשפחות אמידות הוכללו בדרך כלל בקבוצות הביקורת – הביאה לכך שמשקל בגדי החורף של קבוצת הביקורת יהיה גבוה יותר.

סטודנט הסיק לכן כי התוצאות שהתקבלו לא תומכות בטענה כי אין הבדל בין תזונה בחלב טרי ותזונה בחלב מפוסטר, וגם כי אי אפשר להסיק שאין קשר בין הגיל ובין השינוי בקצב הגדילה. הוא מזכיר גם את הניתוח של פישר וברטלט (( 6. Fisher RA, Bartlett S (1931). Pasteurised and raw milk. Nature 127:591-592.  )) המראה כי לחלב טרי יתרון על חלב מפוסטר באשר לקצב הגדילה.

סטודנט הביא גם מספר המלצות, ובהן הצעה לערוך את הניסוי באוכלוסיה של תאומים, כאשר אחד התאומים יוזן בחלב והשני ישמש כביקורת (או שאחד מהם יוזן בחלב טרי והשני בחלב מפוסטר לצורך השוואה בין שני סוגי החלב). אני סבור כי תכנון כזה לא מקובל בימינו מבחינה אתית, המלצה יותר מעשית היא לנתח מחדש את הנתונים שנאספו כדי לנסות להתגבר על ההטיה שנוצרה בהקצאה הלא רנדומלית לקבוצות טיפול וביקורת. ההמלצה האוטינטיבית שלו היא לערוך מחדש את הניסוי, תוך כדי הקפדה על רנדומיזציה, לקיחה בחשבון של הטיה עקב משקל הבגדים שלובש כל תלמיד, ותכנון הניסוי כך שבכל בית ספר יהיה ייצוג לשלוש קבוצות הטיפול.

ההמלצה העיקרית של סטודנט, להקפיד על הקצאה רנדומלית של המטופלים לקבוצות, לא התקבלה מייד, שכן רעיון זה נתפש בעיני חלק מהקהילה המדעית כ-"לא אתי". יש לציין כי עקרון הרנדומיזציה רק הוצג על ידי פישר ב-1923, ועדיין לא  הייתה הכרה מספקת בחשיבותו. הניסוי הקליני הראשון עם הקצאה רנדומלית לקבוצת טיפול ולקבוצת ביקורת נערך רק ב-1947, והוא הרביעי ברשימה שלי. מדובר בניסוי לבדיקת היעילות של אנטיביוטיקה מסוג סטרפטומיצין לטיפול בדלקת ריאות (( 7. Medical Research Council Streptomycin in Tuberculosis Trials Committee. (1948). Streptomycin treatment for pulmonary tuberculosis. BMJ2, 769-82. )). עקב המחסור באנטיביוטיקה, לא הייתה ברירה אלא להחליט על ידי ביצוע "הגרלה" בין החולים מי יקבל טיפול ומי לא, וכך התגבר תכנון הניסוי על המחסום האתי. עם זאת, הניסוי לא היה כפול סמיות (Double Blind), ולא נעשה שימוש בפלסבו כטיפול דמה לקבוצת הביקורת, (( 8. Hart, P. D. A. (1999). A change in scientific approach: from alternation to randomised allocation in clinical trials in the 1940s.BMJ, 319(7209), 572-573. )) וזאת למרות שכבר היה תקדים לקיום ניסוי כזה: הניסוי הקליני הראשון שנערך בשיטת הסמיות הכפולה נערך כבר בשנת 1943 לבדיקת היעילות של פניצילין כטיפול להצטננות. החולים המטופלים לא ידעו האם הם שויכו לקבוצת טיפול ואכן טופלו בפניצילין, או שמא שויכו לקבוצת הביקורת וטופלו בפלסבו. גם הרופאים שטיפלו בחולים לא ידעו מהו הטיפול שקיבל כל חולה. תכנון כזה מונע הטיה שעלולה לנבוע מדיעה קדומה של הרופאים לגבי יעילות הטיפול, ולמעשה מכריח אותם לתת חוות דעת אובייקטיבית לגבי המצב הרפואי של החולה המטופל. עם זאת, בניסוי זה לא נערכה הקצאה רנדומלית של החולים לטיפול או ביקורת.

הויכוח בדבר חשיבות העקרונות שהתוו סטודנט ופישר הסתיים סופית בניסוי לבדיקת יעילות החיסון של סאלק נגד נגיף הפוליו, שנערך ב-1954 (( 9. Meier, Paul. "Polio trial: an early efficient clinical trial." Statistics in medicine 9.1‐2 (1990): 13-16.  )). למעשה נערכו שני ניסויים. הניסוי שבראשו עמד הסטטיסטיקאי פול מאייר היה ניסוי כפול סמיות בהקצאה רנדומלית, והוא הראה ירידה של 70% במקרי השיתוק עקב פוליו בקבוצת הטיפול לעומת קבוצת הביקורת. גודל המדגם הגדול (כ-400 אלף ילדים בגילאי 6-8) סייע לביסוס התקפות החיצונית של התוצאות. במקביל נערך ניסוי נוסף, בו הקצאת הטיפול (חיסון או פלסבו) לא הייתה רנדומלית. 725,000 תלמידי כיתות א ו-ג שהשתתפו בניסוי שימשו כקבוצת ביקורת, ואליהם צורפו גם 125,000 ילדים מכיתות ב' שהוריהם סירבו לחיסון. נתוניהם הושוו עם הנתונים של 225,000 תלמידי כיתות ב' שהוריהם הסכימו לחסנם. סה"כ השתתפו בניסוי מעל מליון תלמידים, כמעט פי 3 מגודל הניסוי של מאייר. ניסוי זה הראה ירידה של 44% בלבד בשיעור מקרי השיתוק עקב פוליו, ואולם התברר כי האפקט הוקטן עקב הטיה הקשורה למצב הסוציו-אקונומי של קבוצת הטיפול. ילדי קבוצת הטיפול הגיעה ממשפחות אמידות יותר, ובשכבת אוכלוסיה זו שיעור מקרי השיתוק עקב פוליו היה גבוה יותר מכיוון ששיעור הילדים המחוסנים טבעית (חלו בפוליו באופן קל והחלימו ללא תיעוד) הינו נמוך יותר עקב רמת הסניטציה הגבוהה יותר בסביבתם. המקרה של ניסוי הפוליו הוכיח כי גודל המדגם אינו בהכרח הפרמטר החשוב ביותר בניסוי הקליני (( 10. ראו גם את הרשימה בחירות 1936 – המנצח שלא היה, שעסקה במקרה מפורסם אחר בו מדגם גדול לא הצליח לחזות את המנצח בבחירות לנשיאות ארצות הברית עקב הטיה בתכנונו)), וכי רק הקצאה רנדומלית וסמיות כפולה מבטיחים את התקפות הפנימית של הניסוי.

כמה הערות על זרעים מהונדסים גנטית

זרעים מהונדסים גנטית מעוררים רגשות עזים בקרב אנשים מסויימים. מתברר שגם אצלי.

לפני כשבוע הופיעה באתר "המקום הכי חם בגיהנום" טור דיעה תחת הכותרת "זרע הפורענות". הכותב, יוסי דורפמן, יוצא נגד הסכם שנחתם לאחרונה בין משרד הכלכלה ותאגיד החקלאות המהונדסת גנטית וחומרי ההדברה מונסנטו. אתר "עבודה שחורה" חזר ופרסם חלק מטורו של דורפמן, ושם הגבתי ביום חמישי האחרון במלים הבאות:

"חשוב מאוד להפריד בין המהות של זרעים מהונדסים גנטית, שצופנים בתוכם תועלת רבה לאנושות, ובין ההתנהלות העסקית של תאגיד מונסנטו, שהיא אכן בעייתית.
הדרך הראויה להתמודדות היא לא להתעלם מההתקדמות המדעית/טכנולוגית שמאפשרת יבולים גדולים יותר ואיכותיים יותר, אלא להשית רגולציה נכונה על התאגיד."

אני חושב שהסברים נוספים מיותרים. זרעים מהונדסים גנטית מניבים יבולים גדולים יותר, ומתוכננים לעמוד בפני מזיקים שונים, שצמחים "רגילים" אינם עמידים אליהם. הם משקפים את היכולות המדעיות והטכנולוגיות אליהם הגיעה האנושות בשנים האחרונות.

אני גם רוצה לחזור ולהדגיש כי ההתנהלות העסקית של תאגיד מונסנטו (בעיקר בנושא תביעות על הפרות פטנטים) היא בעייתית גם בעיני. עם התנהלות זו יש להתמודד באמצעות רגולציה, חקיקה, וגם בעזרת שופטים שיעיפו לכל הרוחות תביעות לא מוצדקות (( 1. למשל אם היבול נוצר כתוצאה מהאבקה טבעית באמצעות רוח או ציפורים, שפיזרו את הזרעים בשטח, והגיעו מחקלאי שכן)) עם הוצאות משפט כבדות. אני בהחלט גם מתנגד לחקיקה ייעודית לטובת תאגידים בכלל ומונסנטו בפרט, לקשרי הון שלטון, לשוחד, ולפעולות פליליות אחרות.

ולאחר כל ההסתייגויות הנ"ל, אני רוצה להפנות את תשומת לב קוראיי לכמה אמירות בעייתיות של דורפמן.

דורפמן כותב כי מונסנטו מחזיקה ב-90% משוק הזרעים המהונדסים גנטית, וזה נכון. הסיבה לכך: מונסנטו מחזיקה ברוב הפטנטים בתחום, והפטנטים עדיין בתוקף. עם זאת, יש לשים לב כי החל ב-2015 יחלו פטנטים רבים לפקוע, וצפויה תחרות גדולה מצד יצרנים גנריים, בדיוק כפי שקורה בתעשיות אחרות, כגון תרופות וחומרי הדברה. לכן צפוי כרסום במונופול. עד אז, יש לזכור כי מונופולים מעצם הגדרתם נתונים לרגולציה (בישראל, על ידי הממונה על ההגבלים העסקיים). אני מקווה שהממונה לא יגלה אזלת יד בנושא זה.

בעניין שימוש חוזר בזרעים: למיטב ידיעתי, הזרעים הצמחים המהונדסים גנטית כלל אינם מניבים זרעים. הסיבה לכך נעוצה בטבע. אם יניבו צמחים אלה זרעים, יופיעו באופן טבעי מוטציות שונות שעשויות/עלולות לשנות את התכונות של הצמחים בדור הבא. אם רוצים להבטיח תכונות מסויימות של זרעים, המוטבעות בהם באופן גנטי, הדרך היחידה להבטיח זאת היא על ידי הנדוס. האם זה הוגן? אפשר להתווכח. אפשר אולי להנדס זרעים כך שתתאפשר הצמחת מספר נוסף של דורות (שנים או שלושה) באופן שההסתברות לסחף גנטי משמעותי היא קטנה דיה. אני מניח שזה גם יתבטא במחיר הזרעים.

עד עכשיו דיברתי על אי דיוקים ועל אי הבנה. עכשיו מגיעים להטעיות.

דורפמן כותב: "מחיר של שקית זרעי תירס בשנות ה-80 בארצות הברית היה כ-70 דולר, ואילו היום עולה שקית זרעי תירס יותר מ-160 דולר". נו באמת. זה הטריק הכי ישן בספר. יכול להיות שדורפמן לא יודע כי כח הקניה של הדולר השתנה מעט מאז שנות ה-80 של המאה העשרים ועד היום? אני מפנה אתכם למחשבון האינפלציה באתר משרד העבודה של ארצות הברית. 70 דולר של שנת 1980 שווים ל-201 דולר של שנת 2014, מה שמשקף ירידה ריאלית של 20% במחיר שקית הזרעים. כן, אני קצת דמגוגי כאן. אולי שנות ה-80 של דורפמן חלו בשנת 1989? 70 דולר של 1989 שווים לכ-134 דולר, וזוהי אכן עליית מחיר ריאלית של 20% ((2. מ-70 דולר ב-1989 ל-160 היום)). אוקיי, אבל בכל זאת מדובר במוצר שיניב יבול גדול יותר ועשוי להביא רווח גדול יותר לחקלאי.

דורפמן ממשיך, וזועק כי הזרעים המהונדסים גנטית העלו את שיעור ההתאבדויות של איכרים בהודו (( 3. הוא נותן לינק לכתבה בהארץ, ותוך כדי כך מעוות את הדברים שנאמרו בכתבה)), בלי לבדוק את העובדות, כמובן. כתבתי על כך בהרחבה לא מזמן. הנתונים מראים דווקא את ההיפך: ניתן לקשר את הנהגת השימוש בגידולים מהונדסים גנטית לירידה בשיעורי ההתאבדות בקרב איכרים בהודו (שגם הם נמוכים יחסית ללא-איכרים בהודו בפרט, ולמדינות העולם בכלל). אך דורפמן לא מתעניין, כנראה, בעובדות.

מעניין לציין שקיבלתי תגובה לתגובה שלי ב-"עבודה שחורה" (( 4. המגיב הגיבור לא מספיק אמיץ כדי להזדהות בשמו, והוא יודע למה)):

"אחשלי אין משהו מתקדם יותר מהטבע וגם ידוע שאתה מקבל כסף על הפוסט הזה ,
וכל המהות של החברה זה לעשות כסף ממה שהטבע עושה בחינם יא גנבים קפיטליסטים )) ספר להם שהזרעים שלכם צריכים ריסוס מתמיד מאסיבי"

כן, אין משהו יותר מתקדם מהטבע. רעידות אדמה, בצורת, נגיפי אבעבועות שחורות ופוליו, הכל טבעי. שיהיה לך לבריאות.

על מכבי תל אביב ורוג’ר פדרר

האמת, לא ראיתי את המשחק בין מכבי תל-אביב וצסק"א מוסקבה בפיינל פור 2014 של היורוליג. אני לא צופה במשחקי כדורסל מאז הזכיה האחרונה של שיקגו בולז באליפות ה-NBA, ב-1998. בלי מיקל ג'ורדן, אני פשוט משתעמם. אבל על מה שקרה במשחק של מכביי שמעתי גם שמעתי.

למי שלא שמע: כשקבוצתו בפיגור של 15 נקודות בסוף הרבע השלישי של המשחק, הורה דייויד בלאט,  מאמן מכבי, לשחקניו לנסות ללכת על כל הקופה: לעבור למשחק מהיר, הגנה אגרסיבית, וזריקות לשלוש נקודות, תוך תקווה שהיריבה תעשה יותר טעויות מהרגיל.

במונחי ספורט, אולי זה היה הימור. במונחים סטטיסטיים, בלאט החליט להגדיל את השונות. לאחר 3 הרבעים הראשונים, המשחק כבר לא היה שקול. האסטרטגיה של בלאט הגדילה את ההסתברות לתבוסה: המשחק היה יכול להגמר ב-30 נקודות הפרש לטובת צסק"א, אבל במשחק של הכל או לא כלום, זה באמת לא משנה אם ההפסד הוא בהפרש של 15 נקודות או 30 נקודות. לעומת זאת, לקיחת הסיכון גם אפשרה הסתברות לרבע שייגמר ב-16 נקודות הפרש לטובת מכבי, בניגוד לאסטרטגיות של 3 הרבעים הראשונים במשחק שמהלכם לא היה טוב במיוחד מנקודת הראות של הצהובים.

איך זה קשור לרוג’ר פדרר?

הסבר קצר על משחק הטניס. המשחק הטיפוסי מורכב משלוש מערכות, וכדי לנצח על הזוכה לנצח בשתי מערכות מתוך ה-3 (( 1. ישנם טורנירים בהם המנצח נקבע בשיטת הטוב מ-5 מערכות)). כל מערכה מורכבת ממשחקונים, וכדי לנצח במערכה יש לנצח ב-6 (ולפעמים 7 או יותר) משחקונים. כך יכול להווצר מצב מוזר: שחקן שהפסיד 6:1 במערכה הראשונה (כלומר ניצח במשחקון אחד והפסיד ב-6), וניצח בשתי המערכות הבאות בתוצאה 6:4, זכה המשחק כי ניצח ב-2 מערכות מתוך ה-3, אבל ניצח בסך הכל ב-13 משחקונים, בעוד שיריבו ניצח  ב-14 משחקונים. תופעה זו, המזכירה את פרדוקס סימפסון,  קורה בערך ב-5% ממשחקי הטניס המקצועניים (( 2. Wright, B., Rodenberg, R. M., & Sackmann, J. (2013). Incentives in Best of N Contests: Quasi-Simpson's Paradox in Tennis.International Journal of Performance Analysis in Sport13(3), 790-802. )). דבר דומה קרה גם במשחק הכדורסל: צסק"א ניצחה ב-3 מתוך 4 רבעי המשחק, אך הפסידה במשחק כולו.

מסתבר כי אלוף העולם בהפסדים ב-"משחקי סימפסון" בענף הטניס הוא לא אחר מאשר רוג’ר פדרר, אחד מגדולי הטניס בכל הזמנים. הוא שיחק ב-28 משחקים בהם המפסיד זכה ביותר משחקונים מאשר המנצח. המאזן שלו? 24 הפסדים, רק 4 ניצחונות.

מעניין לציין כי השחקן בעל המאזן הטוב ביותר במשחקים כאלה הוא ג'ון אייזנר , עם מאזן של 19 נצחונות ו-5 הפסדים. אייזנר זכור גם כמנצח במשחק הארוך ביותר בהיסטוריה, בטוניר וימבלדון ב-2010, בו ניצח את יריבו בתוצאה 70:68 במערכה החמישית. במשחק הנ"ל, אייזנר זכה ב-24 נקודות פחות מאשר יריבו. (( 3. כדי לנצח במשחקון, יש לצבור יותר נקודות מאשר היריב)) אייזנר מבסס את כל משחקו על חבטת הגשה חזקה במיוחד שמותירה את היריב ללא מענה במקרים רבים. כאשר ליריב יש מענה, לאייזנר בדרך כלל אין.

למי שמשחק מול פדרר אין הרבה סיכויים לנצח; פדרר ניצח ביותר מ-80% המשחקים בהם השתתף. מעבר לכך – שיטת הניקוד בטניס מוטה לטובת השחקן הטוב יותר. יתרון קטן על היריב מתורגם על ידי שיטת הניקוד להבדל משמעותי בסיכויי הניצחון במשחק. הדרך הכמעט יחידה לנסות לנצח את פדרר היא להגדיל את הסיכון על ידי משחק אגרסיבי. אתה עלול להפסיד שתי מערכות בתוצאה 6:0, אבל יש לך גם סיכוי להפסיד פחות משחקונים מאשר בדרך כלל, ואם תנצח מספיק משחקונים, אולי זה יספיק לך לנצח בשתי מערכות צמודות, ואז למי איכפת מהמערכה בה פדרר הביס אותך?

ניסוי קליני מתוכנן היטב לבדיקת תכשיר הומיאופתי – ניתוח מקרה

אני מקווה שרוב קוראיי (כלומר, לפחות ארבעה!) מכירים את הבלוג “חשיבה חדה" שכותב ידידי גלעד דיאמנט, ו/או את קבוצת הפייסבוק הקשורה אליו. אם לא זו ההזדמנות לערוך היכרות. אני פותח המלצה על הבלוג והקבוצה, משום שדיון בקבוצה הוביל אותי לכתיבת הרשימה הנוכחית.

הכל התחיל בלינק לידיעה על יצרנית תכשירים הומיאופתיים שנאלצה לקרוא להחזרת חלק ממוצריה בגלל שהכילו אנטיביוטיקה (אופס). בדיון שהתפתח, כתב אחד מחברי הקבוצה, אור גרשון, כי מישהו הציג לו מחקר קליני שבדק טיפול הומיאופתי לאלרגיה, שהראה כי הטיפול ההומיאופתי יעיל, ותהה כיצד משיבים לטיעון כזה. חבר אחר בקבוצה התנדב לקרוא את המאמרים ולנתח את הכשלים שבהם.

עד כאן הכל טוב ויפה, אולם לאחר שקראתי את הניתוחים בפייסבוק נאלצתי להסתייג מהם. הבטחתי לקרוא את המאמרים, והתחייבתי להגיב גם למאמרים וגם להערות שבדיון במועד מאוחר יותר. אמנם עברו כבר כמה שבועות, ואני אמנם לא בן למשפחת לאניסטר, אבל אעמוד בהתחייבותי, לאחר שקראתי גם את המאמר עצמו, וגם את התגובות למאמר שפורסמו בכתב העת לאחר פרסומו.

אני רוצה להדגיש כי הביקורת שאכתוב מייד על הדברים שכתב הקורא אינה מיועדת להלבין את פניו ברבים, אלא מתוך רצון כן לסייע לו ולקוראים האחרים להבין טוב יותר את הניסוי, תכנונו, והניתוח הסטטיסטי.

כמו כן, אני מוצא את עצמי נאלץ להגן על ניסוי קליני הומיאופתי מפני טענות על כשלים כביכול שהוטחו בו, מכיוון שהטענות אינן נכונות. הניסוי המתואר במאמר הוא לדעתי ניסוי מתוכנן היטב, ומנטרל בצורה טובה מאוד הטיות אפשריות במחקר מסוג זה. למרות זאת, תקפות התוצאה שפורסמה בהבלטה במאמר, המראה יתרון טיפולי להומיאופתיה על פני פלסבו באחד המדדים, מוטלת בספק. רק אחד המבקרים של הניסוי הצליח להצביע על נקודת הכשל.

מדובר המאמר ישן למדי, שפורסם בשנת 2000 בכתב העת BMJ, שבהחלט אינו כתב עת זניח. המאמר (( 1. Taylor, M. A., Reilly, D., Llewellyn-Jones, R. H., McSharry, C., & Aitchison, T. C. (2000). Randomised controlled trial of homoeopathy versus placebo in perennial allergic rhinitis with overview of four trial seriesBMJ: British Medical Journal,321(7259), 471.)) תיאר, כאמור, ניסוי קליני בו נבדק טיפול הומיאופתי ל- perennial allergic rhinitis (דלקת/נזלת בחלל האף הנגרמת עקב אלרגיה לא עונתית). הניסוי המתואר פשוט מאוד. המועמדים/מתנדבים להשתתפות בניסוי עברו תהליך סינון, בו נבדק האם מצבם הרפואי מתאים לטיפול, נעשתה הערכה של האלרגנים שגרמו למצבם, ולכולם ניתן טיפול ראשוני. לכל החולים בשלב זה ניתן פלסבו, אך נאמר להם כי הם קיבלו טיפול הומיאופתי מותאם למצבם. במשך שבועיים המועמדים היו מטופלים בפלסבו שחשבו כי הוא טיפול הומיאופתי, וניהלו רישום יומי של מצבם. לתקופת מעבר זו, בה החולים אינם מטופלים אך חושבים כי קיבלו טיפול הומיאופתי, יש שתי מטרות: איסוף נתוני בסיס, וניטרול אפקט פלסבו אפשרי. לאחר תקופת המעבר, חולקו החולים בהקצאה רנדומלית לשתי קבוצות. קבוצה אחת קיבלה טיפול הומיאופתי, השניה המשיכה לקבל פלסבו. החלוקה נעשתה בסמיות כפולה; לא החולים ולא הרופאים/חוקרים ידעו איזה סוג של טיפול קיבל כל חולה. החולים המשיכו לערוך רישום של מצבם במשך ארבעה שבועות נוספים. בסיום הניסוי, נערכה השוואה של השינוי הממוצע מהבסיס לסיום הטיפול בין שתי הקבוצות. החוקרים חישבו כי כדי לשמור על רמת מובהקות (הסתברות לתוצאה חיובית שלילית – false positive) של 5%, ובמקביל להשיג עוצמה (הסתברות לתוצאה חיובית כאשר יש אפקט טיפולי  – true positive) של 80%,  יש צורך במדגם בגודל 120 חולים (60 בכל קבוצה). בפועל הצליחו החוקרים לגייס לניסוי רק 51 חולים. עד כמה זה קריטי? אתייחס לכך בהמשך.

תוצאת הניסוי: נצפה הבדל מובהק סטטיסטית בין הקבוצות, המראה יתרון לטיפול ההומיאופתי במדד Nasal inspiratory peak flow, עם זאת, במדד Visual analogue scale (VAS), לא נצפה אפקט טיפולי. המדד הראשון, בו התקבלה תוצאה מובהקת סטטיסטית נחשב למדד אובייקטיבי, ואילו המדד השני נחשב לסובייקטיבי. החוקרים גם מציינים כי ההבדל המובהק במדד הראשון נחשב משמעותי מבחינה קלינית.

בהמשך סוקרים החוקרים תוצאות של שלושה ניסויים אחרים שקדמו לניסוי זה, ועורכים ניתוח מאוחד (pooled  analysis) המסכם יחדיו את תוצאותיהם. ברשימה זו לא אתייחס לחלק זה של המאמר/

כצפוי, המחקר עורר סערה, ובמערכת כתב העת התקבלו מספר תגובות המבקרות את המחקר וממצאיו (( 2. Homoeopathy versus placebo in perennial allergic rhinitis. BMJ: British Medical Journal, 2001; 322(7279): 169. )). הנה סקירה של חלק מהתגובות (הקשורות לתחומים שאני מבין בהם משהו) והתייחסותי.

בארי מילר, רופא מרדים במקצועו, טוען כי הניתוח הסטטיסטי לקוי, מכיוון שגודל המדגם בפועל היה רק 51 חולים, ולא 120 כפי שתוכנן. לכן עוצמת הניסוי הייתה, לפי חישוביו, רק 43% ולא 80% (לא בדקתי את החישוב). אומר בעדינות כי הטענה הזו מראה חוסר הבנה בסטטיסטיקה ובמתודולוגיה של ניסויים קליניים. ניתן לטעון, אולי, כי אין זה אתי לבצע ניסוי קליני שעוצמתו נמוכה, אבל מה זה קשור לניתוח הסטטיסטי? החוקרים משיבים לו כראוי, ומסבירים כי הסיכון הנובע מעוצמה נמוכה הוא הסתברות גבוהה יותר להחמצה של תגלית – false negative. במלים אחרות, כאשר העוצמה נמוכה, ייתכן שהניסוי לא יצליח לגלות את קיומו של אפקט אמיתי, אם הוא קיים. רמת המובהקות של הניסוי, ההסתברות לתגלית שגויה – false positive, כלומר מצב בו נראה כאילו יש אפקט טיפולי כאשר בפועל אין אפקט כזה, אינה תלויה בגודל המדגם. החוקרים עוד מגדילים לעשות, ומשערים כי ייתכן והתוצאה השלילית שהתקבלה במדד הסובייקטיבי VAS נבעה מגודל המדגם הקטן והעוצמה הנמוכה. במובן הזה, הביקורת של ד"ר מילר הייתה סוג של גול עצמי.

בריאן ליפוורת', פרופסור לאלרגיה ורפואה נשימתית, מעיר בין היתר כי היה רצוי וראוי לבצע ניסוי המשווה את הטיפול ההומיאופתי לטיפול הרפואי המקובל (כגון סטרואידים או אנטיהיסטמינים), הידוע כיעיל לטווח ארוך. הצדק עימו.

ד"ר יורגן וינדלר, ראש המחלקה לרפואה מבוססת ראיות במכון המחקר MDS באסן, גרמניה, מעלה טענה חזקה: חישובי גודל המדגם נעשו על פי מדד VAS, ועל סמך התוצאות שהתקבלו בשלושת הניסויים הקודמים. במדד זה הניסוי נכשל. כלומר, הניסוי לא הצליח לשחזר את התוצאות של הניסויים הקודמים. לדעתי זהו הכשל העיקרי בניסוי זה. מכיוון שחישובי גודל המדגם נעשו על פי מדד זה, הרי שבפועל זהו משתנה המחקר הראשי (primary endpoint) של הניסוי, (( 3. לא ברור לי מהקריאה במאמר האם בפרוטוקול הניסוי הוגדר מראש משתנה מחקר ראשי, ואם כן, מהו.)) ועל פי הכללים המקובלים בניסויים קליניים, כשלון במשתנה המחקר הראשי הוא כשלון הניסוי כולו. התייחסות להצלחה במשתנה מחקר משני לאחר כשלון במשתנה המחקר הראשי משמעותה ניפוח ההסתברות לטעות מסוג ראשון – false positive – של המחקר, והיא גדולה מ-5%, בניגוד למה שהוצהר. (( 4. לו נתנו החוקרים את דעתם על כך מראש, היו יכולים להגדיר את שני המשתנים כראשיים, ולהגדיר תיקון סטטיסטי שהיה מאפשר תוצאה מובהקת למשתנה השני גם כאשר הראשון אינו מובהק. ברור שלא עשו כן, אחרת היו מציינים זאת במאמר.)) ד"ר וינדלר מתייחס בהמשך גם לניתוח המאוחד של תוצאות כל ארבעת הניסויים, ומעיר מספר הערות נכונות לגבי ניתוח זה.

שתי תגובות נוספות הן של ה. מורו בראון, מומחה לאלרגיה, התוהה האם החולים סבלו מלכתחילה מדלקת אלרגית לא עונתית), ומייקל דין, סטודנט לדוקטורט בבריאות הציבור מאוניברסיטת יורק, שטען כי פרסום מחקר ברמה גבוהה המראה תוצאות חיוביות בטיפול הומיאופתי רק מבליט את הסטנדרט הכפול בהתייחסות של הממסד הרפואי להומיאופתיה.

מכאן אעבור להערות של הקורא בקבוצת הפייסבוק. הוא התייחס בתחילה דווקא לתגובות הקוראים למחקר, ובטעות ייחס אותן לעורכי כתב העת. כך הוא כותב , למשל (תיקנתי כמה טעויות כתיב/הקלדה):  "המאמר המצורף מתחיל בהערה מאת המפרסם: ‘Statistics in study were flawed’-סטטיסטיקות במחקר לוקות בחסר. מה זה אומר? זה אומר שהעורכים המקצועיים (שהם אנשי מקצוע לפני היותם עורכים מדעיים) עבור על הנתונים (שחייב כל מפרסם מאמר לספק יחד עם המאמר) ומצעו בו פגמים/כשלים בתחום הסטטיסטי."

ובכן, ההערה היא למעשה הכותרת שנתנו עורכי כתב העת לתגובתו של בארי מילר, וכבר הסברתי את הבעייתיות שבה. הקורא מצטט גם חלק מתגובתו של ד"ר וינדלר, ומייחס אותה לעורכי כתב העת, ולאחר מכן שוב חוזר לטענה לפיה המחקר פגום בגלל גודל המדגם הנמוך מהמתוכנן, וכותב: "החוקרים בסופו של דבר גייסו רק 51 נבדקים, אבל ניתחו את הנתונים כאילו היו להם כל ה120!". זה חוסר הבנה של הניתוח שבוצע במחקר. החוקרים ניתחו נתונים של 51 חולים, כי אלה הנתונים שהצליחו לאסוף. מספר החולים בכל קבוצה אכן נלקח בחשבון בעת ביצוע המבחן הסטטיסטי (מבחן t בניסוי הספציפי הזה). האם הקורא טוען כי החוקרים הציבו בנוסחאות גדלי קבוצות השווים ל-60, במקום 24 ו-27 כפי שהיה בפועל? זוהי האשמה חמורה ביותר, כיוון שמעשה כזה הוא רמאות לכל דבר. אני מתקשה להאמין שזה מה שקרה. כפי שהסברתי, גודל המדגם הנמוך פוגע אמנם בעוצמה הסטטיסטית של הניסוי, אך לא בתקפות הסטטיסטית שלו.

בהערה הבאה שלו בדיון, מתייחס הקורא למאמר המתאר את המחקר עצמו (וזה אינו המאמר "בצורה לא ערוכה" כפי שחשב בטעות). תחילה טוען הקורא כי "51 חולים אינה נחשבת קבוצת מדגם רחבה דיה". מדוע? האם זה נכון תמיד? לא ולא! גודל המדגם נקבע על פי שלושה גורמים: ההתפלגות הצפויה של הנתונים שייאספו בניסוי, גודל האפקט הטיפולי שמבקשים החוקרים לזהות, והעוצמה הסטטיסטית שהם מבקשים לעצמם (וזאת בהנחה שרמת המובהקות חייבת להיות 5%, הסטנדרט המקובל במחקר). לכל מחקר גודל המדגם המתאים לו. אפשר בקלות לבנות דוגמה בה גודל מדגם של 50, 40 או אפילו פחות מכך יהיה מספיק בהחלט.

הקורא טוען גם כי העובדה ש המשתתפים בניסוי הכירו את עקרונות ההומיאופתיה יצרה הטיה מחשבתית כלפי התרופה הנבדקת. אז מה? והאם בניסוי "רגיל", בו בודקים למשל את ההשפעה הטיפולית של אנטיביוטיקה לעומת פלסבו אין "הטיה מחשבתית"? בדיוק לשם כך עורכים ניסוי כפול סמיות. החולים לא ידעו אם טופלו בפלסבו או בתכשיר הומיאופתי, וגם החוקרים לא ידעו זאת. זהו סטנדרט הזהב לניסוי קליני. במאמר מסבירים החוקרים בפירוט את הנוהלים בעזרתם נשמרה הסמיות הכפולה.

הקורא ממשיך וטוען כי בגלל שבזמן הניסוי (אם כי לא בתקופת הסינון) הותר לחולים לקחת תרופות נוספות, אזי כל טענה שעולה מהמחקר מופרכת לחלוטין. זה בפירוש לא נכון, מכיוון שהחולים בשתי קבוצות הטיפול השתמשו בתרופות נוספות, וההשפעות אמורות להתאזן. אני מסכים שייתכן והיה מקום להגביל את השימוש בתרופות מסויימות, ו/או לתקנן את הניתוח הסטטיסטי על ידי הוספת משתנה מסביר לניתוח, אבל לא חושב שזו נקודה קריטית. הטענה של הקורא כי המחקר חייב להתבצע ב-"ואקום כימי" בו אסור למשתתפים ליטול אף תרופה אחרת היא בפירוש לא נכונה, ודרישה גורפת כזו אינה אתית.

הקורא גם טוען כי החלוקה הלא שווה בין הקבוצות: 27 בקבוצת פלסבו לעומת 24 בקבוצת הטיפול, מעלה תהיות לגבי מהימנות שיטת החלוקה (רנדומיזציה). ובכן, אי אפשר לחלק 51 חולים לשתי קבוצות שוות. הטוב ביותר שאפשר הוא חלוקה של 26-25. נכון, כאן החלוקה קצת פחות טובה: 24-27. אם תקחו מטבע ותטילו 51 פעמים, מה ההסתברות כי תקבלו בדיוק 26 הטלות של עץ ו-25 הטלות של פלי? (( 5. רק 11%, כלומר יש הסתברות של 89% כי התוצאה לא תהיה 25-26.)) אם תקבלו 27 עץ ו-24 פלי, האם תחשדו כי המטבע אינו הוגן? (( 6. לא. אם תבדקו את ההשערה כי ההסתברות של המטבע ליפול על עץ היא 0.5 תקבלו ערך-p של 0.6683. ))

הקורא חוזר לפרוצדורות של הניסוי: במאמר הוסבר כי הותאם תכשיר הומאופתי לכל משתמש בנפרד, על בסיס האלרגן שאליו הייתה לו התגובה הכי חמורה במבחן עור, ושבמקרה של אי ודאות נעשתה התייעצות עם רופא מנוסה בהומיאופתיה. מכאן מסיק הקורא, לא ברור לי על סמך מה, כי "המחקר כולו מבולגן ע"פ אנשים שונים עם אלרגיות שונות לאלרגנים שונים. כל אחד מהם מקבל תכשיר הומיאופתי שונה". אחת הטענות עיקריות של הומיאופתים בבואם להסביר מדוע לא ניתן לבחון טיפול הומיאופתי בניסויים קליניים, היא בדיוק הטענה הזו – לכל חולה יש צורך להתאים טיפול ייחודי. זהו עקרון בסיסי בהומיאופתיה. החוקרים עקפו את הבעיה הזו בצורה נהדרת: לכל חולה הותאם התכשיר ההומיאופתי המתאים לו, לדעת הרופא/הומיאופת המטפל. לאחר מכן הלך החולה לבית המרקחת, וקיבל שם או את התכשיר הומיאפתי שהותאם לו, או פלסבו, לפי תכנית הרנדומיזציה! החולה לא ידע אם קיבל תכשיר הומיאופתי או פלסבו, וגם לא הרופא המטפל. כך נשמרה הסמיות הכפולה. התהליך הוסבר במפורט במאמר, ולדעתי אין בכך כל פגם, אם כללי הפרוטוקול נשמרו.

הקורא ממשיך וכותב: "כמו גם מצוין כי ‘although the researchers were not blinded.’ – החוקרים לא היו 'בעיוורון', כלומר המחקר אינו באמת בסמיות כפולה.". זו הערה גרועה במיוחד מצידו של הקורא, המראה כי לקה בקריאה סלקטיבית והוציא דברים מהקשרם. החוקרים ידעו כי נתנו לחולים פלסבו ובכל זאת אמרו לחולים כי קיבלו תכשיר הומיאופתי בתחילת תהליך הסינון, אשר התרחש שבועיים לפני הרנדומיזציה עצמה. כפי שהסברתי קודם, המטרה הייתה לגרום לחולים לחשוב כי הם מקבלים טיפול הומיאופתי כדי לנטרל את אפקט הפלסבו, ובאותו זמן להחזיק אותם שבועיים ללא טיפול הומיאופתי, כדי לייצר נתוני בסיס נקיים מהשפעה אפשרית של הטיפול. תכנון מבריק.

לסיכום: רוב ה"כשלים" בניסוי עליהם הצביעו מבקריו אינם כשלים כלל וכלל. הבעיה העיקרית בניסוי היא הבעיה עליה הצביע ד"ר וינדלר: מתיאור הניסוי עולה כי הוא תוכנן כדי לזהות אפקט במדד מסויים – VAS, ונכשל לזהות את האפקט במדד הזה, ש/הוא משתנה המחקר הראשי (בפועל). אמנם נצפה אפקט במשתנה אחר, אבל מדובר במשתנה מחקר משני, והסיכוי לתוצאת false positive במשתנה המשני גבוהה יותר מ-5% אם לא נצפה אפקט במשתנה הראשי.

ההיסטוריה של ההתפלגות הנורמלית

המפגש השני של קבוצת הדיון בהיסטוריה של הסטטיסטיקה עסק בתולדות ההתפלגות הנורמלית. הדיון הסתמך בעיקר על פרק 13 מספרו של איאן האקינג, "אילוף הגורל" ((1. Hacking, I. (1990). The taming of chance (Vol. 17). Cambridge University Press. )), ובמידה פחותה על מאמרה של לוריין דאסטון ((2. Daston, L. (2008). Analogies and the migration of scientific ideas: the strange career of the normal curve. Nova Acta Leopoldina, N. F, 97(358), 169-185. )), שעקבה אחרי תולדות ההתפלגות בין 1770 ל-1870. עם זאת, רשימה זו הולכת בדרך שהתוותה דאסטון. בכתיבת הרשימה נעזרתי גם בפרק  2 מספרו של סטיגלר ((3. Stigler, S. M. (2002). Statistics on the table: The history of statistical concepts and methods. Harvard University Press. )).

ההתפלגות הנורמלית, אותה התפלגות פעמונית מפורסמת, הופיעה ככל הנראה לראשונה כאשר המתמטיקאי הצרפתי-הוגנוטי אברהם דה-מואבר חקר את התפלגות מספר ה-"ראשים" המתקבלים בסדרה של הטלות מטבע, כאשר מספר ההטלות הולך וגדל. ב-1733 הוכיח דה-מואבר כי כאשר מספר ההטלות שואף לאינסוף, אז ההתפלגות הולכת ומתקרבת בצורתה לאותו פעמון מיוחד:

 

פעמון ההתפלגות הנורמלית והנוסחה המאפיינת אותו

אותו פעמון הופיע במפתיע במקום אחר לגמרי – מדידות אסטרונומיות. מי שגרם למהומה הוא האסטרונום הדני טיכו ברהה, שבסוף המאה ה-16 החליט לבצע מדידות מרובות של גרמי שמיים והמרחקים בינם. תוצאות המדידות לא היו זהות. בכך הראה טיכו לא רק כי קיימת אפשרות לטעות במדידה, אלא אף כי טעויות המדידה הן אולי בלתי נמנעות. נעשו נסיונות לשפר את איכות המדידה ודיוק המכשירים, אך הבעיה נשארה. עד אמצע המאה ה-18 הצטברו ערימות של מדידות אסטרונומיות וגיאודזיות, והתגלע ויכוח עז בין האסטרונומים מה לעשות בקשר לכך: האם לקחת ממוצע של התצפיות, לבחור את המדידה ה-"טובה ביותר", או לפטר את עוזר המחקר שחישוביו היו שונים במיוחד מאלה על עמיתיו?

המתמטיקאי הצרפתי פייר סימון לפלס הציע ב-1810 פתרון שיכונה בימינו "בייסיאני" (( 4. על הסטטיסטיקה הבייסיאנית אכתוב, אולי, בפעם אחרת)) – הוא הניח כי לטעויות המדידה יש התפלגות מסויימת, ובהתאם לכך בנה פרוצדורה לצירוף המדידות כך שטעות המדידה הכוללת תהיה מינימלית. יותר מכך, לפלס הראה כי אם התפלגות טעויות המדידה היא ההתפלגות הפעמונית, אז ממוצע המדידות יביא למינימום את טעות המדידה הכוללת. שנה לפני כן, נקט קרל פרידריך גאוס בגישה הפוכה: הוא הניח כי הדבר הנכון הוא לחשב את ממוצע המדידות, כלומר ממוצע המדידות יביא למינימום את טעות המדידה הכוללת, ועל סמך הנחה זו חישב ומצא כי התפלגות טעויות המדידה צריכה להיות אותה התפלגות פעמונית. ההתפלגות הפעמונית, שהופיעה לראשונה בהקשר של משחקי מזל והטלות מטבע, תפסה לעצמה מקום מרכזי במדע האסטרונומיה. גאוס אף זיהה את הקשר בין ההימורים והטלות המטבע ובין טעויות המדידה האסטרונומיות. הוא הבחין בין טעויות שיטתיות, בהן ניתן לטפל ולהקטין למינימום את השפעתן, ובין טעויות מקריות ("chance errors") שמקורן בחושים לא חדים דיים, תנאים אטמוספריים וכדומה. גאוס וגם לפלס סברו כי יש מספר רב של גורמים לטעויות המקריות האלה, חלקם מטים את המדידה כלפי מעלה וחלקם כלפי מטה. במובן מסויים, לדעתי, הם הבינו את רעיון משפט הגבול המרכזי. עם זאת, הקישור בין ההתפלגות הנורמלית כגבול של תוצאות הימורים/הטלות מטבע, ובין התפלגות טעויות המדידה, נעשה עדיין באופן פורמלי בלבד, על ידי זיהוי הפונקציה המשותפת לשניהם. ההתפלגות הנורמלית מכונה עד היום בשם "התפלגות לפלסיאנית" בצרפת, ובשם "התפלגות גאוסיאנית" בגרמניה ובקרב מספר בעלי מקצוע (פיזיקאים, מהנדסים ועוד), לציון תרומתם של שני מתמטיקאים אלה לגילויה.

 

 מניחי היסודות (משמאל לימין): דה-מואבר, לפלס, גאוס

האקינג מדגיש כי ההתפלגות הנורמלית הופיעה בהקשר של ערכים ממשיים: ההסתברות של מטבע ליפול על ראש, ההסתברות לנצח במשחק מזל מסויים, או המרחק בין שני כוכבים. ההתפלגות עצמה, והפרמטרים שלה (הממוצע וסטיית התקן) נותרו ערכים אידאליים, פרמטרים מתמטיים בלבד. האסטרונום הבלגי אדולף קטלה ((5. אותו קטלה שלכבודו סומן מקדם המתאם של יול באות Q)) שינה את כללי המשחק. בתחילת שנות ה-30 של המאה ה-19 פרסם קטלה סדרת מאמרים בה הראה כי עקומת ההתפלגות הנורמלית מופיעה גם כאשר מתבוננים בתופעות ביולוגיות וחברתיות. ב-1835 הוא הציג בפני העולם את "האדם הממוצע", שבוהו 168 ס"מ, התגרש 0.17 פעמים והינו אב ל-2.2 ילדים. קטלה לא טען כי יש אדם כזה, בניגוד לגאוס ולפלס, שאמרו כי אם ממוצע המדידות למרחק בין שני כוכבים הוא 10 שנות אור, אז המרחק האמיתי קרוב מאוד לערך זה. קטלה תיאר באמצעות ערכים אלה מאפיינים כמותיים  של אוכלוסיה, בדיוק כמו שמוצא אתני, למשל, הינו מאפיין איכותי. קטלה הפך את הממוצע מפרמטר מתמטי לערך כמותי ממשי.

ב-1844 צעד קטלה צעד גדול נוסף קדימה: הוא שינה את התיאוריה של מדידת ערך ממשי לא ידוע עם טעויות מדידה, לתיאוריה של מדידת ערך מאפיין של אוכלוסיה. במלים אחרות, הוא הופך את השיטות הסטטיסטיות של תיאור וסיכום תצפיות לחוקים המתייחסים לתופעות בטבע ובחברה, ועוסקים במהותן ובגורמים להן. זה נעשה בארבעה צעדים:

  1. קטלה מזכיר כי אם ימדוד את גובהו של אדם מסויים מספר פעמים, המדידות לא יהיו זהות עקב טעויות המדידה, ותתקבל התפלגות סביב הגובה האמיתי.
  2. הוא משווה את הסיטואציה הקודמת למדידות חוזרות של ערך אסטרונומי, בה מתקבלת התקבלות "גאוסיאנית" סביב הערך האמיתי. אין הבדל עקרוני, טוען קטלה, בין מדידת גובהו של אדם ובין מדידת ערך אסטרונומי.
  3. עכשיו מציע קטלה להתבונן באוסף של מדידות גובה, כאשר אנו לא יודעים האם מדובר במספר מדידות של אותו אדם, או במדידות של מספר אנשים. האם נוכל לדעת באיזה מקרה מדובר? לא נוכל לדעת מכיוון שהתפלגות המדידות החוזרות של אדם אחד היא אותה התפלגות כמו מדידות של אנשים שונים מתוך האוכלוסיה.
  4. ומכיוון שקטלה הראה כי ההתפלגות הנורמלית מופיעה במגוון רחב של מדידות תכונות של אוכלוסיות, הוא מצדיק בכך את המעבר מדיון בערך ממשי בלתי ידוע (כמו גובה של אדם מסויים) לערך שמניחים כי הוא ממשי, המהווה תכונה אובייקטיבית של האוכלוסיה (הגובה הממוצע של האוכלוסיה, שאינו בהכרח ממוצע הגבהים של המדגם שנלקח).

האקינג מנסה להסביר את הלך המחשבה של קטלה שהוביל אותו למסקנה כי אכן ההתפלגויות המופיעות בטבע ובתופעות חברתיות היא אכן פעמונית/נורמלית. אני מודה שלא ירדתי לסוף דעתו של האקינג, ובודאי לא אוכל לתמצת כאן את ההסבר שלו. אומר רק כי למיטב הבנתי, האקינג טוען כי קטלה תפס גם הוא את משפט הגבול המרכזי באופן אינטואיטיבי בדומה ללפלס ולגאוס, ((6. משפט הגבול המרכזי הוכח רק בראשית המאה ה-20. גירסה ראשונית הוכחה על ידי ליאפונוב ב-1901, והמשפט כפי שהוא מוכר כיום הוכח על ידי לינדברג ב-1920)) ומקור ההתפלגות הוא בהצטברות של סיבות רבות בלתי תלויות אשר כל אחת מהן מושכת את הגובה של אדם אל מעל או מתחת לממוצע האוכלוסיה.

 

 מתווי הדרך (מימין לשמאל): קטלה, גאלטון, מקסוול

החוקר האנגלי פרנסיס גאלטון אימץ את שיטותיו של קטלה במחקריו שלו. גאלטון היה חובב נלהב של מדידות: באפריקה מדד את גופן של בנות השבטים ממרחק בעזרת סקסטנט, הוא אסף נתונים על גיל המוות כדי לבדוק האם כמרים, המבלים זמן רב בתפילות לאל חיים זמן רב יותר מאנשים "רגילים" (הם לא), והמציא מכשירים למדידת רמת השעמום בישיבות. בהיותו מושפע עמוקות מהתיאוריה של בן-דודו, צ'ארלס דארווין, כי מוטציות מקריות הן הכוח המניע של האבולוציה הביולוגית, התעניין גאלטון בפיזור, למעשה בסטיית התקן, של ההתפלגות, בניגוד לקטלה שהתעניין בממוצעים. עבודתו של גאלטון בפיתוח הרגרסיה ומקדם המתאם מתבססת במפורש על ההנחה כי למשתנים המעורבים יש התפלגות נורמלית, ולפי סטיגלר, מנסה ליישב בין הטענה של קטלה להומוגניות של האוכלוסיות (הניתנות לאפיון על ידי פרמטר בודד) ובין מגוון הסיבות המובילות לשונות בין פרטי האוכלוסיה.

גאלטון התעניין גם במדידת אינטליגנציה ובדרך בה היא עוברת בתורשה. אם גובה ומשקל של אדם מפולגים נורמלית, שאל גאלטון, מדוע שהתפלגות האינטליגנציה לא תהיה נורמלית? (( 7. המונח "התפלגות נורמלית" נטבע ככל הנראה על ידי צ'רלס פירס, פרנסיס גאלטון, ווילהלם לקסיס, באופן בלתי תלוי, בסביבות 1875)) גאלטון עצמו לא הצליח למדוד אינטליגנציה באופן שהשביע את רצונו, לא כל שכן את מידת ההורשה שלה. מבחני אינטליגנציה החלו להכנס לשימוש בשנות ה-20 של המאה ה-20.

ההתפלגות הנורמלית המשיכה להופיע במקומות מפתיעים. ב-1873 נאם הפיזיקאי ג'יימס קלרק מקסוול הרצאה בפני האגודה הבריטית לקידום המדע, והציג בה את תגליותיו האחרונות בתחום הדינמיקה והקינטיקה של הגזים. מקסוול דיבר גם על הבעיות המתודולוגיות בהן נאבק במחקריו. אין זה אפשרי, הסביר, למדוד את מהירותן של מיליוני מולקולות גז ולחשב את מסלוליהן, כאשר הן נעות במהירות ומתנגשות זו בזו. לכן אימץ מקסוול, יחד עם עמיתיו למחקר, שיטות מתחום מדעי החברה: במקום לדון במהירות ובמסלול של כל מולקולה ומולקולה, חקר מקסוול את התפלגות המהירויות. הוא עשה זאת כבר ב-1859, בגישה דומה לגישתו של לפלס. ההתפלגות, המכונה כיום התפלגות מקסוול-בולצמן, אינה התפלגות נורמלית, אך קשורה אליה קשר הדוק. הסטטיסטיקאים מכירים התפלגות זו בשם "התפלגות חי-בריבוע", והיא מתקבלת על ידי העלאה בריבוע של ערכי ההתפלגות הנורמלית.

בהרצאתו ב-1873 מקסוול סטה סטייה חדה מהדרך שהתוו עד כה לפלס וממשיכיו. לפלס טען כי העולם הינו דטרמיניסטי, והמקריות הנצפית בו (המתבטאת במשחקי מזל, וגם במדידות אסטרונומיות) משקפת למעשה חוסר ידע ויכולת שלנו, בני האדם, לדעת מהם כל הכוחות הפועלים על המטבע המוטל, למשל, ולו ידענו מהם יכולנו לדעת מראש אם יפול על ראש או על זנב. מקסוול טען כי השונות בתופעות פיזיקליות הינה אמיתית, ולא רק שיקוף של הבורות האנושית. הוא אמנם נמנע מלטעון כי קיימת מקריות אמיתית בעולם; טענה זו הועלתה רק בתחילת המאה ה-20, ובקונטקסט של תורת הקוואנטים (( 8. שבה הבנתי דלה ביותר )). עם זאת, מקסוול הראה כיצד ניתן ליישם את התיאוריה הסטטיסטית, שצמחה מניתוח משחקי הימורים, ופותחה ככלי למחקרים סוציולוגיים וביולוגיים, במדע מדוייק יותר כפיזיקה.

משחקי המשילות

לפני כשבוע חוקקה הכנסת את "חוק המשילות", שהוא למעשה סדרת תיקונים למספר חוקי יסוד. אחד הסעיפים בחוק קבע כי אחוז החסימה בבחירות לכנסת יועלה מ-2% ל-3.25%, כלומר, מפלגה שתזכה בפחות מ-3.25% מסך הקולות הכשרים בבחירות, לא תקבל ייצוג בכנסת. לו היה אחוז החסימה בבחירות האחרונות לכנסת 3.25% ומספר הקולות שקיבלה כל מפלגה לא היה משתנה, הרי שרשימות חדש, בלד וקדימה לא היו נכנסות לכנסת, ושמונת המושבים שלהם היו מתחלקים בין המפלגות האחרות.

המוטיבציה לשינוי, כפי שהסבירו מציעיו, הייתה הרצון "לחזק את יכולת המשילות של הממשלה", כלומר להפחית את תלותה בסיעות קטנות ו-"סחטניות" (( 1. כמובן שבדברי ההסבר (קישור לקובץ rtf) הרשמיים נעשה שימוש במלים נמלצות יותר)). האם אכן יביא החוק לתוצאה המבוקשת? איך בכלל מודדים את כוחה של מפלגה? מהו כוחה של סיעת "קדימה" לה שני נציגים בכנסת?

בכנסת שלנו, למפלגה בת 59 מנדטים אמור להיות כח רב. נכון? לא בהכרח. אם יש בכנסת רק שתי מפלגות, לאחת 59 מנדטים ולשניה 61, הרי שכל הכח מרוכז בידי המפלגה השניה. היא לא זקוקה לשום עזרה מהמפלגה האחרת כדי להקים ממשלה. היא מחזיקה 100% מהכח, ומפלגת ה-59 מחזיקה 0% מהכח.

מה קורה בכנסת תיאורטית בה יש 3 מפלגות, שלכל אחת מהן 40 מנדטים? אם נתעלם משיקולי ימין ושמאל לרגע, ונניח כי כל שתי מפלגות יכולות לחבור יחד ולהותיר את השלישית באופוזיציה, נהיה מוכרחים להגיע למסקנה כי לכל שלוש המפלגות כח שווה, וכל אחת מהן מחזיקה ב-33 וליש אחוזים מהכח.

ומה קורה בכנסת תיאורטית בה יש 3 מפלגות, לשתיים מהן 50 מנדטים כל אחת, והשלישית היא מפלגה "קטנה" עם 20 נציגים בלבד?

שאלות דומות לאלה הטרידו את לויד שאפלי, מתמטיקאי אמריקאי. ב-1953, הציע פתרון לשאלות אלו, במסגרת עבודת הדוקטורט שהגיש לאוניברסיטת פרינסטון. "הערך של שאפלי", ותרומות משמעותיות רבות נוספות שתרם לתחום המתמטי הידוע בשם "תורת המשחקים" זיכו אותו בפרס נובל לכלכלה בשנת 2012. ברשימה זו אנסה להסביר את מושג וההגיון מאחוריו, ואראה כיצד ליישם אותו כדי לנתח את המשמעות המיידית של העלאת אחוז החסימה במסגרת "חוק המשילות".

אז הנה סיפור המסגרת בצורה פשטנית (( 2. כמובן שהבעיה ששאפלי דן בה הינה כללית יותר, כמו גם הפתרון שהציג. למעוניינים, הנה קישור למצגת (קובץ pdf) המכסה את הנושא בצורה טובה.)): יש לנו כנסת, ובה מפלגות בגדלים שונים, וצריך להקים קואליציה של 61 מנדטים לפחות כדי להקים ממשלה. מה הכוח של כל מפלגה במשא ומתן?

ראשית יש לשים לב כי יש שני סוגים אפשריים של קואליציות: כאלה שיכולות להקים ממשלה, וכאלה שלא. קואליציה של מפלגות שסך המנדטים שלהם עולה על 60 יכולה להקים ממשלה, ולכן שאפלי נותן לה ערך שרירותי השווה ל-1. קואליציה של מפלגות שסך המנדטים שלהם קטן מ-61 לא יכולות להקים ממשלה, ושאפלי נותן לקואליציות כאלה ערך שרירותי השווה ל-0. שימו לב כי הערך של הקואליציה אינו בהכרח שווה לכח שלה. הערך אומר אם הקואליציה יכולה להקים ממשלה או לא, אך יש ממשלות חזקות ויש ממשלות חלשות. בנוסף, הוא מניח מספר הנחות (אקסיומות) לגבי התכונות שפתרון (כלומר הערכת הכח של כל מפלגה בנפרד צריך לקיים):

ההנחה הראשונה היא שאיחוד לא יכול להזיק. אם יש שתי קואליציות של מפלגות, והן מחליטות להתאחד, הכח של הקואליציה המאוחדת לא יהיה קטן מסך הכוחות של כל אחת משתי הקואליציות לחוד, ואולי אף יגדל. בפרט, שתי מפלגות שיתאחדו יוכלו להגדיל את כוחן המשותף (( 3. לדוגמה, הברית בין יש עתיד והבית היהודי במשא ומתן הקואליציוני לאחר בחירות 2013 אפשרה לשתי המפלגות להשיג יותר הישגים פוליטיים מאשר לו היו מנהלות משאים ומתנים נפרדים מול הליכוד)). אתם בודאי מכירים את התופעה הזו בשם "הפרד ומשול". מתמטיקאים קוראים לתכונה כזו "סופר-אדיטיביות".

ההנחה השניה היא שלגולם אין ערך. גולם אינו יכול להשפיע על שום דבר. תחשבו על הכנסת שהתחלקה לשתי מפלגות עם 61 ו-59 מנדטים. מפלגת ה-59 היא גולם, ומפלגת ה-61 תקים ממשלה מבלי להתחשב ברצונותיה. הערך שלה הוא לכן אפס.

ההנחה השלישית היא קרויה הנחת הסימטריה. אם יש שתי מפלגות, שבכל מצב תורמות את אותה התרומה לכל קואליציה, אז הכח שלהן זהה. תחשבו על כנסת בה יש מפלגה אחת גדולה עם 59 מנדטים, ועוד כמה מפלגות קטנות, נניח, 4 מפלגות נוספות שלהן יש 2, 10, 20 ו-29 חברי כנסת. כדי להקים ממשלה, מפלגת ה-59 צריכה לצרף אליה לקואליציה רק אחת מבין 4 "הקטנות", ולהשליך את 3 הנותרות לאופוזיציה. ולא משנה באיזה מהן תבחר. "אתה אמנם ראש סיעה של 29 חברי כנסת, אבל אם תצטרף לממשלה, כל מה שתקבל זה תפקיד סגן השר לענייני גימלאים. לא מוצא חן בעיניך? הצעתי את אותו דיל גם לסיעת 'ישראל הקיקיונית'. תחליט מהר לפני שהם יקחו את זה ולא יישאר לך כלום". אולי התסריט הזה לא נראה לכם ריאלי, אבל זה בערך מה שקרה בשנותיה הראשונות של מדינת ישראל, כאשר הייתה מפלגה דומיננטית אחת והרבה מפלגות בינוניות וקטנות. אמנם הממשלה הייתה "בלי חירות ומק"י" (( 4. ממש כמו היום)), אבל כל המפלגות האחרות היו שותפות קואליציוניות זוטרות של מפא"י בשלב זה או אחר.

כדי ליצור סולם בר השוואה, שאפלי קובע כי סכום הכוחות של כל המפלגות יהיה שווה ל-1, כלומר ל-100%.

שאפלי מוסיף עוד הנחה טכנית אחת, שלא אפרט כאן, וזה מספיק כדי לבנות פתרון. הנה הרעיון: בואו ניקח מפלגה מסויימת, נקרא לה X, ונסתכל על כל הקואליציות האחרות שאפשר להרכיב בלעדיה. מה יקרה אם נוסיף את X לאחת הקואליציות האלה? יש שלוש אפשרויות:

  1. לפני הוספת X, הקואליציה לא יכלה להרכיב ממשלה, וגם אחרי הוספת X אינה יכולה להרכיב ממשלה. כלומר ערך הקואליציה היה אפס לפני הוספת X ונשאר אפס לאחר ההוספה. התרומה של X היא אפס.
  2. לפני הוספת X, הקואליציה לא יכלה להרכיב ממשלה, ואולם אחרי הוספת X הקואליציה יכולה להרכיב ממשלה. במלים אחרות, ערך הקואליציה היה אפס לפני הוספת X ועלה לאחד לאחר ההוספה. התרומה של X היא 1.
  3. לפני הוספת X, הקואליציה כבר יכלה להרכיב ממשלה, וכמובן שאחרי הוספת X הקואליציה עדיין יכולה להרכיב ממשלה. ערך הקואליציה היה 1 לפני הוספת X ונשאר 1 לאחר ההוספה. התרומה של X היא 0.

שאפלי מציע להסתכל על תהליך של הרכבת קואליציה "מקיר לקיר": יוצרים "קואליציה" של מפלגה אחת, ואחר כך מוסיפים לה עוד אחת, ועוד אחת, עד שמקבלים לבסוף קואליציה שמחברת את כל המפלגות. באיזשהו שלב גם מפלגה X נוספה לקואליציה. מה הייתה התרומה שלה בעת שצורפה לקואליציה? אם נרכיב את הקואליציה הגדולה בסדר אחר, ייתכן ש-X תצורף בשלב בו תהיה תרומתה שונה. לכן נחזור על התרגיל לכל האפשרויות, ונחשב את התרומה של X בכל אחד מהמקרים. התרומה הממוצעת היא מדד לכוחה של מפלגה, וזהו הערך של שאפלי.

הנה דוגמה. בכנסת יש 4 מפלגות: למפלגות A ו-B יש 50 מנדטים כל אחת, למפלגה C יש 19 מנדטים, ומפלגה D היא סיעת יחיד ולה מנדט 1. נחשב את ערכי שאפלי של כל המפלגות. ראשית, שימו לב כי מפלגה D היא "גולם", לכן ערך שאפלי שלה חייב להיות אפס. כמו כן, למפלגות A ו-B אותו מספר מנדטים ולכן יהיו להן ערכי שאפלי שווים. לכן אם נחשב את ערך שאפלי של מפלגה C, נוכל לחשב את הערכים של A ו-B. הנה החישוב:

יש 24 דרכים בהן אפשר להרכיב קואליציה מקיר לקיר על ידי הוספת מפלגה אחת בכל פעם. הן כולן מוצגות בטבלה הבאה (לחצו על התמונה לצפיה בגודל מלא):

 

  בשורה הראשונה לדוגמה, בונים תחילה קואליציה עם A ו-B. יש שם 100 מנדטים, ולכן ערכה של קואליציה זו הוא 1. אם מוסיפים את C, מספר המנדטים עולה ל-119, אבל זה כבר לא משנה. ערך הקואליציה נשאר 1, הערך המוסף של C הוא אפס. מבין 24 האפשרויות, יש בדיוק 8 מקרים בהם הוספת C מעלה את ערך הקואליציה מ-0 ל-1. הממוצע של 8 אחדים ו-16 אפסים הוא שליש, ולכן ערך שאפלי של מפלגה C, כלומר הכוח שלה במשחק הקואליציוני הוא 33.3%. 66.7% הנותרים מתחלקים שווה בשווה בין מפלגות A ו-B, ולכן גם ערך שאפלי שלהן הוא שליש, או 33.3%. 19 המנדטים של מפלגה C שווים כמו 50 המנדטים של מפלגות A ו-B. כל שתיים מבין 3 המפלגות A, B ו-C יכולות להקים יחד ממשלה ולזרוק את המפלגה השלישית לאופוזיציה (שם יארח להם לחברה הנציג של מפלגה D).

כעת אנתח את מה שקורה בכנסת ה-19, ומה היה עשוי לקרות בה אם אחוז החסימה המוגדל היה חל עליה, בהנחה שדפוסי ההצבעה ומספרי הקולות לכל מפלגה לא היו משתנים. בטבלה הבאה מוצגים מספרי המנדטים של כל מפלגה בכנסת הנוכחית, ומספרי המנדטים שהיו מתקבלים לו היו מחולקים על פי אחוז חסימה של 3.25%, בהרכב המפלגות הקיים, וגם בתרחיש בו 3 ה-"מפלגות הערביות" רעם-תעל, חדש ובלד היו רצות ברשימה משותפת (( 5. אני נמנע מלהכנס לדיון פוליטי על התרחיש ההזוי והגזעני הזה. אציין רק שיש חילוקי דעות אידיאולוגיים מהותיים בין שלוש מפלגות אלה, וכן כי חדש אינה מפלגה ערבית במהותה, אלא מפלגה ללא לאומיות)). בנוסף מוצגים גם אחוז המושבים בכנסת של כל מפלגה וערכי שאפלי (( 6. הערכים חושבו על ידי המחשבון הנמצא באתר Cut The Knot ))המתאימים להרכב כל כנסת, הנוכחית ושתי הכנסות ההיפותטיות  (לחצו על התמונה לצפיה בגודל מלא).

 

  כל אחד מוזמן לבחון את המספרים ולנתח את משמעותם. יש כמובן מספר שינויים, וכמובן יהיו עוד, שכן תוצאות הבחירות הבאות יהיו בודאי שונות מתוצאות הבחירות האחרונות. ניתן להבחין בשני שינויים עיקריים: המפלגה הגדולה נעשית חזקה יותר, ובתרחישים מסויימים חלק מהמפלגות הבינוניות (העבודה וש"ס) מתחזקות משמעותית. מעבר לכך, אין שינויים משמעותיים וה-"משילות", whatever it means, תישאר פחות או יותר כפי שהייתה. לפחות, בטווח הקצר, אין בחוק הזה פגיעה במצב הפוליטי הקיים.

עם זאת, אין פירוש הדבר כי החוק לא בעייתי ומסוכן בטווח הארוך. הבעייתיות של החוק נדונה כבר בהרחבה ולא אחזור על כך כאן. שינויים בחוקי יסוד תמיד יש לבצע בזהירות רבה, מה גם שברור לאור הניתוח שהבאתי כי תועלת לא תהיה בו, ופוטנציאל הנזק מרובה.