ארכיב עבור תגית מתאם

האם קנאביס רפואי יכול לסייע במלחמה במגיפת האופיואידים?

מחקר שפורסם ב-25 באוגוסט 2014 בכתב העת היוקרתי JAMA עורר מהומה רבה, ובצדק. המחקר גילה (( association )) בין חוקים שמסדירים את השימוש בקנאביס לצרכים רפואיים (להלן: "") שחוקקו במדינות שונות בארה"ב ובין שיעורי התמותה במדינות אלה עקב מינון יתר של : נצפתה ירידה של כ-25% בשיעורי התמותה במדינות אלה, בהשוואה למדינות שבהן לא קיימים חוקים כאלה. מחקר נוסף שפורסם כחמש שנים מאוחר יותר, ב-10 ביוני 2019, טוען לכאורה כי הקשר הוא הפוך. מה קורה כאן? ברשימה זו אסקור את שני המאמרים ואחווה את דעתי בנושא.

נתוני רקע

עד 1999, חוקים שהסדירו את השימוש בקנאביס לצרכים רפואיים היו קיימים רק בשלוש מדינות בארצות הברית. במהלך 11 השנים הבאות (1999-2010) נחקקו חוקים דומים בעוד 10 מדינות. 9 מדינות נוספות חוקקו חוקים דומים בין 2010 ל-2014. נכון למועד כתיבת שורות אלה, לקנאביס רפואי יש מעמד חוקי ב-33 מדינות. קהל היעד של הקנאביס הרפואי כולל שתי קבוצות אוכלוסייה עיקריות: חולי סרטן, וחולים הסובלים מכאבים כרוניים שאינם קשורים למחלת הסרטן.

טיפול נפוץ לקבוצת האוכלוסייה השנייה הוא מתן משככי כאבים, ולאורך השנים חלה עליה במתן מרשמים לתרופות משככות כאבים המבוססות על שימוש באופיואידים – קבוצת תרכובות הנקשרות לקולטני האופיואיד במערכת העצבים ובמקומות אחרים בגוף. לשימוש באופיואידים יש מחיר כבד: התמכרויות, ומקרי מוות רבים עקב מינון יתר. ברשימה זו לא אדון בגורמים ל-"מגיפת האופיואידים" ובדרכים בהם מנסים להילחם בה.

מחקר ראשון – JAMA 2014

המחקר, שנערך על ידי קבוצת חוקרים שרובם מאוניברסיטת פנסילבניה, שאל שאלה פשוטה: האם יש קשר בין התרחבות השימוש בקנאביס רפואי ובין שיעורי התמותה עקב מינון יתר של אופיואידים.

החוקרים תיארו שני תרחישים אפשריים. בתרחיש הראשון, הנישות לקנאביס רפואי תביא למעבר של חולים משימוש באופיואידים לשימוש בקנאביס, ומעבר זה יגרום להפחתת השימוש באופיואידים ולירידה במקרי המוות עקב מינון יתר. בתרחיש השני, השימוש בקנאביס יוביל לשימוש באופיואידים, כיוון שכעת ניתן לטפל בחולים שלא היו מעוניינים באופיואידים בעזרת קנאביס רפואי, והשיפור ישכנע אותם להיות פתוחים לשימוש בחומרים פסיכו-אקטיביים חזקים יותר, כלומר אופיואידים.

לאחר שאספו את הנתונים הרלוונטיים וניתחו אותם, בישרו החוקרים כי התשובה לשאלת המחקר היא כן. במדינות עם חוקי הקנאביס נצפתה ירידה ממוצעת של 25% במספר מקרי המוות עקב מינון יתר של אופיואידים לאורך השנים מ-1999 עד 2010.

ניתוח הנתונים שביצעו (( בעזרת מודלים של סדרות עיתיות, לא אכנס לפרטים )) עבור השנים 1999 עד 2010 הראה שקיים קשר, והוא חיובי. אני מצטט: "במדינות עם חוקי קנאביס רפואי, הממוצע השנתי של שיעורי התמותה עקב מינון יתר של אופיואידים היה נמוך ב-ב-24.8% בהשוואה למדינות שבהן לא היו חוקים כאלה". החוקרים אמדו כי מספר מקרי המוות עקב מינון יתר של אופיואידים היה נמוך ב-1729 ממה שהיה צפוי אילו חוקי הקנאביס לא היו קיימים. החוקרים ביצעו ניתוחים נוספים שאוששו את המסקנה שעלתה מניתוח המודל הראשי, וניתוחים אלה אף הציגו תוצאות מעודדות יותר (אם כי תחת יותר הנחות). לדעתי המקצועית אין כל פגם בניתוחים הסטטיסטיים שבוצעו, לפחות על פי הסקירה שהובאה במאמר.

מעניין לציין כי לאורך כל השנים האלה הייתה עליה בשיעור מקרי המוות עקב מינון יתר, גם במדינות שבהן היו חוקי מקנאביס רפואי וגם באלה שלא: ב-1999 שיעור מקרי המוות היה כ-2 חולים למאה אלף, וב-2010 השיעור כבר היה כ-6 מקרים למאה אלף (( על פי הנתונים שהובאו במאמר)). במדינות הקנאביס הרפואי הייתה ירידה נומינלית קטנה בשיעור מקרי המוות בין 2009 ל-2010 (כחצי מקרה מוות למאה אלף). אני לא מזלזל בירידה הזו: מדובר במאות חיים שניצלו, אבל אין לירידה הזו משמעות סטטיסטית.

כמו כן, לאורך כל תקופת המחקר שיעורי המוות עקב מינון יתר של אופיואידים דווקא היו יותר גבוהים במדינות עם חוקי הקנאביס הרפואי – הפער היה כ-1 עד 2 מקרים לכל מאה אלף איש. אם כך, מה המשמעות של ירידה של 25%? הירידה היא בהשוואה למספר המקרי המוות שהיו אמורים להתרחש במדינות אלה אילו לא היו קיימים בהן חוקי קנאביס רפואי.

אבל הדברים לא כל כך פשוטים (( תיראו מופתעים )). הדיון בתוצאות, שנמשך על פני כמעט עמוד שלם משופע במילים may, if, ו-although: יתכן, אם, אמנם. החוקרים מדגישים כי התוצאות שהוצגו אינן מבססות קשר סיבתי, וכי יש צורך במחקרים נוספים.

החקרים מציינים גם את המגבלות של המחקר: ראשית, מדובר בנתונים מקובצים. כלומר, הנתונים מתייחסים לסך מקרי המוות בכל מדינה בכל שנה, ולא על נתונים ברמת החולה. שנית, ייתכן ויש הטיה בנתונים, כיוון שמדינות שונות מדווחות את נתוני התמותה באופן שונה, וייתכן כי מקרה מוות שנחשב כתוצאה של מינון יתר של אופיואידים במדינה אחת לא ייחשב לכזה במדינה אחרת. שלישת, ייתכן ויש משתנים נוספים המשפיעים על שיעורי התמותה שהמחקר לא לקח בחשבון. החוקרים מודעים לכך שייתכן והנתונים של השנים הבאות יראו תמונה שונה. ולבסוף הם מדגישים שוב כי ההשערות לגבי התהליך בו הרחבת השימוש בקנאביס רפואי משפיעה על שיעורי התמותה עקב מינון יתר הינם ספקולטיביים, ומתבססים על עדויות עקיפות.

אבל, אחרי כל ההסתייגויות, אני חושב שתוצאות מחקר זה הינן אופטימיות, והן פתחו תקווה למיגור, לפחות חלקי, של מגיפת האופיואידים.

מחקר שני – PNAS 2019

המחקר הראשון התמקד כמובן בנתונים שהו זמינים כאשר הוא נערך, כלומר בשנים 1999 עד 2010. בינתיים עברו חמש שנים, והצטבר נתונים נוספים. כדאי לכן לבדוק מה קרה בינתיים. קבוצת חוקרים מאוניברסיטת סטנפורד, אוניברסיטת ניו יורק ומכון מחקר בפאלו אלטו חברה לקחת על עצמה את המשימה. הם אספו את הנתונים באותן שיטות שבהן השתמשו החוקרים במחקר הראשון, וניתחו אותם באותן שיטות סטטיסטיות. התוצאות פורסמו בכתב העת הלא פחות יוקרתי PNAS.

למחקר החדש יש שתי תוצאות עיקריות. ראשית, הוא מאשר את תוצאות המחקר הראשון. הניתוח החוזר העלה כי הירידה במספר מקרי המוות עקב מינון יתר של אופיואידים לאורך השנים 1999עד 2010 הייתה 21.1%, ולדברי החוקרים ההבדל בין שתי התוצאות אינו משמעותי מבחינה סטטיסטית (( הם השתמשו בביטוי המעניין לכשעצמו "statistically indistiguishable " )) . אבל, וזה אבל גדול, מה שקרה בין 2010 ל-2017 שונה לגמרי. בשנים האלה המגמה התהפכה,  והייתה עליה של 23% בשיעור מקרי המוות.

החוקרים מתייחסים ל-"תיאוריית ההחלפה" שהוצגה במאמר הראשון כהסבר אפשרי לקשר סיבתי בין הרחבת השימוש בקנאביס רפואי וירידת שיעור מקרי המוות מאופיואידים. הטענה היא כי חולים המשתמשים באופיואידים יעברו לשימוש בקנאביס שיחליף את האופיואידים כמשכך כאבים. אם תיאוריה זו נכונה, אומרים החוקרים, אנחנו אמורים לראות אפקטים שונים בין המדינות, הנובעים מהשוני שבין חוקי הקנאביס, בעיקר ברמת ה-THC (החומר הפעיל בקנאביס) המותרת. במדינות המרשות שיעור THC  נמוך הקשר בין השימוש בקנאביס רפואי ושיעור מקרי המוות אמור להיות חלש יותר. במדינות בהן יש לגליזציה מלאה של קנאביס, ולכן שיעורי ה-THC בקנאביס המשווק במדינות אלה גבוהים יותר, אנחנו אמורים למצוא קשר יותר חזק. אבל, הנתונים מראים שלא כך הוא.

החוקרים מציינים כי יש אמנם עוד מחקרים שהראו תוצאות דומות למחקר מ-2014, אך יש בעייתיות בקביעת מדיניות המרחיבה את השימוש בקנאביס של סמך מחקרים אלו (( אחד החוקרים הוא מהמחלקה למדעי המדינה באוניברסיטת ניו יורק, וחוקרת נוספת היא המרכז ליישום חדשנות בפאלו אלטו, קליפורניה )). מדיניות כזו מבוססת על שתי הנחות. ההנחה הראשונה היא כי מסקנות שהסתמכו על מנתונים מקובצים ברמת האוכלוסייה תקפות גם ברמה האישית. לעיתים קרובות ההנחה הזו אינה נכונה, כפי שעולה ממחקרים רבים דומים בתחומים אחרים. כשל זה ידוע בשם the ecological fallacy והוא למעשה וריאציה של פרדוקס סימפסון. ההנחה השנייה היא כי הקשר הנצפה הוא סיבתי, וכאמור הנתונים לא עולים בקנה אחד עם ההנחה הזו. ראוי לציין כי גם החוקרים של המחקר הראשון ב-2014 התריעו על כשלים אלה.

החוקרים אומרים כי לדעתם אין קשר (חיובי או שלילי) בין הרחבת השימוש בקנאביס רפואי ובין שיעורי מקרי המוות עקב מינון יתר של אופיואידים. לדעתם, גם הקשר החיובי בשנים 1999 עד 2010 וגם הקשר השלילי בשנים 2010 עד 2017 הם קשרים אקראיים.

סיכום

אני נוטה יותר לתמוך בעמדה של קבוצת החוקרים שביצעה את המחקר השני. אין זה אומר שאני מזלזל במחקר הראשון. להיפך, הם עשו עבודה חשובה וטובה. הם היו מודעים למשמעות המוגבלת של התוצאות שלהם, הדגישו כי לא ניתן להסיק מסקנות סיבתיות על סמך התוצאות, ועם זאת הם לא שללו את האפשרות של קיום קשר סיבתי, אך גם כאן, הטענה כי ייתכן קשר סיבתי לא הייתה מופרכת, על פי הנתונים שהיו בידיהם. הם פירטו היטב את מגבלות המחקר שלהם, כולל אזהרה מפני הכשל האקולוגי.

המחקר השני שחזר את תוצאות המחקר הראשון, אך גם הציג תוצאות מנוגדות. בכך לדעתי נסתם לעת עתה הגולל על ההשערה כי לקנאביס הרפואי יהיה חלק, אפילו קטן, במיגור מגיפת האופיואידים, אם וכאשר. זה מאוד מצער אותי. בהחלט הייתי שמח אילו תיאוריית ההחלפה הייתה נכונה, וזאת למרות ההסתייגויות שיש לי מהנטייה  הרומנטית לייחס לקנאביס סגולות רפואיות לטיפול בכל דבר כמעט, וההתנגדות שלי ללגליזציה של קנאביס (אם כי אני כן תומך בדה-קרמינילזציה על פי המודל של פורטוגל ונורווגיה).

מעבר לחשיבות של הנושא, שני המחקרים האלה מהווים דוגמה מצויינת על ההבדלים בין מתאם וסיבתיות. אי אבחנה בין מתאם לסיבתיות היא כשל נפוץ, ששתי קבוצות החוקרים האלו לא נפלו בו. גם הטענה "מתאם אינו מעיד על סיבתיות" מועלה שוב ושוב, אבל היא בעיקר מעידה על חוסר הבנה של המושגים. הטענה הנכונה היא כי מתאם אינו מהווה עדות מספקת לסיבתיות, אבל כפי שכתבתי בעבר, אם יש מתאם, צריך בהחלט לבחון את האפשרות שיש גם סיבתיות. המחקר הראשון הראה מתאם והציג מנגנון סיבתי אפשרי, וכך היה ראוי לעשות. למראה הצער, ללא ציניות, המחקר השני הראה כי לא ניתן לטעון לסיבתיות על סמך הידע העכשווי. עם זאת, ייתכן ומחקרים בעתיד שיבדקו מה קורה ברמת החולה ולא ברמת האוכלוסייה יפתחו מחדש את הדלת להשערת הסיבתיות. ימים יגידו.

מקורות

 

סטטיסטיקה רעה: אי אבחנה בין מתאם לסיבתיות

בנושא המתאם והסיבתיות דנתי רבות ((זה היה הפוסט הראשון שהופיע בנסיכת המדעים!)). יש הרבה דוגמאות משעשעות: מתאם בין יבוא לימונים לבטיחות בדרכיםבין צבעה של מכונית והסיכוי כי תהיה מעורבת בתאונת דרכים, ובין מחזורי הירח ומחירי המניות. קוריוזים כאלה בדרך כלל לא גורמים נזק ((אם כי עלולים להיגרם הפסדים כספיים למי שישקיע את כספו על פי מחזורי הירח)). אף אחד לא יציע להטיל מגבלות על יבוא לימונים, או לצבוע מכוניות שחורות בצבע אחר. למעוניינים יש אתר שלם וספר שעוסק בכך.

ברשותכם אעבור לדוגמאות יותר רציניות.

דוגמא מפורסמת קשורה לגדול הסטטיסטיקאים, רונלד פישר, שהיה מעשן כבד. באמצע שנות החמישים של המאה העשרים, התגלו המתאמים הראשונים בין העישון ובין הסיכוי לחלות בסרטן הריאות. תלמידיו של פישר פנו אליו, וביקשו ממנו שינסה לעשן פחות למען בריאותו. הם נימקו את בקשתם במתאם הסטטיסטי שזה עתה התגלה. פישר דחה אותם, בנימוק שהמתאם עצמו אינו מראה סיבה ותוצאה, ואף הביע את דעתו זו בכתב העת החשוב Nature. ייתכן, אמר פישר, כי מחלת הסרטן גורמת בשלב הראשון של המחלה לצורך בניקוטין, המתבטא בכך שהחולה מעשן, ורק אחר כך מתפתחים הגידולים. פישר נפטר בשנת 1962. רק בשנות השבעים של המאה העשרים הוכיחו המדענים כי צריכה מוגברת של ניקוטין אכן גורמת לעליית הסיכון לחלות בסרטן הריאות.

טענה אחרת שהועלתה היא כי צמחונות אצל נערות בגיל ההתבגרות גורמת לאנורקסיה, וזאת על סמך מתאם גבוה בין שתי התופעות. ניתוח יותר זהיר הראה כי אורח חיים צמחוני לכשעצמו לא בהכרח גורם לאנורקסיה, אך בשילוב עם גורמי סיכון נוספים המחלה עלולה להתפתח.

הסקת סיבתיות עקב קיומו של מתאם עלולה בקלות להגיע לאבדן חיי אדם. הדוגמא המפורסמת ביותר (ואחת המזיקות ביותר) היא הטענה שחיסונים גורמים לאוטיזם, וזאת על פי מחקר גרוע במיוחד ((שתוצאותיו התבררו לאחר מכן כמזוייפות, אבל גם אם היו אמיתיות לא היה ניתן להסיק מהן דבר)). מאמר מאת אנדרו וייקפילד ((שהיה ד"ר לרפואה עד שרישיונו נשלל)) , שפורסם בכתב העת Lancet בשנת 1998, הראה מתאם בין מתן חיסון MMR לילדים ובין אבחון אוטיזם אצל ילדים שחוסנו. זה הספיק כדי להצית תנועה רחבה של התנגדות לחיסונים, שקיימת עד היום. אי מתן חיסונים מוביל להתפרצות מגיפות ולמקרי מוות שהיו יכולים להימנע.

ב-2010 התפרסם מחקר שמצא כי צריכת חומצות שומניות כגון אומגה 3 יכולה להפחית את הסיכון להתקף לב. הטענה התבססה על מספר מחקרים תצפיתיים, וכן מספר ניסויי מעבדה. התברר כי לחומצות שומניות יש תכונות אנטי דלקתיות, וכי יש מתאם שלילי בין רמת הצריכה שלהן ובין רמת הטריגליצרידים בדם. כמו כן יש מתאם בין שלילי בין רמת הטריגליצרידים ובין הסיכון להתקף לב. מכאן הדרך קצרה להשערה כי צריכת חומצות שומניות תוביל להורדת הסיכון להתקף לב. זו תיאוריה יפה, אך היא מבוססת על מתאמים. היא התבררה כלא נכונה. בשנת 2013 התפרסמו התוצאות של מחקר קליני מבוקר, בו המטופלים צרכו, על פי הקצאה רנדומלית, שמן דגים (העשיר באומגה 3) או פלסבו. המחקר הראה כי אין עדות לאפקט חיובי של צריכת שמן דגים.

הדוגמא הטריה ביותר היא המחקר PURE, שתוצאותיו החלו להתפרסם לפני מספר חודשים. בין היתר, טענו החוקרים כי "יש מתאם גבוה בין צריכה גבוהה של פחמימות לשיעורי התמותה, בעוד שצריכת שומנים קשורה לשיעורי תמותה נמוכים". במחקר יש בעיות מתודולוגיות רבות המעמידות בספק רב את עצם קיומו של המתאמים המתוארים, אולם זה לא הפריע לעיתונים לצאת בכותרות כמו "שומן מפחית את הסיכון לתמותה", "שומן לא מזיק, הבעיה עם פחמימות", ו-"תזונה דלת שומן מעלה סיכון למוות מוקדם". שוב, פרשנות מוטעית של מתאם רשלני עלולה להביא להגברה של צריכת שומן, שתוביל לשיעורי תמותה גבוהים יותר ממחלות לב ומחלות נוספות.

כפי שכתב סטיבן ג'יי גולד בספרו The Mismeasure of Man: "ההנחה חסרת התוקף לפיה ממתאם נובעת סיבתיות היא ככל הנראה אחת מתוך שתיים או שלוש השגיאות החמורות ביותר והנפוצות ביותר בשיקול הדעת האנושי".


רשימות נוספות בסדרה:

למה זה לא רעיון טוב לחשב מתאם בין מספר סידורי לכל דבר בעצם

לפני כשבועיים הבאתי כאן דוגמה לסטטיסטיקה רעה, בה מרצה בקורס Data Science הדגימה כיצד מחשבים בפייתון מקדם מתאם. היא השתמשה בקובץ שהכיל נתונים על סרטים, וחישבה את מקדם המתאם בין המספר הסידורי של הסרט בבסיס הנתונים ובין הרייטינג הממוצע שלו. (( הרייטינג הממוצע הוא בעצמו יצור בעייתי מבחינה סטטיסטית, ואקדיש לו רשימה אחרת ))

לי ברור כי זו סטטיסטיקה רעה, אך היו כאלה שלא הסכימו איתי. לכן אסביר מה בדיוק הבעיה כאן, ואתייחס לטענות התומכות בחישוב של הגברת הנחמדה (( היא באמת נחמדה, בלי ציניות ))

כדי להבין מה קרה פה, צריך לחזור ליסודות – סולמות מדידה. כתבתי בעבר סקירה נרחבת בנושא. יישנם ארבעה סולמות מדידה, שניים מהם מכונים סולמות כמותיים, ושניים הם סולמות איכותיים. סולמות כמותיים, מטבעם, מודדים כמויות.

אני חושב שלא קשה להשתכנע כי המספר הסידורי של סרט בבסיס הנתונים אינו משתנה כמותי. סרט מספר 4800 בדטהבייס אינו פי שניים (( פי שניים מה בדיוק? )) מסרט מספר 2400. ההבדל (( איזה הבדל בדיוק? )) בין סרט מספר 2 לסרט מספר 4 אינו שווה להבדל בין סרט מספר 2400 לסרט מספר 2402. האם מישהו יכול לטעון אחרת, ולנמק את טענתו? אני חושב שלא. (( ובכל זאת לא אופתע אם מישהו יקום ויגיד שכן ))

מקדם המתאם חישבה המרצה הוא מקדם המתאם של פירסון. מקדם מתאם זה נועד למשתנים כמותיים. הוא קשור קשר הדוק למודל הרגרסיה הלינארית, שהצגתי בקצרה ברשימה קודמת. סוף פסוק. לכאורה.

אבל מה שברור לי לא ברור לכל אחד.

הטענה הראשונה שהועלתה כדי להצדיק את החישוב שערכה המרצה הנ"ל היא שאין שום בעיה, והחישוב רק נועד להדגים את חישוב מקדם המתאם.

האמת היא שאין לי מה לומר נגד טיעון כזה. אני חושב שלדברים שעושים צריכה להיות משמעות, בייחוד כאשר מדובר בקורס מבוא לדטה סיינס. דיברתי כאן באריכות לגבי ההבדלים בין מודלים ואלגוריתמים. המרצה הדגימה את הפעלת האלגוריתם בלי להתייחס למודל הסטטיסטי שעמד בבסיסו, ולדעתי זה לא נכון. המרצה אף הוסיפה חטא על פשע כאשר עברה הלאה בלי להתייחס בכלל לתוצאה שהתקבלה ולמשמעות שלה.

הטענה השניה שהועלתה היא שייתכן כי המספר הסידורי טומן בחובו אינפורמציה נוספת. ייתכן למשל, טענו, כי ככל שהמספר הסידורי קטן יותר, אז הסרט ישן יותר. במילים אחרות, נטען כי המספר הסידורי מבטא סדר בין הנתונים, ולא משמש לזיהוי בלבד.

זו בהחלט טענה מתוחכמת יותר ואכן יש מקרים שבהם מספר מזהה מייצג גם סדר, לפחות חלקי. דוגמאות אפשריות הם מספרי תעודת הזהות, מספרים אישיים בצה"ל, ואלי גם מספרי רישוי של מכוניות (( ככה זה היה בישראל, לפחות, עד סוף שנות ה-70 של המאה ה-20 ))

לכך יש לי שתי תשובות. ראשית, גם אם מספרי הזיהוי מכילים בתוכם אינפורמציה על סדר, הם עדיין לא משתנים כמותיים, ולכן השימוש במקדם המתאם של פירסון שגוי. יש מקדמי מתאם שפותחו עבור משתנים סודרים, הידוע שבהם הוא מקדם המתאם של ספירמן (( חבילת התכנה NumPy של פייתון לא מאפשרת לערוך חישוב כה מתוחכם ))

אבל לפני שרצים לחישוב מקדם מתאם, אפילו זה של ספירמן, צריך לבדוק האם ההנחה כי המספר המזהה של הסרט מכיל אינפורמציה על סדר היא נכונה. (( ואני לא רואה שום סיבה הגיונית להניח את זה מלכתחילה )) סטטיסטיקאי טוב אמור לבדוק את ההנחות, וגם דטה סיינטיסט (להבדיל מדטה-טכנאי) אמור לעשות את זה. לבדוק את הטענה זה קל. הנה הקישור לקובץ הנתונים (קובץ zip). מי שממש רוצה להיות בטוח יפתח מתוך הזיפ את הקובץ movies.csv. סרט מספר 1 הוא Toy story, משנת 1995. סרט מספר 80827 הוא Brown of Harvard משנת 1926. סרט מספר 131262 הוא Innocence משנת 2014. ולא צריך לעבוד קשה כדי לגלות את זה. אפשר לעשות את זה בכמה שורות בפייתון, אם רוצים. אבל לא צריך לעבוד כל כך קשה. כל מה שצריך זה לקרוא את readme.txt.

הטענה השלישית היא כנראה החזקה מכולן. אצטט אותה כלשונה:


חישוב מתאם עם מספר סידורי במאגר כלשהו יכול להיות דווקא מועיל בשני היבטים שונים:
1. גילוי קשר עם סדר הרישום במאגר שלא היה ידוע.
2. במקרה שלא אמור להיות קשר עם הסדר, מספק אמדן די טוב לגובה המתאם שלא צריך לייחס לו משמעות, אפילו אם יצא מובהק.

במילים אחרות, חישוב מקדם המתאם של המספר הסידורי עם משתנה כלשהו, יכול להועיל בכך שהחישוב יראה אם יש או אין אינפורמציה על סדר (או על משהו אחר) במספר הסידורי. כך נדע האם הטענה לפיה במספר הסידורי יש גם אינפורמציה על סדר כלשהו (כפי שטענו אחדים) אכן נכונה. זו אכן היוריסטיקה שעובדת. בקובץ נתוני הסרטים, מקדם המתאם בין שנת היציאה לאור של הסרט ובין המספר הסידורי שלו הוא, דרך אגב, 0.019.

אבל לדעתי אין בהיוריסטיקה הזו הרבה תועלת. למה לבדוק אם המספר הסידורי מכיל אינפורמציה על שנת היציאה לאור, אם כבר יש לנו את הנתון של שנת היציאה לאור? הרי יש שתי אפשרויות: אפשרות אחת היא שנמצא שאין מתאם, ואז אין תועלת במספר הסידורי מעבר להיותו מזהה של תצפיות. אפשרות שניה היא שנמצא שיש מתאם, אבל זה לא יקדם אותנו לשום מקום. למה להשתמש במספר הסידורי שמכיל אינפורמציה חלקית (בהנחה הסבירה שהמתאם קטן מ-1), כאשר יש לנו משתנה עם האינפורמציה המלאה?

לסיכום: חישוב מקדם המתאם בין משתנה של מספר סידורי (ובכלל משתנה שמי כלשהו) הוא גם שגוי וגם חסר תועלת, ומהווה סימן אזהרה לסטטיסטיקה רעה.

 

כשפירסון ויול הסירו את הכפפות

לא מכבר התחלתי להשתתף בקבוצת דיון בהיסטוריה של הסטטיסטיקה, ואשתדל לתעד את המפגשים החודשיים של הקבוצה. המפגש הראשון של הקבוצה עסק במחלוקת ביןקרל פירסון ותלמידו אדני יוּל בדבר הדרך הראויה למדוד את עצמת ההקשר ("מתאם") בין שני משתנים איכותיים (כלומר משתנים שסולם המדידה שלהם אינו רציף).  בתחילה אסביר בקצרה את הבעיה הסטטיסטית. לאחר מכן אתאר את הגישות השונות של השניים לפתרון הבעיה, את הרקע שהוביל כל אחד מהם לגישה אחרת, וכמובן, את ההתגוששות בין השניים (חלק זה יסתמך בעיקר על מאמרו של דונלד מקנזי מ-1978 ((1. MacKenzie, D. (1978). Statistical Theory and Social Interests A Case-Study. Social studies of science, 8(1), 35-83. )).  לסיום אביע את דעתי בנושא. לטובת הקוראים שאינם בקיאים בסטטיסטיקה, אשתדל לבדל את הקטעים הטכניים בפסקאות נפרדות. אם תחושו כי אתם הולכים לאיבוד, המשיכו ללא חשש לפיסקה הבאה.

 Yule and Pearson

 אדני יול (מימין) וקרל פירסון

הבעיה הסטטיסטית מאוד פשוטה למעשה (( 2. יש לציין כי המחלוקת בין פירסון ויול לא הייתה מוגבלת לדיון בבעיה זו בלבד)) . אסביר אותה על ידי דוגמה שיול עצמו הציג. מדובר בנתונים שנאספו במהלך התפרצות מחלת האבעבועות השחורות בעיר שפילד בשנים 1877-1878. בסך הכל נרשמו 4703 מקרים של המחלה. קרוב ל-90% מהחולים קיבלו קודם לכן חיסון נגד מחלה זו ורובם המכריע (כ-95%) החלימו. מבין אלה שלא חוסנו, קרוב ל-50% מתו מהמחלה. יול הציג את הנתונים בטבלה:

החלימו

נפטרו

חוסנו

3951

200

לא חוסנו

278

274

מעניין כמובן לשאול האם החיסון גרם לשיפור סיכויי ההחלמה במקרה של הדבקות, אך לפני כן יש לשאול האם יש קשר בין עצם העובדה שחולה קיבל (או לא קיבל) חיסון מוקדם נגד המחלה ובין מצבו לאחר המחלה (החלים או מת).

אני מניח (ובודאי מקווה) כי רוב הקוראים שיעיינו בנתונים הנ"ל יגיעו למסקה כי אכן קיים קשר בין שני המשתנים. ובכל זאת, עולות מהנתונים מספר שאלות. ניתן למשל לשאול לגבי עצם יעילותו של החיסון – כיצד יותר מ-4000 איש שחוסנו נגד המחלה בכל זאת חלו? לא ניתן לענות על שאלה זו מתוך נתונים אלו. שאלה אחרת לגבי יעילות החיסון עולה מהעובדה שבכל זאת 200 מבין המחוסנים שחלו מתו במחלה. האם זה טוב? כנראה שלא. האם יכלה להתקבל תוצאה יותר טובה? בודאי. עד כמה התוצאה הייתה יכולה להיות טובה יותר? התוצאה הטובה ביותר הייתה אילו כל המחוסנים היו מחלימים. תוצאה זו הייתה מדגימה קשר חיובי חזק ביותר בין שני המשתנים.

התוצאה גם הייתה יכולה להיות גרועה יותר. תוצאה גרועה אפשרית היא שכ-50% מהמחוסנים מתים, כפי שגם כ-50% מהלא מחוסנים מתו. מצב כזה מראה שאין כל קשר בין עצם קבלת החיסון ובין הסיכוי לשרוד את המחלה.

יש תוצאה עוד יותר גרועה: על המחוסנים מתים, כל הלא מחוסנים מחלימים. תוצאה כזו הייתה מעלה מייד את הטענה שיש קשר שלילי בין מתן החיסון וסיכויי ההחלמה.

מה הייתם אומרים על הקשר אילו המספרים בטבלה היו משתנים מעט יחסית? למשל, אם 205 מחוסנים מתו במקום 200 (ו-3946 החלימו), ומבין הלא מחוסנים מספר המחלימים היה 273 במקום 278 (ומספר המתים הוא 279)? האם הקשר בין המשתנים שמראים נתונים אלה חזק יותר מהקשר שמראים הנתונים המקוריים או חלש יותר? איך בכלל מודדים את חוזקו/עוצמתו של הקשר? על שאלה זו ניסו פירסון ויול לענות בתחילת המאה ה-20.

השאלה הדומה, אשר נשאלה לגבי משתנים כמותיים (למשל גובה ומשקל), נחשבה כבר לפתורה. הפתרון התבסס על עבודתו החלוצית של פרנסיס גאלטון בנושא הרגרסיה והמתאם, ופירסון עצמו הוא זה שחתם את הדיון בנושא וסיפק את נוסחת מקדם המתאם הנמצאת השימוש עד עצם היום הזה וידועה בשם "מקדם המתאם של פירסון". מקדם המתאם של פירסון מקבל ערך 1 כאשר יש קשר לינארי מלא וחיובי בין שני המשתנים, ערך 1- כאשר יש קשר לינארי מלא ושלילי בין שני המשתנים, וערך 0 כאשר אין כלל קשר לינארי בין המשתנים (כלומר הם "בלתי מתואמים" בשפת הסטטיסטיסטיקאים). המקדם של פירסון יכול לקבל למעשה כל ערך תחום שבין 1- ל-1. ערכים קרובים ל-1 (או ל-1-)  מעידים כי הקשר הלינארי בין המשתנים חזק, וככל שהערכים מתקרבים ל-0 זה מעיד על החלשות הקשר הלינארי.

בצומת דרכים זו נפרדו דרכיהם של פירסון ויול. פירסון סבר כי תיאוריה למדידת עצמת הקשר בין שני משתנים איכותיים צריכה להתבסס על התיאוריה הקיימת למשתנים כמותיים ולהכליל אותה. יול, לעומת זאת, סבר כי משתנים איכותיים שונים באופן מהותי ממשתנים כמותיים, ולכן יש צורך לפתח עבורם תיאוריה נפרדת.

אפתח בתיאור הגישה של יול. הוא טען כי מדד לעצמת הקשר צריך לקיים שלוש תכונות (בדומה למקדם המצתם של פירסון): ערכו שווה ל-0 כאשר אין קשר בין המשתנים, שווה ל-1 כאשר יש קשר חיובי מלא בין המשתנים, ושווה ל-1- כאשר יש קשר שלילי מלא בין המשתנים.

 כמו כן, יול הבחין כי כאשר אין קשר בין שני משתנים איכותיים, אז השורות בטבלה כגון זו שהוצגה קודם פרופורציוניות זו לזו (כפי שהדגמתי קודם לכן, זה עשוי להיות מקרה בו 50% מהמחוסנים מחלימים מהמחלה, וגם 50% מהלא מחוסנים מחלימים ממנה). קשר חיובי מלא קיים כאשר במשבצת השמאלית העליונה מופיע אפס  (בדוגמא שלנו- איש מהמחוסנים לא נפטר), ו/או כאשר מופיע 0 במשבצת הימנית התחתונה ( כלומר מי שלא חוסן לא החלים, רק למי שחוסן היה סיכוי להחלים). קשר שלילי מלא יתבטא לעומת זאת על ידי הופעת 0  במשבצת השמאלית התחתונה ו/או במשבצת הימנית העליונה (המחוסנים לא מחלימים, הלא מחוסנים דוקא כן) ((3. יש להגדרה זו ניואנסים שלא פירטתי)) .

מכאן הייתה קצרה הדרך להגדיר מדד שמקיים בדיוק את התכונות האלה: שווה ל-0 כאשר ארבעת המספרים בטבלה יוצרים שתי שורות מספרים פרופורציוניות, שווה ל-1 כאשר באלכסון הראשי מופיע 0 באחד התאים (או שניהם), ושווה ל-1- כאשר מופיע באלכסון המשני מופיע 0 באחד התאים (או שניהם). יול כינה את המדד שלו Q, לכבודו של הסטטיסטיקאי הבלגי אדולף קאטלה.

למדד Q שהציע יול היו גם חולשות, ויול היה מודע להן. אחת החולשות העיקריות הייתה ש-Q אינו המדד היחיד העומד בשלושת הקריטריונים שדרש יול – יש עוד מדדים רבים כאלה. יול עצמו הציע עוד מספר מדדים, וניסה להצדיק כמיטב יכולתו את הצעת Q כמדד הקשר העיקרי.

פירסון כאמור, בחר ללכת בדרך אחרת, וניסה לבנות תיאוריה שתכליל את מקדם המתאם שלו, שנבנה למשתנים כמותיים, כך שישמש למדידת קשר בין שני משתנים איכותיים. אתאר את הגישה שלו בעזרת דוגמה.

נניח שאנו מעוניינים לבדוק האם יש קשר בין גובהו של אדם ומשקלו (באוכלוסיה נתונה). אין בעיה. אם נתונים לנו גובהו ומשקלו של כל אדם באוכלוסיה, אפשר לעבד את הנתונים בעזרת נוסחת מקדם המתאם ולקבל איזשהו מספר. אבל מה קורה אם אין לנו את הנתונים המלאים? נניח שיש לנו רק נתון איכותי לגבי כל אדם. אנו יודעים האם הוא "גבוה" או "נמוך", וכן אם הוא "רזה" או "שמן", ואין אינפורמציה לגבי הגבול המפריד בין גבוה לנמוך ובין רזה לשמן. כל מה שיש לנו זה ארבעה מספרים, מסודרים בטבלה דומה לזו שהוצגה בתחילת הרשימה: יש כך וכך אנשים גבוהים ורזים, כך וכך אנשים גבוהים ורזים, וכולי. מה עושים?

פירסון טען כי הנתונים האלה מקורם בהתפלגות נורמלית ("פעמונית"). ידוע כי התפלגות גובהם של בני אדם היא בקירוב נורמלית, וידוע גם כי התפלגות המשקל היא בקירוב נורמלית. יתר על כן, ידוע כי לגובה ולמשקל יש התפלגות משותפת דו-נורמלית (תחשבו על פעמון תלת מימדי).

להתפלגות נורמלית יש שני פרמטרים – התוחלת וסטיית התקן של ההתפלגות. להתפלגות דו-נורמלית יש חמישה פרמטרים: התוחלת וסטיית התקן של כל אחד מהמשתנים, וכן פרמטר נוסף הקושר את שני המשתנים בהתפלגות המשותפת.

לו היו בידינו נתוני המשקל והגובה המקוריים, אזי מקדם המתאם של פירסון מהווה אמד לפרמטר חמישי של ההתפלגות הדו נורמלית (ופרמטר זה מכונה אכן בשם "מקדם המתאם"). פירסון פיתח שיטה מתמטית לאמידת הפרמטר החמישי של ההתפלגות הדו-נורמלית מהנתונים החלקיים של החלוקה גבוה/רזה/נמוך/שמן. את האמד שקיבל כינה "מקדם המתאם הטטרהכורי" – " Tetrachoric correlation coefficient".  פירסון יישם את השיטה שלו גם כאשר לא היה ברור לחלוטין כי מקורם של הנתונים האיכותיים הוא בהתפלגות נסתרת (בלתי ניתנת לצפיה) דו-נורמלית.

פירסון ידע היטב כי המקדם הטטרהכורי אינו אמד טוב במיוחד עבור מקדם המתאם של ההתפלגות הדו-נורמלית. עם זאת, הוא סבר כי זהו האמדן הטוב ביותר שניתן להגיע אליו כאשר הנתונים הם איכותיים. הוא סבר גם כי מקדם ה-Q של יול הינו אמד למקדם המתאם של ההתפלגות הדו-נורמלית, וטען כי המקדם שהוא פיתח עדיף על Q.

יול, מצידו, טען כי במקרים רבים ההנחה הבסיסית של פירסון לפיה מקורם של הנתונים האיכותיים נמצא בהתפלגות דו-נורמלית שאינה ניתנת לצפיה אינה נכונה. האם ערכים של "מוות ממחלה" ו-"החלמה ממחלה" מקורם במשתנה רציף נורמלי? שאל ולא נענה. יול פיתח שיטות לבדיקת ההנחה של פירסון, ובדק בדקדקנות את כל הדוגמאות שפירסון הביא במאמריו. במקרים רבים הגיע למסקנה כי הנחת הנורמליות של פירסון אינה ניתנת להצדקה.

גם פירסון היה מודע לבעיות של המקדם הטטרהכורי. הוא השקיע עבודה בפיתוחו ושיפורו, וב-1922 הציג את מקדם המתאם הפוליכורי (( 4. Pearson, K., & Pearson, E. S. (1922). On polychoric coefficients of correlation. Biometrika, 14(1-2), 127-156. )) . עם זאת, החליט לנסות ולפתח מקדם קשר אחר, המבוסס על מבחן החי-בריבוע לבדיקת אי תלות בין שני משתנים (שהוא עצמו פיתח מוקדם יותר).

חילוקי הדיעות בין השניים היו ידועים. בדצמבר 1905 תקף יול את מורו וחברו פירסון בפומבי כאשר הרצה בפני החברה הסטטיסטית המלכותית, וטען כי ההנחות שבבסיס המקדם הטטרהכורי אינן תקפות. פירסון השיב ליול במאמר שפרסם בעיתון הבית שלו, ביומטריקה ((5. פירסון יסד את כתב העת ביומטריקה וערך אותו עד מותו ב-1936)). אולם השניים הקפידו לשמר את הויכוח במסגרת מדעית במידת האפשר.

הכפפות הוסרו כאשר פרסם יול את ספרו "מבוא לתיאוריה של הסטטיסטיקה" ב-1911. יול הציג בספרו את מקדם המתאם של פירסון למשתנים כמותיים, ולמשתנים איכותיים המליץ לקוראיו להשתמש ב-Q או במדד נוסף שאותו פיתח, אך נמנע מלציין את המקדם הטטרהכורי של פירסון כאפשרות נוספת למדידת עצמת הקשר. תלמיד אחר של פירסון, דויד הרון, הגיב על כך במאמר שכותרתו "הסכנה שבנוסחאות מסויימות המוצעות כתחליף למקדם המתאם" (( 6. Heron, D. (1911). The danger of certain formulae suggested as substitutes for the correlation coefficient. Biometrika, 109-122. )).

היחסים בינו ובין פירסון הדרדרו במהירות למריבה אישית. בהרצאה נוספת שנשא בפני החברה הסטטיסטית המלכותית ב-1912 (( 7. Yule, G. U. (1912). On the methods of measuring association between two attributes. Journal of the Royal Statistical Society, 579-652. )) , יול תקף את גישתו של פירסון ואף את פירסון אישית. "הצגת הנחות בלתי נחוצות שאינן ניתנות לאימות אינה נראית לי כהתקדמות רצויה במחקר המדעי", אמר יול. והעיר כי בכל זאת קיימים מקרים מעטים בהם הנחה זו הינה "פחות בלתי מתקבלת על הדעת" ועדיין לעיתים קרובות יש להטיל ספק, לדעתו, בטענה כי ההתפלגות הבלתי נצפית היא דו-נורמלית.

פירסון והרון לא נשארו חייבים. הם השיבו ליול ב-1913, עת  פירסמו מאמר נוסף בביומטריקה שהשתרע על פני לא פחות מ-157 עמודים (( 8. Pearson, K., & Heron, D. (1913). On theories of association.Biometrika, 9(1-2), 159-315.  )) . "המחלוקת בינינו", הבהירו פירסון והרון, "היא המחלוקת ארוכת הימים בין הגישה הנומינליסטית והגישה הריאליסטית. מר יול מלהטט בהגדרות מושגים כאילו מדובר בעצמים אמיתיים. ניתוחיו הסטטיסטיטיים הם למעשה סוג של לוגיקה סימבולית. תיאוריות כאלה לא הניבו מעולם שום תועלת מעשית. ייתכן כי יש בתרגילים לוגיים כאלה יש ערך חינוכי עבור סטודנטים, אבל ייגרם נזק גדול לסטטיסטיקה כמקצוע מודרני, אם המתודולוגיות של מר יול ייעשו מקובלות. יש בכך סכנה ממשית (( 9. פירסון והרון השתמשו בבביטוי "grave danger", כלומר סכנת נפשות )) , כי קל ללכת בדרך שיול מתווה, ורוב האנשים מתעלמים מהסכנות".

ב-1914 פרצה מלחמת העולם הראשונה והשעתה את הויכוח בין השניים. לאחר המלחמה, תחומי העניין המחקריים של פירסון השתנו, ועימם גם ירדה המוטיבציה שלו לעסוק בבעיית מדידת עצמת הקשר. יתר על כן, גישה חדשה לתיאוריה הסטטיסטית, שהוביל רונלד פישר, הפנתה את תשומת הלב של הסטטיסטיקאים לבעיות אחרות. למרות שהויכוח בין השניים שכך, היחסים בין פירסון ויול לא שבו לקדמותם.

לדעת מקנזי, מקור הסיבה למחלוקת בין פירסון ויול הוא ב-"אינטרסים הקוגניטיביים" השונים שלהם. מטרות המחקר שלהם היו שונות, וכל אחד מהם נקט בגישה המתאימה למטרותיו, אך לא למטרות של חברו/יריבו.

פירסון היה בין החוקרים המובילים בתחום האאוגניקה , ועבודתו בתחום הסטטיסטיקה נעשתה כדי לקדם את מחקריו האאוגניים/ביומטריים (( 10. למעשה פירסון לא ראה את עצמו כסטטיסטיקאי, למרות שהיה האדם הראשון שנשא בתואר "פרופסור לסטטיסטיקה". הוא מעולם לא ביקש להצטרף לחברה הסטטיסטית המלכותית, וממילא לא היה חבר בה)) . הוא היה מעוניין בעיקר בכלים לחיזוי: אם ידוע ערכו של משתנה אחד, מהי תוחלת ערכו הצפוי של המשתנה האחר? משום כך היה סבור כי יש להכליל את תיאוריית הרגרסיה של גאלטון גם למשתנים איכותיים. ההנחה של ההתפלגות הדו-נורמלית הייתה עבורו רק הנחה. התפלגות זו הייתה חלק מהמודל שלו, לא חלק מהנתונים. התוצאות שקיבל היו די טובות, לדעתו, גם אם ההנחה לא הייתה נכונה. לעומת זאת, שאלות בדבר סיבתיות לא עניינו אותו – אין זה סביר כי תכונה מסויימת של אדם (למשל, רגל גדולה) תגרום לתכונה אחרת (כמו ראש גדול, למשל). שתי התכונות מושפעות מהרקע הגנטי/משפחתי של האדם.

מחקריו של יול, לעומת זאת, היו בתחום מדעי החברה, ושם שאלת הסיבתיות האפשרית הייתה חשובה יותר. לכן, בעיניו של יול, הקשר בין המשתנים היה ביטוי לקשר סיבתי אפשרי בינם, ולא רק תכונה של ההתפלגות המשותפת (( 11. ראו גם Stigler, S. M. (1986). The history of statistics: The measurement of uncertainty before 1900. Harvard University Press. Pages 352-358. )). העובדה שאדם הוא קבצן, טען יול, אינה תלויה ברקע (ובניוון) הגנטי שלו כפי שטוענים תומכי האאגוניקה. (( 12. יול התנגד לתורה זו. במכתב לחברו הטוב, מייג'ור גרינווד כתב: "התיאוריה האאוגנית מעוררת בי סלידה כמו הרעיון לתת זכות הצבעה לנשים". )) במחקריו הראה יול כיצד רפורמות חברתיות הביאו להקטנה במספר הקבצנים.

מקנזי מרחיק לכת ומעלה השערה כי התיאוריה/אידיאולוגיה האאוגנית ביטאה את ההעדפות החברתיות של חלק מסויים בלבד בחברה הבריטית של סוף המאה ה-19 ותחילת המאה ה-20, המאופיין על ידי רקע מעמדי והעדפות פוליטיות. לדעת מקנזי, ייתכן כי ההבדלים האלה שבין יול ופירסון גרמו לכיווני המחקר השונים שלהם, ומכך נבע הניגוד שבין גישותיהם לנושא מדידת עצמת הקשר בין המשתנים.

מי ניצח בסופו של דבר בויכוח? לדעת מקנזי, הויכוח לא הוכרע עד ימינו, ומסתמך, בין היתר, על מאמרם הקלאסי של גודמן וקראסקל מ-1954. (( 13. Goodman, L. A., & Kruskal, W. H. (1954). Measures of association for cross classifications*. Journal of the American Statistical Association49(268), 732-764.  )), אך מציין כי מדד ה-Q של יול עדיין פופולרי, בעוד שמקדם המתאם הטטרהכורי כמעט ונעלם. אציין כי נתקלתי במהלך לימודי הסטטיסטיקה שלי במקדם המתאם הטטרהכורי. היה זה כאשר קראתי, בהיותי תלמיד שנה ג' לתואר ראשון בסטטיסטיקה, את אותו מאמר של גודמן וקראסקל. הם מציינים בפירוש כי ניתן להשתמש במקדם הטטרהכורי במקרים בהם מקור הנתונים בהתפלגות דו-נורמלית. למען ההגינות, אומר גם כי לא זכרתי זאת במשך השנים שעברו. חזרתי למאמר של גודמן וקראסקל בעקבות הקריאה המאמר של מקנזי, ראיתי כי המקדם הטטרהכורי הוזכר בתחילת המאמר, והסקתי כי נתקלתי בו גם בפעם הראשונה בה קראתי את המאמר.

למיטב הבנתי, גודמן וקראסקל ממליצים בפועל על הגישה של יול, לפיה יש לבחור את מדד הקשר בהתאם לבעיה הנדונה, ואינם מעודדים הנחת התפלגות נסתרת. לכן, לדעתי יול הם למעשה הכתירו את יול כמנצח בקרב הזה. המקדם הטטרהכורי כמעט ונכחד, בעוד שכל תכנה סטטיסטית המכבדת את עצמה מחשבת את Q ומדדים דומים נוספים.

עם זאת, גישתו של פירסון המניחה התפלגות נסתרת/בלתי-נצפית עדיין חיה וקיימת. בסטטיסטיקה המודרנית, סוס העבודה העיקרי לניתוח נתונים איכותיים הוא הרגרסיה הלוגיסטית. בבסיסה של שיטה זו טמונה ההנחה כי מקורו של המשתנה האיכותי הוא במשתנה נסתר/בלתי-נצפה, שמניחים כי התפלגותו היא התפלגות לוגיסטית (( 14. אם מניחים כי התפלגות של המשתנה הנסתר היא נורמלית, הכלי המתקבל הוא "מודל פרוביט")) . אם ערכו של המשתנה הנסתר נמוך מסף מסויים, המשתנה האיכותי מקבל ערך מסויים ("החלים מהמחלה", אם ניצמד לדוגמה של יול שהובאה בראשית הרשימה הזו), וכאשר ערכו של המשתנה הנסתר חוצה את הסף, המשתנה האיכותי מקבל ערך אחר ("מת מהמחלה"). גישה זו ננקטת גם בשיטת סטטיסטיות נוספות, כאשר הסטטיסטיקאי מודע לכך כי המשתנה הנסתר אינו חלק מהנתונים שלו, אלא רק חלק מהמודל. מכאן, למרות שגישתו של פירסון נוצחה בקרב המסויים שתיארתי כאן, היא הוכיחה את עצמה כגישה יעילה לניתוח נתונים איכותיים ונמצאת בשימוש יומיומי במחקר המדעי.

מתאם כן מעיד על סיבתיות

לא, לא, אל תדאגו, אני בסדר.

כן, זה אני, יוסי לוי, בעל השכלה רחבה בסטטיסטיקה, שאפילו נחשב לסטטיסטיקאי מכובד בחוגים מסויימים. אני יוסי לוי, שהפוסט הראשון שכתבתי בבלוג הזה עסק בנושא המתאם והסיבתיות, ופוסט זה כלל שפע של דוגמאות מגוחכות לתופעות שיש בינן מתאם, אך לא קשר סיבתי. רק לפני ארבעה שבועות כתבתי פוסט ארוך על הקשר האפשרי בין צמחונות ואנורקסיה, וכתבתי שם בפירוש כי מתאם  לא בהכרח מעיד על סיבתיות. אז כתבתי. זה לא היה מדוייק, ובעולם שלי "לא מדוייק" זה לא נכון. טעיתי בהיסח הדעת, ואני מודה בטעותי. מה הייתי צריך לכתוב?

בכל קורס מבוא לסטטיסטיקה משננים את המנטרה: מתאם לא מעיד על סיבתיות. מתאם לא מעיד על סיבתיות. מתאם לא מעיד על סיבתיות. מתאם לא מעיד על סיבתיות. מתאם לא מעיד על סיבתיות.

אבל המנטרה לא נכונה. תחשבו רגע בהגיון: מה יכול להעיד על סיבתיות אם לא מתאם? נניח שאתם צופים בשתי תופעות שאין שום קשר בינן. למשל, מספר הנעליים של אדם בוגר (בניגוד לתלמידים בבית הספר) ורמת הידע שלו במתמטיקה. אני מאמין שלא תמצאו מתאם בין שתי התופעות, או יותר נכון, המתאם במדגם שתקחו יהיה קרוב מאוד לאפס. מי שלא מוכן לאמץ את הדוגמא הזו, מוזמן לקחת דוגמת הארד-קור: קחו קובית משחק הוגנת (כלומר, לכל אחד מששת המספרים סיכוי שווה להופיע כלפי מעלה בהטלת הקוביה). הטילו אותה פעמיים ורשמו את תוצאת ההטלה הראשונה וההטלה השניה. חזרו על התרגיל שוב מספר רב של פעמים, וחשבו את המתאם בין שתי התצפיות. המתאם יהיה בערך אפס. אין מתאם. אז אם " מתאם לא מעיד על סיבתיות", מה אומר לנו חוסר המתאם? שיש סיבתיות? שתוצאת ההטלה הראשונה של הקוביה גורמת את תוצאת ההטלה השניה? שמספר הנעליים גורם את הידע במתמטיקה? או להיפך? לא.  ממש לא.

אם אתם מדענים, או חוקרים, או סתם אנשים סקרנים, חוסר קשר בין שתי תופעות ממש לא מעניין אתכם. אתם לא תגידו לעצמכם: "המממ, בחלק מצלחות הפטרי יש עובש, ובחלק אין, וכל החיידקים מתו בכל הצלחות, ולכן אין קשר בין העובש ומות החיידקים. נראה לי שעלינו על משהו גדול". בדיוק להיפך.

אנשים כמוכם אמורים לזהות שתי תופעות שנראה שיש קשר/מתאם בינן, ואז להכנס לעובי הקורה ולנסות לבדוק מה מקור הקשר והאם יש סיבתיות כלשהי. לפעמים תגלו שלמרות המתאם אין שום סיבתיות. לפעמים תגלו מבנה קשר כלשהו: A גורם את B, או אולי B גורם את A, או אולי C גורם גם את A וגם את B, ויש גם מבני קשר מסובכים יותר.

הסיבה לכך פשוטה: אם יש קשר סיבתי בין שתי תופעות, חייב להיות בינן גם מתאם. נכוו, ייתכן כי יש מתאם בין שתי תופעות גם אם אין בינן קשר סיבתי, אבל לא ייתכן כי לא קיים מתאם ויש קשר סיבתי.

ולכן, מתאם מעיד על סיבתיות. זוהי עדות נסיבתית, אבל בכל זאת עדות. היא לא מספיקה להרשעה להוכחה, אבל בלעדיה כל הקייס מתמוטט.

אמרו מעתה: מתאם מעיד על סיבתיות אפשרית, אך אינו מספיק להוכחת הסיבתיות.

The Simpson

במשחק השביעי והמכריע בסדרת גמר אליפות הכדורסל הארצית, התמודדה קבוצת ספרינגפילד בולס מול יריבתה המושבעת, קבוצת יוטה סופרגז. כצפוי, המשחק הוכרע על פי היכולות האישיות של כוכבי שתי הקבוצות: בארט מספרינגפילד ויוחנן מיוטה. במחצית הראשונה היו לבארט 40% אחוזי קליעה מהשדה, בעוד שיוחנן צלף ב- 50% מנסיונות הקליעה שלו.  במחצית השניה צפינו בהתעלות אישית של שני הכוכבים. בארט הדהים והכפיל את אחוז הקליעה שלו ל-80%, אך יוחנן שוב התעלה עליו, והשיג הישג בלתי יאמן של 90% קליעה. את סל הנצחון לזכות ספרינגפילד קלע בארט עם שריקת הסיום. הוא גם נבחר לשחקן המצטיין של המשחק המותח והשקול, לאחר שסיים אותו עם 67% קליעה, בעוד שאחוזי הקליעה של יוחנן במשחק היו בסופו של דבר נמוכים יותר: 63% בלבד.

לא, אין כאן טעות חישוב וגם לא טעות בסטטיסטיקה. למרות שיוחנן היה טוב יותר מבארט בכל אחת ממחציות המשחק, הרי בסיכום הכולל של המשחק בארט היה טוב יותר מיוחנן. זו תופעה סטטיסטית הידועה בשם "פרדוקס סימפסון".

הקוראים מוזמנים לעצור כאן, ולנסות למצוא מספרים ש-"יסתדרו" עם הדוגמא המלאכותית בה פתחתי. (המספרים שלי יובאו בהמשך הרשימה).

אולי הדוגמא המפורסמת ביותר לפרדוקס סימפסון היא פרשת ההפליה על רקע מגדרי בקבלה ללימודים מתקדמים באוניברסיטת ברקלי. בשנת 1973, נדהמו ראשי האוניברסיטה לגלות כי 44% מהגברים שנרשמו ללימודים מתקדמים (תואר שני ושלישי) באוניברסיטה התקבלו ללימודים, אך רק 35% מהנשים התקבלו. ראשי האוניברסיטה, שחששו מתביעה, הזעיקו לעזרה את הסטטיסטיקאי פיטר ביקל, וביקשו ממנו לבחון את נתוני הקבלה. ביקל ועמיתיו האמל ואו'קונל, פרסמו את ממצאיהם כעבור שנתיים בכתב העת היוקרתי Science. אביא כאן ניתוח של נתונים חלקיים אך מייצגים של נתוני הקבלה, כפי שהופיעו בספר הקלאסי של פרידמן ועמיתיו – Statistics.

sex bias

לצורך הדגמת העקרון, נתרכז בששת החוגים הגדולים ביותר באוניברסיטה, אליהם נרשמו קצת יותר משליש מהמועמדים והמועמדות (באוניברסיטת ברקלי יש למעלה ממאה חוגים שהציעו תכניות ללימודים מתקדמים). נתוני ההרשמה והקבלה לחוגים אלה נתונים בטבלה הבאה:

גברים

נשים

סך הכל

חוג

נרשמו

אחוז קבלה

נרשמו

אחוז קבלה

נרשמו

אחוז קבלה

A

825

62

108

82

933

64

B

560

63

25

68

585

63

C

325

37

593

34

918

35

D

417

33

375

35

792

34

E

191

28

393

24

584

25

F

373

6

341

7

714

6

סך הכל

2691

45

1835

30

4526

39

התמונה הכללית המוצגת כאן דומה לתמונה שהתגלתה בנתונים המלאים: 45% מהגברים התקבלו ללימודים, רק 30% מהנשים. אבל שימו לב: ברוב החוגים אחוזי הקבלה של גברים ונשים דומים זה לזה, עם הבדלים של אחוזים בודדים לכאן או לכאן. רק בחוג A נראה שיש (אולי) אפליה על רקע מגדרי: לחוג זה התקבלו 82% מהנשים, אבל רק 62% מהגברים. הנשים משחקות כאן את תפקידו של יוחנן, הגברים את בארט. איך זה קרה?

שימו לב כי לחוגים A ו-B קל להתקבל – כשני שליש מהנרשמים מתקבלים. יותר ממחצית הנרשמים הגברים ביקשו להתקבל לחוגים אלה. לחוגים C עד F הרבה יותר קשה להתקבל. יותר מ-90% מהנרשמות ביקשו להתקבל לחוגים אלה. אופס.

תופעות כאלה אינן נדירות כלל וכלל, ויש שפע של דוגמאות נוספות (ראו למשל בערך של ויקיפדיה על הנושא). הוול סטריט ג'ורנל, למשל, העלה את השאלה הבאה: האם נתוני האבטלה במשבר הכלכלי הנוכחי גרועים יותר מאלה של המשבר של תחילת שנות ה-80 של המאה הקודמת? נראה שלא, או לפחות עדיין לא: בנובמבר 1982 עמד אחוז המובטלים בארה"ב על 10.8%, בעוד שבאוקטובר 2009 היה אחוז המובטלים 10.2%. אבל, בקרב העובדים בעלי תואר אקדמי אחוז האבטלה ב-2009 גבוה מזה של 1982, וכך הדבר גם בקרב בעלי השכלה אקדמית חלקית, בוגרי תיכון, ובעלי השכלה תיכונית חלקית. מה שקורה הוא שכיום יש יותר בעלי השכלה אקדמית, שבקרבם אחוז האבטלה נמוך יחסית לקבוצות האחרות, והרבה פחות בעלי השכלה תיכונית חלקית, שבקרבם תמיד אחוז האבטלה גבוה יותר. אחוז האבטלה הכולל הוא ממוצע משוקלל על פי גודל תת האוכלוסיה, וכאשר משקלם של האקדמאים גבוה יותר, הם מושכים את הממוצע המשוקלל כלפי מטה.

באותו אופן, כאשר יותר נשים נרשמות לחוגים עם אחוזי קבלה נמוכים, הן מושכות את הממוצע המשוקלל של נתוני הקבלה לנשים כלפי מטה, בעוד שהגברים שנרשמו ברובם לחוגים עם תנאי קבלה קלים מושכים את הממוצע המשוקלל של נתוני קבלת הגברים כלפי מעלה.

ואם נחזור לבארט ויוחנן, הנה נתוני הקליעות שלהם:

בארט

יוחנן

מחצית ראשונה

נסיונות

10

20

קליעות

4

10

אחוז קליעה

40%

50%

מחצית שניה

נסיונות

20

10

קליעות

16

9

אחוז קליעה

80%

90%

כל המשחק

נסיונות

30

30

קליעות

20

19

אחוז קליעה

67%

63%

כל שחקן זרק את הכדור לסל 30 פעם במהלך המשחק, ובסך הכל יוחנן החטיא פעם אחת יותר מבארט. אבל בארט לקח את רוב הזריקות שלו במחצית השניה בה שני השחקנים התעלו, בעוד יוחנן הרבה לזרוק לסל במחצת הראשונה, בה גם הוצגה יכולת טובה, אבל פחות טובה מהיכולת המופלאה של המחצית השניה.

מה שראינו בשתי הדוגמאות היא נוכחות של משתנה מתווך (confounding variable). בדוגמת הכדורסל המשתנה המתווך הוא מחצית המשחק. אני מניח שיתפתח ויכוח האם תואר השחקן המצטיין אכן מגיע לבארט, או שמא יוחנן היה טוב יותר. מי היה נבחר אילו יוטה ניצחה במשחק? האם החלוקה למחציות משנה משהו? מה היה קורה לו היינו מסתכלים על נתוני המשחק לפי רבעים? האם יש טעם להסתכל על נתונים חלקיים של המשחק ולא על המשחק כשלם?

משתנה מתווך הוא משתנה המסביר את מבנה הקשר בין שני משתנים אחרים. דנתי בנושא כבר ברשימה הראשונה שפורסמה אי פעם בבלוג הזה (האם החסידה מביאה ילדים לעולם?). הדוגמא הקלאסית היא הקשר בין מספר הנעליים לידע במתמטיקה: בכל בית ספר תמצאו כי לתלמידים שמספר הנעליים שלהם גדול יותר יש ידע רב יותר במתמטיקה (גילוי נאות: מספר הנעליים שלי הוא 46). מהו המשתנה המתווך בדוגמא זו?

בדוגמת נתוני האבטלה המשתנה המתווך הוא ההשכלה, ובדוגמא של אוניברסיטת ברקלי הדברים לדעתי קצת יותר ברורים. אין טעם, לדעתי, להסתכל על הנתונים הכוללים של האוניברסיטה, ויש לבחון מה המצב בכל חוג בנפרד. החוג (ומדיניות הקבלה שלו) הוא משתנה מתווך בין המגדר ובין אחוז הקבלה הכולל.

בזמנו פרסמתי כאן בבלוג רשימה שעסקה בנושא הממוצע המשוקלל תחת הכותרת "ממוצע משוקלל – איך ולמה" שזכתה לתגובות רבות ועוררה פולמוס עז בתגובות. הטענה שטענתי שם, ואני עדיין עומד מאחוריה, היא כי יש טעם בחישוב ממוצע משוקלל רק אם המשקלות מתאימים, ובמקרה של מיצוע יחסים, המשקל המתאים הוא המשתנה שבמכנה. כך, טענתי, יש למצע מהירויות תוך כדי שקלול בזמני התנועה, יחסי חוב-תוצר יש לשקלל בתוצר, וכן הלאה. שימו לב כי כל המדדים הכוללים שהובאו כאן הם ממוצעים משוקללים נכונים. בדוגמת הכדורסל אחוז הקליעות הכולל של כל שחקן הוא ממוצע משוקלל של אחוזי הקליעות בכל מחצית כשהמשקלות הם מספר הזריקות לסל בכל מחצית. בדוגמא של אוניברסיטת ברקלי, אחוז הקבלה הכולל של הנשים (גברים) הוא ממוצע משוקלל של אחוזי הקבלה של הנשים (גברים) בכל חוג, כשהמשקלות הם מספר הנשים (גברים) שניסו להתקבל לכל חוג. בדקו זאת!

את הרשימה על הממוצע המשוקלל כתבתי כהמשך לרשימה קודמת בנושא "ממוצע פוליטי" שם יצאתי נגד חישוב ממוצע כלשהו באחד ממסמכי משרד האוצר, וטענתי (או יותר נכון, תמכתי בסבר פלוצקר שטען) כי על האוצר היה להשתמש בממוצע משוקלל ולא בממוצע פשוט. אז הנה אשאל את השאלה לפני שתעלה בתגובות. אם הממוצע המשוקלל בברקלי הוא ממוצע משוקלל על פי המשקלות הנכונים, כפי שאני טוען, הרי שברקלי אכן הפלתה נשים לרעה בקבלה לאוניברסיטה. ורק לפני כמה פסקאות נכתב כאן כי אין לדון בממוצע המשוקלל אלא הנתונים הפרטניים???

גם כאן יש לי תשובה, אך היא אינה מתמטית. התשובה שלי היא שיש תמיד לזהות את המשתנה המתווך (אם ישנו כזה) ולהעריך את חשיבותו לטיב הקשר בין המשתנים (ראו את תגובתו המצויינת של דודי קינג לרשימה "ממוצע פוליטי") . סטטיסטיקאי טוב (כמו פיטר ביקל, למשל) יעשה את זה, ולא יסתפק רק בהצבת נתונים בנוסחאות. אין כל ספק שאחוז הקבלה הכולל של נשים באוניברסיטת ברקלי נמוך מזה של הגברים. כל מי שיודע לחשב ממוצע יכול לומר את זה. השאלה החשובה היא האם האחוז הנמוך נובע מאפליה מכוונת או מסיבות אחרות, ולשם כך צריך גם קצת חשיבה סטטיסטית, לא רק חישובים סטטיסטיים.

לימונים משפרים את הבטיחות בדרכים

יבוא לימונים ממקסיקו משפר את הבטיחות בדרכים, לפחות בארה"ב. הנתונים שמוכיחים זאת פורסמו :

לימונים לשיפור הבטיחות בדרכים

ובכן, רואים בבירור: ככל שיבוא הלימונים ממקסיקו גדל, כן קטן מספר תאונות הדרכים הקטלניות בכבישים המהירים שבארצות הברית.

לא לדאוג: הנתונים אמנם אמיתיים, אך מדובר בבדיחה. חסידות לא מביאות ילדים לעולם.

זוית מבט נוספת על מתאם וסיבתיות

לחצו על התמונה כדי לראות אותה (ואת הפאנצ'ליין, שמופיע בתור כיתובית לתמונה) בגודל מלא באתר xkcd, שם פורסמה היום.

מתאם וסיבתיות

כמובן שהתרעתי ואמשיך להתריע כאן בבלוג כי מתאם אינו מעיד על סיבתיות. בכל מקרה, במצב המתואר בקריקטורה זו יש בעיה סטטיסטית נוספת – גודל מדגם קטן מדי.

הזהרו מעצי באובב וממכוניות שחורות

אחד מקוראי שלח לי את הכתבה הבאה שפורסמה ב"ידיעות אחרונות" לפני זמן מה (לחצו על התמונה כדי לראות אותה בגודל מלא). על פי הכתבה, מכוניות שחורות הינן מסוכנות. לפי נתוני חברת "שגריר", נטען שם, "הסיכוי של מכונית שחורה להיות מעורבת בתאונה הוא פי 1.5 משל מכונית לבנה או אדומה". ואכן, מהתבוננות בטבלה נראה כי 2.12% מהמכוניות השחורות היו מעורבות בתאונות, לעומת 1.48% מהמכוניות האדומות ו-1.50% מהמכוניות הלבנות. האם כדאי לזוז הצידה כאשר רואים במראה מכונית שחורה, כמו שמייעץ לנו הכתב? לא בטוח.

 מכוניות שחורות מסוכנות

קודם כל, ההבדלים בין האחוזים המצוינים עבור המכוניות השחורות והאדומות אינם מובהקים סטטיסטית. ההבדל בין המכוניות השחורות למכוניות הלבנות כן מובהק סטטיסטית, וזאת בגלל המספר הגבוה של המכוניות הלבנות (כ-35,000) לעומת המספר הנמוך יחסית של מכוניות שחורות ב"מדגם" (פחות מ-3000). אבל זה באמת לא משנה. ממילא התוצאה הזו אנקדוטלית, ולא בהכרח מייצגת, כפי שאסביר מייד.

מדוע נצפתה התופעה? יכולים להיות מספר הסברים. הסבר אפשרי אחד ניתן בכתבה על ידי מנכ"ל חברת שגריר. קשה יותר להבחין במכוניות כהות על רקע הכביש, הסביר, וכן הצבע האדון מאפיין מכוניות ספורט ונהגים צעירים. במלים מקצועיות, ייתכן ויש כאן משתנים המתווכים בין צבע המכונית והסיכוי שלה להיות מעורבת בתאונה – סוג המכונית ואופי הנהג. אני חייב לשבח את המנכ"ל הנכבד שסיפק את ההסבר המתבקש, ומיתן בכך את פתיחת הכתבה הסוערת.

ברצוני להוסיף שתי הערות. ראשית, כפי שאולי שמתם לב, הכנסתי את המילה מדגם למרכאות כפולות כאשר התייחסתי לנתונים שפורסמו בפיסקה השניה של רשימה זו. זה לא במקרה. הנתונים אינם נתוני מדגם, אלא נתונים המתייחסים לכלי הרכב של מנויי חברת שגריר. ייתכן כי מנויי החברה שונים באופן מהותי מנהגים שאינם מנויים. למשל, ייתכן כי שרוב המנויים מקבלים את המנוי כתוספת לביטוח המקיף של הרכב, ומצד שני רוב הנהגים שאין להם ביטוח מקיף גם אינם מנויים של שגריר. אם כך הדבר, אזי המסקנות הנגזרות מנתוני שגריר אינן תקפות לכלל אוכלוסיית הנהגים ומכוניותיהם.

הערה שניה: כיצד אפשר באמת לוודא האם לצבע הרכב יש או אין השפעה על הסיכוי להיות מעורב בתאונת דרכים? במלים אחרות – כיצד אפשר לנטרל את השפעת המשתנים המתווכים? הדרך לשעות זאת היא בעזרת ניסוי מבוקר. לוקחים קבוצת נהגים, ומקצים להם באופן מקרי מכוניות בצבעים שונים. לאחר תקופת מה, בודקים את שיעור המעורבות בתאונות הדרכים של כל אחת מקבוצות המכוניות. זה לא מעשי כמובן, כשמדובר במכוניות, אבל זו פרקטיקה מקובלת בהרבה תחומים אחרים – פיתוח תרופות למשל.

ולסיום – לא משנה מה צבע המכונית שלכם. סעו בזהירות!

הכוכב הנעלם והאמד הכחול: משפט גאוס מרקוב ושיטת הריבועים הפחותים

שמחה גדולה אחזה בעולם האסטרונומיה בשנת 1781, עם גילויו של כוכב הלכת אוראנוס. לאחר שכוכב לכת זה נצפה, מסלולו חושב ומרחקו מהשמש הוערך, התברר כי מרחקו מהשמש מתאים לתחזית של "חוק טיטיוס-בודה", מעין להטוט חשבוני (שגוי, כך התברר בדיעבד) המתאר את מרחקו של כוכב לכת מהשמש כפונקציה של מספרו הסידורי. החוק תיאר בצורה טובה את מרחקיהם של כל כוכבי הלכת שהיו חדועים עד אז, אך השאיר "חור" בין מאדים לצדק. לפי החוק, "צריך" היה להיות שם עוד כוכב לכת, שלא נתגלה עדיין.

האסטרונומים הפנו את מאמציהם לגילוי כוכב הלכת האבוד. המאמץ נשא פרי כעבור 20 שנה. באחד בינואר 1801 גילה האסטרונום האיטלקי ג'וזפה פיאצי גוף שמימי שנע במסלול המיועד לכוכב הלכת האבוד. הוא כינה כוכב לכת חדש זה בשם צרס, לכבוד אלת החקלאות הרומית.

שמחתם של פיאצי ועמיתיו הייתה קצרה. לאחר שצפו בצרס במשך 41 לילות, "התקרב" מסלולו אל השמש, ובשל אורה החזק לא יכלו המשיך ולצפות בו. כמובן, כאשר יסיים צרס את הקפתו ויופיע מצידה השני של השמש יוכלו לצפות בו שוב, אבל, היכן בדיוק יופיע בשמי הלילה? הנתונים המועטים שנצברו (רק 22 תצפיות בפועל נאספו במשך 41 הלילות) לא אפשרו חישוב מדוייק של מסלולו.

מספר מלומדים ניסו לחזות את מסלולו של הכוכב הסורר. אחד מהם היה קרל פרידריך גאוס, מתמטיקאי ואסטרונום מהאוניברסיטה של גטינגן (אני מניח שכבר שמעתם עליו אי אלו פעמים). גאוס פרסם את תחזיתו למסלול של צרס בספטמבר 1801. צרס ציית לתחזיותיו של גאוס, והופיע בשמים בהתאם. עם גילוים של אסטרואידים נוספים שנעו במסלול בין מאדים לצדק, חזר גאוס על התרגיל וחישב את מסלולם של רבים מהם.

שרטוט המסלול של צרס על ידי גאוס

שרטוט המסלולים של האסטרואידים צרס ופאלאס על ידי גאוס (מקור: http://www.math.rutgers.edu/~cherlin/History/Papers1999/weiss.html)

מה היה הסוד של גאוס? רק ב-1809 פרסם גאוס ברבים את שיטתו, הידועה כיום כשיטת הריבועים הפחותים. ככל הנראה, גאוס נכנע ופרסם את השיטה רק לאחר שהמתמטיקאי הצרפתי לז'נדר פרסם בשנת 1806 את שיטתו לחישוב מסלולי שביטים, ולמעשה הוא שטבע את שם השיטה :"Méthode des Moindres Quarrés ". עם זאת, ידוע כי גאוס הכיר את השיטה כבר ב-1795, והוכיח ב-1798 כי אמד הריבועים הפחותים הוא אמד נראות מירבית – Maximum Likelihood Estimator (כמובן, המושגים האלה, שלקוחים מתחום התיאוריה הסטטיסטית,  עדיין לא היו ידועים בימיו). ב-1823 הוכיח גאוס כי השיטה אכן מספקת את האמד הלינארי הטוב ביותר במובן שזהו האמד הלינארי חסר ההטיה ששונותו מינימלית. מכאן הופיע הביטוי "אמד כחול" בכותרת הרשימה. כחול – BLUE- הם ראשי התיבות של Best Linear Unbiased Estimator. אין צורך להבהל מהמונחים הטכניים האלה, שלא אסביר בפירוט. אומר רק כי במלים פשוטות, גאוס הוכיח כי השיטה אופטימלית בשלושה מובנים שונים – גם נראות מירבית, גם שונות מינימלית וגם חסר הטיה.

גאוס ומרקוב

גאוס (משמאל) ומרקוב חולקים בתהילה של שיטת הריבועים הפחותים

המתמטיקאי הרוסי אנדריי אנדרייביץ מרקוב, שידוע בעיקר בזכות תרומתו לחקר התהליכים המקריים, תיאר בפירוט את שיטת הריבועים הפחותים בספר שפרסם ב-1912, וניסח אותה מחדש באופן ברור יותר, ובכך תרם את תרומתו להפצתה של השיטה ולפיתוחה. בזכות תרומתו זו זכה לחלוק בתהילה עם גאוס, והמשפט המוכיח את האופטימליות של שיטת הריבועים הפחותים נקרא משפש גאוס-מרקוב.

השיטה והכללותיה משמשות עד היום ככלי מרכזי לניתוח סטטיסטי של נתונים, ונמצאת בשימוש גם במדעים המדוייקים וגם במדעי החברה, בעיקר בתחום הכלכלה. סטיבן לויט, מחבר הספר רב המכר "פריקונומיקס", כתב בספרו כי השימוש בשיטה הוא "יותר אמנות מאשר מדע". אני חולק על דבריו. זוהי שיטה מדעית, המבוססת על תיאוריה מתמטית. יש לה יתרונות עצומים, כמובן, אך גם מגבלות. המשתמש בה חייב תמיד להיות מודע למגבלות האלה, ולא, מסקנותיו יהיו שגויות.

עד כאן ה"ציונות". אבל מהי בעצם שיטת הריבועים הפחותים? אנסה כעת לתת הסבר שווה לכל נפש.

נניח כי יש בידינו קבוצת נתונים, שנאספה ממדגם כלשהו. לכל פרט במדגם יש שני נתונים כמותיים. לדוגמא, אם אנו מסתכלים על מדגם של כפרים, נתון אחד יכול להיות מספר החסידות שקיננו בכפר באביב, והנתון השני יכול להיות מספר הלידות שהיו בכפר בקיץ שלאחר מכן. כלכלנים יעדיפו אולי להסתכל על מדגם של מדינות, כאשר נתון אחד הוא גובה המס שמטילה ממשלת המדינה על העסקים בתחומה, והנתון השני הוא הכנסות הממשלה ממסים באחוזים מהתמ"ג. חוקרים בחברת תרופות יסתכלו על מדגם של חולים, ויאספו נתונים על מינון התרופה הנסיונית שניתן לכל חולה ועל השינוי במצבו. בכל מקרה, אפשר לשרטט את הנתונים שהתקבלו על מערכת צירים, ומתקבלת דיאגרמת פיזור (scatterplot). בשרטוט אנו רואים מדגם בגודל עשרה כפרים. הנקודה המסומנת בחץ, לדוגמא, מייצגת כפר במדגם בו קיננו עשר חסידות ונולדו שני תינוקות (הנתונים לא אמיתיים, כמובן, אלא נדגמו ממוחי הקודח):

נניח שאנו רוצים לגלות האם קיים קשר קווי בין שני המשתנים. במלים אחרות, אנו שואלים את עצמנו האם ניתן לשרטט על מערכת הצירים קו שיתאר את הקשר בין המשתנים? כמובן שאי אפשר לשרטט קו ישר שיעבור דרך כל 10 הנקודות, אבל ישנם הרבה (אינסוף) קוים שעוברים דרך "ענן" הנקודות שלנו.  שרטטתי כמה מהם על פני מערכת הצירים. איזה מהם מתאר את הקשר בין שני המשתנים בצורה הטובה ביותר?

הנה הרעיון של גאוס. הוא בחר קו ישר אחד, ומדד את המרחק האנכי מכל נקודה אל הקו. סימנתי את המרחק האנכי מכל נקודה אל הקו על השרטוט שלנו. בכפר הראשון, בו קיננו 2 חסידות והיו 10 לידות, המרחק האנכי (כלומר אורך הקו האדום) הוא בערך 5. בכפר השני, בו קיננו 3 חסידות והיו 5 לידות, אורך הקו האדום הוא בערך 0.5, אבל כיוון שהנקודה נמצאת מתחת לקו, המרחק האנכי הוא 0.5-.

הקו האידיאלי הוא זה שעבורו כל המרחקים האנכיים שוים לאפס, אבל קו כזה לא קיים בדרך כלל. לכן אין ברירה אלא לחשב את הקו האופטימלי. אפשר, למשל, לחפש את הקו שעבורו סכום המרחקים בערכיהם המוחלטים הוא מינימלי. גאוס הבין כי עדיף לחפש את הקו שעבורו סכום ריבועי המרחקים הוא מינימלי (מכאן השם "ריבועים פחותים" – "Least Squares"). גאוס גם הראה כיצד ניתן למצוא את הקו האופטימלי. כל קו ישר ניתן לאפיון מלא על ידי שני פרמטרים – שיפועו ונקודת החיתוך שלו עם הציר האנכי. לכן ניתן לרשום את סכום ריבועי המרחקים האנכיים כפונקציה של שני הפרמטרים האלה, ולמצוא את נקודת המינימום של הפונקציה. ניתן לעשות זאת על ידי שימוש בחשבון דיפרנציאלי או תוך כדי שימוש בשיקולים גיאומטריים/אלגבריים. אפשר לחשב ולמצוא כי הקו האופטימלי לנתונים שבדוגמא הוא:

ניתן לפרש זאת בערך כך: גם ללא חסידות יהיו בממוצע 6.8 לידות, וכל חמש (בערך) חסידות נוספות יביאו ללידת תינוק נוסף. אינטרפרטציה מפתה נוספת היא אינטרפרטצית הניבוי: מה יקרה בכפר בו יקננו 20 חסידות? אם נציב 20 בנוסחא, קו הריבועים הפחותים ינבא כי יהיו בכפר זה 10.6 לידות.

אבל, אבוי, קו הריבועים הפחותים אינו מאפשר ניבוי אמיתי. הפרמטרים הנאמדים (שהם כזכור שיפוע הקו ונקודת החיתוך שלו עם הציר האנכי) תלויים ישירות במקדם המתאם בין שני המשתנים. קו הריבועים הפחותים מתאר קשר אפשרי בין המשתנים, אבל לא סיבה ותוצאה. גם אם היינו מחליפים את תפקידי המשתנים, כמספר הלידות הוא המשתנה ה"מסביר" את מספר החסידות (כמשתנה ה"מוסבר"), מקדם המתאם בין שני המשתנים לא היה משתנה, וההסבר לפיו מספר החסידות מנבא את מספר הלידות הגיוני בדיוק כמו ההסבר לפיו מספר הלידות מנבא את מספר החסידות.

זאת ועוד: קו הריבועים הפחותים מתאר רק את מה שקורה בתחום הערכים בו צפינו. הוא לא יכול לומר לנו שום דבר על מהות הקשר בין המשתנים מחוץ לטווח הזה. במלים אחרות: קו הריבועים הפחותים הוא מודל תיאורי של הנתונים, וככזה הוא מוגבל להסברה של הנתונים המתוארים ותו לא. המציאות עשויה להיות שונה. באיור הבא מובאות ארבע דיאגרמות פיזור שמצאתי באינטרנט, עם קוי הריבועים הפחותים שהיו עשויים להתקבל לו הייינו מסתכלים רק על טווח חלקי של הנתונים:

קו הריבועים הפחותים מול המציאות

קו הריבועים הפחותים מול המציאות - ארבע דוגמאות

גאוס הצליח בניבוי המסלול של צרס בעזרת קו הריבועים הפחותים כיוון שהסתבך על מודל מוצק, לפיו צרס (כמו שאר כוכבי הלכת) מקיף את השמש במסלול אליפטי. לאחר שיש מודל, הכלים הסטטיסטיים יכולים לאפשר את אמידת הפרמטרים שלו. ההיפך לא בהכרח נכון. ניתן להשתמש בכלים הסטטיסטיים כדי לתאר את הנתונים, אך אין די בכך כדי לבנות ולאשר מודל. לצערנו, ישנם אנשים שבכל זאת בונים מודל סביב הנתונים הסטטיסטיים שלהם, מבלי להתחשב במגבלות של כלי הרגרסיה.