לא, לא, אל תדאגו, אני בסדר.
כן, זה אני, יוסי לוי, בעל השכלה רחבה בסטטיסטיקה, שאפילו נחשב לסטטיסטיקאי מכובד בחוגים מסויימים. אני יוסי לוי, שהפוסט הראשון שכתבתי בבלוג הזה עסק בנושא המתאם והסיבתיות, ופוסט זה כלל שפע של דוגמאות מגוחכות לתופעות שיש בינן מתאם, אך לא קשר סיבתי. רק לפני ארבעה שבועות כתבתי פוסט ארוך על הקשר האפשרי בין צמחונות ואנורקסיה, וכתבתי שם בפירוש כי מתאם לא בהכרח מעיד על סיבתיות. אז כתבתי. זה לא היה מדוייק, ובעולם שלי “לא מדוייק” זה לא נכון. טעיתי בהיסח הדעת, ואני מודה בטעותי. מה הייתי צריך לכתוב?
בכל קורס מבוא לסטטיסטיקה משננים את המנטרה: מתאם לא מעיד על סיבתיות. מתאם לא מעיד על סיבתיות. מתאם לא מעיד על סיבתיות. מתאם לא מעיד על סיבתיות. מתאם לא מעיד על סיבתיות.
אבל המנטרה לא נכונה. תחשבו רגע בהגיון: מה יכול להעיד על סיבתיות אם לא מתאם? נניח שאתם צופים בשתי תופעות שאין שום קשר בינן. למשל, מספר הנעליים של אדם בוגר (בניגוד לתלמידים בבית הספר) ורמת הידע שלו במתמטיקה. אני מאמין שלא תמצאו מתאם בין שתי התופעות, או יותר נכון, המתאם במדגם שתקחו יהיה קרוב מאוד לאפס. מי שלא מוכן לאמץ את הדוגמא הזו, מוזמן לקחת דוגמת הארד-קור: קחו קובית משחק הוגנת (כלומר, לכל אחד מששת המספרים סיכוי שווה להופיע כלפי מעלה בהטלת הקוביה). הטילו אותה פעמיים ורשמו את תוצאת ההטלה הראשונה וההטלה השניה. חזרו על התרגיל שוב מספר רב של פעמים, וחשבו את המתאם בין שתי התצפיות. המתאם יהיה בערך אפס. אין מתאם. אז אם ” מתאם לא מעיד על סיבתיות”, מה אומר לנו חוסר המתאם? שיש סיבתיות? שתוצאת ההטלה הראשונה של הקוביה גורמת את תוצאת ההטלה השניה? שמספר הנעליים גורם את הידע במתמטיקה? או להיפך? לא. ממש לא.
אם אתם מדענים, או חוקרים, או סתם אנשים סקרנים, חוסר קשר בין שתי תופעות ממש לא מעניין אתכם. אתם לא תגידו לעצמכם: “המממ, בחלק מצלחות הפטרי יש עובש, ובחלק אין, וכל החיידקים מתו בכל הצלחות, ולכן אין קשר בין העובש ומות החיידקים. נראה לי שעלינו על משהו גדול”. בדיוק להיפך.
אנשים כמוכם אמורים לזהות שתי תופעות שנראה שיש קשר/מתאם בינן, ואז להכנס לעובי הקורה ולנסות לבדוק מה מקור הקשר והאם יש סיבתיות כלשהי. לפעמים תגלו שלמרות המתאם אין שום סיבתיות. לפעמים תגלו מבנה קשר כלשהו: A גורם את B, או אולי B גורם את A, או אולי C גורם גם את A וגם את B, ויש גם מבני קשר מסובכים יותר.
הסיבה לכך פשוטה: אם יש קשר סיבתי בין שתי תופעות, חייב להיות בינן גם מתאם. נכוו, ייתכן כי יש מתאם בין שתי תופעות גם אם אין בינן קשר סיבתי, אבל לא ייתכן כי לא קיים מתאם ויש קשר סיבתי.
ולכן, מתאם מעיד על סיבתיות. זוהי עדות נסיבתית, אבל בכל זאת עדות. היא לא מספיקה להרשעה להוכחה, אבל בלעדיה כל הקייס מתמוטט.
אמרו מעתה: מתאם מעיד על סיבתיות אפשרית, אך אינו מספיק להוכחת הסיבתיות.
אבל זה משפט עם יותר מדי מילים ועם פסיק באמצע, וזה מסובך. עד שמגיעים לסוף עלולים לשכוח את ההתחלה.
אני הייתי מנסח את זה קצת אחרת: מתאם לא מעיד על סיבתיות אבל הוא רומז לה, וחוסר מתאם מעיד על חוסר סיבתיות.
אני הייתי מנסח זאת כך: מתאם לא מעיד על סיבתיות, אבל העדר מתאם מעיד על העדר סיבתיות, ולכן קיומו של מתאם מעיד על היתכנותה של סיבתיות.
או קצר יותר: אם ורק אם *קיים* מתאם, אזי *תיתכן* סיבתיות.
נכתוב גם פה:
מתאם חיובי עשוי לרמוז על קשר סיבתי אפשרי. אין צורך בהסברים, אלא להיזכר במחקרים אקולוגיים שמסתמכים בדיוק על המשפט שכתבתי, ועל טעויות אקולוגיות שנשענות בדיוק על הכותרת של הפוסט הזה.
הטענה “אם יש קשר סיבתי בין שתי תופעות, חייב להיות בינן גם מתאם” אינה נכונה. לפחות לא אם מפרשים “קשר סיבתי” בתור “תלות”. יכולים להיות שני מ”מ תלויים אשר המתאם בינהם הוא אפס.
נכון, יכולים להיות שני מ”מ שאינם בלתי תלויים אשר מקדם המתאם *הלינארי* בינם הוא אפס. בפועל, לא ראיתי מעולם דוגמה אמיתית למצב כזה (אם כי אפשר לבנות דוגמה, כמובן)
בקיצור, מתאם הוא תנאי *הכרחי* אבל לא *מספיק* לסיבתיות. וכמובן, צריך להיזהר ולא להגביל את עצמנו למתאמים לינאריים בלבד.
מתאם מעיד על קשר כלשהו בין התופעות.
הופעתן היא לא אקראית.
מצד שני המשפט שלך מטעה מכיוון שיש הנחה מובלעת
שמתאם בין א’ לב’ מרמז על קשר סיבתי בין א’ לב’.
ומשום כך יש לאמר:
מתאם מרמז על קשר סיבתי, הוא רק לא מרמז בין מה למה.
(אולי א גורם לב, ב גורם לא, ג’ גורם לא ולב’ וכו)
המשפט לא מטעה לדעתי. כל סיבתיות בין שני משתנים מתבטאת במתאם ביניהם. אז אם יש מתאם בין שני משתנים אז הוא בהחלט מרמז על סיבתיות אם כי לא תמיד זה נכון כמובן.
יש הרבה דוגמאות שמפריכות את ההצהרה הקצת סנסציונליסטית שלך – הנה כמה מהחביבות עלי: (פורסם זה לא מכבר גם בדף הפייסבוק של “ספקנים בפאב”).
ההגדרות של המגיבים נפתלי (“אם ורק אם *קיים* מתאם, אזי *תיתכן* סיבתיות”) ועידו גנדל (“מתאם הוא תנאי *הכרחי* אבל לא *מספיק* לסיבתיות”) לעיל הרבה יותר מדוייקות, אם כי ייתכן שהן היו מביאות פחות קוראים לבלוג במקרה שהן היו משמשות ככותרת לפוסט זה…
ככה קצרה – ככה נהדרת! משפט אחר מוצלח (לטעמי כמובן שהרי אני חיברתי אותו) יהיה “מתאם לא מעיד בהכרח על סיבתיות, אבל הוא מזמין אותנו להמשיך ולחפש אותה”.
בקצרה- מתאם הוא תנאי הכרחי אך לא מספיק לקיום סיבתיות (בהנחה שמה שאתה אומר נכון, לא יודע, לא למדתי על זה עדיין..).
ואגב, הכותרת קצת חסרת טעם- היא מטעה וסנסציוניות. ברור לכולם שכשאומרים “מתאם לא מעיד על סיבתיות” מתכוונים “מתאם לא בהכרח מעיד על סיבתיות”.
חסרת טעם? אולי. מטעה וסנסציונית? ייתכן (כן, התכוונתי שהכותרת תהיה פרובוקטיבית). בכל אופן, אני שמח שהשורה התחתונה ברורה לך. לצערי היא לא ברורה לכולם.
ניטפוק קטן:
אני סבור שבהתחשב בעובדה שנשים נוטות יותר לרכוש נעליים.
ובהתחשב שמספר הסטודנטים למדעים.מתמטיקה.הנדסה עדיין גדול ממספר הסטודנטיות (כשהפער גדל והולך עם התקדמות התארים).
ובכן, לא נראה לי שהמתאם באמת ייצא אפס.
לגבי סיבתיות -אולי זה עוזר לא לדעת מתמטיקה כשמנסים לא לספור את כמות הנעליים שיש לך.
באיחור רציני, אבל רנדל מונרו מxkcd היטב לתאר:
Correlation doesn’t imply causation, but it does waggle it’s eyebrows suggestively and gesture furtively while mouthing ‘look over there’
(Xkcd.com/552/)