חיפוש באתר

קישורים

RSS סטטיסטיקה ברשת

עמודים

קטגוריות

תגיות

ארכיב עבור תגית סטטיסטיקה

מתאם כן מעיד על סיבתיות

לא, לא, אל תדאגו, אני בסדר.

כן, זה אני, יוסי לוי, בעל השכלה רחבה בסטטיסטיקה, שאפילו נחשב לסטטיסטיקאי מכובד בחוגים מסויימים. אני יוסי לוי, שהפוסט הראשון שכתבתי בבלוג הזה עסק בנושא המתאם והסיבתיות, ופוסט זה כלל שפע של דוגמאות מגוחכות לתופעות שיש בינן מתאם, אך לא קשר סיבתי. רק לפני ארבעה שבועות כתבתי פוסט ארוך על הקשר האפשרי בין צמחונות ואנורקסיה, וכתבתי שם בפירוש כי מתאם  לא בהכרח מעיד על סיבתיות. אז כתבתי. זה לא היה מדוייק, ובעולם שלי "לא מדוייק" זה לא נכון. טעיתי בהיסח הדעת, ואני מודה בטעותי. מה הייתי צריך לכתוב?

בכל קורס מבוא לסטטיסטיקה משננים את המנטרה: מתאם לא מעיד על סיבתיות. מתאם לא מעיד על סיבתיות. מתאם לא מעיד על סיבתיות. מתאם לא מעיד על סיבתיות. מתאם לא מעיד על סיבתיות.

אבל המנטרה לא נכונה. תחשבו רגע בהגיון: מה יכול להעיד על סיבתיות אם לא מתאם? נניח שאתם צופים בשתי תופעות שאין שום קשר בינן. למשל, מספר הנעליים של אדם בוגר (בניגוד לתלמידים בבית הספר) ורמת הידע שלו במתמטיקה. אני מאמין שלא תמצאו מתאם בין שתי התופעות, או יותר נכון, המתאם במדגם שתקחו יהיה קרוב מאוד לאפס. מי שלא מוכן לאמץ את הדוגמא הזו, מוזמן לקחת דוגמת הארד-קור: קחו קובית משחק הוגנת (כלומר, לכל אחד מששת המספרים סיכוי שווה להופיע כלפי מעלה בהטלת הקוביה). הטילו אותה פעמיים ורשמו את תוצאת ההטלה הראשונה וההטלה השניה. חזרו על התרגיל שוב מספר רב של פעמים, וחשבו את המתאם בין שתי התצפיות. המתאם יהיה בערך אפס. אין מתאם. אז אם " מתאם לא מעיד על סיבתיות", מה אומר לנו חוסר המתאם? שיש סיבתיות? שתוצאת ההטלה הראשונה של הקוביה גורמת את תוצאת ההטלה השניה? שמספר הנעליים גורם את הידע במתמטיקה? או להיפך? לא.  ממש לא.

אם אתם מדענים, או חוקרים, או סתם אנשים סקרנים, חוסר קשר בין שתי תופעות ממש לא מעניין אתכם. אתם לא תגידו לעצמכם: "המממ, בחלק מצלחות הפטרי יש עובש, ובחלק אין, וכל החיידקים מתו בכל הצלחות, ולכן אין קשר בין העובש ומות החיידקים. נראה לי שעלינו על משהו גדול". בדיוק להיפך.

אנשים כמוכם אמורים לזהות שתי תופעות שנראה שיש קשר/מתאם בינן, ואז להכנס לעובי הקורה ולנסות לבדוק מה מקור הקשר והאם יש סיבתיות כלשהי. לפעמים תגלו שלמרות המתאם אין שום סיבתיות. לפעמים תגלו מבנה קשר כלשהו: A גורם את B, או אולי B גורם את A, או אולי C גורם גם את A וגם את B, ויש גם מבני קשר מסובכים יותר.

הסיבה לכך פשוטה: אם יש קשר סיבתי בין שתי תופעות, חייב להיות בינן גם מתאם. נכוו, ייתכן כי יש מתאם בין שתי תופעות גם אם אין בינן קשר סיבתי, אבל לא ייתכן כי לא קיים מתאם ויש קשר סיבתי.

ולכן, מתאם מעיד על סיבתיות. זוהי עדות נסיבתית, אבל בכל זאת עדות. היא לא מספיקה להרשעה להוכחה, אבל בלעדיה כל הקייס מתמוטט.

אמרו מעתה: מתאם מעיד על סיבתיות אפשרית, אך אינו מספיק להוכחת הסיבתיות.

מיהו המדען המשפיע ביותר במאה ה-20?

מיהו המדען (או מדענית) המשפיע ביותר במאה ה-20? שאלתי שאלה זו את עוקביי בטוויטר וגם בפייסבוק. קיבלתי שפע של תשובות: זיגמונד פרויד, מילטון פרידמן, רוברט אופנהיימר, אלכסנדר פלמינג, ורנר פון בראון, "ההוא שהמציא את הטרנזיסטור" (מקובל לייחס את ההמצאה לשלושת הפיזיקאים שבשנת 1956 זכו במשותף בפרס נובל לפיזיקה על תרומתם לפיתוחו: ויליאם שוקלי, וולטר בראטיין וג'ון ברדין), מי שפיתח את הגלולה נגד הריון (הערה: אין אדם יחיד שניתן לייחס לו המצאה זו, אך מקובל כי האב ה"רשמי" של הגלולה הוא גרגורי פינקוס, שעמד בראש צוות שכלל גם את פרנק קולטון, מין צ'ה צ'אנג ואחרים), נורמן בורלוג, אלברט איינשטיין, אלן טיורינג, ריצ'ארד פיינמן, וייתכן שהיו עוד תשובות שאבדו בנשיה וגוגל לא הצליח לדלות, עם המשיבים הסליחה.

אני מוכרח לומר שלא הופתעתי מהתשובות (פרט להעלאת שמו של פרויד,  ואולי מאזכור שמו של מילטון פרידמן, שאותו אני לא נוטה לסווג כמדען – וראו את מה שכתבתי עליו לאחר מותו, הלינק למעלה). אפשר לזהות כאן ארבעה תחומים עיקריים בהם בלטו ודרכם השפיעו האנשים המכובדים שצויינו למעלה (וחלק גדול מהמוזכרים משתייכים ליותר מתחום אחד): אלקטרוניקה, מלחמת העולם השניה, רפואה/מדעי החיים, ומדעי המחשב. הקוראים מוזמנים לדון בתשובות שהועלו, בחלוקה הגסה שלי לתחומים, ולהעלות שמות אחרים.

הנסיון לקבוע מיהו המדען "המשפיע ביותר" נדון כמובן לכשלון מיידי, כיוון שלא ניתן לכמת את מידת ההשפעה. האם השפעתם של איינשטיין וטיורינג על מהלך מלחמת העולם השניה רבה או פחותה מהשפעתם על התפתחות עידן המידע? מה יותר חשוב: הטרנזיסטור או האנטיביוטיקה? התשובות לשאלות כאלה יהיו יותר מטופשות מהשאלות עצמן.

הנה שאלה אחרת, טובה יותר: לא שכחנו מישהו? סביר להניח ששכחנו עוד רבים וטובים. ועוד שאלה שאולי תרצו לשאול אותי: מי יופיע ברשימה שלך, יוסי? ובכן, בעיניי, רוב השמות שהוזכרו קודם ראויים להכלל בכל רשימה של "מדענים משפיעים", אבל ברצוני להציע עוד שם אחד שלא הוזכר עד כה: רונלד א. פישר.

כן. הוא כבר הופיע ברשימת 15 הסטטיסטיקאים הגדולים שערכתי, במקום הראשון. אבל הוא היה רק סטטיסטיקאי, לא? טוב, גם גנטיקאי (הביולוג הגדול ביותר מאז דרווין – טוען ריצ'ארד דוקינס). את סיפורו, סיפור הליידי הטועמת תה סיפרתי לא מזמן ב-"סיפור נובה – ערב סיפורי מדע ומדענים". אמרתי בפני עדים, ואף כתבתי זאת בבלוג זה ממש כי הוא "אחד המדענים המשפיעים ביותר של המאה ה-20".

פישר הניח את היסודות (ובנה חלק ניכר מהקומות הראשונות) של התיאוריה של תכנון ניסויים מבוקרים. כל ניסוי מדעי הנערך כיום חייב לכלול את "השילוש הקדוש" – שלושת תנאי היסוד שהציב פישר להבטחת תקפות הניסוי ותוצאותיו: רנדומיזציה, בקרה, סמיות.

פישר המציא את הכלי העיקרי (ובמשך שנים רבות – הבלעדי) להערכת כמותית של משקל העדויות המתקבלות בניסוי: ה-p-value. פתחו כל מאמר מדעי בו מתואר ניתוח כמותי של נתונים. ה-p-value יופיעו שם, וערכי p קטנים מ-0.05 יזכו להתייחסות מיוחדת, שכן הם מעידים על תוצאות מובהקות. הערך הקריטי 0.05 מקורו גם הוא בהערכה של פישר כי מדובר בערך מתקבל על הדעת, אף כי פישר עצמו ידע היטב כי אין לכך כל הצדקה תיאורטית.

ופישר גם אחראי לפיתוח ושיפור של שיטות סטטיסטיות רבות לניתוח נתונים כמותיים, ובראשן ניתוח השונות ("אנובה"). למה לדעתכם סטטיסטי המבחן של ה-ANOVA מסומן באות F?

לו היו כותבי המאמרים המדעיים מקפידים על הפניה למקורות, פישר היה כנראה המדען המצוטט ביותר (וזהו עוד מדד מקובל לחשיבותה של עבודה מדעית): יש לצטט את עבודתו בכל מאמר מדעי המתאר ניסוי מבוקר, משתמש ב-p-value להערכת התוצאות, ובודאי אם נעשה שימוש בניתוח שונות, או במבחן המדוייק של פישר, או באחת מהשיטות הסטטיסטיות הרבות האחרות שפיתח ושיפר. מדוע עבודות אלה אינן מצוטטות? כי הן הפכו ל-"מובנות מאליהן", כאילו ניתנו למשה בסיני, ולא היא.

עבודתו של פישר השפיע על כל המחקר המדעי מימיו והלאה. המדע במאה העשרים לאחר פישר אינו כשהיה לפניו, ולכן פישר הוא ללא ספק אחד המדענים המשפיעים ביותר של המאה ה-20.

 

הליידי טועמת תה

עצמו את עינכם ודמיינו לכם אחר הצהריים אביבי בקיימברידג’, אנגליה, בשנות העשרים של המאה הקודמת. אדונים וגבירות מתכנסים על אחת המדשאות למסיבת תה.

הליידי, גיבורת הסיפור שלנו, היא מוריאל בריסטול. היא לא רק ליידי, אלא מדענית בזכות עצמה, ביולוגית החוקרת את תהליכי הפוטוסינתזה. למרבה הצער, לא ידועים לנו עוד פרטים רבים אודותיה, ואפילו תמונה שלה לא השתמרה.

הגיבור הראשי של הסיפור שלנו הוא דווקא הגבר שיתייצב מייד מול הליידי – הג'נטלמן, אם אפשר לקרוא לו כך, כיוון שהדעות חלוקות.

הוא היה איש נמוך ורזה בעל זקן תיש, לבוש ברישול, חובש משקפיים עבות זגוגית, ומקטרת נצחית בפיו (שלא משה מפיו גם כאשר עסק בשחיה). הוא היה נקמן. נוטר טינה. יהיר. כאשר שיחה שעממה אותו, הפגין זאת על ידי הוצאת שיניו התותבות מפיו וניקויין. הוא היה מהתומכים הגדולים באאוגניקה, תחום מדעי שעסק באפשרויות להשבחת המין האנושי באמצעים גנטיים, ואף כיהן כפרופסור לאאוגניקה באוניברסיטת קיימברידג'. הוא היה שוחר מדון. בהזדמנות אחת כתב מאמר שאורכו עמוד אחד בלבד. חלקו הראשון של המאמר עסק בתיאור הבעיה והמאמצים הרבים שהשקיע אחד מיריביו המדעיים להגיע לפתרון. לאחר מכן הופיע הפתרון לבעיה שאורכו שלוש שורות. המאמר הוגש לפרסום בכתב העת היוקרתי אותו ערך יריבו (אך זה סירב לפרסמו)*. עוד מסופר עליו כי באמצע הרצאה של אחד מעמיתיו בקיימברידג' קם לפתע ממקומו, נטל את הגיר מידיו של המרצה ההמום, ושרטט על הלוח דוגמה שהפריכה את טענותיו של המרצה. הוא לא הסתפק בכך, אלא גם נזף בו: "אני מקווה שמעתה והלאה יעסוק המרצה הנכבד רק בנושאים שבהם הוא מבין. איך אפשר לטעות בשאלה כה פשוטה?"**

הוא היה גנטיקאי נודע, ולפי ריצ'רד דוקינס הוא הביולוג הגדול ביותר מאז דרווין.  הוא חקר את עבודתו של גרגור מנדל ואת הנתונים שפרסם. במחקרו הגיע למסקנה כי מנדל הגדול "שיפץ" את הנתונים שלו, כך שיתאימו יותר לתיאוריה הגנטית שפיתח.

הוא היה עקשן, וכמעשן כבד סירב להפסיק לעשן גם כאשר החלו להופיע עדויות הקושרות בין עישון וסיכול לחלות בסרטן. ב-1958 אף פרסם שני מאמרים בכתב העת Nature, בהם כתב, נאמן לעקרון כי מתאם אינו מעיד על סיבתיות,  כי לא ניתן לטעון על סמך הנתונים שנאספו עד כה כי עישון אכן גורם לסרטן. הוא אף הציע תיאוריה חליפית לפיה מחלת הסרטן גורמת לרצון לצריכת ניקוטין, כלומר לעישון.

הוא הלך לעולמו ב-1962 ממחלת הסרטן.

הוא היה סיר רונלד פישר, אחד המדענים המשפיעים ביותר של המאה ה-20.

ומשהכרנו את גיבורינו, נחזור אל מסיבת התה בקיימברידג'.

אחד ממשתתפי המסיבה הגיש לליידי, ד"ר מוריאל בריסטול, ספל תה. מייד לאחר שטעמה ממנו הניחה הליידי בריסטול את הספל, כיוון שהתה שבתוכו לא הוכן כהלכה: החלב הוסף לתה לאחר שנמזגו לתוכו המים הרותחים, ותה ראוי לשמו יש להכין בתהליך הפוך: קודם יש למזוג את החלב לספל, ורק אחר כך להוסיף מים רותחים. הטעם, טענה ד"ר בריסטול, שונה לגמרי.

פישר שמע את הטענה ונדרך. כמדען, הוא לא היה מוכן לקבל טענה כה פסקנית ללא סימוכין או נתונים תומכים. והאובססיה ששוכת בליבו של כל מדען טוב, דחקה בו לבדוק מייד את נכונות הטענה. הוא הציע לליידי בריסטול לעמוד מול אתגר טעימה, והיא נענתה בשמחה. לאחר מספר דקות ששל תכנון, הניסוי, שכולל בתוכו את כל העקרונות הבסיסיים שחייבים להמצא בכל ניסוי מדעי, יצא לדרך.

פישר התייצב מול בריסטול ובידיו שני ספלי תה; באחד מהם החלב נמזג לפני המים, בשני המים נמזגו לפני החלב. שני ספלים, כי כל ספל משמש כביקורת לרעהו.  בריסטול לא ידעה איזה ספל תה הוכן באיזה אופן. היא טעמה את התה בכל אחד מהספלים, ואמרה כיצד לדעתה הוכן התה בכל ספל. מבלי לומר מילה, מבלי להזיז שריר בפניו, רשם פישר את התשובה בפנקס קטן. תוצאות הניסוי יישארו סמויות עד סופו. הוא פנה לאחור וחזר עם זוג ספלים חדש. כך שמונה פעמים. הסדר בו הוגשו הספלים לליידי (מים לפני חלב בספל שביד ימין או בספל שביד שמאל) נקבע באופן מקרי, כך שלא תהיה אפשרות לניחוש על סמך תבנית כלשהי.

ולאחר שתם הניסוי, יש כמובן נתונים שצריך לנתח באופן סטטיסטי, לחשב p-value  ולהודיע מהן התוצאות, ומי אם לא רונלד פישר הוא האיש המתאים לעשות זאת?

האם היו הדברים מעולם או שזו רק אגדה? פישר פרסם מאמר שהפך ברבות השנים למאמר קלאסי בענף הסטטיסטי של תכנון ניסויים: The mathematics of the lady tasting tea (קישור לקובץpdf). במאמר מתאר פישר את סיפור המעשה, ומציג מספר ניסויים אפשריים שבעזרתם ניתן לבחון את טענת הליידי ואת הדרך לניתוח סטטיסטי של הנתונים. אולם, הוא לא מזכיר את שמה של הליידי, ואינו מציין אם מדובר בסיפור אמיתי או רק בדוגמא משעשעת.

אבל אני מכיר מישהו שטוען בספרו כי הוא מכיר מישהו שסיפר לו כי הוא היה שם, במסיבת התה בקיימברידג', וראה כל זאת במו עיניו. והליידי, ד"ר מוריאל בריסטול, הייתה ליידי אמיתית. היא לא טעתה אפילו פעם אחת.


סיפרתי סיפור זה ב-"סיפור נובה – ערב סיפורי מדע ומדענים" שנערך במסגרת אירוע ספקנים בפאב בספטמבר 2012.

*  היריב הוא הסטטיסטיקאי קרל פירסון, המייסד והעורך הראשון של כתב העת ביומטריקה.

** המרצה הנזוף הוא הסטטיסטיקאי ג'רזי ניימן, שיחד עם בנו של קרל פירסון, אגון, פיתח את התיאוריה של בדיקת השערות סטטיסטיות

כדור הכסף – הטריילר

זוכרים שביום שני הקרוב אני מרצה על כדור הכסף במסגרת ערב הרצאות מיוחד של "ספקנים בפאב"? אז הנה הטריילר:

ספקנים בפאב – ערב הרצאות מיוחד לכבוד יום הסטטיסטיקה הבינלאומי

"ספקנים בפאב" הם מפגשים המיועדים לכל מי שמתעניין במדע, היסטוריה, פילוסופיה ובחינה רציונלית של המציאות. המפגשים מתקיימים בפאבים או במקומות אחרים שמאפשרים אווירה חברית ובלתי פורמלית, וכוללים בדרך כלל הרצאה  ודיון. "ספקנים בפאב" נערך לראשונה בלונדון בשנת 1999, וכיום קיימות עשרות קבוצות ברחבי העולם. במסגרת הקהילה הספקנית בישראל קיימות ארבע קבוצות של ספקנים בפאב, בחיפה, תל-אביב, באר שבע וירושלים.

ב-20 באוקטובר צויין ברחבי העולם יום הסטטיסטיקה הבינלאומי. לציון(מאוחר) של האירוע ייערך בתאריך 14.11.2011 ערב הרצאות מיוחד במסגרת "ספקנים בפאב" בתל-אביב בשיתוף פעולה עם האיגוד הישראלי לסטטיסטיקה (ששת קוראיי יודעים בודאי על הקשרים ההדוקים שיש לי גם עם הקהילה הספקנית וגם עם איגוד הסטטיסטיקה).

הערב יכלול חמש הרצאות קצרות (15 דקות כל אחת) שיסקרו את נושא הסטטיסטיקה מכיוונים שונים.

האירוע יתקיים בתאריך 14.11.2011 בפאב "גורדו", בחוף גורדון בטיילת תל אביב. ההתכנסות היא בשעה 8 בערב, וההרצאות יחלו בשעה 8.30. דמי הכניסה הם 10 ש"ח, ומיועדים לכיסוי הוצאות הפקת האירוע.

 

המרצים, (באופן מפתיע, לא כולם סטטיסטיקאים) וכותרות ההרצאות הם:

  • טל גלילי – כיצד חוקרים עכברים שחוקרים את סביבתם
  • יוסי לוי – כדור הכסף
  • דובי קננגיסר – מחשב, מחשב שעל הקיר
  • רון קנת – 42
  • אבנר שחר קשתן – שקרים יפים

אני מניח כי מי שקרא עד כאן כבר הבין שגם אני נמנה עם המרצים 🙂

אשמח לראותם!