סטנדרט הזהב להוכחת סיבתיות

אז איך מוכיחים סיבתיות? התשובה בשלוש מילים: עורכים ניסוי מבוקר.

אבל: התשובה המלאה כוללת עוד שתי מילים.

מי שמעוניין בהסבר מפורט ו/או לדעת איזה מילים חסרות לתשובה המלאה, מוזמן כמובן להמשיך לקרוא.

ניסוי מבוקר הוא תהליך שבו החוקר שולט בכל התנאים של הסביבה המעניינת אותו. לדוגמה, אם מושא המחקר שלכם הוא עכברים, אתם יכולים לשכן את העכברים שלכם בכלוב במעבדה, וכך אתם יכולים לשלוט על טמפרטורת החדר, רמת התאורה וכדומה. המונח באנגלית לשליטה בתנאי הסביבה הוא “control”, ומונח זה תורגם לעברית על ידי המילה “בקרה”, ומכאן השם ניסוי מבוקר.

אם אתם רוצים לבדוק כיצד טמפרטורת החדר משפיעה למשל על רמת הפוריות של העכברים שלכם, אתם יכולים, לכאורה, לשנות אותה ולראות מה קורה. הבעיה: אם אתם מעלים את טמפרטורת העכברים, אתם לא תראו מה היה קורה אילו לא העליתם אותה. זוהי בעיית המציאות החלופית ((counterfactuals )). אתם יכולים לפתור את הבעיה הזו בקלות יחסית. קחו שני כלובים. דאגו לכך שהתנאים בשני הכלובים יהיו זהים, פרט לטמפרטורת החדר. אתם יכולים לעשות את זה על ידי כך שתשימו כל כלוב החדר אחר, והתנאים שבשני החדרים יהיו זהים, פרט לטמפרטורה. בחדר אחד תהיה הטמפרטורה ה-“רגילה”, ובחדר השני תהיה טמפרטורה שונה. כך תוכלו להשוות את התוצאות המתקבלות בשני החדרים. אם יש שוני בין התוצאות, הוא חייב להיגרם על ידי שינוי הטמפרטורה, מכיוון שזהו ההבדל היחיד בין שני החדרים. נהוג לכנות את העכברים שבחדר שבו שונתה הטמפרטורה בשם “קבוצת הניסוי”, ואת העכברים שהיו בחדר בו שררה הטמפרטורה הרגילה בשם “קבוצת הביקורת”.

התובנה החשובה ביותר בניסוי שתיארתי היא שהחוקר ביצע את שינוי הטמפרטורה, ומתוך כך הסיק שטמפרטורת החדר גורמת (או שאולי לא גורמת) לשינוי בפוריות העכברים. זה שונה לחלוטין ממצב בו החוקר צופה בשתי אוכלוסיות עכברים החיות בסביבות דומות, אך יש הבדלים בטמפרטורת בין שתי הסביבות. זה שונה גם ממצב שבו המדען נסע לחופשה, חזר למעבדה כעבור מספר שבועות כדי לגלות שטמפרטורת החדר השתנתה (אולי המזגן התקלקל) ובמקביל היה שינוי בפוריות העכברים (אולי היו בכלוב יותר גורי עכברים ממה שהיו אמורים להיות, אולי פחות). מהתצפית הזאת אי אפשר להסיק סיבתיות, לפחות לא באופן ישיר. הקביעה כי קיים גורם סיבתי נובעת ממה שהחוקר עשה, ולא ממה שהוא צפה בו. התיאוריה של יהודה פרל מתבססת על ההבחנה הזו.

כתבה מעניינת שפורסמה החודש במגזין דיסקובר מדרגת את עשרת הניסויים המדעיים החשובים ביותר בכל הזמנים. אני ממליץ בחום לקרוא את הכתבה הזו, ומציע לכם לחשוב אלו ניסויים מבין העשרה היו או אמורים להיות ניסויים מבוקרים ואלו לא.

אני רוצה להזכיר גם כי ניסוי לא חייב לשנות רק גורם אחד. ניתן, וכמעט תמיד רצוי לשנות כמה גורמים במקביל, מכיוון שבדרך כלל יש יחסי גומלין (אינטראקציות). כתבתי על כך בהרחבה בפוסט סטטיסטיקה רעה: לא לתכנן.

עד כאן הכל טוב ויפה, עד שמישהו מעצבן שיושב בשורה האחרונה מרים את היד ומבקש לשאול שאלה. האם באמת התנאים בשני החדרים היו זהים פרט לשוני בטמפרטורה? זו שאלה רטורית. התשובה היא לא. קודם כל, אלה חדרים שונים. אולי דומים מאוד, אבל לא זהים. בניסוי הזה הנחנו שאין הבדלים בין החדרים. אולי חדר אחד יותר קרוב לנתב האלחוטי וספג לכן יותר קרינה? אולי פשוט בחדר אחד שיעור הנקבות בקרב העכברים היה שונה משיעורן בקרב העכברים שבחדר השני? ואולי יש סיבה שלא חשבנו עליה? המון דברים יכולים לקרות.

שוב, יש בעיות שאפשר לפתור. אם אנחנו חושבים שזה חשוב, אפשר אולי להזיז את הראוטר למקום שבו הוא יהיה המרחק שווה בערך משני החדרים, או לבחור שני חדרים שמרחקם מהראוטר שווה. או שאולי אנחנו מניחים כי יש סבירות גבוהה לכך שהקרינה מהראוטר אינה משפיעה על שיעורי פוריות מכיוון שהיא נמוכה. ((נסו לחשוב איך יודעים את זה)) לדאוג ששיעורי הנקבות בשתי הקבוצות יהיו שווים – אין בעיה. אבל יכולים לקרות עוד הרבה דברים אחרים, בוודאי בניסויים יותר מסובכים שבהם יש הרבה מאוד גורמים היכולים להשפיע על תוצאת הניסוי. (( ואני לא מזלזל בניסויים בעכברים. בניגוד למה שאולי ניתן לחשוב על סמך התיאור הפשטני שנתתי, ניסויים בחיות הם ניסויים מורכבים שיש לתכנן בזהירות רבה ))

הבעיה היא שיש דברים שלא קל ואי אפשר לטפל בהם. אלה יכולים להיות דברים שאנחנו לא יכולים לשלוט בהם, כמו מזג האוויר למשל, או דברים שאנחנו כלל מודעים לקיומם. אז מה עושים?

רונלד פישר מצא את הפתרון: הקצאה רנדומלית. אלה שתי המילים החסרות.

בראשית דרכו, פישר היה חוקר בתחנת המחקר החקלאית ברותהמסטד, מכון המחקר החקלאי המודרני הראשון, שנוסד ב-1843. בין היתר, החוקרים ניסו לבדוק את מידת ההשפעה של דשנים שונים על כמות היבול. חוץ מהדשנים, יש כמובן עוד גורמים המשפיעים על כמות היבול, כגון מזג האוויר, סוג הקרקע, מיקום הצמחים בשדה (( ייתכן ויש איזורים בשדה שמקבלים יותר מים בגלל שיפוע הקרקע )) וכדומה. מה עושים?

אי אפשר לקחת שני שדות ובכל אחד מהם לנסות דשן אחר, כי השדות שונים. לקחת שדה אחד ולחלק אותו לשניים? אלה שוב שני שדות, רק קטנים יותר. אז אולי ניקח שדה אחד, השנה נדשן אותו בדשן א ובשנה הבאה בדשן ב? בכל שנה יש מזג אויר אחר. ועדיין לא דיברנו על כך שלא כל הצמחים זהים.

פישר הציע לחלק את השדה ליחידות קטנות ושוות, ולקבוע באופן מקרי איזה סוג דשן תקבל כל יחידה. אם נניח שהשדה חולק ל-36 ריבועים קטנים, נבחר באופן מקרי 18 ריבועים ונדשן אותם בדשן א, ואת 18 הריבועים האחרים נדשן בדשן ב. הטכנולוגיה בה הוא השתמש כדי לקבוע מה תהיה ההקצאה הרנדומלית הייתה כובע ופתקים.

נניח שיש הבדלים בתאורה בחלקים השונים של השדה (אולי יש הר שמטיל צל בחלק מהיום על חלק מהשדה), אז בערך מחצית מהריבועים בחלק המוצל דושנו בדשן א ומחצית דושנו בדשן ב. אם בגלל שיפוע השדה יש חלק בשדה שמקבל יותר מים מחלק אחר, בערך מחצית מהריבועים בחלק הזה מדושנים בדשן א ומחצית בדשן ב. ואם יש גורם שלא חשבנו עליו שמשפיע על חלק מהשדה, עדיין בערך מחצית מהריבועים בחלק הזה דושנו בדשן א ומחצית בחלק ב. ואם יש הבדלים בין הצמחים, אז לכל תכונה של הצמחים שתוכלו לחשוב עליה, תהיה חלוקה בערך שווה בין שני סוגי הדשנים. אם לשיחים שונים של עגבניות יש רמות פוריות שונות, ההקצאה הרנדומלית תדאג לכך שבכל רמת פוריות יהיה מספר הצמחים שדושנו בדשן א יהיה שווה בערך למספר הצמחים שדושנו בדשן ב (בהנחה שיש מספר דומה של צמחים בכל חלקה).

הרנדומיזציה יוצרת למעשה את שני העולמות “המקבילים”: מבחינה התפלגותית הם זהים בכל דבר, פרט לגורם שאנחנו מנסים לברר האם הוא גורם סיבתי. פישר למעשה הסביר את הנקודה שדייויד יום פיספס. אנחנו יכולים לדעת “מה היה קורה אילו”.

ההקצאה הרנדומלית פותרת גם בעיה חמורה נוספת שלא הזכרתי: טעויות מדידה. זה קל לספור כמה עכברונים נולדו בכל כלוב. רק אני יכול לטעות בספירה כזו. אבל אם שוקלים את יבול העגבניות בחלקה 17, המאזניים עלולים להיות לא מספיק מדוייקים. על סמך ההקצאה הרנדומלית, פישר פיתח שיטות סטטיסטיות לאמידת גודל טעות המדידה, ולהפרדת השונות הנובעת מטעות המדידה מהשונות שבין החלקות והשונות שבין הצמחים הנמצאים בתוך כל חלקה. שיטה זו נקראת, שלא במפתיע, .

ב-1935 פישר פירסם את רעיונותיו ותובנותיו בספרו המשפיע שעסק בתכנון ניסויים. למרות שזכויות היוצרים על הספר עדיין לא פגו, הוא זמין לקריאה ברשת (בקישור הזה תוכלו להוריד את הספר במספר פורמטים לבחירתכם). אני ממליץ להציץ בו ולקרוא את ההקדמה.

עם זאת, רעיון ההקצאה הרנדומלית, כמו כל רעיון מהפכני, לא התקבל מייד. ההתנגדות העיקרית הייתה בתחום הרפואה. הטענה הייתה כי בניסוי רפואי הנערך בבני אדם, הקצאה רנדומלית אינה אתית. הניסוי הקליני הראשון עם הקצאה רנדומלית, ניסוי הסטרפטומיצין, נערך רק ב-1944, וזאת רק מפני שלא הייתה ברירה. לא היו מספיק מנות תרופות עבור כל החולים. ניסויים קליניים עם הקצאה רנדומלית ((וסמיות כפולה)) התקבלו רק לאחר הניסוי לבדיקת החיסון נגד פוליו שפיתח יונה סאלק. למעשה נערכו שני ניסויים: ניסוי אחד עם הקצאה רנדומלית וסמיות כפולה שהוביל הסטטיסטיקאי פול מאייר (בתמונה), וניסוי נוסף בו ההקצאה לא הייתה רנדומלית אלא על פי גילאי הילדים שהשתתפו בניסוי. ההבדלים בין שני הניסויים היו משמעותיים. בסופו של דבר התברר כי בניסוי השני הייתה הטיה שגרמה לכך שהחיסון נראה פחות יעיל ממה שהוא באמת.

בעולם מושלם, סדרת הפוסטים הזו אמורה להסתיים כאן. אבל העולם לא מושלם, כידוע. הסדרה תימשך.

הפוסטים הקודמים בסדרה

סיבתיות: הגדרות ותיאוריות

הפוסטים הבאים בסדרה

סטנדרט הזהב להוכחת סיבתיות

הפוסטים הקודמים בסדרה

Comment (1) on “סטנדרט הזהב להוכחת סיבתיות”

כתיבת תגובה לבטל