חיפוש באתר

קישורים

עמודים

קטגוריות

ארכיב עבור 'הסקה סיבתית'

הסקה סיבתית ומציאות חלופית

גישת “המציאות החילופית” שגובשה על ידי דונלד רובין באמצע שנות השבעים היא אחת משתי הגישות המובילות היום בתחום של הסקה סיבתית. הביטוי “מציאות חלופית” הוא התרגום שלי למונח counterfactual, שמקורו בגישה של דייויד יום שסקרתי בפוסט הראשון בסדרה. כזכור, יום טען כי יש להסיק סיבתיות על ידי השוואת מה שקרה בפועל למה שהיה עשוי לקרות אילו הייתה ננקטת פעולה אחרת מזו שננקטה. עקב כך, טען יום, אי אפשר לקבוע אפקט סיבתי, כי אנחנו לעולם יכולים לצפות במה שהיה קורה אילו. יום צודק כמובן. אבל, האם אפשר לעקוף את הבעיה?

רובין הסתייג מהשימוש במילה counterfactual, ומעדיף את הביטוי potential outcome או “תוצאה פוטנציאלית” בעברית. הסיבה לכך, מסביר רובין, היא שיש  counterfactuals שלא ניתן לצפות בהם,  אפילו לא באופן תיאורטי. הדוגמה שלו היא כי אין שום אפשרות תיאורטית לצפות בגובה שלך בגיל 3 אילו נולדת בקוטב הצפוני. לעומת זאת, אם מדובר בשני טיפולים אפשריים למחלה כלשהי, יש מראש אפשרות לצפות בשתי התוצאות: תוצאה אחת אם החולה יקבל טיפול אחד, תוצאה אחרת אם החולה יקבל את הטיפול השני, ואנחנו[1] יכולים להחליט באיזו תוצאה אנחנו רוצים לצפות. אתם יכולים להחליט לצפות בגובה של עצמכם בגיל 3 אילו נולדתם בקוטב הצפוני עד מחר. יש אולי יקום מקביל שבו זה קורה, אבל אין שום אפשרות לצפות בו.[2]

אתן כאן סקירה מאוד קצרה של ההיסטוריה של גישת התוצאה הפוטנציאלית. באופן לא מפתיע, הראשונים שהעלו את הרעיון בהקשר סטטיסטי היו רונלד פישר וג’רזי ניימן. פישר העלה את הרעיון בקצרה במאמר שהופיע ב-1918. הוא דן ברעיון הזה גם בספריו המשפיעים על שיטות מחקר ותכנון ניסויים שיצאו לאור בשנות העשרים של המאה הקודמת. אולם, כפי שרובין הדגיש כאשר נשא את ההרצאה השנתית של שם פישר ב-2004, הרעיון שהעלה פישר לא הבשיל לפורמולציה מתמטית. האדם הראשון שהציע תיאוריה מתמטית של תוצאות פוטנציאליות בהקשר של הסקה סטטיסטית היה ניימן, בעבודת הדוקטורט שלו מ-1923, שנכתבה בפולנית.[3] רובין הרחיב את העבודה של ניימן, ומתווה זה מכונה היום בשם Neyman-Runbin Framework, מונח שטבע יהודה פרל, ולעיתים רק בשם מודל הסיבתיות של רובין.

בואו נחזור לאדם שנולד אולי בקוטב הצפוני. אנחנו אולי יכולים לקחת קבוצה של אנשים שנולדו בקוטב הצפוני ולהשוות אותה לקבוצה של אנשים שנולדו במקום אחר, אבל האם נוכל להסיק מכך על סיבתיות כלשהי? התשובה היא לא, לפחות לא על פי מתווה ניימן-רובין. האנשים שנולדו בקוטב הצפוני שונים באופן מהותי מאלה שנולדו באפריקה, למשל.

ניזכר בסטנדרט הזהב להוכחת סיבתיות: ניסוי מבוקר בהקצאה רנדומלית. אם אנחנו רוצים לבדוק האם תרופה כלשהי גורמת לשיפור במצבו של חולה, אנחנו יכולים לערוך ניסוי קליני כדי לבדוק את זה. אם נמצא כי מצבם של החולים שטופלו היה בסופו של דבר יותר טוב ממצבם של החולים שלא טופלו והיוו את קבוצת הביקורת, נוכל להסיק כי התרופה גרמה לשיפור הזה.

מה בדבר מכשירי האידוי לטבק? האם אנחנו יכולים לבצע ניסוי קליני מבוקר בהקצאה רנדומלית כדי לבדוק את ההשפעות הבריאותיות של המכשירים הלאה? אנחנו לא יכולים לעשות את זה, אבל הסיבות לכך הן אתיות, לא יישומיות. סביר להניח שאפשר לערוך ניסוי כזה בצפון קוריאה, אם השלטונות שם יחליטו שזה מעניין אותם.

ומה ההשפעה של מקום הלידה על הגובה של אדם? או ההשפעה של המין הביולוגי של אדם על משהו שמעניין אותנו? אפילו קים ג’ונג און לא יכול לקחת קבוצה של אנשים, ולהקצות למחציתם כרומוזום Y באופן רנדומלי.

בבסיס מתווה ניימן-רובין נמצאת הטענה/אקסיומה שאין סיבתיות ללא התערבות: No causation without manipulation. ההתערבות היא שמאפשרת לנו את היכולת לצפות בתוצאה פוטנציאלית, ואנחנו יכולים להחליט באיזו תוצאה לצפות על ידי ההתערבות שבה ננקוט. אם אנחנו לא יכולים להתערב ולשנות את הגורם שחשוד כגורם סיבתי, אנחנו לא יכולים להחליט באיזה תוצאה פוטנציאלית אנחנו רוצים לצפות. רובין תיאר את זה יפה בהרצאה שנתן כאשר ביקר בארץ לפני כמה שנים: כאשר יש לכם נתונים תצפיתיים ואתם רוצים לבדוק האם גורם כלשהו, עישון למשל, הוא גורם סיבתי, בררו קודם כל אם הייתם יכולים לערוך ניסוי מבוקר בהקצאה רנדומלית כדי לבדוק את זה, אילו הייתם דיקטטורים כל יכולים. אם לא, אין טעם  להמשיך הלאה.

כאן רק מתחילות הבעיות.

ניימן ורובין קובעים כי אפקט הוא סיבתי אם התוצאות הפוטנציאליות שונות זו מזו. לדוגמה, אם חולה מבריא אחרי שקיבל את התרופה, ומת אם הוא לא קיבל אותה, אז אנחנו יכולים להסיק כי התרופה גרמה להחלמת החולה.

אבל, אל תשכחו את דייויד יום. גם אם אפשר להתערב ולהחליט באיזו תוצאה פוטנציאלית רוצים לצפות, אנחנו יכולים לצפות רק בתוצאה פוטנציאלית אחת. או שאנחנו נותנים לחולה את התרופה, ואז רואים מה קרה לו לאחר שהוא לקח אותה, או שאנחנו לא נותנים לו אותה ואז אנחנו רואים  מה קורה לו כשהוא לא מקבל את התרופה. אי אפשר גם וגם. זוהי הבעיה היסודית של ההסקה הסיבתיתThe fundamental problem of causal inference, מונח שטבע פול הולנד ב-1986. אנחנו לא יכולים לצפות באפקט הסיבתי של גורם על אדם.

מה שאנחנו כן יכולים לעשות זה לנסות לצפות באפקט הממוצע באוכלוסייה מסויימת. יש לזה מחיר, או מחירים, שצריך לשלם. הולנד מביא כמה דוגמאות מעניינות במאמר שלו מ-1986. למעשה, בכל פעם שאנחנו מסיקים מסקנה סיבתית כלשהי, כגון “אם לא תלבש סוודר אתה תצטנן”, אנחנו מניחים משהו באופן לא מודע, כדי לעקוף את המחסום של יום. בפוסט הבא בסדרה אסקור את ההנחות המקובלות בהסקה סיבתית מתוך מחקרים תצפיתיים.

מקורות

Statistics and Causal Inference – Paul W. Holland, 1986

Causal Inference Using Potential Outcomes: Design, Modeling, Decisions – Donald B. Rubin, 2005

הפוסטים הקודמים בסדרה


הערות
  1. כלומר הרופא בהתייעצות עם החולה []
  2. לאיש שיושב באמצע השורה הראשונה, נע בחוסר נוחות בכיסא שלו ומצביע כי הוא רוצה לשאול שאלה: אני תיכף אחזור לזה []
  3. סביר להניח שניימן לא הכיר את המאמר של פישר מ-1918 []

ממתאם לסיבתיות – מבחן הסיבתיות של גרייג’ר

היסטוריה וקונטקסט

קלייב גריינג’ר הוא סטטיסטיקאי וכלכלן וולשי אמריקני, שזכה בפרס נובל לכלכלה[1] בשנת 2003, בזכות תרומותיו לתיאוריה ולמתודולוגיה של ניתוח סדרות עיתיות. בשנת 1969 הציע גריינג’ר מבחן סטטיסטית לבדיקת השערת הסיבתיות בקונטקסט של סדרות עיתיות.

הקריטריונים של ברדפורד היל שהוצגו ב-1965 מתאימים בעיקר לבעיות בתחום האפידמיולוגיה ובריאות הציבור, שם מתעניינים בדרך כלל בחשיפה לגורם סיכון או התערבות, ובתוצאה בריאותית חיובית או שלילית, לפי ההקשר. בעוד שניתן ליישם את הקריטריונים גם בתחומים אחרים, למשל פסיכולוגיה ותחומים נוספים במדעי החברה, חלק ניכר מקריטריונים אלה אינם ישימים כאשר דנים בסדרות עיתיות, שלהן חשיבות מיוחדת בכלכלה. לכן נדרש כאן פיתרון אחר. מבחן הסיבתיות של גרייג’ר הוא פיתרון אפשרי.

סדרה עיתית היא סדרה של נתונים הנאספים לאורך זמן. לכל נתון מצורפת נקודת הזמן בה נדגם הנתון. אתם מכירים הרבה סדרות כאלה. הלשכה המרכזית לסטטיסטיקה מפרסמת כל חודש את השכר הממוצע ואת מדד המחירים לצרכן.  בנק ישראל מפרסם מדי יום את שער החליפין בין השקל לדולר. השירות המטאורולוגי מפרסם כל יום מה הייתה הטמפרטורה בצהריים בכל מיני מקומות בארץ.

מבחן גריינג’ר

גריינג’ר התבסס על שתי הנחות יסוד:

  1. הגורם מתרחש לפני התוצאה
  2. הגורם מכיל מידע ייחודי על התוצאה

בעוד שההנחה הראשונה ברורה ומובנת מאליה, ההנחה השניה דורשת הסבר.

קודם כל, זכרו כי כאן אנו דנים בסיבתיות בקונטקסט של זמן. לכן ניסוח יותר מדוייק של ההנחה השניה היא כי הגורם מכיל מידע ייחודי אודות הערכים העתידיים של התוצאה. כלומר, מדובר בגורם המכיל מידע ייחודי לחיזוי של התוצאה.

נניח כי אנחנו יכולים לחזות במידת הצלחה כלשהי את הערכים העתידיים של התוצאה כאשר בידינו כל המידע האפשרי בעולם. מה יקרה אם נשליך החוצה את המידע על המשתנה שלדעתנו גורם את התוצאה, ונשתמש רק בשאר המידע?

אשתמש בדוגמה: האם הטמפרטורה בצהריים בתל אביב משפיעה על היקף מכירות הגלידה בעיר? ובפרט, האם טמפרטורה גבוהה יותר גורמת למכירת יותר גלידה?

אנחנו יכולים לאסוף נתונים על שני המשתנים האלה, ולקבל שתי סדרות עיתיות.

השלב הבא הוא לבנות שני מודלים לחיזוי היקף מכירת הגלידה היומי. במודל אחד אתם יכולים להסתמך על כל המידע שיש בעולם ועומד לרשותכם. כמובן שנתוני הטמפרטורה נכללים במידע עליו אתם יכולים להסתמך.

והנה הטוויסט: במודל השני אסור לכם להסתמך על נתוני הטמפרטורה. חוץ מזה הכל הולך.

אם החיזויים של שני המודלים שונים באופן משמעותי, המסקנה היא כי הטמפרטורה משפיעה על היקף מכירות הגלידה. במקרה כזה נאמר כי הטמפרטורה היא גורם סיבתית על פי גריינג’ר להיקף מכירות הגלידה.

עכשיו נמקד את תשומת ליבנו על המילים “באופן משמעותי”. איך מחליטים אם הבדל הוא משמעותי? גריינג’ר הציע להשתמש במבחן סטטיסטי, כלומר לזהות משמעות עם מובהקות סטטיסטית. המבחן שלו מסתמך על מודלים של אוטורגרסיה, מבחני t ומבחני F, שהם הכללות של רגרסיה לינארית. רגרסיה לינארית היא הפנים האחרות של המתאם על פי פירסון. במילים אחרות, גריינג’ר הציע נתיב שמוביל ממתאם לסיבתיות.

זהו נתיב מסוכן, וגריינג’ר ידע זאת היטב. בנאום שנשא בטקס שבו הוענק לו פרס נובל, גריינג’ר התייחס למבחן הסיבתיות שהציע ואמר כי “התפרסמו הרבה מאמרים עם תוצאות מגוחכות”.

ביקורת על מבחן גריינג’ר וחולשותיו

ראשית, יש לשים לב כי הסיבתיות מוסקת על סמך חיזוי. לא מוצע מנגנון סיבתי, ופורמלית אין צורך להציע מנגנון כזה. זהו פער משמעותי בין גריינג’ר ובין הקריטריונים של ברדפורד היל המחייבים הצעה של מנגנון כזה. טענה שקולה היא הטענה כי מבחן גריינג’ר אינו עונה על השאלה הפורמלית ושאלת הנימוק של אריסטו.

שנית, מי שמשתמש במבחן בחוסר זהירות, עלול ליפול בכשל הפוסט הוק, טענה מוטעית לפיה אם Y  קרה לאחר X  אז X  גרם ל-Y. אמנם, כפי שטען דייוויד יום, קיום הטמפורליות הוא תנאי הכרחי לסיבתיות, אך תנאי זה בהחלט אינו מספיק.

המבחן גם לא לוקח בחשבון משתנים מתערבים, כאלה המשפיעים על שני משתנים אחרים ויוצרים ביניהם מתאם מלאכותי (spurious correlation). לא במקרה בחרתי לדוגמה את הגלידה והטמפרטורה. אני מניח שכולם מכירים את הדוגמה המשעשעת שבה יש מתאם בין מכירות הגלידה ומספר הטביעות בבריכה. ככל שמוכרים יותר גלידה, יותר אנשים טובעים. האם ניתן להסיק על פי מבחן גריינג’ר כי קניית גלידה גורמת לטביעות? ייתכן מאוד שכן.

מגבלות נוספות של סיבתיות גריינג’ר הן:[2]

  • רגישות לתדירות הסדרות העיתית ולמשך הזמן בו צופים בהן. לדוגמה, מחקר האוצר על מה שכונה “שכר המינימום ונזקיו” שפורסם בשנת 2004, חזה כי העלאת שכר המינימום תגרום לעליה באבטלה, בין היתר על ידי שימוש בסיבתיות גריינג’ר. כפי שציינתי בפוסט שהתייחס למחקר הנ”ל, בעיה מרכזית במחקר הייתה בכך שהוא הסתמך על נתונים שהתייחסו לתקופה קצרה יחסית של 11 שנים, בעוד שבזמן עריכת המחקר שכר המינימום כבר היה נהוג בישראל במשך יותר מ-30 שנה.
  • חוסר יכולת לזהות סיבתיות לא לינארית
  • חוסר יכולת להתמודד עם סדרות עיתיות לא לינאריות ו/או לא סטציונריות
  • ההנחה של ההתפלגות הנורמלית של טעויות המדידה לא תמיד מתקיימת.
  • היפוך הזמן: בתנאים מסויימים ניתן לחזות את ערכי העבר על ידי ערכי העתיד. מבחני גריינג’ר יראו גם במקרים אלה סיבתיות, אלא שהגורם קרה לאחר התוצאה.

למרות המגבלות האלה, מבחן גריינג’ר וההכללות שלו נמצאים בשימוש נרחב. על המשתמשים בו לעשות זאת בזהירות, וכל טענה לסיבתיות על פי גריינג’ר צריכה להיבחן לגופה באופן ביקורתי.

הפוסטים הקודמים בסדרה

הפוסטים הבאים בסדרה


הערות
  1. במשותף עם רוברט פ. אנג’ל []
  2. ראו A review of the Granger-causality fallacy –  Mariusz Maziarz – קישור לקובץ pdf []

ממתאם לסיבתיות – הקשר בין עישון ותחלואה בסרטן הריאה

עדויות בדבר הקשר בין עישון ותחלואה בסרטן הריאה החלו להופיע כבר בתחילת המאה העשרים, ומספר רב של מחקרים שנערכו בשנות הארבעים והחמישים של המאה העשרים סיפקו עדויות נוספות לקשר הזה. בפוסט זה אני סוקר את העדויות המחקריות שהראו את הקשר בין עישון סיגריות ותחלואה בסרטן, ואת השיקולים שהובילו לביסוס הקשר הסיבתי לפיו עישון הוא גורם הסיכון העיקרי לתחלואה בסרטן הריאה, וגיבוש הקונצנזוס המדעי התומך בטענה זו.

עדויות בדבר הקשר בין עישון ותחלואה בסרטן הריאה

בסוף המאה ה-19 התחלואה בסרטן הריאה הייתה נדירה. בבית החולים של אוניברסיטת דרזדן, מקרי סרטן הריאה היוו כאחוז אחד מבין כל הסרטנים שזוהו בניתוחים שלאחר המוות. שיעור זה עלה  ל-10% בשנת 1918, ול-14% ב-1927.

הועלו מספר השערות לגורמים סביבתיים אשר עשויים להסביר את הזינוק בתחלואה: עליה בזיהום תעשייתי, התרחבות השימוש באספלט לסלילת כבישם, זיהום אויר ממכוניות שמספרן עלה בהדרגה, חשיפה לגז במלחמת העולם הראשונה, ואפילו מגיפת השפעת של 1918. עם זאת, עליה בתחלואה נצפתה גם כאשר לא הייתה חשיפה לגורמים אלה.

הראשון שהצביע על הקשר בין העלייה בתחלואה בסרטן והריאה ובין העלייה בפופולריות של עישון סיגריות היה ככל הנראה המדען הגרמני פריץ ליקינט, שהראה ב-1929 כי שיעור המעשנים בקרב חולים בסרטן הריאה גבוה משיעורם באוכלוסייה הכללית. ממצאיו של ליקינט שוחזרו בשני מחקרים שפורסמו בגרמניה ב-1940 ו-1943. במחקרים אלה נצפה כי מספר המעשנים בקבוצה של חולי סרטן הריאה היה גבוה בערך פי 30 ממספר המעשנים בקבוצת ביקורת שהורכבה מאנשים בעלי רקע דומה, אך אינם חולים בסרטן הריאה. חמישה מחקרים שונים שנערכו בבריטניה ובארצות הברית בשנת 1950 הגיעו למסקנות דומות. מחקרים מסוג זה הינם מחקרים רטרוספקטיביים; נבחרו בהם שתי קבוצות: קבוצה אחת של חולים בסרטן הריאה וקבוצת ביקורת של אנשים, חולים או בריאים, מרקע דומה[1] שאינם חולים ברטן הריאה. המסקנה שעלתה ממחקרים אלה היא שהסיכוי כי אדם שחולה בסרטן הריאות הינו מעשן גבוה מהסיכוי שאדם שאינו חולה בסרטן הריאה הינו מעשן. מחקרים אלה לא עונים על השאלה מהו הסיכון של אדם מעשן לחלות בסרטן היראות לעומת אדם שאינו מעשן. נגיע לסוגיה זו בהמשך.

עדויות נוספות לקשר בין טבק וסיגריות לבין תחלואה בסרטן הגיעו מניסויים בבעלי  חיים. ניסויים שערך החוקר הגרמני ברוש בשנת 1900 העלה כי חשיפה לתמצית המופקת מעלי טבק העלתה את התחלואה בסרטן אצל עכברים בהשוואה לקבוצת הביקורת. תוצאות אלה אושרו במספר רב של מחקרים שנערכו בשנות ה-30 ובתחילת שנות ה-40, שכללו מינם שונים של בעלי חים וסוגי חשיפה שונים, כולל חשיפה לעשן סיגריות. רוב המחקרים בנושא בוצעו על ידי החוקר הארגנטינאי/גרמני אנגל רופו. ב-1953, ניסוי בו “נמרח” משקע (tar) הנוצר על ידי עישון סיגריות על עורם של עכברים זכה לתהודה רבה. הניסוי הראה כי העכברים ש-“זכו לטיפול” זה פיתחו מספר גדול באופן משמעותי של גידולים סרטניים בהשוואה לקבוצת הביקורת. המגזין Time הכריז כי ניסוי זה הוכיח את הקשר בין עישון ותחלואה בסרטן מעבר לכל ספק.

סוג שלישי של עדויות לקשר בין עישון בתחלואה בסרטן הריאה היו עדויות פתולוגיות. בניתוחים שלאחר המוות אצל מעשנים, לאו דווקא כאלה שחלו בסרטן הריאה, נצפו הבדלים פתולוגיים בתאי הריאה בין מעשנים ובין לא מעשנים. המחקר הראשון שהצביע על הבדלים כאלה התפרסם בשנת 1932.

כמו כן, מחקרים הראו כי מספר כימיקלים הנמצאים במשקעים הנוצרים על ידי העישון (tar) ובעשן הסיגריות הינם קרצינוגניים, כלומר חשיפה אליהם גורמת לסרטן. שוב, תגליות רבות אודות קיומם של חומרים כאלה בעשן ובמשקע נעשו על ידי אנגל רופו, שפרסם את המממצא הראשון שלו ב-1939. מחקרים שנעשו בסוף שנות ה-40 ותחילת שנות ה-50 חשפו כימיקלים קרצינוגניים נוספים הקשורים בסיגריות.

עם זאת, עדיין לא הייתה תשובה לשאלה החשובה מכולן: האם הסיכון של אדם מעשן לחלות בסרטן הריאה גבוה מהסיכון של אדם שלא מעשן, ואם כן, עד כמה ההבדל בין הסיכונים משמעותי?

כדי לענות על שאלה זו, יש צורך במחקר פרוספקטיבי. במחקר כזה מתחילים לעקוב אחרי שתי קבוצות של אנשים: מעשנים ולא מעשנים, ועוקבים אחריהם לאורך זמן. שני מחקרים גדולים מסוג זה נערכו בשנות ה-50.

המחקר הראשון נערך בארצות הברית בין 1952 ל-1955, ותוצאותיו פורסמו בתחילת 1958. הוא כלל כ-187 אלף נבדקים, גברים בגילאים 50 עד 70. תקופת המעקב הראשונית הייתה קצרה יחסית, 44 חודשים, אולם המדגם  הגדול איפשר זיהוי הבדלים בין קבוצת המעשנים וקבוצת הלא מעשנים, אם יש כאלה במסגרת הזמן הזה. המחקר, שהובילו החוקרים האמונד והורן, העלה כי שיעור התמותה הכולל (מכל סיבה שהיא) בקרב המעשנים היה גבוה ב-57% משיעור התמותה בקרב לא מעשנים. גם שיעור התמותה במחלות לב היה גבוה ב-50%. שיעור התמותה מסרטן בקרב המעשנים היה גבוה כמעט פי 2 בהשוואה לאותו נתון בקרב הלא מעשנים. כאשר מדובר במוות עקב מחלה ריאתית כלשהי (לא כולל סרטן), שיעור התמותה בקרב מעשנים היה גבוה פי 2.85 בהשוואה ללא מעשנים. במחלות אחרות לא נצפו הבדלים משמעותיים. תקנון על פי גיל לא הביא לשינוי משמעותי בתוצאות. עם זאת, עלה כי בקרב מעשני סיגרים או מקטרת, וכן בקרב מעשנים מזדמנים, ההבדלים בשיעורי התחלואה והתמותה היו נמוכים יותר בינם ובין הלא מעשנים. המחקר הראה גם כי שיעורי התחלואה והתמותה עולים עם כמות העישון היומי – יותר סיגריות ביום = סיכון גבוה יותר. שיעור מקרי המוות בין אלה המעשנים חבילת סיגריות או יותר ביום כמעט כפול משיעור המקרים בקרב אלה המעשנים פחות מחבילה ביום.

מחקר נוסף נערך בבריטניה על ידי ריצ’רד דול ואוסטין ברדפורד היל. זה היה מחקר בהיקף קטן יותר, כ-40 אלף איש, כולם רופאים. עם זאת, תקופת המעקב הייתה ארוכה יותר. תוצאות ראשוניות שפורסמו ב-1956, העלו ממצאים דומים לאלה שנצפו במחקר של האמונד והורן. המעקב אחרי הרופאים נמשך עד שנת 2001. נמצא כי עישון מקצר את תוחלת החיים בכ-10 שנים. יותר מ-50% מהמעשנים מתו מסרטן או ממחלות לב. גם מחקר זה הראה כי הסיכון עולה עם כמות הסיגריות שהחולה מעשן.

ממתאם לסיבתיות – האם עישון הוא גורם סיכון לתחלואה בסרטן הריאה?

ג'רום קורנפילד

ג’רום קורנפילד

כל המחקרים שתוארו עד כה אינם מוכיחים סיבתיות, לפחות ברובם. אמנם הניסויים בבעלי חיים היו ברובם ניסויים מבוקרים, בהקצאה פחות או יותר רנדומלית, אולם האם ניתן לגזור מהם מסקנות לגבי בני אדם? גם המחקרים הפרוספקטיביים שצפו בבני אדם לאורך זמן, היו, ובכן, ניסויים תצפיתיים. לא הייתה הקצאה רנדומלית לקבוצת מעשנים וקבוצת לא מעשנים: זה בלתי אפשרי לא מבחינה אתית ולא מבחינה מעשית. שתי הקבוצות היו שונות זו מזו באופן מהותי: אלה בחרו לעשן ואלה לא, ולא ניתן לשלול את האפשרות שיש ביניהן הבדלים מהותיים נוספים.

את המשימה לענות לכל דברי הביקורת שנמתחו על רוב המחקרים לקחו על עצמם ג’רום קורנפילד מהמחלקה לביוסטטיסטיקה באוניברסיטת ג’ונס הופקינס ועמיתיו. במאמר שפורסם ב-1959, הביאו קורנפילד ועמיתיו סקירה של כל העדויות בדבר הקשר בין עישון ותחלואה בסרטן וענו לכל הביקורת שנמתחו על המחקרים השונים. הביקורות סווגו לחמישה נושאים מרכזיים: ארבעה מהם עוסקים בנתונים ולאוכלוסיות במחקרים השונים, בתקפות של המחקרים הרטרוספקטיביים והפרוספקטיביים, בתקפות של הממצאים הפתולוגיים ובתקפות של תוצאות ניסויי המעבדה. אני לא אסקור כאן את כל הנושאים האלה. אני בהחלט ממליץ לכל מי שמתעניין בסטטיסטיקה ובאפידמיולוגיה לקרוא את המאמר.

אסקור כאן רק את התגובה של קורנפילד ועמיתיו לביקורת העוסקות בפרשנות לתוצאות שהתקבלו. (מעתה אתייחס רק לקורנפילד כאל מייצג הכותבים).

קורנפילד מסביר כי ישנן שלוש פרשנויות אפשריות לנתונים. האפשרות הראשונה היא כי עישון גורם לסרטן. האפשרות השניה היא כי סרטן גורם לעישון, דבר שניתן להצדיק על ידי הנחה של קיום מצב “קדם-סרטני”, המתבטא בתחילה על ידי צורך לניקוטין ומאוחר יותר בסרטן עצמו. האפשרות השלישית היא קיומו של גורם משותף, אולי גנטי, אשר גורם לאנשים גם לעשן וגם לחלות בסרטן.

מי שהציע את האפשרות השניה היה רונלד פישר. המשמעות של האפשרות הזו היא קיומם של גידולים סרטניים שאובחנו רק בגיל 50 אבל החלו להתפתח לפני גיל 18, שהוא הגיל החציוני לתחילת העישון. מכיוון שאין שום עדות או ממצא התומכים בכך, קורנפילד דוחה את הטענה על הסף.

באשר להשערת הגורם במשותף, קורנפילד טוען כי הנתונים והעדויות שנאספו עד כה הינם קונסיסטנטיים עם הטענה כי עישון גורם לסרטן אך לא עם הטענה של קיום גורם משותף. טענתו היא כי תיאוריית הגורם המשותף אינה עולה בקנה אחד עם: השינוי והעליה בתפוצה של סרטן הריאה ב-50 השנים האחרונות, העדויות לקרצינגוניות של משקעי העישון בניסויים בחיות, התמותה הפחותה מסרטן הריאה בקרב מעשנים שהפסיקו לעשן, וההבדלים שנצפו בין מעשני סיגריות ובין מעשני סיגרים או מקטרות. גם אם כל אחד מארבעת הנימוקים אינו טיעון מספק נגד השערת הגורם המשותף, טוען קורנפילד, צירופם יחד אינו מאפשר “התייחסות רצינית” לטענת הגורם המשותף. קורנפילד מבהיר למעשה כי נטל הוכחת טענת הגורם המשותף מוטל על הטוענים את הטענה.

לבסוף עובר קורנפילד לדון בביקורת על “השערת הסיבתיות”, כלומר הטענה כי עישון גורם לתחלואה בסרטן הריאה. בתחילה הוא מטפל ברונלד פישר, שטען כי אין התאמה בין ההבדלים בעליית התחלואה בסרטן הריאה בין נשים וגברים, כאשר בקרב הגברים התחלואה גבוה יותר, ובין קצב העליה בשיעור הנשים המעשנות שהינו גבוה מקצב העליה בשיעור הגברים המעשנים. תשובתו של קורנפילד היא שטענתו של פישר לא נתמכת על ידי הנתונים הקיימים.

טענה נוספת נגד הקשר הסיבתי בין עישון ותחלואה ותמותה מסרטן הריאה, היא כי במחקרים נאספו למעשה נתוני תמותה ולא נתוני תחלואה, כאשר יש סיבות רבות לתמותה. בקרב מעשנים נצפתה עליה בתמותה גם ממחלות לב, מחלות ריאתיות ואחרות, אך לא מסיבות אחרות כגון תאונות. לכן, טען ארקין[2] עישון אינו הגורם לתחלואה אלא רק סימפטום: אנשים אלה לא שומרים על בריאותם באופן כללי, ובפרט מעשנים. גם ברקסון העלה טענה דומה. בנוסף לטענת “העישון הוא סימפטום” שהעלה ארקין, טוען ברקסון כי אין זה סביר שגורם אחד יהווה גורם סיכון למספר מחלות. ברקסון טוען למעשה כי העקרונות של רוברט קוך מופרים.

קורנפילד משיב כי אין שום בעיה בטענה שגורם סיכון אחד יכול לגרום למספר תוצאות. הוא מביא כדוגמה את הערפל הגדול בלונדון שאירע ב-1952, אשר גרם לעליה בתמותה ממספר סיבות, בעיקר מחלות נשימתיות ומחלות לב כליליות. הוא מסביר כי עשן הסיגריות אינו חומר אחיד, אלא תערובת של מאות כימיקלים שונים, שרק התכונות של חלק מהם נחקרו עד כה. לדעת קורנפילד, אין זה מתקבל על הדעת כי כל החומרים האלה גורמים לאותה תוצאה. עולם שבו יש התאמה חד-חד-ערכית בין סיבה לתוצאה הינו ללא ספק יותר קל יותר להבנה, אך אנו איננו חיים בעולם כזה.

קורנפילד מודה כי אכן יש צורך במחקר נוסף כדי להבין את המנגנון המקשר בין העישון ובין התפתחות הסרטן ומחלות אחרות. אולם הוא מסביר כי אין די בכך כדי לשלול את קיומו של קשר סיבתי, מה גם שהנתונים שנאספו עד כה עולים בקנה אחד עם קיומו של קשר סיבתי.

לסיום מתייחס קורנפילד לשאלה מדוע ישנם מעשנים שאינם חולים בסרטן הריאה ומאידך יש אנשים שאינם מעשנים ובכל זאת חולים, ומודה שהתשובה לכך לא ידועה. הוא מביא לדוגמה את “אסון ליבק“, מקרה בו 251 תינוקות קיבלו חיסון לשחפת אשר היה מזוהם בזן פעיל של חיידק הגורם למחלה. למרות זאת, כעשירית מהתינוקות לא פיתחו כלל תסמינים של דלקת ריאות. האם נתון זה סותר את הטענה כי אותו חיידק דורם לדלקת ריאות?

קורנפילד מסיים ואומר כי למרות שהנתונים אינם מושלמים, כמעט ואין מחלוקת על כך שהנתונים מראים כי עישון הוא גורם סיכון בריאותי, וכי הוא ועמיתיו אינם יכולים לקבל את הטענה כי עישון הוא הרגל בלתי מזיק.

מקורות

  • Proctor, R. N. (2012). The history of the discovery of the cigarette–lung cancer link: evidentiary traditions, corporate denial, global toll. Tobacco control, 21(2), 87-91. (pdf)
  • Witschi, H. (2001). A short history of lung cancer. Toxicological sciences, 64(1), 4-6. (pdf)
  • Cornfield, J., Haenszel, W., Hammond, E. C., Lilienfeld, A. M., Shimkin, M. B., & Wynder, E. L. (1959). Smoking and lung cancer: recent evidence and a discussion of some questions. Journal of the National Cancer institute22(1), 173-203. (pdf)

הפוסטים הקודמים בסדרה

הפוסטים הבאים בסדרה


הערות
  1. מבחינת גיל, מין וכדומה []
  2. כל ההפניות נמצאות במאמר של קורנפילד ועמיתיו []

ממתאם לסיבתיות – הקריטריונים של ברדפורד היל

בשנת 1965 נעשה הניסיון הראשון להציג מתווה שיאפשר הסקת סיבתיות על סמך מתאם, כאשר סיר אוסטין ברדפורד היל הציג 9 קריטריונים להסקה כזו. בפוסט זה אציג ואדגים את הקריטריונים והביקורת עליהם. לבסוף אביע את דעתי על הרלוונטיות העכשווית של שלהם.

רקע היסטורי


Austin Bradford Hill

היל הציג את מה שהפך להיות מאוחר יותר לרשימת קריטריונים במסגרת הרצאה בפני החברה המלכותית לרפואה בשנת 1965. חלק גדול מהדברים שנאמרו בהרצאה הסתמכו על עבודתו בדבר הקשר בין עישון ותחלואה בסרטן בריאה[1]. היל ידע כמובן כי סטנדרט הזהב להוכחת סיבתיות הוא ניסוי מבוקר בהקצאה רנדומלית. הוא היה הסטטיסטיקאי בצוות שתיכנן וביצע את ניסוי הסטרפטומיצין ב-1945, שהיה הניסוי הקליני הראשון שבו הייתה הקצאה רנדומלית של הטיפול. היל כמובן גם ידע היטב כי ניסויים כאלה אינם תמיד אפשריים, וניסה ליצור מסגרת עבודה למחקרים תצפיתיים: מחקרים בהם לא ניתן לקבוע לאיזו קבוצה ישתייך איזה נבדק, והקבוצות נוצרות מעצמן.
כותרת ההרצאה והמאמר שבו פורסם תמליל ההרצאה[2] הציגה במפורש את השאלה “מתאם או סיבתיות?”. בהרצאה היל נמנע מלהגדיר מהי סיבתיות או אפקט סיבתי. הוא ציין במפורש כי אין לו את ההכשרה הדרושה כדי לדון במשמעויות הפילוסופיות של מושג הסיבתיות, והבהיר כי יימנע מלעסוק בכך. היל גם לא התיימר לקבוע קריטריונים כלשהם. הוא הציע תשע נקודות מבט על הנושא הסבוך של מתאם וסיבתיות. עם זאת, נקודות המבט שהציע הפכו במהרה לרשימת קריטריונים ול-“צ’קליסט”, כאשר כל סימן V מחזק את הטענה לקשר סיבתי. למרות שהיל כאמור לא התייחס לרשימה שלו כאל רשימת קריטריונים, אני אתייחס אליהם ככאלה בהמשך.
כמו כן, אציין כי ההתייחסות של היל לנושא הייתה בקונטקסט של רפואה ובריאות הציבור. בדיקת קיום הקריטריונים בהקשרים אחרים אינה בלתי אפשרית, כמובן, אך לא אתייחס לכך כאן .

הקריטריונים

קריטריון הראשון של היל הוא קריטריון העוצמה (strength), והכוונה היא לעוצמת הקשר הסטטיסטי[3] בין שני המשתנים – משתנה הסיבה ומשתנה התוצאה. ההנחה היא שאם עצמת הקשר חזקה אז פחות סביר שיש גורמים שלא נצפו המשפיעים על עצמת הקשר הסטטיסטי, ואם יש כאלה אז השפעתם מוגבלת[4]. מאידך, הסביר היל, ניתן פעמים רבות להסביר קשר חלש על ידי הטיות בנתונים. היל ציין כי קשר סטטיסטי חלש אינו שולל את קיומה של סיבתיות, וקיימות דוגמאות לכך.[5]. קל גם למצוא דוגמאות בהן יש קשר סטטיסטי חזק ללא קשר סיבתי.

הקריטריון השני הוא עיקרון העקביות (consistency). היל הסביר כי מידת הביטחון בהסבר סיבתי גדלה כאשר עדויות לקשר מתקבלות ממספר מקורות, כלומר מחקרים שונים, עם תכנונים מחקריים שונים ושנערכו בקרב אוכלוסיות שונות. עם זאת ציין היל כי חוסר עקביות לא שולל בהכרח קשר סיבתי, ואין לקפוץ למסקנה כי קשר סיבתי אינו קיים. חוסר עקביות יכול להוביל לתובנות חדשות[6] ודורש מחקר נוסף. בראש המבקרים של קריטריון זה ניצב רונלד פישר[7], בעיצומו של הויכוח על הקשר בין העישון והתחלואה בסרטן הריאות. פישר טען, במידה רבה של צדק, שאם קיימת הטיה בסיסית, אז קיום מספר מחקרים אינו מבטל את ההטיה. פישר הציע מודל משלו לקשר בין העישון והסרטן, והמודל הזה סתר את המסקנות של היל ושל אחרים בדבר קיום הקשר הסיבתי בין שני משתנים אלה.

הקריטריון השלישי הוא עיקרון הייחודיות או הסגוליות (specifity). זהו הקריטריון הכי שנוי במחלוקת מבין התשעה. פרשנות אחת שלו אומרת כי סיבתיות הינה הסבר סביר כאשר מתמקדים באוכלוסיה מסויימת, איזור מסויים וכדומה. דוגמה לכך יכולה להיות תחלואה בסרטן הריאה בקרב מנקי ארובות בלונדון. אך ניתן לפרש את דבריו של היל גם באופן אחר. לפי פרשנות זו, היל טען כי יש לדרוש כי לגורם אחד יש תוצאה אפשרית אחת ולהיפך. זה בודאי לא נכון באופן כללי, והיל עצמו ציין זאת ונתן דוגמאות. עם זאת, הדבר בהחלט ייתכן תחת המיקוד שהוזכר קודם. בכל מקרה, גם היל הבהיר בדבריו כי זהו הקריטריון החלש ביותר מבין התשעה.

הקריטריון הרביעי הוא עיקרון הזמניות (temporality). הגורם הסיבתי חייב לקרות לפני התוצאה. קשה להתווכח על זה. כמובן, שאם תוצאה מתרחשת לאחר שמתרחש אירוע כלשהו, אי אפשר להסיק מכך שהאירוע גרם לתוצאה.

הקריטריון החמישי הוא קריטריון הגרדיאנט הביולוגי, המבטא את עצמת התגובה. לפי היל, אם כאשר מינון הגורם גבוה יותר גם התוצאה או עוצמתה גבוהה יותר, סביר יותר כי קיים קשר סיבתי. אחת הדוגמאות שהביא היל היא שהסיכון לחלות בסרטן הריאה גבוה יותר עבור מי שמעשן יותר. יש המפרשים את דבריו של היל כדרישה לקשר מונוטוני רציף בין המשתנים[8]. גם קריטריון זה לא חייב בהכרח להתקיים. למשל, לצריכת קפאין במידה סבירה יש יתרונות בריאותיים, ולכן אם נתבונן בתחלואה העשויה להיגרם מצריכת קפאין, נצפה בתחילה בירידה הסיכון לתחלואה, ורק לאחר מכן בעליה, כלומר הקשר לא מונוטוני אלא בצורת האות האנגלית J. היל לא התייחס לאפשרות הזו או לאפשרויות אחרות.

הקריטריון השישי הוא עיקרון הסבירות (Plausibility). למעשה הכוונה היא שניתן להצביע על מנגנון (ביולוגי) שבאמצעותו נותר הקשר בין הגורם ובין התוצאה. זהו למעשה אחד הקריטריונים של אריסטו. שוב, הקריטריון הזה לא הכרחי[9]. ייתכן שהמנגנון קיים אבל אנחנו עדיין לא יודעים מהו. אבל אם אנחנו כן יכולים להצביע על מנגנון אפשרי, זה מחזק את רמת הביטחון שלנו בקיומו של הקשר הסיבתי.

הקריטריון השביעי הוא עיקרון הקוהרנטיות. פרשנות של תצפית חדשה כגורם ותוצאה לא אמורה לסתור את הידע הקודם. כך למשל, אילו היו בידינו בסוף שנות ה-40 של המאה הקודמת ותחילת שנות ה-50 נתונים על פיהם עישון אינו גורם לתחלואה בסרטן, היה עלינו לספק הסבר טוב לנתונים החדשים המראים את ההיפך. שוב, קיום הקריטריון הזה אינו הכרחי: הרבה פעמים מתגלים דברים חדשים שלאורם מה שידענו קודם מתברר כלא נכון. עיקרון הקוהרנטיות נוסח בצורה יפה על ידי קארל סייגן: טענות יוצאות דופן צריכות להיתמך בעדויות יוצאות דופן. או אם נחזור לניסוח של ברדפורד היל: עדויות חדשות לא אמורות לסתור בצורה חמורה ידע קודם, ואם יש סתירה כזו, יש לבחון היטב מדוע זה קרה.

הקריטריון השמיני הוא עדות ניסויית (experimental evidence). יש מחלוקת גם בדבר הפרשנות לקריטריון הזה. היל התייחס לכך בקצרה. עדויות ניסוייות יכולות בודאי להתקבל מניסויים בחיות בתנאי מעבדה. היל גם התייחס למקרה בו אנשים מפסיקים לעשן. ככל הנראה התכוון כאן למחקר תצפיתי בו יושוו אנשים שהפסיקו לעשן לכאלה שממשיכים לעשן.

הקריטריון התשיעי והאחרון הוא קריטריון האנלוגיה. היל הביא את כדוגמה את מחלת האדמת והתרופה תאלידומיד, שלשתיהן יש השפעה חמורה על עוברים. לכן, אם מתגלה עוד תופעה דומה של מומים בלידה, כדאי לחפש מחלה או טיפול העלולים לגרום לכך. דוגמה אחרת היא עישון פאסיבי. כאן יש אנלוגיה בין תחלואה בסרטן עקב עישון ותחלואה בסרטן עקב הימצאות בסביבה בה אנשים אחרים מעשנים.

המשמעות של הקריטריונים

אין להבין כי אם כל הקריטריונים “מתקיימים” באופן כלשהו אז יש קשר סיבתי. הקריטריון ההכרחי היחידי הוא קריטריון הטמפורליות: הגורם הסיבתי חייב להתרחש לפני התוצאה. היל עצמו הבהיר כי ייתכנו מצבים בהם יש קשר סיבתי ולמרות זאת הקריטריונים אינם מתקיימים או מתקיימים באופן “חלש”. גם ההיפך נכון. ייתכנו מצבים בהם נראה כי הקריטריונים מתקיימים למרות שאין קשר סיבתי. הדברים האלה מתקשרים ישירות אל דייויד יום שטען כי אין אפשרות להוכיח קיום של קשר סיבתי.

הרלוונטיות העכשוית של הקריטריונים

ברור למדי כי הקריטריונים כפי שנוסחו לפני יותר מ-50 שנה אינם ניתנים כיום ליישום כפי שהם. זה נכון בעיקר לגבי העיקרון השישי הוא עיקרון הסגוליות והעיקרון התשיעי הוא עקרון האנלוגיה, שתמיד נחשבו ל-“חלשים”.
הקשר בין הגורם והתוצאה אינו עוד קופסא שחורה כפי שהיה בימיו של היל. אנו יודעים כיום כי כמעט תמיד יש תהליכים מסובכים מתחת לפני השטח, כך שלמשל הטענה “עישון גורם סרטן” שוב אינה מדוייקת, ולמעשה אף פעם לא הייתה נכונה במובן דטרמיניסטי אלא רק במובן הסתברותי. (הבהרה: אין להסיק מדברי כי עישון אינו גורם לסרטן). אל העישון מצטרפים גורמים נוספים שאינם גלויים לעין, וצירוף ההשפעות של כל הגורמים האלה, שחלקם עדיין לא מוכרים לנו הוא שוביל לבסוף לתוצאה של סרטן[10]. מכאן עולה החשיבות הרבה של עיקרון הסבירות, והיותו רלוונטי גם במאה ה-21.

נהוג כיום לחלק את העדויות לקשר סיבתי לשלוש קבוצות:

הקבוצה הראשונה כוללת עדויות ישירות לכך שקשר הסתברותי/סטטיסטי בין הגורם לתוצאה אינו “קשר אקראי”, כלומר אינו “spurious correlation”. עדויות אלה קשורות לעצמת הקשר הסטטיסטי, וליכולת לבצע ניסויים שיתמכו בהשערת הסיבתיות[11]. גם קריטריון של הגרדיאנט הביולוגי שייך לקבוצה זו.

הקבוצה השלישית כוללת עדויות מקבילות התומכות בהשערת הסיבתיות המתקבלות ממחקרים הדומים או קשורים לנושא הנדון ומראות תוצאות דומות. לקטגוריה זו נכנסים הקריטריונים של העקביות, הקוהרנטיות והאנלוגיה.

כפי שאנו רואים, חלק מהקריטריונים של היל משתבצים לתוך שלוש הקבוצות, אך לא כולם. לדעתי לא ניתן גם כיום לוותר על רוב הקריטריונים של היל. אין ספק שלעדויות הישירות יש תפקיד מכריע ולא ניתן לוותר עליהן. באשר לעדויות התהליכיות: אין לזלזל בחשיבותן, אבל עדיין ניתן לבסס קשר סיבתי ללא הבנת התהליכים המקשרים בין הגורם לתוצאה, למשל על ידי ביצוע ניסוי קליני מבוקר בהקצאה רנדומלית. חוסר בעדויות תהליכיות אינו מספיק כדי לשלול את קיומו של קשר סיבתי.

באשר לעדויות המקבילות – עקרון העקביות הוא אחד העקרונות החשובים ביותר, בייחוד לאור משבר השחזוריות מולו ניצב כיום המחקר המדעי, ובודאי שלא ניתן לוותר עליו.

הפוסטים הקודמים בסדרה

הפוסטים הבאים בסדרה


הערות
  1. אדון בנושא זה בהרחבה בהמשך הסדרה []
  2. כנהוג בחברות המדעיות בבריטניה []
  3. אתם בודאי שמעתם על מקדם המתאם של פירסון, אולם יש עוד מדדים רבים המאפשרים לבטא ולמדוד קשר סטטיסטי []
  4. רעיון זה מבוטא מתמטית על ידי אי-שיוויון קורנפילד []
  5. אולם, האם תיתכן סיבתיות כאשר אין קשר סטטיסטי בכלל, כלומר האם יש “סיבתיות ללא מתאם”? גם בשאלה זו אדון בהמשך הסדרה []
  6. למשל, קיום אפשרי של גורם נוסף שלא נלקח בחשבון []
  7. שאמנם נפטר כשלוש שנים לפני שהיל הציג את הקריטריונים שלו []
  8. סליחה []
  9. אם כי יהודה פרל טוען כי זה הדבר היחידי ההכרחי, וגם המספיק, כדי להוכיח סיבתיות []
  10. עוד הבהרה: אין לפרש את דבריי כטענה שהתהליך הגורם לתחלואה בסרטן הוא תהליך דטרמיניסטי []
  11. נושא שאדון בו בהמשך בהקשר לתיאוריה של דונלד רובין), וכמובן הקריטריון הטמפורלי.

    הקבוצה השניה כוללת עדויות תהליכיות (מכניסטיות) אשר שופכות אור על התהליך שמקשר בין הגורם או הגורמים המובילים לתוצאה (( נושא שאדון בו בהמשך בהקשר לתיאוריה של יהודה פרל []

רנדומיזציה – לא הכל זהב

בפוסט הקודם ראינו כי סטנדרט הזהב להוכחת סיבתיות הוא ביצוע ניסוי מבוקר בהקצאה רנדומלית. אבל לפעמים אי אפשר לערוך ניסוי כזה, או שהדברים עלולים להשתבש. בפוסט הזה אסקור מספר מגבלות החלות על ניסויים כאלה.

הקצאה רנדומלית היא בלתי אפשרית

המגבלה הראשונה היא שלפעמים אי אפשר לבצע הקצאה רנדומלית. דוגמה פשוטה: נניח שאם רוצים לבדוק מהם ההבדלים בין גברים לנשים ביחס למצב רפואי כלשהו. אתם לא יכולים לקחת קבוצה של בני אדם ולקבוע על ידי הטלת מטבע מי מהם יהיה גבר ומי תהיה אישה. נקודה. באופן דומה, אם אתם רוצים, נניח, להשוות בין חולי סכרת לבין אנשים בריאים, אין לכם אפשרות לקבוע מי יהיה חולה ומי בריא. הקצאה רנדומלית היא פשוט בלתי אפשרית.

יש עוד מצבים בהם אי אפשר לבצע הקצאה רנדומלית. למשל, אם אתם רוצים ללמוד על ההבדלים בין מעשנים ולא-מעשנים, בין צמחונים ללא-צמחונים, או בין אנשים שמבצעים פעילות גופנית אופן קבוע ובין אלה שלא. נכון, אילו הייתם דיקטטורים כל יכולים, לא הייתה לכם בעיה לבצע ניסויים כאלה. לדיקטטור כל יכול יש את האפשרות לקבוע מי ייאלץ לעשן, ועל מי ייאסר לעשן. אבל, לפחות אצלנו, אין דיקטטורים כאלה. צריך למצוא דרך אחרת להשוות בין מעשנים ולא מעשנים.

הקצאה רנדומלית אינה אתית

המגבלה השניה היא שיש מצבים בהם ניסוי בהקצאה רנדומלית אינו אתי. כאן אני מבדיל בין אתיקה “רכה” ואתיקה “קשה”. אם פיתחתם טיפול חדש למחלה כלשהי אתם צריכים לבצע סדרה של ניסויים קליניים, בהקצאה רנדומלית כמובן, כדי לבדוק את יעילותו ואת היקף תופעות הלוואי.[1] הנה השאלה: איזה טיפול תקבל קבוצת הביקורת? אם אין עדיין טיפול יעיל למחלה, אז קבוצת הביקורת תטופל מן הסתם בפלסבו. אבל אם יש כבר טיפול יעיל אחר, מתן פלסבו לקבוצת הביקורת אינו אתי. זוהי “אתיקה רכה”. אפשר לבצע את הניסוי, אבל תחת מגבלות אתיות. כאן ההחלטה היא קלה יחסית, אם כי לא חפה משאלות אתיות נוספות.

אבל יש גם “אתיקה קשה”. בניסויים קליניים לטיפולים בסרטן או במחלות נדירות הגורמות נזקים בריאותיים חמורים במיוחד, אין הקצאה רנדומלית, גם אם יש טיפולים אחרים בנמצא. יש לכך שתי סיבות. הראשונה היא שאם אין טיפול אחר בנמצא, אין זה מוסרי למנוע טיפול אפשרי מהחולים האלה, גם אם יעילותו עדיין מוטלת בספק. הסיבה השניה היא שגם אם יש טיפול אחר בנמצא, והחולה לא קיבל אותו מסיבות כלשהן או קיבל אותו ולא חל שיפור במצבו, עדיין אין זה מוסרי למנוע ממנו טיפול אחר/נוסף העשוי לשפר את מצבו הבריאותי. היכן עובר הקו? למרבה הצער אין לכך תשובה ברורה. ניסויים רבים לבחינת טיפולים למחלת בוצעו בהקצאה רנדומלית.

ובכל זאת, במצבים רפואיים ההחלטה קלה יחסית אם כי עדיין עולות שאלות. למשל, אם אין טיפול בנמצא, למה לא לתת את הטיפול לחולים היותר קשים, להם הטיפול יועיל יותר אם הוא אכן יעיל? השאלה הזו עולה גם כחורגים לתחומים אחרים, כגון הפעלת תכנית חינוך חדשה או ניסוי לבדיקת גישה כלכלית או חברתית חדשה. הסטטיסטיקה אומרת כמובן שיש לבצע הקצאה רנדומלית. אבל יש רבים שתוהים האם הקצאה רנדומלית בניסויים מסויימים היא אתית, וביניהם יש בהחלט גם סטטיסטיקאים.

ההקצאה אינה מאוזנת

גם כאשר רנדומיזציה הינה אפשרית ואתית דברים עלולים להשתבש. תוצאת הרנדומיזציה עלולה להיות לא מאוזנת. בואו נחזור לדוגמת השדה מהפוסט הקודם. אתם רוצים לבחון את ההשפעה של שני סוגי דשן על יבול תפוחי האדמה. כפי שרונלד פישר הסביר, אתם מחלקים את השדה ל-36 ריבועים, ובוחרים באופן מקרי 18 ריבועים שאותם תדשנו בדשן א, ואת 18 הריבועים האחרים תדשנו בדשן ב. הבעיה: יש סיכוי כי כל 18 הריבועים של דשן א יהיו בחלק העליון של השדה המשופע, ו-18 האחרים יהיו בחלק התחתון של השיפוע, המקבל יותר מים. בעיה. אפילו אם רק רוב הריבועים של דשן א יהיו בחלק העליון של השדה, עדיין תקפות הניסוי תהיה בספק. ההסתברות כי בחלק העליון של השדה החלוקה בין הדשנים תהיה 13-5 או גרוע מכך היא כמעט 10%. במקרה כזה, אמר פישר, אני פשוט אצא מהחדר, אחזור, ואבצע את הרנדומיזציה מחדש.

אבל יש כמובן דרכים יותר מתוחכמות להימנע ממצבים כאלה, ופישר אכן הציע פתרון יותר מעשי: רנדומיזציה לפי בלוקים. אפשר למשל לבצע רנדומיזציה בין הדשנים עבור החלק העליון של השדה, ועוד רנדומיזציה עבור החלק התחתון של השדה. בצורה כזו תבטיחו כי בכל חלק של השדה יהיו 9 חלקות שידושנו בדשן א ו-9 חלקות שידושנו בחלק ב.

ההקצאה לא מיושמת בפועל

זוהי הבעיה הגדולה ביותר. ייתכן כי לאחר שביצעתם את הרנדומיזציה של חלקות השדה, מישהו ישכח לדשן את אחת החלקות. או שבחלקה אחת ישימו יותר דשן מאשר בחלקה אחרת. או שדשן מסוג אחד יגלוש לחלקה הסמוכה שאמורה להיות מדושנת בדשן מהסוג השני. אפשר לחשוב על עוד כל מיני בעיות שיכולות לקרות בדישון שדה, או בטיפול בעכברים[2] . אבל בדברים כאלה קל יחסית לטפל.

הבעיה העיקרית היא כאשר מנסים לבצע ניסוי[3] בבני אדם. יש המון דברים שיכולים להשתבש ואין שום שליטה עליהם. בניסוי קליני, יהיו חולים שלא ייקחו את כל התרופות שעליהם לקחת על פי הפרוטוקול של הניסוי. או שלא יתייצבו לבדיקות. או שיחליטו לממש את זכותם לפרוש מהניסוי. וחולה שמחליט לפרוש מהניסוי יכול לבוא ולבצע את זה בצורה מסודרת ולאפשר בדיקות אחרונות, או פשוט להיעלם.

בניסוי שנועד לבדוק טיפול לאיידס שנערך בסן פרנסיסקו בשנות ה-90, מחצית מהחולים שוייכו לקבוצת הטיפול על ידי רנדומיזציה, והמחצית שניה קיבלה טיפול בפלסבו.[4] החולים כמובן לא ידעו מי קיבל את הטיפול האמיתי ומי קיבל את הפלסבו, וכולם, כמובן, רצו לקבל את הטיפול הפעיל. הפתרון היצירתי: זוגות של חולים החליפו ביניהם את מחצית מלאי התרופות שקיבלו. אם שני החולים קיבלו את הטיפול הפעיל, לא קרה כלום. אחרי ההחלפה עדיין שניהם מקבלים את הטיפול הפעיל. אותו הדבר קורה אם שניהם קיבלו את הפלסבו. אבל אם חולה אחד קיבל טיפול פעיל והשני פלסבו, אז אחרי ההחלפה אצל כל אחד מחצית מהכדורים הם כדורים פעילים, ומחצית מהכדורים הם כדורי פלסבו. ההיגיון: עדיף לקבל טיפול במינון נמוך מאשר לא לקבל טיפול כלל. ומכיוון שאיש אינו יודע אם בידיו תרופה פעילה או פלסבו, לשני הצדדים יש אינטרס לבצע את ההחלפה.

התרגיל הזה הפך את הניסוי לניסוי שבו יש בפועל 3 קבוצות: קבוצה שקיבלה טיפול מלא, קבוצה שקיבלה טיפול במינון חלקי, וקבוצת פלסבו. אבל איש אינו יודע כעת מי שייך לאיזו קבוצה. הניסוי נכשל, כייוון שהתוצאות שהתקבלו חושבו תחת ההנחה שיש בניסוי שתי קבוצות כפי שתוכנן. לאחר שנודע דבר הכשלון, חלק מהחולים סיפרו לחוקרים אודות ההחלפות שבוצע[5]. האם היה אפשר להימנע מהבעיה הזו אילו כל החולים היו מקבלים טיפול פעיל, בשני מינונים שונים? ייתכן מאוד שכן.

סיכום

כל אחת הבעיות שתוארו כאן שוללות את התקפות של הניסוי אם הן מתרחשות. הדרך הטובה ביותר להימנע מהן היא לחשוב מראש על כל האפשרויות ולתכנן את הניסוי בהתאם, אבל זה לא תמיד אפשרי. כמו כן, כפי שראינו, יש מחסומים שפשוט אי אפשר לעבור. לכן יש לחפש דרכים אחרות כדי לקבוע האם קיים קשר סיבתי.

הפוסטים הקודמים בסדרה

הפוסטים הבאים בסדרה


הערות
  1. להזכירכם, עד תחילת שנות ה-50 של המאה ה-20 ניסויים קליניים בהקצאה רנדומלית נחשבו לניסויים לא אתיים. []
  2. וראיתי מספר לא מבוטל של בעיות כאלה []
  3. אתי כמובן []
  4. לא הצלחתי למצוא את הרפרנס לניסוי הזה. את הסיפור שמעתי מפרופסור ברני בלאק מאוניברסיטת נורת’ווסטרן []
  5. ייתכן שעדיין ניתן לבצע תרגילים סטטיסטיים כדי ללמוד משהו על יעילות הטיפול, אבל התקפות של המסקנות תהיה מוגבלת יותר []