חיפוש באתר

קישורים

עמודים

קטגוריות

ארכיב עבור 'מה אומרת הסטטיסטיקה'

על תבונה, רגישות ודברים אחרים – הקלטת מפגש הזום

אתמול ערכתי את מפגש הזום שני של נסיכת המדעים שעסק באבחנות רפואיות ובאופנים בהן ניתן להעריך את איכותן ואת המשמעות של התוצאות שהתקבלו.

הקלטת המפגש זמינה לצפיה בלינק https://www.youtube.com/watch?v=08F96yeDUzI

מקווה שתיהנו

איך מחשבים את אחוזי התמותה?

מאז התפרצות מגיפת הקורונה נזרקים לאוויר המון נתונים על אחוזי התמותה מהמחלה. אייך מחשבים את האחוזים האלה? לכאורה זה מאוד פשוט: לוקחים את מספר המתים ומחלקים אותו ב-… במה בדיוק? אנסה לעשות קצת סדר.

אציין כי לא אתייחס במפורש ליתרונות, החסרונות, המשמעות והפרשנות של כל מדד, אלא רק כאשר אראה צורך בכך. אתם מוזמנים לקיים דיון ולשאול שאלות בתגובות כאן או בקבוצת הפייסבוק “חפירות על סטטיסטיקה“.

עדכון (15.4.2020): לאחר שקראתי חלק מהתגובות כאן ובדף הפייסבוק של נסיכת המדעים, אני רוצה להבהיר שאין כאן שום כוונה או ניסיון להסביר את המצב הנוכחי של המגיפה. המטרה היא רק להסביר את אופן חישוב המדדים השונים. הדוגמאות שכאן מייחסות לנתונים של האוכלוסייה הכללית, ויש להבהיר כי תמונת המצב האמיתית תלויה בעוד הרבה גורמים והפוסט הזה נמנע מלהתייחס אליהם.

מהו מספר מקרי המוות?

נתחיל במונה, כלומר במספר המתים. בדרך כלל מופיע שם מספר מקרי המוות המאומתים – confirmed deaths. זהו מספר האנשים שאובחנו כחולי קורונה ומתו סמוך לזמן האבחון. לרוב זהו מספר האנשים שמתו לאחר האבחון, אם כי תיאורטית ניתן לבדוק לאחר המוות אם המנוח היה חולה.

יש אנשים הטוענים כי לא צריך להביא במניין המתים אנשים שהיו מתים “ממילא”, כמו אנשים עם מחלות רקע או אנשים בגיל מופלג. אני חושב זה לא נכון. שיעור מקרי המוות בקרב חולי קורונה שהינם חולי סכרת או מחלות אחרות כגון מחלות לב, לחץ דם גבוה ומחלות דומות אכן גבוה יותר משיעור מקרי המוות באוכלוסייה הכללית, כמו גם בקרב אנשים מבוגרים – שיעור מקרי המוות עולה עם הגיל. אבל אנשים יכולים לחיות שנים רבות עם מחלות רקע כאשר הם מקבלים טיפול רפואי מתאים, ולכן לדעתי לא צריך לגרוע אותם ממספר המתים.

גם לגבי אנשים מבוגרים – הם לא היו “מתים ממילא” עקב גילם. תוחלת החיים של גברים בישראל היא בערך 80 שנה[1]. אבל למי שהגיע לגיל 80 לא נותרו בממוצע אפס שנות חיים אלא הרבה יותר. אם תבדקו בנתוני הלמ”ס, תראו כי תוחלת שארית החיים של גבר שהגיע לגיל 80 היא 8.9 שנים (קישור לקובץ pdf). אם תחשבו על זה קצת תראו שזה הגיוני לגמרי: כל מי שהגיע לגיל 80 מת אחרי גיל 80, ולכן גיל המוות הממוצע של האנשים שהגיעו לגיל 80 בהכרח גבוה מ-80.[2]

הבעיה השניה בחישוב מספר המתים עקב תחלואה בקורונה היא שכאמור – נספרים רק אנשים שאובחנו כחולים. סביר להניח שיש עוד אנשים שמתו עקב תחלואה בקורונה אך לא אובחנו כחולים באופן “רשמי”, כלומר הם לא confirmed. כמה אנשים כאלה יש? אף אחד לא יודע. בכל מקרה, מספר המתים מקורונה אינו קטן ממספר ה- confirmed deaths, וסביר להניח שהוא יותר גבוה.

נעבור למכנה: יש לנו את מספר מקרי המוות – במה מחלקים אותו? כאן יש מספר אפשרויות.

חישוב שיעור התמותה הבסיסי

המדד הבסיסי ביותר הוא פשוט “שיעור התמותה”, ה-mortality rate שמכונה לפעמים בשם crude mortality rate. זהו מספר המתים, בתקופת זמן מסויימת, מתוך כלל האוכלוסייה, כולל אלה שלא חולים או לא אובחנו כחולים. מדד זה מצלם תמונת מצב. ניקח דוגמה. בעת כתיבת שורות אלה, יש בישראל 103 מתים עקב חולי בקורונה בחודשיים האחרונים. האוכלוסייה בישראל היא בערך 9 מיליון איש. אז מחלקים 100 ב-9000000 ומקבלים 0.001% או, כפי שמקובל בקרב האפידמיולוגים, שיעור תמותה של 1.1 אנשים ל-100,000 בחודשיים האחרונים[3]. עד כמה המדד הזה משקף את המציאות? זה תלוי כמובן בגודל המדגם, שבמקרה שלנו הוא משך הזמן בו מתבצעת המדידה. הדבר דומה במובן מסויים להערכת רמת הבטיחות של רכבים אוטונומיים.

מדדים המתייחסים לאוכלוסייה החולה

מדדים יותר רלוונטיים מתייחסים לאוכלוסייה החולה. לדוגמה, שיעור התמותה עקב סרטן הלבלב באוכלוסייה הכללית הוא נמוך כיוון שזו מחלה נדירה יחסית. אבל בקרב החולים, שיעור התמותה הוא מאוד גבוה (והוא תלוי כמובן בתקופת הזמן אליה מתייחסים, שיכולה להיות חודש מאז האבחון או שנה ממועד האבחון או כל תקופת זמן אחרת).

Case fatality rate

מדד אחד שמתייחס למספר החולים המאומתים הוא ה- case fatality rate או בקיצור CFR.[4]. כאן לוקחים את מספר המתים המאומתים, ומחלקים אותו במספר החולים המאומתים. בעת כתיבת שורות אלה, יש בישראל קצת יותר מ-11000 חולים מאומתים. נחלק 100 ב-11000 ונקבל 0.9%, או 909 ל-100000.[5]. הבעיות? כפי שציינו קודם, מספר מקרי המוות גדול ממספר מקרי המוות המאומתים. לפי אותו הגיון, גם מספר החולים בפועל גדול ממספר החולים המאומתים. שלישית, במדד זה גם חולים אסימפטומטיים נכנסים למכנה. אלה הם האנשים שנדבקו ווירוס ולא פיתחו סימפטומים קליניים של המחלה.

Infection fatality rate

אם אתם חושבים שחולים אסימפטומטיים אינם צריכים להילקח בחשבון אלא רק חולים עם תסמינים, המדד שמעניין אתכם הוא ה-infection fatality rate, או בקיצור IFR. כאן מחלקים את מספר מקרי המוות במספר החולים שפיתחו תסמינים קליניים. למיטב הבנתי, הנתון של 11000 חולים מאומתים בישראל כולל גם חולים אסימפטומטיים. ההערכה משלי מבוססת על נתוני החולים לפי מצבם:  קל, בינוני, קשה ומונשם. חיברתי את המספרים וקיבלתי קצת יותר מ-9500. נכון לעכשיו ה-IFR הוא בערך 100 חלקי 9500, כלומר קצת יותר מאחוז.

הסיכון למות

למדדי ה-CFR וה-IFR יש משמעות ותועלת במעקב אחרי הדינמיקה של המגיפה. ה-“בעיה” במדדים אלה היא שלמרבה השמחה רוב החולים לא ימותו. לכן מדדים זה אינם הסיכון של חולה במחלה למות. וזה מה שבאמת מעניין את מי שחולה, או מי שהסיכון הזה טורד את מנוחתו, ועם יד הלב, יש כאן מישהו שלא מוטרד מזה?

לפי הנתונים העכשוויים של האתר worldometers, יש כרגע בעולם כ-1.8 מיליון חולים. מה יהיה גורלם? אנחנו לא יודעים עדיין מה יהיה הגורל של רובם. אבל אנחנו כן יודעים מה עלה בגורלם של כ-549 אלף חולים המהווים כ-30% מסך החולים:  כ-115 אלף מחולים אלה מתו, וכ-434 אלף חולים הבריאו. 115 מתוך 549 הם 21%. זהו הסיכון של חולה למות. אם לא לוקחים את החולים שבסין בחשבון, הסיכון למות הוא 23%. אם מישהו בעולם שמחוץ לסין חולה בקורונה, ואנחנו לא יודעים פרטים נוספים אודותיו, אז הסיכון שלו למות הוא 23%, וזה הרבה מאוד. זאת כמובן, בתנאי שה-549 אלף שמהלך המחלה שלהם הסתיים בהבראה או מוות מייצגים את שאר 1.3 מיליון החולים שמהלך המחלה שלהם לא הסתיים. אני חושב שהם כן מייצגים. אני עוקב אחרי הנתונים האלה כמעט שלושה שבועות, והיחסים נשארים קבועים כאשר מספר החולים הכולל, מספר המתים ומספר המחלימים גדל. אחוז המתים מתוך החולים שמהלך המחלה שלהם הסתיים במשך הזמן הזה הוא קצת יותר מ-20%.

מה הסיכון למות בישראל?

אני מודה שלא עקבתי אחרי הנתונים האלה בישראל לאורך זמן, אבל אני כן יודע את תמונת המצב הנוכחית: נכון למועד כתיבת שורות אלה, 103 מתו ו-1627 החלימו. כלומר אנחנו יודעים מה עלה בגורלם של 1730 חולים. 103 מתוך 1730 זה כמעט 6%. מצבנו טוב ביחס לעולם, לפחות כרגע. זה גם מדגם קטן יחסית. מוקדם לקבוע.


הערות
  1. זה כמובן תלוי מין, מגזר וגורמים נוספים, כגון הרגלי עישון []
  2. אני לא אדון כאן באופן חישוב תוחלת החיים []
  3. אני מעגל את כל המספרים לצורך ההדגמות []
  4. אין לי מושג איך זה מתורגם לעברית []
  5. ההצגה של מספר מקרים ל-100000 היא קצת בעייתית במקרה הזה, כי לפחות כרגע יש רק 100 מתים. זה קצת דומה לחישוב מספר האפיפיורים לקמ”ר בוותיקן, ששטחו רק כחצי קמ”ר. []

ויזואליזציה של נתוני יחס חוב/תוצר

לפני מספר ימים ראיתי את הגרף הזה בטוויטר:[1]

גיגול קצר העלה כי מדובר בגרף ישן יחסית מאוקטובר 2017. מצד אחד, זהו באמת גרף מאוד יפה ומרשים. מצד שני, מקומו בדפי פייסבוק כגון Trust me, I’m a Statistician או Trust me, I’m a Data Scientist.

גרף זה הוא סוג של דיאגרמת עוגה (pie chart).  בדיאגרמת עוגה קלאסית הפרוסות הן בצורת “משולשים”, או גזרות של עיגול אם רוצים לדייק. כאן לפרוסות יש צורות אחרות, הכוללות משולשים, מרובעים, מצולעים אחרים, וצרות שאין לי מושג מה שמן[2]

אני מודה שהגרף הזה די בילבל אותי. מדובר בנתונים של חוב לאומי ויחס חוב/תוצר. בתחילה התייחסתי לנתון של יחס חוב/תוצר, ומשום מה חשבתי שהשטח של כל פרוסה בעוגה הזו מייצג את יחס החוב/תוצר של כל מדינה. זאת כנראה בגלל שהעין שלי תפסה קודם כל את הכותרת התחתונה.

בפועל, כל פרוסה מראה את החלק של המדינה מתוך סך כל החובות הלאומיים בעולם, ולכן סך כל השטחים אמור להסתכם ל-100%. [3].ניתן לראות בבירור כי המדינה עם החלק הגדול ביותר מתוך סך החובות היא ארצות הברית, ומכאן ג ניתן להסיק כי לארצות הברית יש את החוב המוחלט הגבוה ביותר במונחים דולריים. המדינה עם החלק השני הכי גדול בסך החובות היא יפן, וסין שלישית. מצאו בעוגה את הפרוסות של  איטליה, גרמניה, צרפת ובריטניה. לאיזה מדינה מבין הארבע יש חלק יותר גדול בעוגת סך החובות? האם אתם יכולים לקבוע זאת על ידי השוואת השטחים של הפרוסות?

יחס החוב/תוצר של כל מדינה מבוטא על ידי הצבע של הפרוסה בעוגה. ככל שהצבע בהיר יותר, כך יחס החוב/תוצר גבוה יותר. אפשר לראות מייד כי ליפן יש יחס חוב/תוצר גבוה מאוד. ניתן להבחין כי גם ביוון היחס הזה גבוה, למעשה השני בגובהו. האם אתם יכולים לזהות את המדינה עם היחס השלישי בגובהו? זוהי לבנון. חפשו אותה בפינה הימנית עליונה. איטליה ופורטוגל, שתופסות את המקום הרביעי והחמישי, בולטות יותר. האם אתם יכולים לראות לאיזה מדינה יש את יחס החוב/תוצר הנמוך ביותר?

לאחר שהבנו את הנתונים המוצגים בדיאגרמה הזו, אנו יכולים לנסות למצוא תובנות.

דיאגרמה זו היא למעשה גרף דו-מימדי, במובן שמוצגים בה שני משתנים שונים. בדרך כלל גרפים כאלה אמורים להראות את הקשר בין שני המשתנים. אז מה הקשר בין יחס החוב/תוצר ובין חלק החוב בסך כל החובות? אתם יכולים לראות? כי אני לא יכול. לזכותם של הכותבים ייאמר שהם לא ניסו לדון בכלל בעניין.

האם יש דרך טובה יותר להציג את הנתונים האלה באופן גרפי? כמובן שיש. בואו נשכח את כל מה שראינו עד עכשיו ונשחק קצת בנתונים.

לקחתי את נתוני יחס החוב/תוצר של כל מדינות העולם וגם את נתוני התוצר עצמם מויקיפדיה. לצורך ההדגמה, התמקדתי בנתוני מדינות ה-OECD  משנת 2017. מנתוני יחס החוב/תוצר ונתוני התוצר אפשר כמובן לחשב את גובה החוב, משם את סך החובות, ולבסוף את חלקה של כל מדינה מתוך סך החובות. הנתונים נמצאים כאן.

האפשרות הפשוטה ביותר היא לשרטט תרשים פיזור (scatter plot) משרטטים את הנתונים במערכת צירים, כשכל מדינה מיוצגת על ידי נקודה. המרחק של הנקודה מכל אחד מהצירים מייצג את הערך המתאים של הנתון.

הנה דיאגרמת פיזור בסיסית המציגה את הנתונים שלנו. למעוניינים, קוד R נמצא בגרסה האנגלית של הפוסט הזה.

בדיאגרמה ניתן לראות בבירור כי יש שתי נקודות/מדינות חריגות: אחת מהן עם יחס חוב/תוצר גדול מ-200%, חלקה של השניה בסך כל החובות גבוה מ-30%.

עיון נוסף מגלה מדינה שיחס החוב/תוצר שלה גבוה מ-150%, ועוד שתי מדינות שיחס החוב/תוצר שלהן באיזור ה-130%.

מאחר ויש כלכלנים שסבורים כי חוב גבוה זה רע, וחוב גבוה ביחס לתוצר הוא עוד יותר רע, החלטתי לחלק את הנקודות/מדינות לשלוש קבוצות:

  • בקבוצה הראשונה נכללות המדינות שיחס החוב/תוצר שלהן גבוה מ-100% או שחלקן בסך החובות גבוה מ-10%. אלה המדינות שמצבן הכלכלי “רע” על פי הפרמטרים האלה.
  • בקבוצה השניה נכללות המדינות שיחס החוב/תוצר שלהן נמוך מ-50% וגם חלקן בסך החובות נמוך מ-2%. אלה המדינות שמצבן הכלכלי “טוב” על פי הפרמטרים האלה.
  • הקבוצה השלישית כוללת את כל שאר המדינות.

קווי הגבול בין הקבוצות (2%, 10% וכולי) הם שרירותיים משהו. קבעתי אותם על פי מיטב שיפוטי.[4]

שרטטתי מחדש את הגרף: את הנקודות של המדינות שמצבן “רע” צבעתי באדום, והוספתי לגרף גם את שמה של כל מדינה מקבוצה זו. את הנקודות של המדינות שמצבן “טוב” צבעתי בירוק, ואת שאר הנקודות צבעתי בכתום:

עכשיו ניתן לראות כי:

  • יחס החוב/תוצר של המדינות שמצבן “טוב” משתרע על כל הטווח מ-0 עד 50, אם כי יש בקבוצה זו יותר מדינות שיחס החוב/תוצר שלהן מתקרב ל-50%.
  • מדינות הביניים מתחלקות בערך לשתי קבוצות: קבוצה אחת עם רמת חובות מוחלטת (כאחוז מסך החוב) נמוכה ויחס חוב/תוצר בין 50 ל-75 בערך, וקבוצה שניה של חמש מדינות  עם רמת חובות מוחלטת גבוהה יותר, כאשר לא ניתן לומר אמירה ברורה על מכנה משותף ביניהן לגבי יחס חוב/תוצר.

הערות
  1. הערה: ביצעתי כמה עריכות מינוריות בגרף לצורך ההדגמה בהמשך הפוסט []
  2. ראו לדוגמא את בריטניה בתחתית הדיאגרמה []
  3. לא בדקתי את הנתונים האלה, אני מאמין למי שיצר את הדיאגרמה, וזה גם לא כל כך משנה לדיון כאן []
  4. אם אתם מכירים כלכלן שיכול לקבוע את קווי הגבול באופן יותר מדוייק (במובן accuracy, לא במובן precision) , אשמח אם תכירו לי אותו []

הליידי הטועמת תה קר

הקוראים הוותיקים של הבלוג זוכרים בוודאי את סיפור הליידי הטועמת תה. השאלה שעמדה אז על הפרק הייתה הם ניתן להבדיל בין הטעם של תה שנמזג לתוכו חלב ובין הטעם של חלב שנמזג לתוכו תה. הניסוי שהוכיח כי אכן ניתן להבדיל בין הטעמים הוא אחד הניסויים הקלאסיים בתולדות המדע בכלל והסטטיסטיקה בפרט.

אנוכי הקטן ניסיתי היום לברר את התשובה לשאלה לא פחות חשובה.

בבית הספר של בני הצעיר נערך מדי שנה “יום ההורה המעשיר”, בו הורים מגיעים לבית הספר ומעבירים לתלמידים שיעורים בנושאים שונים לפי בחירתם, רצוי בנושאים שהם מבינים בהם משהו. ואני מה אני מבין? בקושי קצת סטטיסטיקה. לכן החלטתי לשחזר את ניסוי הליידי הטועמת תה.

השאלה שעמדה על הפרק היא האם יש הבדלים בין הטעם של שני המותגים המובילים של תה קר בישראל: נסטי ופיוז טי. וזו שאלה קריטית, מכיוון שבני הוא חסיד של אחד המותגים האלה ומסרב בכל תוקף לצרוך את המותג השני, דבר שמטיל על משפחתנו הקטנה מגבלות בלתי סבירות.

כמובן שאת השיעור התחלתי בסקירה קצרה של נושא תכנון הניסויים ותיאור הניסוי הקלאסי של פישר, אבל גולת הכותרת הייתה הניסוי עצמו.

תכנון הניסוי היה כדלקמן: בכל שלב, הוצגו לאחד התלמידים[1] שתי כוסות תה קר. לעיתים בשתי הכוסות נמזג אותו מותג תה, לעיתים בכל כוס נמזג מותג אחר. לאחר טעימה ורחרוח היה על שפן הניסוי לומר האם הוא חש בהבדל טעמים בין הכוסות או לא.

ההחלטה האם למזוג לתוך שתי הכוסות את אותו סוג תה או האם למזוג לכל כוס סוג אחר נקבעה על ידי הטלת מטבע. במקרה שהגורל קבע כי לשתי הכוסות יימזג אותו מותג תה, הטלת מטבע נוספת קבעה את המותג שיימזג לשתי הכוסות.

הזמן שלנו הספיק לביצוע של 17 טעימות, והנה התוצאות:

 

 

 

 

 

 

 

 

האם הטועם צדק
כן לא סך הכל
האם תכולת הכוסות זהה כן 5 5 10
לא 4 3 7
סך הכל 9 8 17

 

המסקנה שלי היא כי לא נמצאה עדות להבדלים בטעמים בין שני המותגים[2].  הבן שלי שוכנע. בארוחת הצהריים הוא שתה להנאה מהמותג שעד כה הוחרם. הניסוי הוכתר כהצלחה.


הערות
  1. אני נצמד לכללי האקדמיה ללשון העברית, אבל אני גם חייב לציין כי מספר הבנות היה גדול פי 3 ממספר הבנים []
  2. אתם מוזמנים לערוך מבחן חי בריבוע או מבחן פישר []

ממתאם לסיבתיות – הקשר בין עישון ותחלואה בסרטן הריאה

עדויות בדבר הקשר בין עישון ותחלואה בסרטן הריאה החלו להופיע כבר בתחילת המאה העשרים, ומספר רב של מחקרים שנערכו בשנות הארבעים והחמישים של המאה העשרים סיפקו עדויות נוספות לקשר הזה. בפוסט זה אני סוקר את העדויות המחקריות שהראו את הקשר בין עישון סיגריות ותחלואה בסרטן, ואת השיקולים שהובילו לביסוס הקשר הסיבתי לפיו עישון הוא גורם הסיכון העיקרי לתחלואה בסרטן הריאה, וגיבוש הקונצנזוס המדעי התומך בטענה זו.

עדויות בדבר הקשר בין עישון ותחלואה בסרטן הריאה

בסוף המאה ה-19 התחלואה בסרטן הריאה הייתה נדירה. בבית החולים של אוניברסיטת דרזדן, מקרי סרטן הריאה היוו כאחוז אחד מבין כל הסרטנים שזוהו בניתוחים שלאחר המוות. שיעור זה עלה  ל-10% בשנת 1918, ול-14% ב-1927.

הועלו מספר השערות לגורמים סביבתיים אשר עשויים להסביר את הזינוק בתחלואה: עליה בזיהום תעשייתי, התרחבות השימוש באספלט לסלילת כבישם, זיהום אויר ממכוניות שמספרן עלה בהדרגה, חשיפה לגז במלחמת העולם הראשונה, ואפילו מגיפת השפעת של 1918. עם זאת, עליה בתחלואה נצפתה גם כאשר לא הייתה חשיפה לגורמים אלה.

הראשון שהצביע על הקשר בין העלייה בתחלואה בסרטן והריאה ובין העלייה בפופולריות של עישון סיגריות היה ככל הנראה המדען הגרמני פריץ ליקינט, שהראה ב-1929 כי שיעור המעשנים בקרב חולים בסרטן הריאה גבוה משיעורם באוכלוסייה הכללית. ממצאיו של ליקינט שוחזרו בשני מחקרים שפורסמו בגרמניה ב-1940 ו-1943. במחקרים אלה נצפה כי מספר המעשנים בקבוצה של חולי סרטן הריאה היה גבוה בערך פי 30 ממספר המעשנים בקבוצת ביקורת שהורכבה מאנשים בעלי רקע דומה, אך אינם חולים בסרטן הריאה. חמישה מחקרים שונים שנערכו בבריטניה ובארצות הברית בשנת 1950 הגיעו למסקנות דומות. מחקרים מסוג זה הינם מחקרים רטרוספקטיביים; נבחרו בהם שתי קבוצות: קבוצה אחת של חולים בסרטן הריאה וקבוצת ביקורת של אנשים, חולים או בריאים, מרקע דומה[1] שאינם חולים ברטן הריאה. המסקנה שעלתה ממחקרים אלה היא שהסיכוי כי אדם שחולה בסרטן הריאות הינו מעשן גבוה מהסיכוי שאדם שאינו חולה בסרטן הריאה הינו מעשן. מחקרים אלה לא עונים על השאלה מהו הסיכון של אדם מעשן לחלות בסרטן היראות לעומת אדם שאינו מעשן. נגיע לסוגיה זו בהמשך.

עדויות נוספות לקשר בין טבק וסיגריות לבין תחלואה בסרטן הגיעו מניסויים בבעלי  חיים. ניסויים שערך החוקר הגרמני ברוש בשנת 1900 העלה כי חשיפה לתמצית המופקת מעלי טבק העלתה את התחלואה בסרטן אצל עכברים בהשוואה לקבוצת הביקורת. תוצאות אלה אושרו במספר רב של מחקרים שנערכו בשנות ה-30 ובתחילת שנות ה-40, שכללו מינם שונים של בעלי חים וסוגי חשיפה שונים, כולל חשיפה לעשן סיגריות. רוב המחקרים בנושא בוצעו על ידי החוקר הארגנטינאי/גרמני אנגל רופו. ב-1953, ניסוי בו “נמרח” משקע (tar) הנוצר על ידי עישון סיגריות על עורם של עכברים זכה לתהודה רבה. הניסוי הראה כי העכברים ש-“זכו לטיפול” זה פיתחו מספר גדול באופן משמעותי של גידולים סרטניים בהשוואה לקבוצת הביקורת. המגזין Time הכריז כי ניסוי זה הוכיח את הקשר בין עישון ותחלואה בסרטן מעבר לכל ספק.

סוג שלישי של עדויות לקשר בין עישון בתחלואה בסרטן הריאה היו עדויות פתולוגיות. בניתוחים שלאחר המוות אצל מעשנים, לאו דווקא כאלה שחלו בסרטן הריאה, נצפו הבדלים פתולוגיים בתאי הריאה בין מעשנים ובין לא מעשנים. המחקר הראשון שהצביע על הבדלים כאלה התפרסם בשנת 1932.

כמו כן, מחקרים הראו כי מספר כימיקלים הנמצאים במשקעים הנוצרים על ידי העישון (tar) ובעשן הסיגריות הינם קרצינוגניים, כלומר חשיפה אליהם גורמת לסרטן. שוב, תגליות רבות אודות קיומם של חומרים כאלה בעשן ובמשקע נעשו על ידי אנגל רופו, שפרסם את המממצא הראשון שלו ב-1939. מחקרים שנעשו בסוף שנות ה-40 ותחילת שנות ה-50 חשפו כימיקלים קרצינוגניים נוספים הקשורים בסיגריות.

עם זאת, עדיין לא הייתה תשובה לשאלה החשובה מכולן: האם הסיכון של אדם מעשן לחלות בסרטן הריאה גבוה מהסיכון של אדם שלא מעשן, ואם כן, עד כמה ההבדל בין הסיכונים משמעותי?

כדי לענות על שאלה זו, יש צורך במחקר פרוספקטיבי. במחקר כזה מתחילים לעקוב אחרי שתי קבוצות של אנשים: מעשנים ולא מעשנים, ועוקבים אחריהם לאורך זמן. שני מחקרים גדולים מסוג זה נערכו בשנות ה-50.

המחקר הראשון נערך בארצות הברית בין 1952 ל-1955, ותוצאותיו פורסמו בתחילת 1958. הוא כלל כ-187 אלף נבדקים, גברים בגילאים 50 עד 70. תקופת המעקב הראשונית הייתה קצרה יחסית, 44 חודשים, אולם המדגם  הגדול איפשר זיהוי הבדלים בין קבוצת המעשנים וקבוצת הלא מעשנים, אם יש כאלה במסגרת הזמן הזה. המחקר, שהובילו החוקרים האמונד והורן, העלה כי שיעור התמותה הכולל (מכל סיבה שהיא) בקרב המעשנים היה גבוה ב-57% משיעור התמותה בקרב לא מעשנים. גם שיעור התמותה במחלות לב היה גבוה ב-50%. שיעור התמותה מסרטן בקרב המעשנים היה גבוה כמעט פי 2 בהשוואה לאותו נתון בקרב הלא מעשנים. כאשר מדובר במוות עקב מחלה ריאתית כלשהי (לא כולל סרטן), שיעור התמותה בקרב מעשנים היה גבוה פי 2.85 בהשוואה ללא מעשנים. במחלות אחרות לא נצפו הבדלים משמעותיים. תקנון על פי גיל לא הביא לשינוי משמעותי בתוצאות. עם זאת, עלה כי בקרב מעשני סיגרים או מקטרת, וכן בקרב מעשנים מזדמנים, ההבדלים בשיעורי התחלואה והתמותה היו נמוכים יותר בינם ובין הלא מעשנים. המחקר הראה גם כי שיעורי התחלואה והתמותה עולים עם כמות העישון היומי – יותר סיגריות ביום = סיכון גבוה יותר. שיעור מקרי המוות בין אלה המעשנים חבילת סיגריות או יותר ביום כמעט כפול משיעור המקרים בקרב אלה המעשנים פחות מחבילה ביום.

מחקר נוסף נערך בבריטניה על ידי ריצ’רד דול ואוסטין ברדפורד היל. זה היה מחקר בהיקף קטן יותר, כ-40 אלף איש, כולם רופאים. עם זאת, תקופת המעקב הייתה ארוכה יותר. תוצאות ראשוניות שפורסמו ב-1956, העלו ממצאים דומים לאלה שנצפו במחקר של האמונד והורן. המעקב אחרי הרופאים נמשך עד שנת 2001. נמצא כי עישון מקצר את תוחלת החיים בכ-10 שנים. יותר מ-50% מהמעשנים מתו מסרטן או ממחלות לב. גם מחקר זה הראה כי הסיכון עולה עם כמות הסיגריות שהחולה מעשן.

ממתאם לסיבתיות – האם עישון הוא גורם סיכון לתחלואה בסרטן הריאה?

ג'רום קורנפילד

ג’רום קורנפילד

כל המחקרים שתוארו עד כה אינם מוכיחים סיבתיות, לפחות ברובם. אמנם הניסויים בבעלי חיים היו ברובם ניסויים מבוקרים, בהקצאה פחות או יותר רנדומלית, אולם האם ניתן לגזור מהם מסקנות לגבי בני אדם? גם המחקרים הפרוספקטיביים שצפו בבני אדם לאורך זמן, היו, ובכן, ניסויים תצפיתיים. לא הייתה הקצאה רנדומלית לקבוצת מעשנים וקבוצת לא מעשנים: זה בלתי אפשרי לא מבחינה אתית ולא מבחינה מעשית. שתי הקבוצות היו שונות זו מזו באופן מהותי: אלה בחרו לעשן ואלה לא, ולא ניתן לשלול את האפשרות שיש ביניהן הבדלים מהותיים נוספים.

את המשימה לענות לכל דברי הביקורת שנמתחו על רוב המחקרים לקחו על עצמם ג’רום קורנפילד מהמחלקה לביוסטטיסטיקה באוניברסיטת ג’ונס הופקינס ועמיתיו. במאמר שפורסם ב-1959, הביאו קורנפילד ועמיתיו סקירה של כל העדויות בדבר הקשר בין עישון ותחלואה בסרטן וענו לכל הביקורת שנמתחו על המחקרים השונים. הביקורות סווגו לחמישה נושאים מרכזיים: ארבעה מהם עוסקים בנתונים ולאוכלוסיות במחקרים השונים, בתקפות של המחקרים הרטרוספקטיביים והפרוספקטיביים, בתקפות של הממצאים הפתולוגיים ובתקפות של תוצאות ניסויי המעבדה. אני לא אסקור כאן את כל הנושאים האלה. אני בהחלט ממליץ לכל מי שמתעניין בסטטיסטיקה ובאפידמיולוגיה לקרוא את המאמר.

אסקור כאן רק את התגובה של קורנפילד ועמיתיו לביקורת העוסקות בפרשנות לתוצאות שהתקבלו. (מעתה אתייחס רק לקורנפילד כאל מייצג הכותבים).

קורנפילד מסביר כי ישנן שלוש פרשנויות אפשריות לנתונים. האפשרות הראשונה היא כי עישון גורם לסרטן. האפשרות השניה היא כי סרטן גורם לעישון, דבר שניתן להצדיק על ידי הנחה של קיום מצב “קדם-סרטני”, המתבטא בתחילה על ידי צורך לניקוטין ומאוחר יותר בסרטן עצמו. האפשרות השלישית היא קיומו של גורם משותף, אולי גנטי, אשר גורם לאנשים גם לעשן וגם לחלות בסרטן.

מי שהציע את האפשרות השניה היה רונלד פישר. המשמעות של האפשרות הזו היא קיומם של גידולים סרטניים שאובחנו רק בגיל 50 אבל החלו להתפתח לפני גיל 18, שהוא הגיל החציוני לתחילת העישון. מכיוון שאין שום עדות או ממצא התומכים בכך, קורנפילד דוחה את הטענה על הסף.

באשר להשערת הגורם במשותף, קורנפילד טוען כי הנתונים והעדויות שנאספו עד כה הינם קונסיסטנטיים עם הטענה כי עישון גורם לסרטן אך לא עם הטענה של קיום גורם משותף. טענתו היא כי תיאוריית הגורם המשותף אינה עולה בקנה אחד עם: השינוי והעליה בתפוצה של סרטן הריאה ב-50 השנים האחרונות, העדויות לקרצינגוניות של משקעי העישון בניסויים בחיות, התמותה הפחותה מסרטן הריאה בקרב מעשנים שהפסיקו לעשן, וההבדלים שנצפו בין מעשני סיגריות ובין מעשני סיגרים או מקטרות. גם אם כל אחד מארבעת הנימוקים אינו טיעון מספק נגד השערת הגורם המשותף, טוען קורנפילד, צירופם יחד אינו מאפשר “התייחסות רצינית” לטענת הגורם המשותף. קורנפילד מבהיר למעשה כי נטל הוכחת טענת הגורם המשותף מוטל על הטוענים את הטענה.

לבסוף עובר קורנפילד לדון בביקורת על “השערת הסיבתיות”, כלומר הטענה כי עישון גורם לתחלואה בסרטן הריאה. בתחילה הוא מטפל ברונלד פישר, שטען כי אין התאמה בין ההבדלים בעליית התחלואה בסרטן הריאה בין נשים וגברים, כאשר בקרב הגברים התחלואה גבוה יותר, ובין קצב העליה בשיעור הנשים המעשנות שהינו גבוה מקצב העליה בשיעור הגברים המעשנים. תשובתו של קורנפילד היא שטענתו של פישר לא נתמכת על ידי הנתונים הקיימים.

טענה נוספת נגד הקשר הסיבתי בין עישון ותחלואה ותמותה מסרטן הריאה, היא כי במחקרים נאספו למעשה נתוני תמותה ולא נתוני תחלואה, כאשר יש סיבות רבות לתמותה. בקרב מעשנים נצפתה עליה בתמותה גם ממחלות לב, מחלות ריאתיות ואחרות, אך לא מסיבות אחרות כגון תאונות. לכן, טען ארקין[2] עישון אינו הגורם לתחלואה אלא רק סימפטום: אנשים אלה לא שומרים על בריאותם באופן כללי, ובפרט מעשנים. גם ברקסון העלה טענה דומה. בנוסף לטענת “העישון הוא סימפטום” שהעלה ארקין, טוען ברקסון כי אין זה סביר שגורם אחד יהווה גורם סיכון למספר מחלות. ברקסון טוען למעשה כי העקרונות של רוברט קוך מופרים.

קורנפילד משיב כי אין שום בעיה בטענה שגורם סיכון אחד יכול לגרום למספר תוצאות. הוא מביא כדוגמה את הערפל הגדול בלונדון שאירע ב-1952, אשר גרם לעליה בתמותה ממספר סיבות, בעיקר מחלות נשימתיות ומחלות לב כליליות. הוא מסביר כי עשן הסיגריות אינו חומר אחיד, אלא תערובת של מאות כימיקלים שונים, שרק התכונות של חלק מהם נחקרו עד כה. לדעת קורנפילד, אין זה מתקבל על הדעת כי כל החומרים האלה גורמים לאותה תוצאה. עולם שבו יש התאמה חד-חד-ערכית בין סיבה לתוצאה הינו ללא ספק יותר קל יותר להבנה, אך אנו איננו חיים בעולם כזה.

קורנפילד מודה כי אכן יש צורך במחקר נוסף כדי להבין את המנגנון המקשר בין העישון ובין התפתחות הסרטן ומחלות אחרות. אולם הוא מסביר כי אין די בכך כדי לשלול את קיומו של קשר סיבתי, מה גם שהנתונים שנאספו עד כה עולים בקנה אחד עם קיומו של קשר סיבתי.

לסיום מתייחס קורנפילד לשאלה מדוע ישנם מעשנים שאינם חולים בסרטן הריאה ומאידך יש אנשים שאינם מעשנים ובכל זאת חולים, ומודה שהתשובה לכך לא ידועה. הוא מביא לדוגמה את “אסון ליבק“, מקרה בו 251 תינוקות קיבלו חיסון לשחפת אשר היה מזוהם בזן פעיל של חיידק הגורם למחלה. למרות זאת, כעשירית מהתינוקות לא פיתחו כלל תסמינים של דלקת ריאות. האם נתון זה סותר את הטענה כי אותו חיידק דורם לדלקת ריאות?

קורנפילד מסיים ואומר כי למרות שהנתונים אינם מושלמים, כמעט ואין מחלוקת על כך שהנתונים מראים כי עישון הוא גורם סיכון בריאותי, וכי הוא ועמיתיו אינם יכולים לקבל את הטענה כי עישון הוא הרגל בלתי מזיק.

מקורות

  • Proctor, R. N. (2012). The history of the discovery of the cigarette–lung cancer link: evidentiary traditions, corporate denial, global toll. Tobacco control, 21(2), 87-91. (pdf)
  • Witschi, H. (2001). A short history of lung cancer. Toxicological sciences, 64(1), 4-6. (pdf)
  • Cornfield, J., Haenszel, W., Hammond, E. C., Lilienfeld, A. M., Shimkin, M. B., & Wynder, E. L. (1959). Smoking and lung cancer: recent evidence and a discussion of some questions. Journal of the National Cancer institute22(1), 173-203. (pdf)

הפוסטים הקודמים בסדרה

הפוסטים הבאים בסדרה


הערות
  1. מבחינת גיל, מין וכדומה []
  2. כל ההפניות נמצאות במאמר של קורנפילד ועמיתיו []