ארכיב עבור תגית בריאות

היכן הטיפול בסרטן הערמונית טוב יותר?

כאשר רודי ג'וליאני (ראש עיריית ניו יורק לשעבר) ביקר בלונדון, הוא התייחס לשירותי הבריאות הלאומיים של בריטניה (NHS) ואמר:

"אובחנתי כחולה לפני 7 שנים. הסיכוי שלי להישרדות בארצות הברית הוא 82%, ובאנגליה הסיכוי הוא פחות מ-50%". לכן הסיק ג'וליאני כי הטיפול בסרטן הערמונית בארצות הברית טוב יותר מהטיפול בבריטניה.

מאוחר יותר התברר כי הנתונים שג'וליאני ציטט הם נתוני הישרדות בחיים לאחר 5 שנים מתאריך האבחון. מהי הבעיה בהסקת מסקנות על סמך נתונים אלה בלבד?

עורכי השאלון הציעו ארבע תשובות אפשריות.

התשובה האפשרית הראשונה היא הטיית האישור – confirmation bias. זוהי הנטייה לחפש, לפרש, להעדיף, ולזכור מידע באופן שמאשר אמונות או השערות, תוך מתן תשומת לב פחותה במידה בלתי-פרופורציונלית למידע שתומך באפשרויות חלופיות. ג'וליאני לא לקה בהטייה זו. הוא הסתמך על נתונים נכונים ולא התעלם מהם . הוא אכן לא הסתמך על נתונים אחרים, לפחות באמירה הזו, אולם לא ניתן לקבוע בוודאות אם עשה זאת בכוונה.

תשובה אפשרית נוספת היא הטיית הבחירה (selection bias).  הטייה זו היא עיוות בנתוני מחקר הנובע מהטיה בצורת איסוף המידע. ג'וליאני כמובן לא ביצע את המחקר בעצמו. הוא לא לקה בהטייה זו. ייתכן כי המחקרים עליהם התבסס לקו בהטייה זו, אבל זהו סיפור אחר.

עוד תשובה שהוצעה היא הטיית הביצוע (performance bias). הטייה זו מתבטאת בכך שבניסוי מבוקר קבוצת טיפול אחת מקבלת תשומת לב רבה יותר מהחוקרים מאשר הקבוצה השנייה. זה יכול לקרות למשל בניסוי בו משווים תרופה חדשה לתרופה קיימת, ואי אפשר לקיים סמיות – לפחות חלק מהחולים יודעים איזה טיפול הם מקבלים, וגם הרופאים יודעים זאת כמובן. זה יכול לקרות אם למשל תרופה אחת ניתנת בהזרקה והשנייה בבליעה (( ראו למשל את הידיעה על הניסוי הזה בו נערכה השוואה בין שתי תרופות לטיפול בטרשת נפוצה: ג'ילניה ניתנת בבליעה, קופקסון בהזרקה. )) במקרה שלנו זה לא המקרה: שני הנתונים שצוטטו הגיעו כל אחד ממחקר אחר.

ההבדל בין שני נתוני ההישרדות נובעים מהטיית  lead-time bias . (( לא ברור לי איך לתרגם זאת לעברית. אשמח לשמוע הצעות ))  הנתונים שג'וליאני ציטט התייחסו להישרדות מרגע האבחון. בארצות הברית נהוג לבצע בדיקות לאבחון מוקדם של סרטן הערמונית, וזאת בניגוד לנהוג בבריטניה. לכן משך הזמן העובר בין תחילת המחלה עד לאבחון קצר יותר בארצות הברית מאשר בבריטניה. מכיוון שסרטן זה מאובחן בשלב יותר מוקדם בארצות הברית, הסיכויים לשרוד במשך 5 שנים מזמן האבחון גבוהים יותר לעומת אבחון לאחר הופעת סימפטומים מחשידים הנהוג בבריטניה. בגלל ההטיה הזו, אוכלוסיות הגברים בארצות הברית ובבריטניה אינן בנות השוואה, ככל שהדבר נוגע לנתוני הישרדות של חולי סרטן הערמונית.

הנה דוגמה מספרית פשוטה. נניח לצורך הדוגמה כי אבחון מוקדם מזהה את המחלה כשנתיים לאחר תחילתה, בעוד שללא אבחון מוקדם המחלה מזוהה כחמש שנים לאחר תחילתה.  כמו כן, לכן, בארצות הברית, אדם ששרד 5 שנים לאחר האבחון שרד למעשה 7 שנים לאחר הופעת המחלה, בעוד שבבריטניה אדם ששרד 5 שנים לאחר האבחון שרד למעשה 10 שנים מתחילת המחלה. בדוגמה זו, מצבו של החולה הבריטי יותר טוב כרגע מזה של האמריקני.

 

רשימה זו היא הרשימה הראשונה בסדרת רשימות העוסקות בהערכת נתונים סטטיסטיים רפואיים, ומסתמכת על של מרכז וינטון לתקשורת סיכונים ועדויות כמותיות באוניברסיטת קיימברידג'.

ראו גם:

שאלון יכולת הערכת נתונים סטטיסטיים רפואיים – אוניברסיטת קיימברידג'

מרכז וינטון לתקשורת סיכונים ועדויות כמותיות באוניברסיטת קיימברידג' פירסם לאחרונה שנועד לעוסקים בתחומי הרפואה והבריאות להעריך את יכולתם בהבנת נתונים סטטיסטיים אודות התועלת והנזק של טיפולים רפואיים.

גם אם אינכם עוסקים בתחומים האלה, אני חושב שכדאי שתכירו חלק מהמושגים האלה. אתם יכולים כמובן לנסות לענות בכל מקרה, ולאחר שתסיימו לענות על כל השאלות, תוכלו לקרוא את התשובות הנכונות בתוספת הסבר קצר לכל תשובה.

הנכם מוזמנים לקרוא:

האם קנאביס רפואי יכול לסייע במלחמה במגיפת האופיואידים?

מחקר שפורסם ב-25 באוגוסט 2014 בכתב העת היוקרתי JAMA עורר מהומה רבה, ובצדק. המחקר גילה (( association )) בין חוקים שמסדירים את השימוש בקנאביס לצרכים רפואיים (להלן: "") שחוקקו במדינות שונות בארה"ב ובין שיעורי התמותה במדינות אלה עקב מינון יתר של : נצפתה ירידה של כ-25% בשיעורי התמותה במדינות אלה, בהשוואה למדינות שבהן לא קיימים חוקים כאלה. מחקר נוסף שפורסם כחמש שנים מאוחר יותר, ב-10 ביוני 2019, טוען לכאורה כי הקשר הוא הפוך. מה קורה כאן? ברשימה זו אסקור את שני המאמרים ואחווה את דעתי בנושא.

נתוני רקע

עד 1999, חוקים שהסדירו את השימוש בקנאביס לצרכים רפואיים היו קיימים רק בשלוש מדינות בארצות הברית. במהלך 11 השנים הבאות (1999-2010) נחקקו חוקים דומים בעוד 10 מדינות. 9 מדינות נוספות חוקקו חוקים דומים בין 2010 ל-2014. נכון למועד כתיבת שורות אלה, לקנאביס רפואי יש מעמד חוקי ב-33 מדינות. קהל היעד של הקנאביס הרפואי כולל שתי קבוצות אוכלוסייה עיקריות: חולי סרטן, וחולים הסובלים מכאבים כרוניים שאינם קשורים למחלת הסרטן.

טיפול נפוץ לקבוצת האוכלוסייה השנייה הוא מתן משככי כאבים, ולאורך השנים חלה עליה במתן מרשמים לתרופות משככות כאבים המבוססות על שימוש באופיואידים – קבוצת תרכובות הנקשרות לקולטני האופיואיד במערכת העצבים ובמקומות אחרים בגוף. לשימוש באופיואידים יש מחיר כבד: התמכרויות, ומקרי מוות רבים עקב מינון יתר. ברשימה זו לא אדון בגורמים ל-"מגיפת האופיואידים" ובדרכים בהם מנסים להילחם בה.

מחקר ראשון – JAMA 2014

המחקר, שנערך על ידי קבוצת חוקרים שרובם מאוניברסיטת פנסילבניה, שאל שאלה פשוטה: האם יש קשר בין התרחבות השימוש בקנאביס רפואי ובין שיעורי התמותה עקב מינון יתר של אופיואידים.

החוקרים תיארו שני תרחישים אפשריים. בתרחיש הראשון, הנישות לקנאביס רפואי תביא למעבר של חולים משימוש באופיואידים לשימוש בקנאביס, ומעבר זה יגרום להפחתת השימוש באופיואידים ולירידה במקרי המוות עקב מינון יתר. בתרחיש השני, השימוש בקנאביס יוביל לשימוש באופיואידים, כיוון שכעת ניתן לטפל בחולים שלא היו מעוניינים באופיואידים בעזרת קנאביס רפואי, והשיפור ישכנע אותם להיות פתוחים לשימוש בחומרים פסיכו-אקטיביים חזקים יותר, כלומר אופיואידים.

לאחר שאספו את הנתונים הרלוונטיים וניתחו אותם, בישרו החוקרים כי התשובה לשאלת המחקר היא כן. במדינות עם חוקי הקנאביס נצפתה ירידה ממוצעת של 25% במספר מקרי המוות עקב מינון יתר של אופיואידים לאורך השנים מ-1999 עד 2010.

ניתוח הנתונים שביצעו (( בעזרת מודלים של סדרות עיתיות, לא אכנס לפרטים )) עבור השנים 1999 עד 2010 הראה שקיים קשר, והוא חיובי. אני מצטט: "במדינות עם חוקי קנאביס רפואי, הממוצע השנתי של שיעורי התמותה עקב מינון יתר של אופיואידים היה נמוך ב-ב-24.8% בהשוואה למדינות שבהן לא היו חוקים כאלה". החוקרים אמדו כי מספר מקרי המוות עקב מינון יתר של אופיואידים היה נמוך ב-1729 ממה שהיה צפוי אילו חוקי הקנאביס לא היו קיימים. החוקרים ביצעו ניתוחים נוספים שאוששו את המסקנה שעלתה מניתוח המודל הראשי, וניתוחים אלה אף הציגו תוצאות מעודדות יותר (אם כי תחת יותר הנחות). לדעתי המקצועית אין כל פגם בניתוחים הסטטיסטיים שבוצעו, לפחות על פי הסקירה שהובאה במאמר.

מעניין לציין כי לאורך כל השנים האלה הייתה עליה בשיעור מקרי המוות עקב מינון יתר, גם במדינות שבהן היו חוקי מקנאביס רפואי וגם באלה שלא: ב-1999 שיעור מקרי המוות היה כ-2 חולים למאה אלף, וב-2010 השיעור כבר היה כ-6 מקרים למאה אלף (( על פי הנתונים שהובאו במאמר)). במדינות הקנאביס הרפואי הייתה ירידה נומינלית קטנה בשיעור מקרי המוות בין 2009 ל-2010 (כחצי מקרה מוות למאה אלף). אני לא מזלזל בירידה הזו: מדובר במאות חיים שניצלו, אבל אין לירידה הזו משמעות סטטיסטית.

כמו כן, לאורך כל תקופת המחקר שיעורי המוות עקב מינון יתר של אופיואידים דווקא היו יותר גבוהים במדינות עם חוקי הקנאביס הרפואי – הפער היה כ-1 עד 2 מקרים לכל מאה אלף איש. אם כך, מה המשמעות של ירידה של 25%? הירידה היא בהשוואה למספר המקרי המוות שהיו אמורים להתרחש במדינות אלה אילו לא היו קיימים בהן חוקי קנאביס רפואי.

אבל הדברים לא כל כך פשוטים (( תיראו מופתעים )). הדיון בתוצאות, שנמשך על פני כמעט עמוד שלם משופע במילים may, if, ו-although: יתכן, אם, אמנם. החוקרים מדגישים כי התוצאות שהוצגו אינן מבססות קשר סיבתי, וכי יש צורך במחקרים נוספים.

החקרים מציינים גם את המגבלות של המחקר: ראשית, מדובר בנתונים מקובצים. כלומר, הנתונים מתייחסים לסך מקרי המוות בכל מדינה בכל שנה, ולא על נתונים ברמת החולה. שנית, ייתכן ויש הטיה בנתונים, כיוון שמדינות שונות מדווחות את נתוני התמותה באופן שונה, וייתכן כי מקרה מוות שנחשב כתוצאה של מינון יתר של אופיואידים במדינה אחת לא ייחשב לכזה במדינה אחרת. שלישת, ייתכן ויש משתנים נוספים המשפיעים על שיעורי התמותה שהמחקר לא לקח בחשבון. החוקרים מודעים לכך שייתכן והנתונים של השנים הבאות יראו תמונה שונה. ולבסוף הם מדגישים שוב כי ההשערות לגבי התהליך בו הרחבת השימוש בקנאביס רפואי משפיעה על שיעורי התמותה עקב מינון יתר הינם ספקולטיביים, ומתבססים על עדויות עקיפות.

אבל, אחרי כל ההסתייגויות, אני חושב שתוצאות מחקר זה הינן אופטימיות, והן פתחו תקווה למיגור, לפחות חלקי, של מגיפת האופיואידים.

מחקר שני – PNAS 2019

המחקר הראשון התמקד כמובן בנתונים שהו זמינים כאשר הוא נערך, כלומר בשנים 1999 עד 2010. בינתיים עברו חמש שנים, והצטבר נתונים נוספים. כדאי לכן לבדוק מה קרה בינתיים. קבוצת חוקרים מאוניברסיטת סטנפורד, אוניברסיטת ניו יורק ומכון מחקר בפאלו אלטו חברה לקחת על עצמה את המשימה. הם אספו את הנתונים באותן שיטות שבהן השתמשו החוקרים במחקר הראשון, וניתחו אותם באותן שיטות סטטיסטיות. התוצאות פורסמו בכתב העת הלא פחות יוקרתי PNAS.

למחקר החדש יש שתי תוצאות עיקריות. ראשית, הוא מאשר את תוצאות המחקר הראשון. הניתוח החוזר העלה כי הירידה במספר מקרי המוות עקב מינון יתר של אופיואידים לאורך השנים 1999עד 2010 הייתה 21.1%, ולדברי החוקרים ההבדל בין שתי התוצאות אינו משמעותי מבחינה סטטיסטית (( הם השתמשו בביטוי המעניין לכשעצמו "statistically indistiguishable " )) . אבל, וזה אבל גדול, מה שקרה בין 2010 ל-2017 שונה לגמרי. בשנים האלה המגמה התהפכה,  והייתה עליה של 23% בשיעור מקרי המוות.

החוקרים מתייחסים ל-"תיאוריית ההחלפה" שהוצגה במאמר הראשון כהסבר אפשרי לקשר סיבתי בין הרחבת השימוש בקנאביס רפואי וירידת שיעור מקרי המוות מאופיואידים. הטענה היא כי חולים המשתמשים באופיואידים יעברו לשימוש בקנאביס שיחליף את האופיואידים כמשכך כאבים. אם תיאוריה זו נכונה, אומרים החוקרים, אנחנו אמורים לראות אפקטים שונים בין המדינות, הנובעים מהשוני שבין חוקי הקנאביס, בעיקר ברמת ה-THC (החומר הפעיל בקנאביס) המותרת. במדינות המרשות שיעור THC  נמוך הקשר בין השימוש בקנאביס רפואי ושיעור מקרי המוות אמור להיות חלש יותר. במדינות בהן יש לגליזציה מלאה של קנאביס, ולכן שיעורי ה-THC בקנאביס המשווק במדינות אלה גבוהים יותר, אנחנו אמורים למצוא קשר יותר חזק. אבל, הנתונים מראים שלא כך הוא.

החוקרים מציינים כי יש אמנם עוד מחקרים שהראו תוצאות דומות למחקר מ-2014, אך יש בעייתיות בקביעת מדיניות המרחיבה את השימוש בקנאביס של סמך מחקרים אלו (( אחד החוקרים הוא מהמחלקה למדעי המדינה באוניברסיטת ניו יורק, וחוקרת נוספת היא המרכז ליישום חדשנות בפאלו אלטו, קליפורניה )). מדיניות כזו מבוססת על שתי הנחות. ההנחה הראשונה היא כי מסקנות שהסתמכו על מנתונים מקובצים ברמת האוכלוסייה תקפות גם ברמה האישית. לעיתים קרובות ההנחה הזו אינה נכונה, כפי שעולה ממחקרים רבים דומים בתחומים אחרים. כשל זה ידוע בשם the ecological fallacy והוא למעשה וריאציה של פרדוקס סימפסון. ההנחה השנייה היא כי הקשר הנצפה הוא סיבתי, וכאמור הנתונים לא עולים בקנה אחד עם ההנחה הזו. ראוי לציין כי גם החוקרים של המחקר הראשון ב-2014 התריעו על כשלים אלה.

החוקרים אומרים כי לדעתם אין קשר (חיובי או שלילי) בין הרחבת השימוש בקנאביס רפואי ובין שיעורי מקרי המוות עקב מינון יתר של אופיואידים. לדעתם, גם הקשר החיובי בשנים 1999 עד 2010 וגם הקשר השלילי בשנים 2010 עד 2017 הם קשרים אקראיים.

סיכום

אני נוטה יותר לתמוך בעמדה של קבוצת החוקרים שביצעה את המחקר השני. אין זה אומר שאני מזלזל במחקר הראשון. להיפך, הם עשו עבודה חשובה וטובה. הם היו מודעים למשמעות המוגבלת של התוצאות שלהם, הדגישו כי לא ניתן להסיק מסקנות סיבתיות על סמך התוצאות, ועם זאת הם לא שללו את האפשרות של קיום קשר סיבתי, אך גם כאן, הטענה כי ייתכן קשר סיבתי לא הייתה מופרכת, על פי הנתונים שהיו בידיהם. הם פירטו היטב את מגבלות המחקר שלהם, כולל אזהרה מפני הכשל האקולוגי.

המחקר השני שחזר את תוצאות המחקר הראשון, אך גם הציג תוצאות מנוגדות. בכך לדעתי נסתם לעת עתה הגולל על ההשערה כי לקנאביס הרפואי יהיה חלק, אפילו קטן, במיגור מגיפת האופיואידים, אם וכאשר. זה מאוד מצער אותי. בהחלט הייתי שמח אילו תיאוריית ההחלפה הייתה נכונה, וזאת למרות ההסתייגויות שיש לי מהנטייה  הרומנטית לייחס לקנאביס סגולות רפואיות לטיפול בכל דבר כמעט, וההתנגדות שלי ללגליזציה של קנאביס (אם כי אני כן תומך בדה-קרמינילזציה על פי המודל של פורטוגל ונורווגיה).

מעבר לחשיבות של הנושא, שני המחקרים האלה מהווים דוגמה מצויינת על ההבדלים בין מתאם וסיבתיות. אי אבחנה בין מתאם לסיבתיות היא כשל נפוץ, ששתי קבוצות החוקרים האלו לא נפלו בו. גם הטענה "מתאם אינו מעיד על סיבתיות" מועלה שוב ושוב, אבל היא בעיקר מעידה על חוסר הבנה של המושגים. הטענה הנכונה היא כי מתאם אינו מהווה עדות מספקת לסיבתיות, אבל כפי שכתבתי בעבר, אם יש מתאם, צריך בהחלט לבחון את האפשרות שיש גם סיבתיות. המחקר הראשון הראה מתאם והציג מנגנון סיבתי אפשרי, וכך היה ראוי לעשות. למראה הצער, ללא ציניות, המחקר השני הראה כי לא ניתן לטעון לסיבתיות על סמך הידע העכשווי. עם זאת, ייתכן ומחקרים בעתיד שיבדקו מה קורה ברמת החולה ולא ברמת האוכלוסייה יפתחו מחדש את הדלת להשערת הסיבתיות. ימים יגידו.

מקורות

 

חיסוני חצבת ואלימות נגד נשים

בשבוע שעבר תלו הורים באחד מגני הילדים (בגבעתיים נדמה לי) שלטים על שער הגן בו הזהירו כי בגן יש ילדה לא מחוסנת והתריעו על סכנת הדבקות . אפשר להתווכח על השלט, תוכנו, וגם על הסגנון. בדיון בפייסבוק נטען כי זו "פעולה אלימה מאוד". לעומת זאת נטען באותו דיון גם כי " זו התנהגות סבירה לחלוטין… בירושלים בה יש התפרצות חצבת כרגע, יש שלטים בכניסה לקופות החולים שמזהירים הורים שילדיהם חשודים בהידבקות בחצבת מפני כניסה למרפאה ומבקשים להישאר בחוץ ולקרוא לאיש צוות שייצא אליהם, ובצדק גמור". אני באופן אישי חושב שצריך להזהיר את הציבור ובפרט הורים לילדים בגן על המצאות ילדה שלא חוסנה ביודעין, בייחוד כשבארץ יש כעת , ונכון למועד כתיבת שורות אלה למעלה מ-2000 איש אובחנו כחולים, ורבים עוד יותר נחשפו למחלה בבתי ספר, קופות חולים ובתי חולים, בתחבורה הציבורית ובמקומות נוספים.

בכל מקרה, אני לא חושב שהצבת שלטי אזהרה מפני ילדה לא מחוסנת שקולה (או למעשים אחרים שנעשו ), אבל אבישי מתיה חושב שכן ומזהיר כי "זה ייגמר בדם":

אבל בוא נעזוב את אבישי מתיה ונדון בסטטיסטיקה.

בואו נראה קודם מה יכול לקרות בגן. לכאורה אין בעיה. הילדה לא מחוסנת, ולכן הדבר הגרוע ביותר שיכול לקרות הוא שהיא תידבק בחצבת, וזו עיקר הבעיה שלה. היא עלולה להדביק אנשים אחרים שלא מחוסנים, ובגן כל הילדים האחרים מחוסנים, אז הם לא יידבקו.

זהו, שלא.

בואו נניח כי בגן הספציפי הזה יש 30 ילדים, ואף אחד מהם אינו במצב בריאותי שלא איפשר לו לקבל חיסון. כולם קיבלו חיסון. האם כולם מחוסנים? לא בהכרח. היעילות של החיסון, לאחר קבלת מנה אחת של חיסון, היא בערך 95%. אחרי קבלת המנה השנייה היעילות עולה ל-99%, אבל המנה השנייה ניתנת רק בכיתה א, והילדים האלה עדיין בגן. הסיכוי שילד אחד שקיבל חיסון אכן מחוסן הוא לכן 0.95. הסיכוי ששני ילדים אחד שקיבל חיסון הינם אכן מחוסנים הוא 0.95 כפול 0.95. הסיכוי כי כל 30 הילדים בגן שקיבלו חיסון אכן מחוסנים הוא 0.95 מוכפל בעצמו 30 פעמים, וזה יוצא 0.215. מכאן שהסיכוי כי בגן הזה יש לפחות ילד אחד שאינו מחוסן למרות שקיבל חיסון הוא כמעט 80%. הסיכוי שבקרב כל האנשים שנמצאים בסביבתה של הילדה הלא מחוסנת יש לפחות אדם אחד לא מחוסן הוא הרבה יותר גבוה. אם הילדה הזאת תחלה, כמעט בטוח שהיא תדביק אדם נוסף אחד לפחות. ככה המגיפות מתפשטות.

חצבת היא אחת המחלות המדבקות ביותר שיש, ויש אומרים כי זו המחלה המידבקת ביותר. באוכלוסייה שאיננה מחוסנת, אדם חולה ידביק בממוצע 18 אנשים נוספים. הסיכוי כי אדם לא מחוסן שנחשף לחצבת יחלה במחלה עולה על 90%. חשיפה למחלה כוללת המצאות במקום שבו היה אדם חולה חצבת אפילו שעתיים לאחר שהחולה עזב את המקום. לדעתי האישית, זה השיקול היחיד שצריך לקבוע. כמו שאף אדם מוסרי לא ידחוף דחיפה קטנה מישהו שעומד על הרציף ויש סיכון, קטן אך חיובי, שהנדחף ייפול אל מתחת לגלגלי הרכבת, אני חושב שאף אדם מוסרי לא צריך לאפשר אפילו סיכון קטן של הדבקת אדם אחר בחצבת. המעשה המוסרי הוא לצמצם את הסיכון. לכן, לא לחסן ילדים מתוך אידאולוגיה זה מעשה לא מוסרי, כי זה מסכן גם את הילד שלא מחסנים וגם אחרים, וחיסון מקטין מאוד את הסיכון הזה. להזהיר אנשים מפני סיכון של הדבקות בחצבת, גם אם הסיכון קטן, זה לדעתי המעשה הנכון והמוסרי. ((הערה: בפיסקה זו יש בעיקר דיון מוסרי, והדברים שכתבתי בפיסקה זו היו בדיון המקורי תשובה לשאלה סטטיסטית על סיכויי ההדבקות המחלה. ניתן לטעון נגד ההיסחפות שלי לדיון מוסרי, אולם אני חושב שאי אפשר לדון בשאלה הסטטיסטית בלי להידרש למשמעות המוסרית שלה.))

בשלב זה נטען כי ההסתברות שציינתי (מעל 90%) היא הסתברות מותנה, וזה נכון. זו אכן ההסתברות המותנה להדבקות בהינתן חשיפה לאדם חולה. ניתן כנגדי כי ההסתברות הרלוונטית היא "הסיכוי במצב נתון, בחיים נורמליים ורגילים בחברה הישראלית, להידבק". אני לא אחזור כאן על כל הטיעונים שנטענו ((תוכלו לקרוא זאת בדיון בפייסבוק)) ,אבל השורה התחתונה של הטיעון היא כי הסיכון להדבקות בחצבת הוא הוא "נמוך. מאד. קטנטנן."

אולם אני חושב בכל זאת שההסתברות הרלוונטית היא ההסתברות המותנה. כאן עשיתי אנלוגיה לרצח נשים. אני רוצה להבהיר כי אין בכוונתי לרמוז כי הנושא הזה אינו מטריד את האדם שהתדיין מולי, ובוודאי שאיני שם מילים בפיו. אני כן טוען כי ההסתברות הלא מותנה אינה רלוונטית כאשר דנים בסיכונים מהסוג שלי.

הטיעון שלי הוא כזה: השנה נרצחו יותר מ-20 נשים. הבה נעגל את המספר ל-30. בישראל יש קרוב ל-9 מיליון תושבים, כמחציתם, כלומר כ-4.5 מיליון הן נשים. הבה נעגל את המספר הזה ל-4 מיליון. כעת נבצע פעולת חילוק, ונקבל כי הסיכוי של אישה להירצח, עם עוד עיגול נדיב כלפי מעלה, הוא כ-1 ל-130 אלף. סיכוי הרבה יותר קטן מהסיכוי להידבק בחצבת ((שהוא כ-1 ל-4500, על פי הנתון הנוכחי של כ-2000 חולים באוכלוסייה של כ-9 מיליון איש)). אז לא צריך לעשות כלום בנושא???

אחת המשתתפות בדיון לקחה את הטיעון הזה עוד יותר רחוק ואמרה כי "הסתברות להיפגע בפיגוע טרור היא נמוכה מאוד מאוד…השנה נרצחו בפיגועי טרור 15 איש… אז אולי בכלל אין צורך לנקוט בפעולות כאלה חריפות למלחמה בטרור, ממילא מההסתברות לפגיעה היא נורא נמוכה".

אני חושב שהנקודה ברורה. בסיכונים צריך לדון בהקשר של גורמי סיכון, וההסתברות הרלוונטית היא לכן ההסתברות המותנה בגורמי הסיכון. כדי לנהל את הסיכונים צריך לטפל בגורמי הסיכון. במקרה של מגיפת החצבת, גורם הסיכון היחיד שניתן לטפל בו כרגע אופן ההתפשטות המהיר של המחלה. הדרך היחידה האפשרית להאט את קצב התפשטות המחלה היא לחסן את האוכלוסייה.

ויש עוד נקודה שצריך לשים לב אליה. אף אחד לא מטיף לרצח נשים, אבל יש עשרות אלפי אנשים שמקדמים אג'נדה אנטי חיסונית, והתנועה הזו צוברת תאוצה ועלולה להגיע למסה קריטית מסוכנת (והסיכוי שזה יקרה הוא לדעתי מאוד לא זניח). לצערי, לא קיימות כרגע סנקציות שאפשר לנקוט נגד אנשים שאינם מחסנים את ילדיהם ואנשים המעודדים אנשים אחרים לא לחסן. מה שניתן לעשות זה להזהיר מפני הסכנות, גם אם זה פוגע ברגשותיו של אבישי מתיה.

ממוגרפיה – סיכונים ונתונים

באחת מקבוצות הפייסבוק שאני חבר בהן הופיע ביום שני האחרון (17.9.2018) צילום המסך של הודעה שבה נאמר: "מידע סופר חשוב שעשוי להציל את חייך…הסכנות בבדיקת הממוגרפיה". הפוסט הנ"ל כלל גם קישור לכתבה באתר שעוסק בבריאות הוליסטית או משהו כזה – מייד אמסור פרטים נוספים על הכתבה הזאת.

הגברת ששיתפה את צילום המסך כתבה: "ממוגרפיה – בחירה מושכלת… פשוט אין לתאר".

התגובות לא איחרו לבוא. הנה כמה ציטוטים:

  • לפחות הפעם זה לא יפגע בילדים של הנשים
  • מי שעומדת ברף קוגניטיבי מינימלי (כלומר – בלא מוגבלות שכלית או נפשית), ומחליטה לא לעבור ממוגרפיה בגלל הקשקוש הזה – וואלה זכותה. האהבלה תצטרך לשאת בתוצאות של החלטותיה כמו אדם מבוגר.
  • אבל זה מהאתר הסופר אמין Healthy-Holistic-Living. אפילו יש לו את המילה Health בשם!
  • הכתבה באנגלית? זהו, כבר שוכנעתי.
  • אה, יופי. עכשיו הם גם בעד סרטן השד?

התגובה שלי הייתה מעט שונה:

לא קראתי את כל התגובות, אבל התגובה שלי תהיה ככל הנראה לא פופולרית: לממוגרפיה יש שיעור false positive גבוה, בייחוד בגילאים צעירים. זה מוביל לנזקים של טיפולים רפואיים מיותרים, כולל כריתות וכימותרפיות מיותרות, שלא לדבר על הנזק הנפשי. לכן ההמלצה של גופי הרפואה בארה"ב (לא זוכר בדיוק איזה) היא לערוך ממוגרפיה רק החל מגיל 50, וגם אז רק אחת לשנתיים.

הדיעות נחלקו.  אשה שלא ברור לי מה גילה, אחות במקצועה, כתבה: "אחרי שלאמא שלי היה סרטן השד אני אשאר עם מעקב פעם בשנה". הערתי כי זה מה שקורה בקבוצה המושכלת: הרגשות גוברים על הנתונים. תשובתה: "הנתונים הם עדיין שגילוי מוקדם מציל חיים. באמת, שנגיד לכל אותן בנות 30-40 שגילו אצלם סרטן שיחכו לגיל 50?"

בשלב זה הצעתי הפניה למקורות. המלצתי על ספרו של הפסיכולוג והסטטיסטיקאי הגרמני גרד גיגרנצר, Calculated Risks, שעוסק באופן שבו אנשים מעריכים סיכונים, ונושא בדיקות הממוגרפיה לגילוי מוקדם של סרטן השד נידון בו בהרחבה, יחד עם דוגמאות נוספות (( למשל, בדיקות לגילוי מוקדם של סרטן הערמונית )). בספר יש הפניות למחקרים רבים בנושאים האלה. המלצתי גם על ספרו של דויד שפיגלהאלטר, The Norm Chronicles,  שפונה יותר לקהל הרחב. אני אדלג על המשך הדיון שהיה בהחלט מרתק.

מה פיספסנו פה?

אני מסכים שאתר ששמו www.healthy-holistic-living.com מעורר תגובה אנטגוניסטית. גם אצלי. אבל שלושה ימים לאחר ההודעה הראשונה בפייסבוק, פתחתי את הלינק וקראתי את הכתבה. אני חושש שאף אחד לא טרח מלבדי לפתוח את הלינק ולקרוא את הכתבה שהציתה את כל הדיון. שאלתי בפירוש מי פתח את הלינק וקרא את הכתבה. אף לא אדם אחד ((נכון למועד כתיבת שורות אלה)) הצהיר כי הוא קרא את הכתבה, וזאת אחרי שכתבתי בפירוש כי לדעתי יש ממש בדברים.  במבט ראשון, מה שראיתי לא מבשר טובות. היו שם כל מיני טענות עם לינקים שהובילו לדפים אחרים באתר הזה. היו שם סימונים של מראי מקום למחקרים שצוטטו (כמו: (1) למשל), אבל הם לא הכילו קישורים. בקיצור: הפניות למחקרים לא היו שם. זה נשמע לי הגיוני. ייתכן מאוד שלא בכל כתבה באתר הזה מסתמכים על מחקרים חיצוניים, ואם יש כתבה ללא הפניות כאלה היא תעורר חשד אם בכתבות אחרות יש הפניות.

מצד שני, על סמך הידע המוקדם שלי, טענתי בקבוצה כי אכן יש ממש בטענות שהועלו, לממוגרפיה יש שיעור גבוה של תוצאות חיוביות שגויות, וייתכן מאוד כי הסיכונים בבדיקה עולים על התועלת שלה. לכן המשכתי לקרוא בעיון.

אפשר לזהות אם יש מקורות או אין. מה שצריך לעשות זה לערוך חיפוש בגוגל על משפטי מפתח מהכתבה. אם הם ציטטו מחקרים, סביר להניח שהציטוט הועתק כלשונו מהמאמר בו פורסם המחקר.

החיפוש הראשון היה אחרי המחקר קנדי שהוזכר שם. איזה מחקר קנדי? חיפוש בגוגל אחרי הביטוי Canadian study breast cancer הוביל אל כתב העת British Medical Journal, אחד מארבעת כתבי העת המובילים בעולם בתחום הרפואה. המחקר שכותרתו " Twenty five year follow-up for breast cancer incidence and mortality of the Canadian National Breast Screening Study: randomised screening trial" עקב במשך 25 שנה אחרי כ-89000 נשים בגילאי 40 עד 59 (בתחילת המעקב), שחלקן עברו ממוגרפיה וחלקן לא (( קרן לנדסמן סקרה את המחקר הזה בבלוג שלה: . אומר בנימוס כי אני לא מסכים עם הניתוח שלה )) . המסקנה:

"Annual mammography in women aged 40-59 does not reduce mortality from breast cancer beyond that of physical examination or usual care when adjuvant therapy for breast cancer is freely available"

יחס הסיכון (Hazard Ratio) הוא 0.99, עם רווח סמך של 0.88-1.12. יחס סיכון קטן מ-1 פירושו כי בפועל נצפו יותר מקרי מוות מסרטן השד אצל נשים שעברו ממוגרפיה, אבל זה רעש סטטיסטי.  ובמילים פשוטות בעברית: אם יש טיפול זמין לסרטן השד, ונעשות בדיקות פיזיות רגילות לגילוי גושים חשודים בשד, לממוגרפיה אין ערך מוסף להורדת התמותה מסרטן השד. בצורה יותר בוטה: לפי המחקר הזה, הממוגרפיות לא מצילות חיים.

משפט מפתח שני אותו חיפשתי הוא:

"If we assume that screening reduces breast cancer mortality by 15% after 13 years of follow-up and that overdiagnosis and overtreatment is at 30%, it means that for every 2000 women invited for screening throughout 10 years, one will avoid dying of breast cancer and 10 healthy women, who would not have been diagnosed if there had not been screening, will be treated unnecessarily. Furthermore, more than 200 women will experience important psychological distress including anxiety and uncertainty for years because of false positive findings."

מה המשפט הזה אומר? אפילו אם מניחים כי ממוגרפיה שנעשית אחת לשנה במשך 13 שנה מקטינה את התמותה מסרטן השד ב-15% ((וספק אם זה אכן כך)), ואף מניחים כי אבחון היתר וטיפול היתר (( הנובעים מטעויות חיוביות שליליות )) הם ברמה של 30% ((ושוב, יש ספק גם לגבי הנתון הזה)), אזי אם 2000 נשים יעברו ממוגרפיה שנתית במשך 10 שנים, יינצלו חייה של אישה אחת. המחיר? 10 נשים יקבלו טיפול בלתי נחוץ לסרטן השד – כי הן לא חולות בסרטן השד – הן אבחנות חיוביות שליליות. איזה טיפולים? לא נאמר, אבל אפשר להעלות ספקולציות: ביופסיה, כריתה, כימותרפיה, הקרנות.

וזה לא הכל: עוד 200 נשים יחוו לחץ פסיכולוגי משמעותי כולל חרדה וחוסר וודאות במשך שנים רבות, וזאת בשל אבחנה חיובית שלילית. מדובר על נשים שקיבלו אבחנה חיובית שלילית, אך בבדיקה נוספת התבררה הטעות. למי שטוען כי לכאורה הכל בסדר אם הטעות התגלתה – המחקר הזה אומר: לא. לטעות יש נזק גם אם נמנע טיפול מיותר לסרטן.

מאיפה בא הציטוט הזה? לא מאתר פרסום ל-"טיפולים הוליסטיים וטבעיים". אלא מסקירה שיטתית של מחקרים שבוצעה במכון קוקריין שפורסמה ב-2013: Screening for breast cancer with mammography.

החיפוש אחר הציטוט האחרון הוביל אותי גם למאמר שהתפרסם בכתב העת New England Journal of Medicine, בשנת 2015, שכותרתו: "Benefits and harms of mammography screening". כבר מהכותרת אתם יכולים ללמוד שיש גם harm: בבדיקות הממוגרפיה יש לא רק תועלת, אלא גם נזק. המאמר סוקר מחקרים שנעשו להערכת שיעור הטעויות החיוביות שליליות של ממוגרפיות, שיעור הטיפולים המיותרים שנערכים עקב טעויות חיוביות שגויות ((הפתעה: השיעורים האלה גבוהים במיוחד בארצות הברית)), וגם של שיעור הטעויות השליליות השגויות (כלומר: לא אובחן סרטן, למרות שיש). המסקנה של החוקרים חד משמעית: הנזק של בדיקות הממוגרפיה גדול בהרבה מהתועלת. אם אלף נשים מתחילות לעבור ממוגרפיה דו שנתית החל בגיל 50, ימנעו שני מקרי מוות כתוצאה מסרטן השד. המחיר: ל-200 נשים מתוך 1000 יהיה אבחון חיובי שגוי. 30 נשים יעברו ביופסיה ללא צורך. 15 נשים יקבלו טיפול מיותר לסרטן שהן לא חולות בו. החוקרים לא דנים בנזקים הפסיכולוגיים האפשריים שייגרמו ל-185 נשים שקיבלו אבחנה חיובית שגויה אך איכשהו ניצלו מטיפול מיותר ומזיק.

לעשות ממוגרפיה או לא לעשות?

למרות כל מה שנכתב כאן, אין תשובות חד משמעיות. יש גם מחקרים שטוענים כי התועלת בממוגרפיה עולה על הנזק. אין מחלוקת בקרב הקהילה הרפואית כי ממוגרפיה טומנת בחובה גם נזקים. גם אין מחלוקת כי ממוגרפיה שנעשית מתחת לגיל 50 אינה יעילה אצל נשים שלא נמצאות בקבוצות סיכון ספציפיות. בהחלט יש מחלוקת בדבר היעילות של הממוגרפיות לאחר גיל 50. ההמלצה של רשויות הבריאות כיום היא לבצע ממוגרפיה דו שנתית החל מגיל 50. עם זאת, ישנם ארגונים ועמותות הממליצים על בדיקות ממוגרפיה בגילאים צעירים יותר ובתדירות גבוהה יותר (( לא ברור לי על סמך מה )).

הדבר הנכון שכל אשה צריכה לעשות זה להחליט בעצמה מה לעשות, רצוי מאוד בהתייעצות עם רופאה (או רופא), ותוך כדי בחינה של הנתונים, והערכת התועלת האישית שלה מול הנזק האישי שלה. על הרופאות, לעומת זאת, מוטלת חובה לתקשר את מאזן התועלת והנזק, כפי שתואר במאמר של הניו-אינגלנד שסקרתי זה עתה. האם הרופאות מודעות למחקר הזה ולמחקרים דומים, ויודעות לתקשר את הסיכונים? אני לא בטוח. באתר של עמותת "אחת מתשע" לא מצאתי אזהרות או אזכורים של הסיכונים האפשריים של בדיקות הממוגרפיה.

מה אפשר ללמוד מכל זה?

הנטייה לפסול אמירות שמקורן בקבוצות ופורומים של מתנגדי חיסונים, רפואה הוליסטית וכיוצא בזה היא מסוכנת. מי שמצוי בסוגיית החיסונים, וניזון ממקורות מידע אמינים, למשל מהאתר של עמותת מדעת, יכול לדחות טענות של התנגדות לחיסונים על הסף. אבל זה לא אומר שכל דבר צריך להיפסל על הסף, אפילו אם הוא נכתב על ידי מתנגד סיכונים.

גם הזלזול בכתבות מאתרים כמו healthy-holistic-living נקודה קום עלול להתגלות כבעייתי. נכון שבהרבה מאוד מקרים נכתבות שם שטויות, ואף נכתבים דברים מסוכנים: הומיאופתיה, התנגדות לחיסונים, ועוד. עם זאת, יש לנקוט גישה ספקנית וביקורתית: לקרוא בצורה ביקורתית, לברר האם יש אסמכתאות לטענות, ואז להעריך את מידת האמון שיש לתת בדברים. נכון, זה קשה, ולא לכל אחד יש את הרצון והיכולת. הבעיה היא שלפעמים אנשים שאין להם רצון או יכולת מסתמכים על הרגש כמו שקרה בתגובות לפוסט הזה. ואנשים שמסתמכים על הרגש ולא על הנתונים יש לנו מספיק בקבוצות כמו "חיסונים בחירה מושכלת".

הבהרה

למרות שבפוסט זה תמכתי בהודעה שהופיעה בקבוצת "חיסונים בחירה מושכלת", אין להסיק מכך שאני מתנגד לחיסונים מכל סוג שהוא. אדרבא.

איך לגרום לילדים לאכול יותר ירקות

נתחיל מהסוף: אני לא יודע איך לגרום לילדים לאכול ירקות. לפחות עם הילדים שלי, ההצלחה היא מועטה. אבל לשני חוקרים מאוניברסיטת קולורדו היה רעיון: נגיש להם את הירקות בצלחות עם ציורים של ירקות. כדי לבדוק האם הרעיון עובד הם ערכו ניסוי שתוצאותיו פורסמו בכתב העת היוקרתי JAMA Pediatrics. מכיוון שהתוצאות פורסמו אתם יכולים לנחש כי התוצאה של הניסוי הייתה חיובית. אבל, האם הם באמת הוכיחו כי הרעיון שלהם עובד? לדעתי לא, וזו תוצאה ישירה של התכנון הלקוי של הניסוי.

תכנון הניסוי ותוצאותיו

נבחרו 18 כיתות גן ובית ספר (ילדים בגיל 3-8) באחד מפרוורי דנוור. בתחילה הוצעו לילדים פירות וירקות כאשר סופקו להם צלחות לבנות. בכל כיתה הונחו קערת פירות וקערת ירקות, וכל ילד לקח לעצמו פירות וירקות, ואכל מהם כרצונו. המשקלים של הירקות והפירות נרשמו לפני שהוגשו לילדים, ולאר שהילדים סיימו את ארוחתם החוקרים שקלו את הפירות והירקות שנותרו. ההפרש בין המשקלים (לפני הארוחה ואחריה) חולק במספר הילדים, וכך התקבלה הכמות הממוצעת של פירות וירקות שכל ילד אכל. נעשו גם חישובים לפירות לחוד ולירקות לחוד. החוקרים חזרו על המדידות האלה שלוש פעמים בכל כיתה.

לאחר זמן מה חזרו על המדידות באותו אופן, כאשר הפעם סופקו לילדים צלחות שעליהן ציורים של ירקות ופירות. התוצאה: חלה עליה ממוצעת של 13.82 גרם בצריכת הירקות, ותוצאה זו מובהקת סטטיסטית. באחוזים, כמו ביידיש, זה נשמע הרבה יותר טוב: זו עליה של כמעט 47%.

אז מה הבעיה? יש מספר בעיות.

בעיה ראשונה – דיוק יתר

אתחיל במה שהוא לכאורה לא בעיה, אבל מהווה אות אזהרה: דיוק יתר. כאשר מתפרסמות תוצאות מדוייקות במיוחד, צריך להתחיל לדאוג. בעברית יש בעיה עם הבעיה הזו: יש רק מילה אחת לתיאור דיוק. באנגלית יש שתיים: precision ו-accuracy. הבדל הוא מהותי. precision מתייחס לרמת הדיוק המדווחת של המדידות. accuracy מתייחס למרחק בין הערך הנמדד והערך האמיתי, הבלתי נצפה, ונמדד בדרך כלל על ידי סטיית תקן או רווח סמך.  התוצאות מדווחות ברמה של שתי ספרות אחרי הנקודה: הן מאוד  precise. אני לא אומר שזה לא חשוב, אבל מהניסיון שלי, כשמגזימים צריך לבדוק בצורה יותר יסודית מה קורה. דיוק של שתי ספרות אחרי הנקודה העשרונית כשמדובר בגרמים נראה לי מוגזם. אתם כמובן יכולים לחשוב אחרת, אבל זה אות האזהרה שגרם לי לקרוא את המאמר עד סופו ולחשוב על מה שתואר בו .

בעיה שניה – על מי הניסוי נערך?

הבעיה השנייה היא הרבה יותר מהותית: הבחירה של יחידת הניסוי, מה שמכונה ה-experimental unit או unit of observation. יחידות הניסוי כאן הן הכיתות. התצפיות נעשו ברמת הכיתה. החוקרים מדדו כמה ירקות ופירות נאכלו ברמת הכיתה, לא ברמת הילד. הם אמנם חישבו ממוצע לילד, אבל אני מניח שכולם יודעים שהממוצע לבדו הוא מדד בעייתי: הוא מתעלם מהשונות בין הילדים. לפני ההתערבות הניסויית, כל ילד אכל בממוצע כ-30 גרם ירקות בארוחה, אבל אני לא חושב שיהיה מי שיחלוק על האמירה כי כל ילד אכל כמות שונה של ירקות. מהי סטיית התקן? אנחנו לא יודעים, והחוקרים לא יודעים, וזה מהותי, כי השונות שבין הילדים משפיעה על המסקנה הסופית. מכיוון שהחוקרים התעלמו (ולא משנה מה הסיבה) מהשונות בין הילדים, הם הניחו למעשה כי השונות היא נמוכה מאוד, למעשה אפס. אם השונות הזו הייתה נלקחת בחשבון המסקנות של הניסוי היו אחרות: רווחי הסמך בוודאי היו שונים, ויותר רחבים מרווחי הסמך שחישבו החוקרים.

עוד סוג של שונות שלא נלקח בחשבון היא השונות בתוך ילדים. אסביר: גם אם צפינו בילד אחד וראינו כי בממוצע הוא אוכל 30 גרם ירקות בכל ארוחה, בארוחות שונות הוא אוכל כמות שונה של ירקות. ושוב נשאלת השאלה: מה סטיית התקן? גם לסטיית תקן זו יש השפעה על המסקנה הסופית של הניסוי. כמובן, לכל ילד יש סטיית תקן שונה, וגם את השונות הזאת צריך לקחת בחשבון.

סוג שלישי של שונות שלא נלקח בחשבון הוא השונות שבין ילדים בגילאים שונים: סביר להניח שילד בן 8 יגיב בצורה שונה לצלחת מצויירת מאשר ילד בן 3. בוודאי ילד בן 8 יאכל יותר ירקות מאשר ילד בן 3. החוקרים התעלמו גם מהשונות הזו.

אני סבור כי החוקרים לא נתנו דעתם על כל השונויות האלה. המילים variation, adjust או covariate לא מופיעות במאמר. מכיוון שהחוקרים התעלמו מהשונויות רווחי הסמך שלהם צרים מדי ולא משקפים את ההבדלים האמיתיים בין הילדים ובין סוגי הצלחות.

ולבסוף, למרות שהיחידה הניסויית הייתה הכיתה, התוצאות דווחו כאילו המדידות נעשו ברמת הילד. זו לדעתי עדות נוספת לכך שהחוקקים לא היו מודעים לשונויות שבין ובתוך הילדים. לדידם, כיתה וילד הם היינו הך.

בעיה שלישית – מה עם הביקורת?

בניסוי הזה אין קבוצת ביקורת. לכאורה אין בעיה: על פי תכנון הניסוי, כל כיתה מהווה את קבוצת הביקורת של עצמה. הרי הילדים קיבלו את הירקות גם בצלחות לבנות וגם בצלחות עם ציורי ירקות ופירות. אבל לדעתי זה לא מספיק.

יש המון סוגים של צלחות לילדים, עם ציורים של בוב הבנאי, דמויות דיסני, מפרץ ההרפתקאות, תומס הקטר, והרשימה עוד ארוכה. האם יכול להיות שהשינוי שנצפה הוא בגלל עצם הציורים עצמם ולא בגלל שמדובר בציורים של ירקות ופירות? אולי ילד שארוחתו מוגשת בצלחת עם ציורים של גיבור העל החביב עליו יאכל גם הוא יותר ירקות? זו שאלה שצריכה להישאל, והניסוי שנערך לא עונה על השאלה הזו. קבוצת ביקורת יכולה לענות על השאלות הלאה. לדעתי דרושות בניסוי כזה שתי קבוצות ביקורת. באחת מהן הילדים מקבלים בתחילה צלחות לבנות, ולאחר מכן צלחות של תומס הקטר, דיסני או גיבורי על, בהתאם לגילם. בקבוצת הביקורת השנייה יהיו ילדים שבתחילה יקבלו צלחות מצויירות "רגילות" (( שוב: דיסני, תומס הקטר וכדומה )) ולאחר מכן צלחות עם ציורים של ירקות ופירות.

בעיה רביעית – מה המשמעות של כל זה?

קודם כל, מתברר כי נצפה שינוי מובהק סטטיסטית לגבי צריכת הירקות, אך לא נצפה שינוי מובהק סטטיסטית לגבי הפירות. החוקרים התייחסו לכך במשפט קצר: הסבר אפשרי, הם אמרו, הוא ceiling effect. באופן פורמלי הם צודקים. ceiling effect הוא מונח סטטיסטי, וזה מה שקרה כאן. לשאלה החשובה באמת הם לא ענו: מדוע נגרם האפקט הזה?

והשאלה הכי חשובה: האם השינוי המובהק הוא גם משמעותי? מה המשמעות של הבדל של 14 גרם (סליחה, 13.82 גרם?) החוקרים לא התייחסו לשאלה הזו. אני אתן לכם קצת חומר למחשבה. הלכתי לסופרמרקט ושקלתי שם מלפפון אחד ועגבנייה אחת (כן, זה מדגם קטן, אני יודע). משקלו של המלפפון היה 126 גרם, ומשקל העגבנייה היה 124 גרם (( למרבה הצער, למאזניים של שופרסל יש דיוק/precision מוגבל )). זאת אומרת, כל ילד אכל בממוצע עוד חצי ביס של עגבנייה או מלפפון. יכול להיות שזה אכן משמעותי מבחינה בריאותית ו/או תזונתית. החוקרים לא התייחסו לשאלה הזאת וגם לא העורכים של כתב העת.

סיכום

יכול להיות שצלחות עם ציורי ירקות ופירות גורמות לילדים לאכול יותר ירקות ופירות. זו אכן השערה מעניינת. המחקר שתואר כאן לא נותן תשובה לשאלה הזו. האופן שבו הוא תוכנן ובוצע כלל לא מאפשר לקבל אפילו תשובה חלקית לשאלה הזו, וזאת ככל הנראה בשל העדר חשיבה סטטיסטית בסיסית.

איך יודעים כמה אנשים מתים מנזקי העישון

מחדליו של סגן שר הבריאות בנושא המלחמה בעישון, תוארו בדו"ח של מבקר המדינה מחודש מאי 2018. בין היתר נאמר כי בכל שנה מתים בישראל כ-8,000 בני אדם כתוצאה ממחלות הנגרמות מעישון. יש לי הרבה מה לומר על אוזלת היד וחוסר המעש של מקבלי ההחלטות בנושא, אבל כאן אני מדבר בעיקר על סטטיסטיקה, והנושא שיעלה היום לדיון הוא הנתון בדבר המוות של 8000 בני אדם בשנה כתוצאה מעישון. איך יודעים את זה?

זהו כמובן אומדן שמתבסס על איסוף נתונים ויישום של שיטות סטטיסטיות. גם זה, כמו הרבה דברים אחרים, מתחלק לשלושה חלקים. החלק הקשה הוא החלק שבו אוספים את הנתונים. החלק הקל הוא החלק שבו מחשבים את החישובים (מזינים את הנתונים למחשב ולוחצים על הכפתור). וביניהם יש את החלק בו צריכים להבין מה עושים, ובאופן עקרוני זה לא מסובך.

כמה אנשים מתים?

נתחיל באיסוף הנתונים. נתון אחד שצריך לדעת הוא כמה אנשים מתים בכל שנה. זה לא קשה, לפחות במדינה מסודרת שבה נאספים נתונים כאלה באופן מסודר וקבוע. נתוני תמותה נאספים בדרך כלל במשך שנים רבות. הלשכה המרכזית לסטטיסטיקה מפרסמת בכל חמש שנים לוחות תמותה המבוססים על הנתונים שנאספו בחמש השנים שקדמו לשנת הפרסום. מייד נעיין באחד הלוחות (קישור לקובץ pdf). הנה קטע מלוחות התמותה של הלשכה המרכזית לסטטיסטיקה, המתייחס לגברים יהודים ואחרים (כלומר – לא ערבים), בין השנים 2011 ל-2015:

 

 

 

 

 

 

 

אני יודע שהסיכוי שלי למות בסופו של דבר הוא 100%. אבל אני בעזרת לוח התמותה יכול לדעת יותר מזה. אני גבר יהודי בן 55, ומהשורה האחרונה של לוח התמותה שבתמונה אני יכול ללמוד כי בהיעדר כל מידע נוסף, הסיכוי כי אמות בשנה הקרובה הוא 0.00425. לחילופין, על פי נתוני הלשכה, מתוך כל 100000 גברים יהודים, 95506 יגיעו לגיל 56, ו-4494 לא יזכו לכך. אני יודע שיש חוסר תיאום בין שני המספרים האלה, וזה נובע מתוך דקויות סטטיסטיות שלא אכנס אליהן כאן ((אתם מוזמנים לקרוא את דברי ההסבר בקובץ לוחות התמותה)). אני גם יכול ללמוד מהלוח כי תוחלת החיים שלי, בהינתן שכבר הגעתי לגילי המופלג, היא 27.6 שנים פלוס מינוס סטיית תקן ואירועים לא צפויים. יש גם סיכוי שאגיע לגיל 100, אך הוא קטן למדי.

לעומת זאת, לגבר ערבי בגיל 55 במדינת ישראל, הסיכוי למות לפני גיל 56 יותר גבוה: 0.00595, ותוחלת החיים שלו נמוכה יותר: נותרו לו, בממוצע, רק עוד 24.9 שנים לחיות.

איזה נתונים צריך כדי לאמוד את סיכוני העישון?

הנתון השני צריך לאפשר לנו לאמוד כמה אנשים מתו מנזקי עישון. זה כבר יותר מסובך. כולם מתים בסוף, גם אלה שמעשנים וגם אלה שלא. אדם יכול לעשן ולמות מסיבה שלא קשורה לעישון (אולי ממחלה זיהומית, אולי מתאונה, ואולי אפילו מסרטן שעישון אינו גורם סיכון שלו – יש סרטנים כאלה). אדם יכול לא לעשן ובכל זאת למות מסרטן הריאות או מחלת לב – כאשר עישון הוא גורם סיכון ידוע לשני המצבים הבריאותיים האלה. (( נשאלת כמובן השאלה איך יודעים שאלה גורמי סיכון, והתשובה תתברר מייד )) ובכל זאת, הנתונים שיש לאסוף הם כמה אנשים מתים, כמה מהם מעשנים, וכמה לא.

במקומות רבים בעולם נערכים מחקרים תצפיתיים ארוכי טווח העוקבים אחרי מהלך החיים של אוכלוסיות, ואוספים נתונים על התנהגויות העשויות להשפיע על מצב הבריאות של הפרטים באוכלוסייה, כגון הרגלי אכילה ועישון. המחקר הידוע ביותר נערך בעיר פראמינגהם במדינת מסצ'וסטס בארצות הברית. החל משנת 1948 נאספים נתונים כאלה על אלפים מתושבי העיר שהסכימו להשתתף במחקר, והוא עוקב כעת אחרי הדור השלישי של התושבים. באתר המחקר תוכלו למצוא מחשבונים שבעזרתם תוכלו לדעת מה הסיכון שלכם ללקות במחלת לב. המחקר הזה הראה כי עישון הוא גורם סיכון משמעותי לסיכוי לחלות במחלת לב.

מחקר אחר, קצת ישן (משנת 1999) שערכו יעקובס ועמיתיו, עקב אחרי אוכלוסייה של כ-12000 איש בשבע מדינות במשך 25 שנים. המחקר אסף נתוני תמותה מכל סיבה שהיא, וכמובן נתונים נוספים. אחת המסקנות של המחקר הזה הייתה כי הסיכון למות של מעשנים המעשנים עד 10 סיגריות ביום גבוה פי 1.3 מהסיכון של לא מעשנים, והסיכון למות של אלה המעשנים יותר מ-10 סיגריות ליום גבוה פי 1.8 מאלה של הלא מעשנים. ללא הסבר המספרים האלה נראים תמוהים. מה זאת אומרת שהסיכון למות גבוה פי 1.8? כולם מתים בסוף. הסיכון למות הוא 100% לכולם. לא? לא. הסיכוי שאדם ימות בסופו של דבר הוא אכן 100%. הסיכון הוא לא סיכוי. אז בואו נעשה סדר.

איך מודדים את הסיכון

הסיכון נגזר מהסיכוי למות (או לחוות אירוע אחר כלשהו, כמו התקף לב למשל) במשך יחידת זמן מוגדרת, ומתייחס לנקודה ספציפית בזמן (או לתקופת זמן קצרה מאוד). אל תיבהלו, אבל אני אומר לכם שהסיכון הוא הנגזרת של ההסתברות המותנה למות (אתם יכולים לעבור הלאה בלי חשש). הסיכוי, לעומת זאת, מתייחס לתקופות זמן ארוכות יותר.

אני לא אכנס כאן להגדרה המתמטית המדוייקת של הסיכון. אומר רק שאם יודעים את הסיכוי למות במשך תקופת מסויימת, נניח שנה, אפשר לחשב מכך את הסיכון למות במשך אותה תקופת זמן. גם ההיפך נכון: אם יודעים את הסיכון אז יודעים את הסיכוי. כמו כן, באופן לא מפתיע, אם הסיכוי שלך למות בשנה הקרובה גבוה יותר, אז גם הסיכון שלך גבוה יותר.

ואם אפשר לעשות את האבחנה הזו בין יהודים וערבים, ובין גברים לנשים, בוודאי שאפשר לחשב את הסיכון של המעשנים ולהשוות אותו לסיכון של הלא מעשנים.

הכלי הסטטיסטי שמאפשר לבצע את התרגילים האלה הוא מודל הסיכונים הפרופורציונליים שפותח בשנת 1972 על ידי הסטטיסטיקאי הבריטי סיר דויד קוקס, וידוע גם בשם מודל קוקס. קשה להמעיט בחשיבות של המודל הזה. המאמר שבו הוצג המודל נמנה עם 100 המאמרים המדעיים המצוטטים ביותר בכל הזמנים – לא מאמרים בסטטיסטיקה, אלא כל המאמרים המדעיים.  המודל מאפשר לזהות גורמי סיכון  להתרחשות אירועים כגון מוות, ולמדוד מה פוטנציאל הסכנה בכל גורם סיכון כזה. בנוסף לכך, קוקס הציג במאמר שלו חידושים סטטיסטיים נוספים שהשפיעו רבות גם על תחומים אחרים בסטטיסטיקה. אילו היה פרס נובל לסטטיסטיקה, סיר דויד קוקס היה זוכה בו ללא צל של ספק. סיר קוקס אכן זכה כמעט בכל פרס אפשרי בתחום הסטטיסטיקה. המודל שלו בפירוש מאפשר הצלת חיים. לדעתי סיר קוקס ראוי לזכייה בפרס נובל לרפואה.

להלן נוסחת המודל. מייד אסביר הכל. ניתן לראות כי זהו למעשה מודל רגרסיה.

 

 

נתחיל בצד שמאל. שם מופיע הסיכון כפי שהוא מושפע מגורמי הסיכון – אותו אנחנו רוצים לאמוד. הוא מסומן באות למבדה – האות היוונית שדומה לאות ג. בצד ימין יש מכפלה של שני חלקים. חלק אחד מתאר את הסיכון הבסיסי – כאשר אין שום אינפורמציה. הוא מסומן בלמבדה אפס טי. הסיכון הבסיסי נקבע רק על פי נתוני התמותה. לכל אדם במדגם נתון האם הוא מת, אם כן, מתי, ואם לא, כמה שנים הוא חי עד למועד שבו הוחלט להפסיק את המעקב ולהזין את הנתונים למודל. החלק השני מכיל את גורמי הסיכון האפשריים, כגון גיל, מין, הרגלי אכילה, וגם כמובן משתנה המציין האם האדם שבמדגם מעשן או לא. גורמי הסיכון מסומנים באיקסים. לכל X יש מקדם שמסומן באות ביתא. אם ביתא שונה באופן משמעותי מאפס זה אומר שלמשתנה X יש השפעה משמעותית על הסיכון. אם ביתא חיובי זה אומר שהסיכון גדל ככל ש-X גדל, ואם ביתא שלילי זה אומר של-X יש דווקא השפעה חיובית. רמת הסיכון עולה (או יורדת) באופן פרופורציוני לערכו של .X (( באופן יותר מדוייק: ההשפעה היא פרופורציונית לגבי הלוג של יחס הסיכונים )) מכאן נובע שם המודל – מודל הסיכונים הפרופורציוניים. לאחר שאומדים את הפרמטרים של המודל אפשר, באופן תיאורטי, לחשב את הסיכון לאדם מעשן ולאדם לא מעשן. (( את זה עושים על ידי כך שקובעים ש-X הוא משתנה שמקבל שני ערכים: 0 אם האדם לא מעשן, 1 אם הוא כן מעשן. כאשר X שווה ל-1 נוסף הערך ביתא לסכום המשוקלל של גורמי הסיכון )) בפועל, המודל מספק ישירות אומדן ליחס שבין הסיכונים, ה-hazard ratio. היחס הזה מתבטא במקדם הביתא של משתנה העישון.

למודל יש כמובן גם הנחות. החשובה שביניהן היא ההנחה כי יחס הסיכונים נשאר קבוע לאורך כל תקופת המעקב. זו הנחה חזקה, ובדרך כלל היא נכונה, וגם אם יש סטייה לא גדולה מההנחה הזו המודל מספיק עמיד (robust) כדי לספק אומדן טוב של הסיכון. יש הרחבות למודל שבהן מחליפים את ההנחה הזו בהנחה יותר גמישה אם יש צורך. אחד המודלים הידועים שמרחיבים את מודל קוקס פותח על יד שילה בירד.

איך מתרגמים את הנתונים למספרים

עכשיו נוכל לעשות את החישובים.

יש לנו את ההסתברויות למות בכל גיל מלוחות התמותה. יש לנו את גם יחס הסיכונים שהוא כזכור היחס בין הסיכון למות של אנשים המעשנים יותר מ-10 סיגריות ביום ובין הסיכון של לא מעשנים. זכרו כי זהו יחס הסיכונים לנקודה ספציפית בזמן. מתוך יחס הסיכונים אפשר לחשב את  יחס הסיכויים: היחס בין ההסתברויות למות במשך תקופת זמן מוגדרת, שנה למשל. בשביל זה יש נוסחה. אני אחסוך לכם אותה. יש בה אינטגרלים ואקספוננטים, וזה בדרך כלל לא טוב לבריאות. אם אתם ממש רוצים  אז אתם יכולים לקרוא כאן, למשל, אבל זה על אחריותכם (קישור לקובץ  pdf). אני חוסך את זה גם לעצמי, ואשתמש בנתון מתוך מאמר אחר מאת מהטה ופרסטון משנת 2012. לפי הנתונים במאמר הזה, יחס הסיכויים למוות בתקופת זמן של שנה, בין גברים מעשנים וגברים לא מעשנים הוא בערך 2.3 (לקחתי את הגבול התחתון של רווח הסמך, כדי לקבל הערכה שמרנית), לאחר תקנון לגיל, וזאת בארצות הברית, בשנים 1987 עד 2006.

אנחנו צריכים עוד נתון אחד והוא שיעור המעשנים באוכלוסייה. לצורך הדוגמה אשתמש בנתונים של משרד הבריאות משנת 2017, לפיהם כ-30% מהגברים מעל גיל 21 הינם מעשנים..

כשיש לנו את כל הנתונים מה שנשאר זה קצת אלגברה של בית ספר תיכון. (( אני יודע שאני עושה פה סלט: נתונים מארצות הברית מסוף המאה העשרים ותחילת המאה העשרים ואחת, ונתונים מישראל. הכל נעשה לצורך הדגמה. אל תסיקו מסקנות מהמספרים שתראו בהמשך. ))

נניח שהסיכוי של מעשן בן 55 למות לפני גיל 56 הוא X, והסיכוי של לא מעשן הוא Y. לפני הנתון של מהטה ופרסטון, X גדול פי 2.3 מ-Y, כלומר X=2.3Y. זה נותן לנו משוואה אחת המקשרת בין X ל-Y.

את המשוואה השנייה נגזור מתוך מה שידוע בשם נוסחת ההסתברות השלמה.  ניתן להציג את החישוב בצורת עץ הסתברויות:

 

 

 

 

 

 

 

 

 

מהי ההסתברות של גבר בן 55 למות? ההסתברות הזו שווה להסתברות שלו למות אם הוא מעשן שהיא כאמור X כפול ההסתברות שהוא מעשן, שהיא 30%, ולכך יש להוסיף את ההסתברות שלו למות אם הוא לא מעשן, Y, כפול ההסתברות שהוא לא מעשן, שהיא 70%.  כל זה צריך להיות שווה ל-0.00425, כלומר 0.3x+0.7y=0.00425.

עכשיו יש לנו שתי משוואות בשני נעלמים ואפשר לפתור אותן. הפתרון הוא ש-X, ההסתברות שגבר יהודי מעשן בן 55 ימות לפני שיגיע לגיל 56 – שווה ל-0.00703237, ואילו Y, ההסתברות שגבר יהודי בן 55 שאינו מעשן ימות לפני שיגיע לגיל 56 היא הרבה יותר נמוכה: 0.00305755.

כזכור, על פי לוח התמותה, ההסתברות שגבר בן 55 ימות לפני שיגיע לגיל 56 היא 0.00425. זה אומר שאם יש לנו 100000 גברים כאלה, אז בממוצע ימותו במהלך השנה 425 מהם. אם לעישון אין השפעה על ההסתברות למות, אז 30% מהמתים יהיו מעשנים: בערך 128 איש.

אבל אנחנו יודעים שההסתברות למות שונה למעשנים ולא מעשנים.

בין 100000 הגברים יש 30000 מעשנים, ולכל אחד מהם הסתברות למות השווה כאמור ל- 0.00703237. זה אומר שמתוכם ימותו 210 איש – 82 איש יותר ממה שהיה צריך להיות אילו לעישון לא הייתה השפעה. 82 האנשים האלה מתו לכן בגלל שהיו מעשנים.

כך אפשר לערוך את החישוב לכל מין, לכל גיל, ולכל קבוצת אוכלוסייה למעשה. אם עושים את החשבון עם כל הנתונים המדוייקים (שלא היו בידיי), אז מגיעים ל-8000 מחברים את תוצאות כל החישובים ומגיעים למספר הכולל.

מה בקשר לעישון פאסיבי

העקרון הוא אותו עיקרון, אם כי היישום יותר מסובך. אני חייב להודות שאני לא יודע באיזה שיטה משתמשים כדי לאמוד את מספר הנפגעים מעישון פאסיבי.

בגדול יש שתי אפשרויות: להגדיר באופן כלשהו משתנה המציין אם אדם נחשף לעישון פאסיבי או לא נחשף, ואז החישוב הוא כפי שנעשה קודם. אפשרות שניה היא להגדיר את רמת החשיפה לעישון פאסיבי כמשתנה כמותי ואז יחס הסיכונים פרופורציונאלי לרמת החשיפה. ברמה העקרונית החישוב נשאר אותו חישוב, אלא שכאן מדובר במשתנה רציף ולכן הפירוק להסתברויות לפי רמת החשיפה מסובך יותר.

כמה מילים בנימה אישית

וכאן אני רוצה לומר כמה מילים אישיות.
עדכון פברואר 2026: לצערי, אחי שעישן עד גיל 40 והפסיק לעשן כמתנת יום הולדת לגיל זה, נפטר לפני כחודשיים (בדצמבר 2025) לאחר שחלה בסרטן הריאה, כ-3 שבועות לפני יום הולדתו ה-60.
זאת למרות הנתונים שמראים כי למי שמפסיק לעשן עד גיל 40 סיכויי ההישרדות גבוהים באופן משמעותי בהשוואה למי שלא הפסיק. זה מה שנקרא "ליפול בצד הלא נכון של הסטטיסטיקה". המסר האישי שלי: במקום להפסיק לעשן – פשוט אל תתחילו.

אני חושב שהנתון כי בכל שנה מתים בישראל 8000 איש מנזקי עישון הוא מזעזע. אם מחר תפרוץ חלילה מלחמה וימותו בה 8000 איש העם יצא לרחובות. אם השנה ייהרגו 8000 איש בתאונות דרכים, שר התחבורה והשר לביטחון פנים לא יוכלו להתחמק מאחריות. 8000 מתים בשנה פירושם יותר מ-20 מתים כל יום. אם חלילה יתרחש פיגוע וייהרגו בו 20 איש, אף אחד לא יחכה שהמספר יצטבר ל-8000 לפני שיידרשו לעשות משהו, ובצדק.

כמו שאמר סטאלין, מוות אחד הוא טרגדיה אבל 8000 מתים הם כנראה רק סטטיסטיקה. לסטטיסטיקה הזו אחראים המנהיגים שלנו ומקבלי ההחלטות. בשנת 2011 הוכרזה תכנית לאומית למלחמה בעישון ובנזקיו. בפועל לא קרה כמעט כלום. הגיע הזמן לתכנית חדשה, והפעם זו צריכה להיות תכנית חירום לאומית למלחמה בעישון. עכשיו.
עוד עדכון 2026: מאז 2018 אוכלוסיית ישראל גדלה ב-13.5%. תכנית לאומית למלחמה בעישון ונזקיו – אולי יש, אני בכל מקרה לא ראיתי שום דבר. יש לנו עכשיו עניינים חשובים יותר לעסוק בהם: איראן, קטאר, חוק השתמטות, בתי משפט, חנינות ועוד. נראה כי כל דבר יותר חשוב ממניעת מותם של 9100 אנשים בשנה.

איך מחשבים את תאריכי התוקף של התרופות

לכל תרופה יש תאריך תוקף, שלאחריו השימוש בה אינו מומלץ. הסיבה לכך היא שבמשך הזמן שעובר מאז הייצור החומר הפעיל שבתרופה ((וגם החומרים הלא פעילים)) עובר תהליכי פירוק, כך שתיאורטית קיימת נקודת זמן בה רמת החומר הפעיל כבר לא תספיק לפעולה יעילה של התרופה.
ברשימה זו אסקור את המשמעות של תאריך התוקף ותהליכי הפירוק, את האינטרסים של בעלי העניין, ואת הדרך הסטטיסטית בה אומדים את משך חיי המדף של התרופה.

מה המשמעות של תאריך התוקף?

המונח המקובל לתיאור המצב בו התרופה ראויה לשימוש הוא "יציבות". בהנחיות ה-FDA נאמר כי משך חיי המדף של התרופה הוא הזמן המקסימלי בו הערכים של מאפייני היציבות מקיימים את הקריטריונים ליציבות. זוהי הגדרה מעגלית במקצת, ולכן אנסה להסביר באמצעות דוגמה.
אחד המדדים המקובלים לפיהם מודדים את היות התרופה מיועדת לשימוש, הוא אחוז החומר הפעיל. כאשר התרופה יוצאת מקו הייצור, אחוז החומר הפעיל מוגדר כ-100%. במשך הזמן יש, כאמור תהליכי פירוק, ואחוז החומר הפעיל יכול לרדת ל-99%, או 98% וכולי. אם נטען כי התרופה יעילה כל עוד אחוז החומר הפעיל גבוה מ-90%, ובדרך כלשהו מעריכים כי משך הזמן שלוקח עד שאחוז החומר הפעיל יורד מ-90% הוא שנתיים, אז משך חיי המדף של התרופה יכול להיות לכל היותר שנתיים מתאריך הייצור.
הסבר גרפי: בגרף שלפניכם ציר ה-x מייצג את הזמן, וציר ה-y מציין את ערכו מדד היציבות, במקרה זה מדד שלילי (ככל שהוא גבוה יותר התרופה פחות טובה), למשל, שיעור הזיהומים (impurity). הקו הירוק מציין את השינוי במדד לאורך הזמן, והקו האדום את הקריטריון, הקו שאם המדד עולה מעליו התרופה מוגדרת כלא ראויה לשימוש. הנקודה בזמן בה הקו הירוק חוצה את הקו האדום היא משך חיי המדף של תרופה.

כמובן שיש עוד מדדים שצריך להתחשב בהם, ומשך חיי המדף נקבע לפי המקרה הגרוע ביותר. לדוגמה, אם בתרופה שלנו מדד אחר חורג מהקריטריונים שלו אחרי שנה, אז משך חיי המדף יוגדר כשנה, למרות שאחוז החומר הפעיל הינו ברמה ראויה למשך שנתיים.
כאן עולות שתי שאלות. שאלה אחת היא כיצד קובעים הקריטריון לפיו התרופה ראויה לשימוש כל עוד אחוז החומר הפעיל גבוה מ-90%. ההצדקות לקריטריונים אלה מבוססות בדרך כלל על מודלים כימיים או ביולוגיים ועל ידי ניסויים בחיות.
שאלה שניה היא כיצד מעריכים כי אחוז החומר הפעיל הינו ברמה סבירה (acceptable) כעבור זמן מה לאחר הייצור. למשל, כיצד יודעים כי אחרי שנתיים אחוז החומר הפעיל יורד אל מתחת לקו של 90 האחוזים. כאן הסטטיסטיקה נכנסת לפעולה.

מהם האינטרסים של בעליי העניין?

יש למעשה שלושה בעלי אינטרסים: הצרכנים/החולים, חברות התרופות, והרשות הרגולטורית.
לרשות הרגולטורית, לחברות התרופות ולצרכנים יש אינטרס משותף. שלושתם רוצים כי הצרכן יוכל לסמוך על כך שהתרופה תהיה יעילה ובטוחה לשימוש כל עוד תאריך התוקף לא פג. כאן אולי צריך להדגיש כי גם חברת התרופות מעוניינת בכך: מי רוצה שהלקוח שלו ישתמש במוצר פגום ועקב כך ייגרם לו נזק?
בעניין משך חיי המדף/תאריך התוקף של התרופה הדברים קצת יותר מסובכים.
הרשויות הרגולטוריות (בעיקר ה-FDA) רוצות ללכת על בטוח, ולכן מגבילות באופן מעשי את משך חיי המדף לשלוש שנים (אם כי לפי ההנחיות של ה-FDA יש אפשרות תיאורטית לקביעה של משך חיי מדף ארוכים יותר). כמו כן, הרשויות מכתיבות אומדנים שמרניים למשך חיי המדף. בכל שלב בתאריך קביעת משך חיי המדף, משתמשים בתרחיש הגרוע ביותר (worst case scenario) כבסיס להמשך לשלב הבא. זהירות יתר זו גורמת לכך שבדרך כלל משך חיי המדף הרשמי נמוך ממשך חיי המדף האמיתיים.
הצרכנים מעוניינים בחיי מדף ארוכים. זה נכון בעיקר כאשר מדובר בתרופות ללא מרשם לשימוש מזדמן, פאראצטמול למשל. אם אתה קונה את הפאראצטמול כדי שיהיה לך משכך כאבים זמין למקרה של כאב ראש מדי פעם, אתה לא מעוניין שתאריך התוקף יעבור ותצטרך לזרוק לפח את המלאי שנשאר לך. מצד שני, ייתכן כי הצרכנים יפקפקו בתאריכי תוקף רחוקים במיוחד.
גם חברות התרופות, בניגוד למה שמקובל לחשוב, מעוניינות בתאריכי תוקף ארוכים ככל האפשר. הסיבה לכך היא שתאריכי תוקף ארוכים יותר מאפשרים יותר גמישות בתהליכי הייצור והלוגיסטיקה, ומכך נגזר רווח גדול יותר.
קו ייצור טיפוסי משמש לייצור של סוגים שונים של תרופות. לאחר שמייצרים אצווה של תרופה א, יש לנקות את קו הייצור לפני שעוברים לייצור של תרופה ב. זה יכול לקחת יום או יומיים, שבהם הייצור מושבת. אם תאריך התוקף של התרופות הוא נמוך, שנה למשל, אצוות הייצור יהיו קטנות, כי צריך לשנע את התרופות לנקודות המכירה ולדאוג כי הן יימכרו לפני סוף השנה. מכיוון שבמצב כזה נאלצים לייצר אצוות קטנות, פירוש הדבר הוא שיש צורך במספר יותר גדול של תהליכי ניקוי, כלומר יש יותר ימים בהם קו הייצור מושבת. וכפי שציינתי, לוחות הזמנים לשינוע התרופה לנקודות המכירה והמכירה עצמה יהיו לחוצים יותר. חיי מדף ארוכים מאפשרים ייצור יעיל יותר.

איך קובעים את משך חיי המדף?

התשובה פשוטה להפליא: מניחים את התרופה על המדף ורואים מה קורה לה. הפרטים, לעומת זאת, לא כל כך פשוטים.
קודם כל, ברור כי לא ניתן לצפות בכל התרופות שיוצרו, אז לוקחים מדגם של אצוות ייצור. גודל המדגם המקובל הוא 3 אצוות. זה מדגם קטן, לכן השונות בו תהיה גבוהה. כפי שנראה מייד, שונות גבוהה מובילה לאומדנים שמרניים יותר של משך חיי המדף, כלומר, האומדן שיחושב למשך חיי המדף יהיה בדרך כלל קטן ממשך חיי המדף בפועל.
מכל אצווה דוגמים מלאי מספיק של תרופות/טבליות שיאפשר את המדידה של כל הפרמטרים במשך תקופת התצפית.
כעת מאכסנים את הטבליות שנדגמו בתנאי אחזקה שונים. אם מדובר למשל בטבלייה שאמורה להיות מוחזקת בטמפרטורת החדר, אז מאכסנים חלק מהמדגם בטמפרטורת החדר – 25 מעלות צלזיוס ו-60 אחוזי לחות. חלק אחר מהמדגם מאוכסן בתנאים פחות נוחים: 30 מעלות צלזיוס ו-65 אחוזי לחות. החלק השלישי מאוכסן בתנאים קשים/מואצים: 40 מעלות צלזיוס ו-75 אחוזי לחות.
הציפיה היא כי הטבליות המאוכסנות בתנאים של 30 עד 35 מעלות יחזיקו מעמד לאורך כל חיי המדף המבוקשים, כלומר אם החברה רוצה לקבוע חיי מדף של שלוש שנים, הן צריכות להחזיק מעמד בתנאים האלה במשך שלוש שנים. כן מצפים כי התרופות המאוכסנות בתנאים המואצים יחזיקו מעמד במשך חצי שנה.
מודדים את ערכי הפרמטרים של הטבליות (כגון אחוז חומר פעיל ורמת הזיהומים) מייד לאחר הייצור. זה בדרך כלל גורם להשמדתן. לאחר מכן, בתקופות זמן שנקבעו מראש מוציאים עוד טבליות מהאחסון, ומודדים את ערכי הפרמטרים בנקודת זמן זו. לאחר שנאספו כל הנתונים אפשר לאמוד את הפרמטרים של תהליך הפירוק, למשל על ידי רגרסיה לינארית. הנה דוגמה פשטנית:

הנקודות הכחולות בגרף הן הערכים שנמדדו לאורך תקופת זמן של 24 חודשים עבור אצווה בודדת. הקו הירוק הוא קו הרגרסיה: המודל התיאורטי שמתאר את תהליך הפירוק. הקווים האדומים הם רווחי הסמך של קו הרגרסיה. רווחי הסמך רחוקים יותר מקו הרגרסיה ככל שהשונות במדגם גדולה יותר. אם מדובר במדד שקטן עם הזמן, למשל אחוז החומר הפעיל, משך חיי המדף ייקבע על ידי הנקודה בזמן בה הקו האדום התחתון יורד אל מתחת לקריטריון. זה עוד אמצעי זהירות המוביל לכך שמשך חיי המדף המדווח על אריזות התרופות נמוך בדרך כלל ממשך חיי המדף האמיתיים.
יש כמובן שלוש אצוות, והנתונים מכל אצווה מנותחים בנפרד, והתוצאה הרשמית היא התוצאה הגרועה ביותר מבין התוצאות שהתקבלו. במקרים מסויימים מותר לאחד את כל הנתונים מהאצוות ולנתח אותם ביחד. שוב, המקרים בהם מותר לבצע את האיחוד מוכתבים על ידי הרשויות הרגולטוריות, והכלל של התרחיש הגרוע ביותר נשמר.

הארכת התוקף

מטבע הדברים, כאשר מדובר במוצר חדש (תרופה, חיסון וכולי), אין אפשרות לקבוע את משך חיי המדף מעבר למשך הזמן בו נערכה המדידה. במילים אחרות, אם יש רק נתונים של שנה, התוקף המקסימלי שניתן לקבוע הוא תוקף של שנה. כאשר נצברים נתונים נוספים ניתן להאריך את משך התוקף בהדרגה עד לתוקף המקסימלי של שלוש שנים.

כמו כן, ארגונים גדולים, כגון צבא ארצות הברית וצה"ל, מחזיקים מחסני חירום בהם נשמרות תרופות למשכי זמן ארוכים יותר מתאריך התוקף המדווח. זה אפשרי אם אכן התרופות מאוכסנות בתנאי האכסון המומלצים, וכמובן שארגונים אלה עורכים בדיקות משל עצמם למעקב אחרי אחוז החומר הפעיל, אחוז הזיהומים וכולי.

מה עושים אם תאריך התוקף עבר?

ההמלצה היא לא להשתמש בתרופה שתאריך התוקף שלה עבר, למרות שראינו כי תאריך התוקף המדווח הוא בדרך כלל נמוך יותר מתאריך התוקף האמיתי. יש מספר סיבות לכך. ראשית, תאריך התוקף האמיתי אינו ידוע, וייתכן כי הוא לא גדול בהרבה מתאריך התוקף המדווח. שנית, ייתכן כי התרופה הספציפית שברשותך יוצרה באצווה פחות "טובה", ותהליכי הפירוק באצווה הזו הינם מהירים יותר. ולבסוף, סביר להניח כי תנאי האכסון של התרופה שלך היו פחות טובים מתנאי האכסון המומלצים. מי שמחליט להשתמש בתרופות שתאריך התוקף שלהן פג (בעקבות כתבות קונספירטיביות על "הסודות השמורים של חברות התרופות" עושה זאת על אחריותו.

לקריאה נוספת

אנטומיה של מגיפה

בתאריך 20.2.2018 אירחה קרן נויבך בתכנית שלה ברשת ב אדם בשם גדי, שסיפר על הניסיון הקשה של בנו, שחלה בדיכאון וחרדה וסבל מהתקפים פסיכוטיים. הסיפור האישי אכן נוגע ללב, אולם ההתייחסות של נויבך למרואיין ולדברים שטען מעבר לסיפורו האישי הייתה בעייתית ביותר.

מה נאמר באייטם

אביא כאן תקציר של הדברים שנאמרו. אתם גם יכולים להאזין לראיון באתר של תאגיד השידור, או להקלטה ששמרתי בשרת שלי. אתם גם מוזמנים לקרוא את תמלול הריאיון שערכתי.

בהקדמה לראיון נויבך מבהירה כי אין לראות בדברים שיאמרו בראיון כהמלצה לקחת או לא לקחת תרופות פסיכיאטריות, אבל אומרת באותה נשימה כי הריאיון יתאר "מסע להשתחררות מהתרופות הפסיכיאטריות".

בחלק הראשון של הריאיון מספר גדי על בנו שלקה בחרדה, דיכאון והתקפים פסיכוטיים. הטיפול בו לא צלח למרות ששני רופאים ניסו מספר טיפולים, והוא גם חווה תופעות לוואי. אי אפשר שלא לחוש אמפתיה לסיפור הזה.

כאן הריאיון עובר פאזה. גדי מספר על כתבה שקרא בעיתון ושבעקבותיה נחשף לדבריו לכל הידע שיש בתחום של התרופות הפסיכיאטריות. לדבריו, הרופאים הפריכו את התיאוריה של חוסר איזון כימי במוח, שבכלל הומצאה על ידי חברת התרופות לילי לקראת השקת הפרוזאק. התיאוריה הזו היא לטענתו אגדה אורבנית. כן טען כי בעידן שלפני התרופות חולי סכיזופרניה החלימו ב-60%. בנוסף טען כי יש שפע של מחקרים המוכיחים כי בטווח הארוך תרופות פסיכיאטריות גורמות יותר נזק מאשר תועלת.

הראיון חזר לסיפור האישי. גדי סיפר על התהליך שבנו עבר כאשר החליטו להפסיק לו את הטיפול התרופתי. הוא סיפר כי זה תהליך קשה ומסוכן ומזהיר כי כל מי שרוצה לבצע תהליך כזה חייב לעשות אותו מאוד בזהירות. לא ברור מדבריו אם תהליך הפסקת הטיפול התרופתי שבנו עבר נעשה בעקבות התייעצות עם רופא, או שהם החליטו על דעת עצמם להפסיק את הטיפול. עם זאת, ככל הנראה התהליך של הבן שלו התבצע תחת השגחה רפואית.

לאחר מכן גדי מסביר תהליכים במוח שקשורים לדופמין ושבגללם הורדת המינון התרופתי הוא מסוכן. הוא מסביר כי "אתה חייב שיהיה לך את הידע והביטחון במה שאתה עושה", אחרת התופעות המקוריות, כגון פסיכוזה, יופיעו שוב ((לדעתי זה צפוי שאם מפסיקים טיפול רפואי במחלה, אז תסמיני המחלה מופיעים שוב, אבל מה אני מבין)).

בחלק השלישי של הראיון, גדי מספר על החלטתו להנחיל את הידע שצבר לציבור הרחב. הוא פעל לתרגום הספר (השנוי במחלוקת) של העיתונאי רוברט ויטאקר "אנטומיה של מגיפה". הוא מספר כי כאשר ויטאקר ביקר בארץ הוא נפגש עם פרופסור חיים בלמקר, יושב ראש האיגוד הפסיכיאטרי. בעקבות הפגישה הקים פרופ בלמקר ועדה, וגדי יודע לספר על המלצות הועדה למרות שהיא תסיים את עבודתה רק בחודש מאי. כמו כן, הוא מספר כי פרופ בלמקר הוציא הנחיות לכל הפסיכיאטרים בארץ "להפחית את המינונים". הוא גם מספר על ניסוי שבלמקר ערך ב-1978 בו השתתפו שני אנשים, בלמקר עצמו ואדם נוסף, שנטלו תרופה פסיכיאטרית (לא ברור איזה) וחוו לדבריהם תסמינים קשים.

כאן בעצם מסתיים הריאיון. נויבך ממליצה למאזינים לקרוא את ספרו של ויטאקר. נויבך גם מוסיפה ואומרת כי אין לעשות את זה (את ה"גמילה" מתרופות) בלי להיעזר ובלי להתייעץ, וכי אנשים חייבים לקבל את האחריות עליהם את ההחלטה על עצמם.

מה לא בסדר כאן?

הרבה דברים. לגדי אין לי הרבה טענות. הוא בא לקדם אג'נדה, ועשה זאת בהצלחה רבה. הוא אמנם משתמש במניפולציות רגשיות ואחרות, אומר חצאי אמיתות (ולעיתים פחות מכך), ויודע מראש מה יהיו המסקנות של ועדה שתסיים את עבודתה בעוד שלושה חודשים – דבר תמוה ביותר. הוא מטיף למעשה להפסקת השימוש בכל התרופות הפסיכיאטריות (למרות שלא אמר זאת במפורש) ומטיל דופי בציבור שלם של רופאים. הוא טוען טענות מדעיות למרות שככל הנראה אין לו כל הכשרה מדעית בתחומים ביו-רפואיים (אני מניח שאם הייתה לו הכשרה כזו הוא היה מציין את זה), ובוודאי אינו רופא.

אל קרן נויבך, לעומת זאת, אפשר לטעון הרבה טענות.

במהלך הריאיון היא לא שאלה את גדי אפילו שאלה ביקורתית אחת (ועוד אגיע לזה בהמשך), כמו שאנשים תמימים כמוני מצפים מעיתונאים, ובייחוד מעיתונאית כמו קרן נויבך שעושה לעצמה שם של עיתונאית לוחמת, ואף זכתה בפרס סוקולוב על עבודתה העיתונאית שהינה בעלת "נקודת מבט ביקורתית".

היא לא אובייקטיבית, בייחוד בראיון הזה. היא תומכת לגמרי באג'נדה של גדי, וניתן ללמוד זאת מהאמירות שלה במהלך האייטם. כך למשל, שאלה, ככל הנראה כשאלה רטורית, "על סמך מה הרופא החליט שיש פסיכוזה?", וזאת לאחר שגדי סיפר בפירוש שלבנו היו תסמינים פסיכוטיים. היא אמרה אמירה דמגוגית כי הדרך היחידה לעצור את זה (את מחשבות השווא והפסיכוזה) היא "על ידי תרופות על גבי תרופות". אמירה זו נועדה לדעתי למתוח ביקורת על הרופא (שאותו ככל הנראה לא פגשה כלל). כשגדי מספר שבנו הועבר לטיפול בריספרדל היא אומרת ש-"זה כדור הרבה יותר חזק", אמירה שמראה חוסר הבנה ברפואה. ריספרדל אינו כדור יותר חזק מציפרלקס, או יותר חלש. ריספרדל היא תרופה שנועדה לטיפול במחלה אחת, וציפרלקס היא תרופה שנועדה לטפל במחלה אחרת. לאחר מכן היא מספקת אבחון "רפואי" למצבו של בנו של גדי: "הילד זומבי". כאשר גדי מתאר ניסוי (לדעתי תמוה) שערך פרופ בלמקר בתרופה פסיכיאטרית כלשהי (לא ברור איזה) היא אומרת שזה "כמו סמים". היא קוטעת את המשפט של גדי שאומר על הניסוי של בלמקר שזה "תיאור מהמם" ומשלימה אותו באמירה שזה "(תיאור מהמם) של מה קורה לאדם תחת התרופות האלה בדיוק".

הגרוע מכל, נויבך משתמשת פעמיים בביטוי "גמילה" בהקשר של תרופות פסיכיאטריות. היא יודעת היטב שלביטוי כזה יש קונוטציה שלילית. אף אחד לא ידבר על הצורך לגמול חולה סרטן מאווסטין, או לגמול חולת טרשת נפוצה מקופקסון.

כמו כן, הרושם האישי שלי הוא ששתי ההסתייגויות שהביעה נויבך בתחילת האייטם וסופו על כך ש-"אין כאן שום המלצה" נאמרו מן השפה ולחוץ, לצורך כיסוי משפטי, וזאת לאור ההזדהות המוחלטת שלה עם המסרים של גדי.

מותר לעיתונאי להחזיק באג'נדה. יש הרבה עיתונאים כאלה (למשל עמית סגל, מירב ארלוזורוב, צבי יחזקאלי, ועוד רבים אחרים). אבל החובה המקצועית של בעל אג'נדה היא להביא לידיעת הציבור על היותו בעל עניין. נויבך לא עשתה זאת.

מה עיתונאי ביקורתי אמיתי היה שואל?

יש מי שיאמרו שזו שאלה לא הוגנת, כיוון שמדובר בראיון שהוקלט ככל הנראה בטייק אחד. כאשר גדי רומז כי פסיכוזה (בין היתר) היא תופעת לוואי של ציפרלקס וזה כתוב בעלון של התרופה, קל לבדוק ולראות כי זה לא נכון. אם היה מדובר בכתבה בעיתונות הכתובה, המראיין היה יכול לבדוק את זה אחרי קיום הריאיון, ולציין בכתבה כי הטענה הזו לא נכונה. את זה, אכן, אי אפשר לעשות בראיון רדיופוני (אם כי היה אפשר לעשות זאת במסגרת התחקיר שנערך, אני מקווה, לפני הריאיון). אבל בהחלט היה מקום והייתה אפשרות לשאול שאלות אחרות. הנה מספר שאלות שהיו צריכות להישאל ולא נשאלו:

  • לאחר שהטיפול הרפואי בבן הופסק ועברו כמעט שנתיים, מהו כעת מצבו הבריאותי? האם הוא עדיין סובל מחרדות ופסיכוזות? (הניחוש שלי: לו הבן הבריא באורח פלא עקב הפסקת הטיפול הרפואי, גדי בוודאי היה מספר זאת בראיון).
  • מה הייתה המעורבות של הבן בהחלטות הרפואיות? גדי לא אומר על כך דבר. זה חשוב כי הבן אינו ילד אלא אדם בוגר שגילו מעל 18.
  • האם ההחלטה להפסיק את הטיפול התרופתי נעשתה בהתייעצות עם רופא? מי קיבל את ההחלטה?
  • מה האמינות של המידע שגדי אסף, ככל הנראה באינטרנט? האם מצא בנוסף דברים שלא תמכו באג'נדה שלו? ואם כן, מה עשה בנידון? האם התעלם מהם? האם התייעץ עם אדם בעל הכשרה מדעית?
  • האם התיאוריה של חוסר האיזון הכימי פותחה לצורך השקת הפרוזאק, או שמא הפרוזאק פותחה על סמך התיאוריה?
  • אם התיאוריה של חוסר האיזון הכימי הופרכה, מדוע ה-FDA לא הורה להפסיק את השימוש בתרופות הפסיכיאטריות?
  • מה הקשר של ההסבר על הדופאמין לשתי תרופות (ציפרלקס וריספרדל) שמנגנון הפעולה שלהן אינו קשור בדופאמין? (אני מודה שזה לא הוגן. כדי לשאול את השאלה הזו יש צורך לערוך מחקר קטן של חמש דקות, אולם אי אפשר לערוך אותו במסגרת ראיון שמוקלט בטייק אחד. עם זאת, היה אפשר לבדוק את זה בתחקיר שקודם לראיון)
  • בקשר לספר של רוברט ויטאקר: האם הדברים שכתובים בו הם תורה מסיני או שיש גם ביקורת על הספר? (ספוילר: יש והרבה) מה הכשרה המדעית/רפואית של ויטאקר? (אין לו). האם ויטאקר נעזר בייעוץ מדעי/רפואי במהלך כתיבת הספר? (זה לא ברור)
  • מדוע לא היה עורך מדעי לתרגום העברי לספרו של ויטאקר? (אני שוב לא הוגן. כדי לשאול את השאלה הזו צריך לפתוח את הספר ולשים לב לכך שלא היה עורך מדעי)
  • כיצד גדי יודע מה יהיו המסקנות של ועדה שעדיין לא סיימה את עבודתה?
  • מה התקפות המדעית של המחקר של בלמקר, שהסתמך על מדגם בגודל 2? האם מחקר שנערך לפני 40 שנה הינו רלוונטי בהקשר של תרופות שנכנסו לשימוש רק במאה ה-21?
  • מה הסמכות המקצועית של בלמקר? הוא אמנם יו"ר האיגוד הפסיכיאטרי, אבל אין הדבר אומר כי הוא הפסיכיאטר הטוב ביותר בארץ. כמו כן, הסמכות המקצועית והחוקית להוציא הנחיות רפואיות מחייבו לכלל הרופאים נתונה בידי משרד הבריאות.

שאלות לקרן נויבך

יש לי גם כמה שאלות לקרן נויבך:

    • מדוע לא הבאת את התגובה של הרופאים המטפלים? קיבלתי מספר הערות על כך שיש עניין של שמירת פרטיות ולכן מחקתי את השאלה הזו.
  • מדוע לא העלית לשידור מומחה שיציג עמדה שונה מזו של גדי?
  • אמרת שאת מתכוונת להזמין את גדי לדיון נוסף שייערך במסגרת התכנית. האם את מתכוונת להזמין לדיון גם מישהו, רצוי מדען או רופא, שיציג את העמדה הנגדית? האם את תתני לו במה דומה לזו שנתת לגדי, שנשא מונולוג באורך 17 דקות?
  • כאשר מתחתי עלייך ביקורת בטוויטר, בחרת לא להתייחס לביקורת, בין ביתר בטענה שלא האזנתי לתכנית. אני מודה שהביקורת שלי שם הייתה תוקפנית- זה חלק מתרבות הטוויטר (אני מצרף קישורים לצילומי מסך). האם עתה, לאחר שהאזנתי לתוכנית, והעליתי ביקורת מפורטת, יש בכוונתך לענות לביקורת?

למה אתה מצפה, יוסי?

האמת, לכלום.

אני לא מאמין שיינקטו צעדים משפטיים נגד אדם שמנסה לשכנע את הציבור לדחות באופן גורף המלצות רפואיות למרות שאין לו כל הכשרה בתחום.

אני לא מאמין שאנשים כמו גדי ונויבך ורבים אחרים, המאמינים בתיאוריות הקונספירציה אודות חברות התרופות והממסד הרפואי, יפסיקו להאמין בהן בעקבות הדברים שנכתבו כאן.

אני לא סבור שקרן נויבך תקיים דיון ענייני בנושא בתכנית שלה, או תראיין אדם שימתח את הביקורת (הראויה) על ויטאקר ועל האג'נדה המסוכנת שהוא מקדם (מי יודע? הלוואי ואתבדה). אני לא סבור שנויבך תאתר את הרופאים של בנו של גדי ותבקש את תגובתם.

אני לא סבור שנויבך תעלה לשידור אדם שיספר איך חייו השתפרו בעקבות הטיפול הרפואי המסור במחלת הנפש שלו, שקיבל מאחד הרופאים המצויינים שיש במדינה שלנו (יש בארץ מאות אלפי חולים כאלה, אך לא מספיק רופאים, לצערנו).

אני לא חושב מקווה שקרן נויבך תתייחס ברצינות לביקורת שנמתחה עליה כאן, בוודאי לא אולי אפילו בשידור.

עדכון

קיבלתי סוג של תגובה מצוות התכנית שמתעלמת למעשה מהביקורת שנמתחה כאן על התנהלותה של נויבך (לא ברור אם קרן נויבך עומדת מאחורי התגובה הזו). אתם מוזמנים לקרוא את התגובה בקישור הזה.

"המחשב טעה. שלא תדעו עוד צער."

האם מקצוע הרדיולוג עומד להיכחד? האם אלגוריתמים של בינה מלאכותית, כגון רשתות נוירונים, יחליפו את הרדיולוגים, ובהמשך את שאר הרופאים? ואיך כל זה קשור למכוניות אוטונומיות?

כל השאלות האלה עלו בעקבות פוסט בבלוג  Toward Data Science שפרסם יו הארווי, רופא המתמחה ברדיולוגיה. הארווי טוען כי האלגוריתמים לא יחליפו את הרדיולוגים בעתיד הנראה לעין, אם בכלל. בדיון בקבוצת Machine & Deep learning Israel בפייסבוק הופיע הפניה לפוסט של לוק אוקדן-ריינר, גם הוא רופא המתמחה ברדיולוגיה.  הפוסט של אוקדן-ריינר מתייחס למאמר שפורסם ממש לפני כמה חודשים (נובמבר 2017), מאת רג'פורקאר ועמיתיו, שתיאר אלגוריתם לפענוח תצלומי רנטגן. בין העמיתים החתומים על המאמר זה נמנה אנדרו אנג, מה שמחייב התייחסות רצינית ביותר למאמר.

ברשימה זו אביא את דבריהם של הארווי ואוקדן-ריינר, ואתייחס למאמר של רג'פורקאר. כמו כן, אומר מה לדעתי צריכים להיות הקריטריונים לפיהם יהיה ניתן לקבוע כי אלגוריתם כזה יכול להחליף רופא מומחה. בנוסף אענה באופן מסודר לטענות (הטובות) שהועלו בקבוצת הפייסבוק. ((עם זאת, לא אתייחס לטענה "תן תמונה היום לעשרה רדיולוגים ותקבל 11 חוות דעת" ))

זוהי רשימה ארוכה במיוחד. חילקתי אותה למספר פרקים כשלכל פרק כותרת נפרדת, כדי שתוכלו לדלג על הפרקים שלא מעניינים אתכם.

הארווי: אינטליגנציה מלאכותית לא תחליף את הרדיולוגים

ד"ר הארווי, שכנראה לא היה מודע למאמר של ראג'פורקאר כשכתב את דבריו ((שכן הוא לא התייחס אליו)) משיב לטענתו של ג'פרי הינטון, מומחה לרשתות נוירונים, שאמר כי "ברור שצריך להפסיק להכשיר רדיולוגים". הוא מביא שלושה טיעונים כתשובה להינטון.

ראשית, טוען הארווי, כי בניגוד לאלגוריתם, הרדיולוג עושה יותר מאשר להביט בהדמיות ((כגון תצלומי רנטגן, סריקות CT ו-MRI, ועוד)). הארווי מתאר בפירוט את תפקידיו של הרדיולוג בתהליכי האבחון, שאמנם מתבססים על הדמיות, אך גם על אינפורמציה נוספת. הוא אמנם מסכים כי אלגוריתמים למיניהם עשויים לסייע ולשפר כמה תחנות בתהליך האבחוני, אך אינם יכולים להחליף את שיקול הדעת של הרופא.

הנימוק השני של הארווי הוא שבסופו של דבר מי שנושא באחריות הסופית הם בני אדם. הארווי מציג אנלוגיה בין התעופה ובין הרפואה (לא מוצלחת, לדעתי), אולם בסופו של דבר מדגיש את הנקודה המהותית: כשהרופא טועה, ורופאים אכן עלולים לטעות, הרופא אחראי. מי יהיה אחראי במקרה שבו האלגוריתם טעה? האם החברה שמכרה לבית החולים את המערכת שמפענחת תצלומי רנטגן תהיה מוכנה לקחת אחריות על מקרה שבו חולה ימות כי האלגוריתם טעה ולא זיהה כי הפציינט חולה בדלקת ריאות? אולי החולה שהסכים להפקיד את בריאותו בידיו של האלגוריתם (בהנחה שהייתה לו ברירה) אחראי? הרי אף אחד לא יעלה בדעתו שהרופא ששלח את החולה הבייתה כי האלגוריתם אמר שהוא בריא יהיה אחראי. או שכן? הארווי טוען שאף מערכת AI לא תהיה מדוייקת ב-100%. זה נכון, אבל לדעתי הטענה הזו מחלישה את הטיעון שלו. הרי גם רופאים טועים. עם זאת טוען הארווי כי רופאים עשויים לתפקד טוב יותר מאלגוריתם במקרי קצה, וכאן אני נוטה להסכים איתו.

הטענה השלישית של הארווי פחות רלוונטית לנושא של השוואת הביצועים של רופאים ואלגוריתמים רפואיים. הוא טוען כי כאשר יוכנסו מערכות AI למיניהן ויחליפו חלק מהשלבים בתהליך האבחוני, התהליך אכן יתייעל, אולם זה רק ייצור יותר ביקוש לשירותי רדיולוגיה, הביקוש לרדיולוגים יעלה ויגבר הצורך בהכשרת רדיולוגים נוספים.

ראג'פורקאר: האלגוריתם יכול לאבחן דלקת ריאות יותר טוב מהרופאים

הפוסט של אוקדן-ריינר מתייחס למאמר של רג'פורקאר. לכן אסקור בקצרה את הרעיון הכללי של מאמר, ואחר כך אביא את דבריו.

ראג'פורקאר ועמיתיו (שמכאן והלאה אכנה בשם "החוקרים") נעזרו בבסיס נתונים שהכיל יותר מ-100 אלף תצלומי רנטגן של החזה, של כ-38 אלף חולים ב-14 מחלות שונות, וביניהן דלקת ריאות. כל חולה סווג כחולה בדלקת ריאות, או כלא חולה בדלקת ריאות. הנתונים חולקו לפי כל כללי הטקס ((כלומר, באופן רנדומלי)) לשלושה קובצי נתונים נפרדים.

ראשית הם השתמשו בנתונים של כ-29 אלף חולים, ובסך הכל כ-99 אלף תצלומים לצורך "אימון המודל" ((שזה תיאור מרשים לתהליך של אמידת פרמטרים)), כ-3.5 תצלומים לחולה, בממוצע.

לאחר שאימנו את המודל, עברו לקובץ השני, בו היו כ-6400 צילומים של כ-1700 חולים (3.8 צילומים לחולה, בממוצע). בעזרת קובץ זה הם ביצעו תיקוף (ולידציה) של המודל.

לסיום, בחנו את ביצועי המודל על הקובץ השלישי, שהכיל 420 צילומים של 389 חולים (כ-1.08 תצלומי רנטגן לחולה, בממוצע). ((אעיר ואומר כי יש כאן בעיה מסויימת – נתוני הבדיקה שונים באופן מהותי מנתוני האימון והתיקוף.))

בתהליך הבחינה 420 התצלומים נבדקו על ידי ארבעה רדיולוגים מאוניברסיטת סטנפורד שסיווגו את החולים לאחת מ-14 המחלות שהיו בקובץ המקורי, וכמובן שגם האלגוריתם אמר את דברו. לרדיולוגים לא היה כל מידע רפואי על החולים מעבר לתצלומי הרנטגן, וכמו כן הם לא ידעו את השכיחויות של כל אחת מ-14 המחלות בקובץ המקורי. במילים אחרות, היה להם בדיוק את אותו המידע שהיה לאלגוריתם.

החוקרים חישבו לכל אחד מהרדיולוגים, וגם עבור האלגוריתם, מדד ביצוע מקובל בשם F1.  (( זהו הממוצע ההרמוני של הרגישות – recall ושל הדיוק – precision. ראו הגדרות בויקיפדיה ))  הם הראו כי ההפרש בין המדד שהתקבל לאלגוריתם גבוה ב-0.051 מהמדד הממוצע של ארבעת הרדיולוגים, וכי ההפרש הזה מובהק סטטיסטית (רווח הסמך להפרש ברמת סמך של 95% הוא 0.005-0.084).

החוקרים מודים כי למודל שלהם יש שלוש מגבלות, אך מציינים רק שתיים ((השלישית ירדה בכביסה? יותר סביר להניח כי אחרי מחשבה נוספת הם הגיעו למסקנה כי המגבלה הנוספת שחשבו עליה אינה באמת מגבלה)). ראשית, הנתונים כללו רק צילומי חזה פרונטליים, בעוד שבכ-15% מהמקרים של דלקת ריאות יש צורך גם בתצלומי צד כדי לבצע אבחנה מדוייקת. שלישית ((או בעצם שנית, לא משנה)) , החוקרים מודים כי העובדה שהמודל והחוקרים לא נעזרו בנתונים נוספים, כגון היסטוריה רפואית, פוגעת בביצועים של הרופאים (ושל המודל כמובן).

אוקדן-ריידר: אלגוריתמים הם מגניבים, אבל…

ד"ר אוקדן-ריינר אכן סבור כי נוכל להגיע למצב בו לאלגוריתם יהיו ביצועים שווים לביצועים של רופא אנושי ואף יעלו עליו. עם זאת, הוא טוען כי האלגוריתם של רג'פורקאר אינו מתאים לבצע אבחון רפואי. הסיבה לכך נעוצה, לדבריו, בנתונים של ואנג ועמיתיו, בהם רג'פורקאר ועמיתיו השתמשו לצורך פיתוח המודל.

אוקדן-ריינר טוען  כי יש בעייתיות בסיווגים של התצלומים בקובץ הנתונים המקורי של ואנג. לא ברור עד כמה הסיווגים מדוייקים, מה המשמעות הרפואית של הסיווגים, ועד כמה הסיווגים שימושיים לצרכים של ניתוח הצילומים. הוא מציין כי קובץ הנתונים והדוקומנטציה שלו עודכנו מספר פעמים מאז הפרסום המקורי. המאמר שמתאר את בניית הקובץ כמעט ואינו מתייחס להיבטים הקליניים של הנתונים, ומכיל רק פיסקה אחת שמתייחסת לרמת הדיוק של האבחונים שהותאמו לכל סט של תצלומים של חולה אחד.

עד כמה מדויקים הסיווגים? הם התקבלו בשיטות של text mining. הם לא התבוננו בתצלומים. אוקדן-ריינר טוען שרמת הדיוק של הסיווגים בקובץ אינה מספקת. הוא קבע זאת על ידי התבוננות בתצלומים. אמנם לא בכולם, אלא רק במדגם. הסיווגים שלו, כרדיולוג מומחה, היו שונים באופן מהותי מהסיווגים שבקובץ הנתונים.

השאלה השנייה היא מה המשמעות הרפואית/קלינית של הסיווגים. הנה הבעיה: הקביעה האם לחולה יש או אין דלקת ריאות היא קביעה קלינית. צילום רנטגן של החזה הוא נתון התומך באבחון (surrogate measure) ואינו מספיק לבדו לקבוע האם לחולה יש דלקת ריאות, או שה-"עננים" הנראים בצילום הם סימפטום לבעיה רפואית אחרת. המצב בו רואים "עננים" נקרא קונסולידציה. למעוניינים בהסבר רפואי מפורט יותר אני מפנה לפוסט אחר שלו. השורה התחתונה היא שהסיווג של ואנג ועמיתיו במקרה של "עננים" הוא סיווג של יש קונסולידציה או יש דלקת ריאות. אולם, מבחינה רדיולוגית קשה מאוד להחליט מתי קונסולידציה היא דלקת ריאות או משהו אחר. דלקת ריאות היא סוג של קונסולידציה. ההיפך לא נכון. כאשר ואנג ועמיתיו מציינים בנתונים שיש קונסולידציה, יכול להיות שלחולה יש דלקת ריאות. גם יכול להיות שלא. אוקן-ריינר טוען כי הנתונים שבדק מראים שהבעיה הזו קיימת.

וכאן עולה השאלה שלישית, והחשובה ביותר: אם הסיווגים של הנתונים בעייתיים, והמשמעות הקלינית שלהם מוטלת בספק, מה המודל באמת לומד? מה הערך של מודל המתבסס על נתונים בעייתיים?

מה הבעיה במאמר של רג'פורקאר?

אני סומך ב-100% על העבודה שעשו רג'פורקאר ועמיתיו. ההבנה שלי בתחום בו עוסקים היא בסיסית, ומבוססת בעיקר על לימוד עצמי. לצורך הדיון, אני מוכן להתעלם מהביקורת של אוקדן-ריידר על טיב הנתונים. זה לא משפיע על האיכות של המודל, שהרי התחרות בין ארבעת הרדיולוגים ובין המודל התבססה על אותם נתונים, והמודל ניצח. החוקרים מצאו כי במונחי F1, המודל היה יותר טוב מהרדיולוגים בשר ודם ב-0.051, וההבדל הזה מובהק סטטיסטית.

יש לי רק שאלה אחת: מה המשמעות הקלינית של ההבדל הזה? מה הערך המוסף הקליני של המודל? לצערי, אין לי מושג, ואני לא בטוח שלמישהו יש מושג. ברור שהשאלה הזו לא עלתה כלל על דעתם של החוקרים, כי אחרת הם היו לפחות מזכירים אותה  בדיון המסכם. המילה clinical הופיעה במאמר רק פעמיים, שתיהן בפרק המבוא. זהו אחד משבעת החטאים של הסטטיסטיקה: אי הבחנה בין תוצאה מובהקת לתוצאה משמעותית.

מה הבעיה המרכזית במודל של רג'פורקאר?

הבעיה המרכזית במודל של רג'פורקאר היא אבחון חלקי. כשהמודל קובע שלחולה אין דלקת ריאות, הוא לא אומר מה כן יש לו. כאן יש לרדיולוג יתרון ברור על המודל. יש לו ידע קליני שמאפשר לו לקבוע מה מצבו של החולה.

נכון שזה רק מודל, ואנחנו בתחילת הדרך. אין לי ספק שהמודל הזה הוא צעד בכיוון הנכון, אבל זהו צעד קטן מאוד. כדי נגיע למצב בו מודל כזה יהיה ראוי להישקל לשימוש, הוא יהיה צריך לסווג את תצלומי החזה ל-15 קטגוריות לפחות. מישהו יכול להעריך עד כמה אנחנו רחוקים ממודל כזה?

איך צריך להעריך את הביצועים של מודל רג'פורקאר? (וגם את ביצועי הרופא)

תסלחו לי, אבל אני לא מבין מה המשמעות האינטואיטיבית של מדד F1, ומה זה אומר אם הוא שווה ל-0.435. אני ביוסטטיסטיקאי. אחד מתפקידיי הוא לתקשר את התוצאות לצוות הקליני, כדי שהם יוכלו להעריך את המשמעות שלהם. כשהמטרה היא להעריך כלי דיאגנוסטי ((כמו בדיקת דם חדשה, או אלגוריתם מגניב שפיתחו החבר'ה בסטנפורד)) אני בהחלט מציג בפניהם מדדים כמו accuracy, specificity, ו-sensitivity, למרות שבמקרים רבים גם להם אין משמעות אינטואיטיבית ברורה ((יש מחקרים שמראים כי הרבה רופאים מפרשים אותם באופן לא נכון, אבל לא ניכנס לזה עכשיו)). אבל כל המדדים האלה לא מספיקים. אלוהים נמצא בפרטים הקטנים, ולכן צריך להתעמק בהם.

מה יקרה אם המודל של רג'פורקאר ישמש ככלי אבחון עיקרי או יחיד למחלת ריאות? בואו נניח לצורך הדיון, כי המודל משמש כשלב הראשון בתהליך האבחוני, ויסווג את החולים כסובלים מדלקת ריאות, או לא סובלים מדלקת ריאות אלא ממשהו אחר, שהמודל לא יודע לזהות, ובמקרה כזה התהליך האבחוני יימשך. נניח גם כי זהו גם התהליך הרדיולוגי.

כאשר מודל או רדיולוג צופים בצילום חזה, יש ארבע אפשרויות.

קודם כל, יש מצב שבו המודל או הרדיולוג מאבחנים כי לחולה יש דלקת ריאות, ולחולה אכן יש באמת דלקת ריאות. זה מצויין. נותנים לחולה את הטיפול המתאים ושלום על ישראל. כאן יש תועלת.

ייתכן כי לחולה אין דלקת ריאות, והמודל או הרדיולוג יקבעו כי לחולה אין דלקת ריאות. זה אכן טוב, אבל לא יותר מדי טוב. החדשות הטובות הן שלא נעשה משהו רע. הבעיה היא שלא התקדמנו. אדם נשלח לביצוע צילום חזה כי הוא חולה במשהו. אם אין לו דלקת ריאות אז יש לו משהו אחר. מה? ובכן, יש צורך בבדיקות נוספות. כאן אין תועלת וגם אין נזק.

נמשיך. יכול להיות כי לחולה יש דלקת ריאות והמודל או הרדיולוג יקבעו כי אין לו דלקת ריאות. הרופאים ימשיכו בתהליך האבחוני. הטיפול בחולה מתעכב. כאן יש קצת נזק. במקרה הטוב, בחינה נוספת של הרופאים תעלה כי בכל זאת יש לו דלקת ריאות, והנזק מינימלי. במקרה הפחות טוב, אם כי לדעתי יותר נדיר, החולה יאובחן כסובל מבעיה אחרת, יקבל טיפול רפואי בלתי מתאים, יסבול מתופעות הלוואי והנזקים הבריאותיים שנגרמים מעצם הטיפול (ותמיד יש תופעות לוואי ונזקים בריאותיים), והבעיה הרפואית האמיתית שלו לא תטופל. עלול להיגרם נזק משמעותי.

ועכשיו נגיע למצב הגרוע ביותר: לחולה אין דלקת ריאות והמודל או הרדיולוג אומרים כי יש לו דלקת ריאות. החולה יקבל טיפול רפואי לדלקת ריאות, (אנטיביוטיקה, למשל) שאינו מתאים למצבו הרפואי, וכאמור לעיל, יסבול מתופעות הלוואי והנזקים הבריאותיים שנגרמים מעצם הטיפול (השגוי). שוב, החולה לא יקבל טיפול מתאים לבעיה הרפואית האמיתית שלו, שאינה דלקת ריאות, אלא ככל הנראה משהו יותר חמור. כאן נגרם נזק משמעותי. עד כמה הנזק משמעותי? זה כבר תלוי בהרבה גורמים, כמו למשל המצב הבריאותי האמיתי של החולה, ומשך הזמן שיעבור עד שיבחינו כי הטיפול הנוכחי שהחולה מקבל אינו יעיל ויבצעו הערכה מחדש של האבחון.

השאלה הגדולה היא: האם המודל והרדיולוג טועים את אותן הטעויות?

מדדים כגון F1 לא אומרים לנו מה השכיחות של כל מצב מארבעת המדדים שתיארתי, ובוודאי לא מספקים לנו הערכה של סך הנזק הפוטנציאלי, סך התועלת הצפויה, והערכה האם התועלת עולה על הנזק, ואם כן, עד כמה. אפשר לבצע את ההערכה הזו. אפשר לכנס צוות רופאים שיבחנו אחד לאחד את 389 התיקים ששימשו לבחינת המודל. סטטיסטיקאי טוב יוכל להקל עליהם את העבודה באמצעות הצגה בהירה של הנתונים. בסופו של דבר, תהיה לנו הערכה לגבי הביצועים הקליניים של המודל.

באותו אופן, אפשר להעריך את הביצועים הקליניים של ארבעת הרדיולוגים שהתחרו במודל.

כעת, נוכל לקבוע האם למודל יש באמת יתרון על הרופאים בשר ודם, ואם כן, האם היתרון משמעותי מבחינה קלינית.

הדיון בקבוצת הפייסבוק ותשובות לשאלות

חברי הקבוצה לא הקלו עלי את החיים כששיתפתי עימם את הפוסט של ד"ר הארווי, וטוב שכך. אני ציינתי שאני מסכים עם הטענות שלו, ומטבע הדברים היו חברים בקבוצה שלא הסכימו איתנו. הם העלו טיעונים טובים ושאלו אותי שאלות קשות ומצויינות. עניתי כמיטב יכולתי במסגרת המגבלות הטכניות של ממשק הפייסבוק. אביא כאן את עיקרי הדיון, אתייחס לשאלות שנשאלתי בכל הרצינות, ואענה כמיטב יכולתי. אם פיספסתי שאלה של מישהו, אנא הפנו את תשומת ליבי לכך ואתקן. אשמח גם להמשיך בדיון.

כמו כן, אני ממליץ לכם לקרוא את הדיון עצמו שכן מעבר לדיון הספציפי בטיעונים של ד"ר הארווי ולשאלות שנשאלתי נאמרו בו עוד דברים מעניינים וחשובים.

  • ערן פז טוען שאלגוריתמים יכולים ללמוד גם פעילויות אחרות שמבצע הרופא כולל אינטראקציה בין אישית, וחוזה בבדיחות הדעת כי גם באינטראקציה בין אישית ביצועי האלגוריתמים יהיו טובים יותר מאלה של הרופא. בסופו של דבר, אומר ערן, הרפואה תהיה אוטומטית כמעט לחלוטין.

האמת היא שאין לי מה לענות לטענה הזו. מדובר בהערכה סובייקטיבית. אני לא שולל את האפשרות שזה אכן יקרה ((כלומר, אני סבור כי ההסתברות לכך גדולה מאפס)), אבל יש לדעתי סיכוי הרבה יותר סביר שזה לא יקרה. בכל מקרה, אני משוכנע שהדור שלנו לא יזכה לראות את הרפואה האוטומטית, אם אכן החזון יתגשם. ההערכה הסובייקטיבית שלי היא כי זה לא יקרה בעתיד הנראה לעין.

  • ערן מתייחס גם לטיעון השני של ד"ר הארווי, ואומר כי זה נושא יותר פילוסופי/רגולטורי מאשר טכנולוגי, ובכך הוא צודק כמובן. הוא ממשיך וטוען כי הבעיה שגם אם המערכת היה טובה יותר מבן אדם, לנו כבני אדם קשה יותר לקבל טעות ספציפית שנעשתה ע"י מחשב, גם אם בסה"כ הוא טועה הרבה פחות מבן אדם.

לי יש בעיה עם האמירה הזו. המחשב לא טועה, גם לא המודל (או יותר נכון, האלגוריתם). ((מכאן הגיעה הכותרת הצינית והפרובוקטיבית של הפוסט הזה)) מקור הטעויות הן בפיתוח האלגוריתם.

  • כאן מתערב בדיון ים פלג ושואל מה אם יש רעש בדאטה.

התשובה המיידית שלי הייתה כי יש הבדל בין מודל שמנסה לחזות התנהגות של לקוח ובין מודל שעוסק בחיי אדם. עם זאת, ים בהחלט צודק. רעש בנתונים הוא בעיה שצריך להתמודד איתה. הדרך להתמודד, לדעתי, היא לבדוק את הביצועים הקליניים של המודל, כפי שהסברתי למעלה, ולהשוות אותו לביצועים של הרופאים, במונחים של סך תועלת מול סך נזק.

  • ים ממשיך ושואל האם סך התועלת הוא לא ההפרש בין ביצועי האלגוריתם לביצועי האדם.

עניתי מהמותן שלא, אבל אני מודה שהתשובה שלי לא הייתה מדוייקת. ים צודק עקרונית, אבל לקביעה שלו אין משמעות אם לא מגדירים היטב איך מודדים את ביצועי האלגוריתם וביצועי האדם. מי שקרא עד כאן יודע כבר שהתשובה הרבה יותר מסובכת, ו-F1 הוא לא המדד האולטימטיבי.

  • ים המשיך והקשה עלי. הוא טען כי אם יש לך אדם שמאבחן נכון X אנשים ומציל את חייהם ויש אלגוריתם שמאבחן נכון X+Y אנשים נכון (מהנתון שהוא יותר מדויק) ומציל את חייהם. יש לך Y יותר אנשים חיים.

זה כמובן נכון, אבל זה רק צד אחד של המטבע. מספר התוצאות החיוביות האמיתיות, או יותר מדוייק – שיעורן. ה-True Positive Rate הוא בהחלט מדד חשוב, אבל כפי שעניתי בקצרה בקבוצת הפייסבוק והסברתי כאן בפירוט, יש עוד צד למטבע, עוד שלושה צדדים למעשה. הבעיות העיקריות, כפי שהסברתי למעלה, נובעות מהאבחונים הלא נכונים: תוצאות חיוביות שגויות (False Positive) ותוצאות שליליות שגויות (False Negative).

  • ערן חוזר ושואל: בוא נניח לרגע שמודל לא יהיה יותר מדוייק, אלא יהיה יותר קרוב ל(1,1) על הROC או לכל מדד אחר שתבחר מבן אדם, עכשיו הטיעונים בסדר? כמו כן הוא מציין כי בדיון גם לא לקחנו בחשבון את העלויות של הקמת חוות GPU לעומת העלות של הכשרת רדיולוג, זה גם משפיע על התועלת?

אני טוען שבמצבים רפואיים התועלות והנזקים הם לא 0-1. נכון שאולי ב-ROC המודל יעשה טוב יותר, עם זה אני לא מתווכח. אני טוען שלטעויות שונות יש משמעויות שונות, וכמו כן, גם במצבים של חוסר טעות, TP ו-TN, עדיין יש משמעויות שונות. המצב נעשה הרבה יותר חמור אם עוברים מדלקת ריאות לסרטן, למשל. מי ייקח אחריות על חולה סרטן שלא יאובחן בזמן בגלל שהמודל היה רועש מדי?

  • אמיר רוזנפלד שואל: יהי המדד האולטימטיבי כפי שאתה מגדיר אותו. נניח שתחת מדד זה מכונה מתעלה על אדם. במי תבחר?

תשובתי היא שכשמדובר ברפואה אין דבר כזה "מדד אולטימטיבי". צריך לבצע הערכה כוללת של התועלת מול הנזק כי הנזקים עלולים להיות שונים מחולה לחולה. יש משמעויות לטעויות, והן שונות מחולה לחולה. חזרתי והבאתי את הדוגמה של חולה שמאובחן בטעות כחולה סרטן. הוא יקבל כימותרפיה שהוא לא צריך ((או אפילו יעבור ניתוח מיותר)). מילא התופעות לוואי של בחילות ונשירת שיער וכאלה – כימותרפיה גם גורמת נזקים בריאותיים ממשייים.

עם זאת, אני בהחלט מסכים שאם למודל יש יתרון קליני משמעותי על פני הרופאים בשר ודם, יש להעדיף את המודל, לפחות ברמה היישומית. עדיין יש לפתור את עניין האחריות.

  • ערן טוען כי אני סתם מתחמק מתשובה, ושואל: הנה, מודל, שעבור רמת הFP והFN של רופא נותן יותר TP מרופא אבל עדין טועה, מחליף את הרופא?

אני מודה שלא הבנתי את השאלה, אבל סבור שהבהרתי לחלוטין איך יש להעריך את הביצועים של המודל ולהשוות אותם לביצועים של הרופא.

סיכום

אני חושב שכולם מסכימים כי עדיין לא הגיע היום בו אלגוריתמים יכולים להחליף רופאים, אלא אם מדובר בתהליכים ממש פשוטים. למשל, אני סבור שאפשר להכניס לשימוש אלגוריתם שיקבל בתור קלט נתונים על חולה (כמו בדיקות דם, מדדי דופק ולחץ דם, וכולי) ויוציא התרעה לרופא המשפחה אם הנתונים בעייתיים. ייתכן ואלגוריתמים מסוג זה כבר קיימים ופועלים.

במקרים יותר ממוקדים, כמו אלגוריתם הפיענוח של רג'פורקאר הדברים הרבה יותר מסובכים. יש הסכמה כי הנתונים ששימשו ל-"אימון" המודל היו בעייתיים. אלגוריתם זה אמנם הראה יתרון מובהק סטטיסטית בביצועיו על פי מדד F1 לעומת ארבעה רופאים בשר ודם, אבל לא ברורה המשמעת הקלינית של יתרון זה (בלשון המעטה). כמו כן, האלגוריתם מוגבל בכך שבמקרה והוא מזהה כי לחולה אין דלקת ריאות, הוא לא מספק תובנה לגבי הבעיה האמיתית שיש לחולה. בסופו של דבר, האלגוריתם הזה הוא אמנם צעד בכיוון הנכון, אבל צעד זעיר מאוד, כמעט זניח.

יתר על כן, המקרה הרפואי של דלקת ריאות הוא קל יחסית מבחינה רפואית. מחלות אחרות, כגון סרטנים ומחלות לב, למשל, צופנות בחובן אתגרים הרבה יותר גדולים.

עם זאת, יש דרך טובה ויעילה לבחון האם הביצועים של אלגוריתמים כאלה עולים על הביצועים של רופא אנושי, ובכמה.

אבל הבעיה העיקרית אינה טכנולוגית אלא אתית.

מי אחראי במקרה שהאלגוריתם טועה? מספר הדעות יהיה כנראה כמספר המשיבים.

בואו נראה מה יכול לקרות בארצות הברית, מכיוון שסביר להניח כי היא תהיה בין המדינות הראשונות בהן יוכנסו אלגוריתמים כאלה לשימוש (בהנחה שבכלל יוכנסו). במדינה בה תביעות על רשלנות רפואית ((ובארצות הברית גם טעות בתום לב נחשבת כרשלנות)) נפוצות מאוד, הנפגעים לא יהססו לתבוע את החברה שמיישמת את האלגוריתמים, את בעלי הפטנט, ומי יודע את מי עוד. האם חברות הביטוח יסכימו לבטח את החברה שמיישמת את האלגוריתם? איש אינו יודע.

אני רוצה להרחיב את הדיון בשאלת האחריות, כי זו לדעתי השאלה המהותית, וממנה נגזרה הכותרת הפרובוקטיבית של הרשימה הזו.

בואו ניקח, כדוגמה פשוטה ביותר, אלגוריתם שצריך לזהות האם בתמונה שמוצגת לו יש חתול. לאף אחד לא איכפת באמת אם האלגוריתם יטען שתמונה של כלב מראה לדעתו חתול.

מה עם אלגוריתם שמחליט אם כדאי להציע לאדם שנכנס לאתר אינטרנט עיסקת קניה מסויימת? יכול להיות שאנשים שהעיסקה תוצע להם לא יבצעו את הקניה, וגם יכול להיות שיפוספסו קונים שהיו מבצעים את הרכישה אם העיסקה הייתה מוצעת. זה חבל, אבל בסך הכל מדובר פה בכסף.

אם מדובר בהרבה כסף, הבעיות יכולות להיות גדולות. בנקים שמנסים לזהות איזה לקוח עלול לא להחזיר את ההלוואה שיקבל עלולים לעמוד בפני בעיה אם האלגוריתם לא מספיק טוב. עם זאת, אני יודע שאלגוריתמים כאלה פועלים, וכנראה שיקול הדעת שלהם יותר טוב משיקול הדעת של הפקיד.

בואו נמשיך. מה עם אלגוריתם שמחליט על ביצוע עיסקות קניה ומכירה בבורסה? בסרט הזה כבר היינו בשנת 2008. אני מקווה שהאלגוריתמים האלה השתפרו מאז, כי לא מתאים לי עוד משבר כלכלי עולמי.

מה בקשר למכונית אוטונומית? כאן כבר מתחילים לדבר על חיי אדם. מישהו יודע כמה טעויות שליליות שגויות (False Negative) יש לאלגוריתם של מובילאיי? וכמה מהטעויות האלה מובילות לתאונות? וכמה מהתאונות האלה כוללות פגיעות בגוף? אני לא יודע. אני לא בטוח שיש מי שיודע.

נכון, מכוניות אוטונומיות כבר נוסעות בכל מיני מקומות בארצות הברית, במסגרת ניסויים לבחינת האלגוריתמים. מי יעריך את מאזן התועלת מול הנזק של האלגוריתמים שמפעילים את המכוניות האלה וישווה אותם לביצועים של נהג אנושי? ואיך? האם יהיה רגולטור, כמו שיש את ה-FDA בתחום הרפואי? האם חברות הביטוח יסכימו לבטח את המכוניות והאלה והנוסעים בהם? ואם כן, מה תהיה עלות הביטוח?

מה בקשר למטוס אוטונומי? מי מוכן לעלות על טיסה טרנס אטלנטית במטוס ללא טייס?

אני יודע שאי אפשר לעצור את הקידמה, ובניגוד למה שעלולים לחשוב אני בעד הקידמה. אני בהחלט חושב שעתיד בו אלגוריתם יוכל להחליף רופא ולבצע את מלאכתו באופן טוב יותר מהרופא האנושי, וכולנו ניסע במכוניות אוטונומיות, הוא עתיד טוב. אבל כדי להגיע לעתיד הזה עלינו להתגבר על הרבה מאוד בעיות, והבעיות הטכנולוגיות הרבה יותר פשוטות מהבעיות האתיות. אני גם חושב שהעתיד הזה רחוק מאוד מאיתנו ואנו לא נזכה לראות אותו, וגם לא בנינו ובני בנינו.