חיפוש באתר

קישורים

עמודים

קטגוריות

ארכיב עבור 'ניהול סיכונים'

איך נדע האם המכוניות האוטונומיות בטיחותיות

התאונה הקטלנית של אובר

העולם גועש בימים האחרונים בעקבות תאונת הדרכים הקטלנית בה היה מעורב רכב אוטונומי של חברת אובר. התאונה הציתה ויכוחים שונים והעלתה נושאים ישנים לדיון מחודש. מתנהל למשל ויכוח בשאלה מי אשם בתאונה. התשובה, כמובן, תלויה במי שעונה לשאלה (אני לא מביע את דעתי בנושא הזה, ומבקש מכל מי שרוצה להביע את דעתו, שלא יעשה את זה בתגובות לפוסט הזה. זה לא המקום). הרשת התמלאה בשמועות על כך שנושא בטיחות המכוניות האוטונומיות אינו בעדיפות עליונה אצל חברת אובר. כמו כן ניצתו מחדש דיונים בתחום האתיקה שאמורה להדריך (אולי) את מתכנני המכוניות האוטונומיות. כך למשל, דפנה מאור, במאמר בעיתון דה-מרקר, שואלת שאלות חשובות במאמר עם הכותרת הפרובוקטיבית "האם תסכימו להידרס על ידי רובוט?" אמיתי זיו ענה לה שאם יידרס, אז הוא מעדיף להידרס על ידי מכונית אוטונומית (לא ברור לי למה זה משנה לו). אתם מוזמנים לקרוא את המאמרים האלה ומאמרים אחרים ולנהל דיונים ביניכם (אם כי, אני שוב מבקש להימנע מלנהל את הדיון הזה כאן בבלוג).

עוד כתבה מעניינת בדה-מרקר נשאה את הכותרת "אחת החולשות העיקריות של מכוניות אוטונומיות היא זיהוי הולכי רגל". הכותרת היא ציטוט של דברים שאמר אחד המרואיינים בכתבה, דני עצמון (שהינו בעל חברה המפתחת סימולטורים שנועדו לאמן ולשפר את היכולת של מערכות אוטונומיות ברכבים).

עצמון אמר דברים מעניינים נוספים. אני מצטט:

מכון ראנד האמריקאי ביצע בדיקה סטטיסטית שבאמצעותה קבע "רף נהיגה אנושי". "הם לקחו את על ההרוגים בתאונות בארה"ב ב-2015 וחילקו במספר המיילים שנסעו – וגילו שיש 1.1 הרוגים על כל 100 מיליון מיילים של נסיעה. זה הוגדר הרף האנושי – הביצועים של האדם די טובים… המכון חישב ומצא שכדי שמערכות אוטונומיות יגיעו לאותם ביצועים כמו של בני אדם בביטחון של 95%, עליהן לנסוע 11 מיליארד מייל. "בשנה שעברה כל החברות שעוסקות בתחום הזה בארה"ב נסעו ביחד בערך 4 מיליון מייל.

אז בואו נדבר על הסטטיסטיקה.

הסטטיסטיקה של תאונות הדרכים

אני חושב שכולכם תסכימו שככל שנוסעים יותר, יש יותר אינפורמציה על הסיכון לתאונות. אני למשל, לא הייתי מעורב באף תאונת דרכים עם נפגעים בשנתיים האחרונות. מצד שני, אני בקושי נוהג שתי נסיעות קצרות בעיר בכל שבוע[1] שמסתכמות אולי ב-15 קילומטר, שהם קצת פחות מ-800 קילומטר בשנה. ככל שנוסעים יותר, הסיכון להיות מעורב בתאונת דרכים גדל. נכון שהסיכון שונה מנהג לנהג, יש נהגים יותר זהירים ויש כאלה שפחות, אבל העיקרון ברור. לכן יש הגיון בחישוב של מכון ראנד שלוקח את מספר ההרוגים ביחס לכמות הנסועה. מייד אסביר את העקרונות של החישוב, ואציג כמה חישובים משל עצמי.

לפני שאתחיל בחישובים, אציג כמה נתונים שפירסמה הלשכה המרכזית לסטטיסטיקה. בשנת 2015 היו בישראל 12122 תאונות עם נפגעים, מתוכן 292 תאונות קטלניות, 1558 תאונות עם פצועים קשה, ו-10272 תאונות עם נפגעים בדרגת פציעה בינונית או קלה. בתאונות האלה נהרגו 322 איש, 1796 איש נפצעו קשה, ו-20046 איש נפצעו בינוני או קל. ומכאן שהיו תאונות קטלניות בהן היה יותר מהרוג אחד, והוא הדין לגבי הנפגעים האחרים. לכן אתייחס בהמשך למספר התאונות ולא למספר הנפגעים.

האם המספרים האלה גבוהים או נמוכים? תלוי איך מסתכלים על הנתונים. אל תטעו. לדעתי כל תאונה היא טרגדיה. עם זאת, לפעמים צריך להסתכל על המספרים עצמם, וזאת כדי שיהיה אפשר לקבל החלטות מושכלות. כמו שדני עצמון הסביר, צריך להסתכל גם על הנסועה – שהיא סך כל הנסיעות שנסעו כלי הרכב במדינה.[2]. לפי נתוני הלשכה המרכזית לסטטיסטיקה, הנסועה בישראל בשנת 2015 הייתה 54,820 מיליון ק"מ, כלומר כמעט 55 מיליארד ק"מ. מכאן אפשר לחשב כי על כל מיליון ק"מ של נסועה היו בשנת 2015 היו בישראל 0.00533 תאונות קטלניות. זה נראה כמו מספר יותר קטן, אבל זה רק עניין של קנה מידה. באותו אופן ניתן לחשב כי בישראל היו 0.02842 תאונות דרכים עם פצועים קשה (אך ללא הרוגים) לכל מיליון ק"מ, ו-0.18737 תאונות שבהן היו פצועים בינוני או קל (אך לא פצועים קשה ולא הרוגים). בסך הכל היו בישראל 0.22295 תאונות עם נפגעים לכל מיליון ק"מ של נסועה.

הסטטיסטיקאים מכנים את המספרים המתארים את מספר התאונות למיליון ק"מ בשם "קצב התאונות" (או rate באנגלית). זה מדד כללי המתאר את מספר האירועים ליחידת מדידה (בדרך כלל זמן, אך כפי שראיתם, יש גם יחידות מדידה אחרות). דוגמא נוספת[3] לנתונים כאלה יכולה להיות המספר הממוצע של גידולים ממאירים חדשים המתגלים במשך חודש. לפני נתוני הלמ"ס, בשנת 2013 היו בישראל בסך הכל 13546 גברים אצלם התגלו גידולים ממאירים חדשים. זה אומר שקצב הופעת הגידולים החדשים היה בקירוב 1128.8 בחודש.

איך להעריך את רמת הבטיחות של המכוניות האוטונומיות?

עכשיו, כאשר הבנו את הנתונים האלה ומשמעותם, אנחנו יודעים איך להעריך את הבטיחות של המכוניות האוטונומיות. צריך לחשב מהו קצב התאונות שלהן, ולהשוות אותו לקצב של המכוניות ה-"רגילות".

כאן אנחנו נתקלים בבעיה הראשונה: אין נתונים. אנחנו יודעים כי הנסועה הנוכחית של המכוניות האוטונומיות היא בערך 4 מיליון מייל, אבל לא יודעים כמה תאונות היו. לכן אנחנו גם לא יודעים האם מספר ההרוגים עד כה (1) הוא גבוה או לא. מה שאנחנו כן יכולים להגיד במידה רבה של בטחון הוא שגודל המדגם קטן מדי. לפי גודל המדגם הנוכחי האומדן שלנו לקצב התאונות הקטלניות של המכוניות האוטונומיות הוא 0.15385 למיליון ק"מ, כמעט פי 29 מהנתון המקביל של ישראל בשנת 2015. עם זאת, יש לסייג את הדברים ולומר כי האומדן הזה מאוד לא מדוייק, שוב, בגלל גודל המדגם הקטן.  רווח הסמך לקצב, ברמת סמך של 95%, הוא 0.0053 עד 0.5535. זה אומר שייתכן מאוד שקצב התאונות הקטלניות של המכוניות האוטונומיות דומה לקצב של ישראל. שוב, ככל שיצטברו יותר נתונים, האומדן יהיה מדוייק יותר, ובהחלט יכול להיות שב-4 מיליון המייל הבאים לא תהיה אף תאונה קטלנית, ואז אומדן הקצב יקטן ב-50%.

רבים טוענים כי המכוניות האוטונומיות הינן בטוחות יותר ממכוניות רגילות, ואני נוטה להסכים איתם באופן חלקי (אם כי, כמו תמיד, אלוהים מצוי בפרטים הקטנים – ראו שוב את מאמרה של דפנה מאור). אך טענות צריך לגבות בנתונים, וכאמור, אין לנו מספיק נתונים. לכן השאלה שצריך לשאול היא: כמה נתונים צריך כדי שנוכל לומר משהו אינטליגנטי ומגובה בנתונים על הבטיחות של המכוניות האוטונומיות?

כפי שכבר הבנתם, הסטטיסטיקאים של מכון ראנד כבר ערכו חישוב כזה. אני מודה שאני לא כל כך מבין את הנתון של 11 מיליארד מייל שדני עצמון ציטט, ואני מניח שחלק מהדברים "אבדו בתרגום". בכל מקרה, אני מתכוון להציג כאן את העיקרון שלפיו עורכים את החישובים, ולהציג את התוצאות של החישובים שלי.

מודל להתרחשות תאונות דרכים

קוראיי הוותיקים כבר יודעים: כדי לבצע את החישובים הסטטיסטיים יש צורך במודל הסתברותי. להזכירכם, מודל הוא תיאור של המציאות, שייתכן שאינו מדוייק לגמרי, אבל הוא מספיק טוב כדי לתת תשובה אמינה לשאלה שלנו. כל מודל מתבסס על הנחות. הנחות שונות יובילו למודלים שונים ולתשובות שונות.

המודל שאציג לקצב תאונות הדרכים מתבסס על הנחה יחידה: הפיזור של התאונות לאורך השנה הוא אחיד. במילים אחרות, אין תקופות בשנה שיותר מועדות לתאונות מאשר תקופות אחרות. אפשר כמובן להניח הנחות אחרות, שיגדירו מודלים יותר מסובכים. אני אגביל את עצמי למודל הפשוט, כיוון שהמטרה העיקרית שלי היא להסביר את העקרונות הסטטיסטיים. עם זאת, אני לא חושב שמודל מסובך יותר ייתן תוצאות שונות באופן משמעותי, וזאת לאור הניסיון שצברתי במשך השנים בניתוח נתונים דומים.

מההנחה שלי אפשר, עם קצת מתמטיקה, להסיק כי מספר התאונות בשנה הוא משתנה מקרי פואסוני. שוב קוראיי הוותיקים אולי זוכרים שהמודל הזה וההתפלגות הנובעת ממנו הוזכרו כבר בבלוג. זה המודל בו השתמשו הבריטים כדי לבדוק מה הייתה רמת הדיוק של הטילים שהמטירו עליהם הגרמנים בזמן הבליץ על לונדון. למשתנה מקרי שהתפלגותו היא התפלגות פואסון יש פרמטר אחד בלבד – פרמטר הקצב. בישראל של 2015 קצב התאונות הקטלניות היה כזכור 0.00533 למיליון קילומטר. השאלה המעניינת היא: כמה מיליוני ק"מ צריכות המכוניות האוטונומיות לנסוע כדי לנוכל לומר על סמך הנתונים כי קצב התאונות שלהם נמוך מקצב התאונות הקטלניות של ישראל באופן משמעותי?  עם קצת מתמטיקה לא מסובכת במיוחד אפשר לפתח נוסחה שנותנת את התשובה. הנה היא, לא להיבהל, תיכף אסביר הכל, ומי שלא מעוניין בהסברים יכול לדלג הלאה, אל המספרים שחישבתי.

חישוב גודל המדגם בהתפלגות פואסון

 

 

 

 

ההסברים: למבדה-אפס (האות שדומה לאות העברית גימל) מייצגת את קצב הבסיס שאליו אנחנו  רוצים להשוות את הקצב מהמדגם. בדוגמא שלנו קצב הבסיס הוא הקצב של תאונות הדרכים הקטלניות בישראל, כלומר 0.00533 תאונות למיליון קילומטר. האות דלתא (שדומה לאות למד בעברית) מייצגת את ההבדל המשמעותי בין קצב התאונות במדגם (כלומר קצב התאונות של המכוניות האוטונומיות) ובין קצב הבסיס. לדוגמא, אם אנחנו חושבים שהבדל משמעותי יהיה ירידה של 10% בקצב התאונות, הרי שאנו מצפים שקצב התאונות של המכוניות האוטונומיות יהיה 0.004797 (90% מ-0.00533), ולכן ההפרש דלתא שווה ל–.000533. שימו לב שההפרש הוא שלילי. אלפא וביתא הן רמת המובהקות והעוצמה, אני אשתמש בערכים של 5% -90% בהתאמה, והאות Z מסמלת ערכים של ההתפלגות הנורמלית, והם שווים ל-1.645 עבור רמת המובהקות ו- -1.282עבור העוצמה. התוצאה שמתקבלת על ידי החישוב, n, היא גודל המדגם הדרוש, שהוא במקרה שלנו, מספר מיליוני הקילומטרים שהמכוניות האוטונומיות צריכות לנסוע.

מה גודל המדגם הדרוש להערכת הבטיחות?

אם נציב את כל המספרים בנוסחה נקבל כי כדי שנוכל לזהות ירידה מובהקת של 10% בקצב התאונות הקטלניות, נצטרך לראות מה קורה אחרי שהמכוניות האוטונומיות ייסעו 9215 מיליון ק"מ, שהם בערך 6 מיליארד מייל. זה אמנם מספר קטן יותר מהמספר שצוטט בכתבה[4], אבל זה עדיין מספר מטורף. (אני נותן כאן קישור לקובץ אקסל שבעזרתו ביצעתי את החישובים. אתם מוזמנים לבדוק עוד תרחישים).

אחת הסיבות שקיבלנו מספר כל כך מטורף היא שהגדרנו ירידה מאוד קטנה כמשמעותית – רק 10%. יש הטוענים כי כשהמכוניות האוטונומיות ייכנסו לשימוש מסחרי קצב התאונות (או מספר התאונות, שזה בעצם אותו דבר), ירד בצורה הרבה יותר משמעותית. אם זה נכון, גודל המדגם יהיה הרבה יותר קטן. על פי אותה הנוסחה, כדי לזהות באופן מובהק ירידה של 50% בקצב תאונות הדרכים הקטלניות, יש צורך בגודל מדגם של כ-471 מיליון מייל, וכדי לזהות ירידה משמעותית של 90% במספר תאונות הדרכים הקטלניות באופן מובהק יש צורך בגודל מדגם של קצת פחות מ-220 מיליון מייל.

החדשות הטובות הן שכדי לזהות ירידה מובהקת של 90% בקצב הכולל של תאונות דרכים עם נפגעים יש צורך בגודל מדגם של קצת יותר מ-5 מיליון מייל, ואנחנו כמעט שם. מצד שני, יש המון חברות שעורכות המון ניסויים, ולא סביר שיוקם מאגר נתונים בו יקובצו הנתונים של כל החברות, שהרי כל חברה רוצה לשמור את הנתונים שלה בסוד מהמתחרות. אז אנחנו לא באמת מתקרבים ליעד של 5 מיליון מייל.

עוד חדשות טובות: הנסועה השנתית בארצות הברית היא קצת יותר מ-3 טריליון מייל, כלומר 3000 מיליארד מייל (או 3 מיליון מיליוני מייל), כך שאם באורח פלא כל המכוניות בארצות הברית יהפכו להיות אוטונומיות, נדע את כל התשובות תוך יום בערך. זה לא יקרה כמובן. אפשר להמשיך ללהטט בחישובים שייקחו בחשבון את קצב חדירת המכוניות האוטונומיות לשימוש, אבל אני אעצור כאן.

מתי נדע האם המכוניות האוטונומיות בטיחותיות?

המסקנה שלי היא שייתכן שנדע יחסית בקרוב (אם תהיה התערבות רגולטורית) האם המעבר למכוניות אוטונומיות יביא לירידה מאוד גדולה (90%) במספר תאונות הדרכים עם נפגעים. אם הירידה קטנה יותר, נצטרך לחכות זמן רב יותר. בקשר לתאונות דרכים יותר חמורות, כאלה עם פצועים קשה או תאונות קטלניות, יעבור עוד המון זמן עד שנדע משהו. מה שיקרה בפועל הוא שמכוניות אוטונומיות ייכנסו לשימוש בלי שיהיה לנו מושג ירוק על רמת הבטיחות שלהן.


הערות
  1. פעם אחת לקניות, ופעם אחת כדי להסיע את הילד לחוג []
  2. לדוגמא, אם 10 מכוניות נסעו מתל אביב לחיפה, מרחק של 100 ק"מ, אז הנסועה הכוללת שלהן הייתה 10×100 כלומר 1000 ק"מ []
  3. תסלחו על על הדוגמאות המדכאות []
  4. אני לא יודע מה היו ההנחות שלהם ומה הם חישבו בדיוק []

"המחשב טעה. שלא תדעו עוד צער."

האם מקצוע הרדיולוג עומד להיכחד? האם אלגוריתמים של בינה מלאכותית, כגון רשתות נוירונים, יחליפו את הרדיולוגים, ובהמשך את שאר הרופאים? ואיך כל זה קשור למכוניות אוטונומיות?

כל השאלות האלה עלו בעקבות פוסט בבלוג  Toward Data Science שפרסם יו הארווי, רופא המתמחה ברדיולוגיה. הארווי טוען כי האלגוריתמים לא יחליפו את הרדיולוגים בעתיד הנראה לעין, אם בכלל. בדיון בקבוצת Machine & Deep learning Israel בפייסבוק הופיע הפניה לפוסט של לוק אוקדן-ריינר, גם הוא רופא המתמחה ברדיולוגיה.  הפוסט של אוקדן-ריינר מתייחס למאמר שפורסם ממש לפני כמה חודשים (נובמבר 2017), מאת רג'פורקאר ועמיתיו, שתיאר אלגוריתם לפענוח תצלומי רנטגן. בין העמיתים החתומים על המאמר זה נמנה אנדרו אנג, מה שמחייב התייחסות רצינית ביותר למאמר.

ברשימה זו אביא את דבריהם של הארווי ואוקדן-ריינר, ואתייחס למאמר של רג'פורקאר. כמו כן, אומר מה לדעתי צריכים להיות הקריטריונים לפיהם יהיה ניתן לקבוע כי אלגוריתם כזה יכול להחליף רופא מומחה. בנוסף אענה באופן מסודר לטענות (הטובות) שהועלו בקבוצת הפייסבוק.[1]

זוהי רשימה ארוכה במיוחד. חילקתי אותה למספר פרקים כשלכל פרק כותרת נפרדת, כדי שתוכלו לדלג על הפרקים שלא מעניינים אתכם.

הארווי: אינטליגנציה מלאכותית לא תחליף את הרדיולוגים

ד"ר הארווי, שכנראה לא היה מודע למאמר של ראג'פורקאר כשכתב את דבריו[2] משיב לטענתו של ג'פרי הינטון, מומחה לרשתות נוירונים, שאמר כי "ברור שצריך להפסיק להכשיר רדיולוגים". הוא מביא שלושה טיעונים כתשובה להינטון.

ראשית, טוען הארווי, כי בניגוד לאלגוריתם, הרדיולוג עושה יותר מאשר להביט בהדמיות[3]. הארווי מתאר בפירוט את תפקידיו של הרדיולוג בתהליכי האבחון, שאמנם מתבססים על הדמיות, אך גם על אינפורמציה נוספת. הוא אמנם מסכים כי אלגוריתמים למיניהם עשויים לסייע ולשפר כמה תחנות בתהליך האבחוני, אך אינם יכולים להחליף את שיקול הדעת של הרופא.

הנימוק השני של הארווי הוא שבסופו של דבר מי שנושא באחריות הסופית הם בני אדם. הארווי מציג אנלוגיה בין התעופה ובין הרפואה (לא מוצלחת, לדעתי), אולם בסופו של דבר מדגיש את הנקודה המהותית: כשהרופא טועה, ורופאים אכן עלולים לטעות, הרופא אחראי. מי יהיה אחראי במקרה שבו האלגוריתם טעה? האם החברה שמכרה לבית החולים את המערכת שמפענחת תצלומי רנטגן תהיה מוכנה לקחת אחריות על מקרה שבו חולה ימות כי האלגוריתם טעה ולא זיהה כי הפציינט חולה בדלקת ריאות? אולי החולה שהסכים להפקיד את בריאותו בידיו של האלגוריתם (בהנחה שהייתה לו ברירה) אחראי? הרי אף אחד לא יעלה בדעתו שהרופא ששלח את החולה הבייתה כי האלגוריתם אמר שהוא בריא יהיה אחראי. או שכן? הארווי טוען שאף מערכת AI לא תהיה מדוייקת ב-100%. זה נכון, אבל לדעתי הטענה הזו מחלישה את הטיעון שלו. הרי גם רופאים טועים. עם זאת טוען הארווי כי רופאים עשויים לתפקד טוב יותר מאלגוריתם במקרי קצה, וכאן אני נוטה להסכים איתו.

הטענה השלישית של הארווי פחות רלוונטית לנושא של השוואת הביצועים של רופאים ואלגוריתמים רפואיים. הוא טוען כי כאשר יוכנסו מערכות AI למיניהן ויחליפו חלק מהשלבים בתהליך האבחוני, התהליך אכן יתייעל, אולם זה רק ייצור יותר ביקוש לשירותי רדיולוגיה, הביקוש לרדיולוגים יעלה ויגבר הצורך בהכשרת רדיולוגים נוספים.

ראג'פורקאר: האלגוריתם יכול לאבחן דלקת ריאות יותר טוב מהרופאים

הפוסט של אוקדן-ריינר מתייחס למאמר של רג'פורקאר. לכן אסקור בקצרה את הרעיון הכללי של מאמר, ואחר כך אביא את דבריו.

ראג'פורקאר ועמיתיו (שמכאן והלאה אכנה בשם "החוקרים") נעזרו בבסיס נתונים שהכיל יותר מ-100 אלף תצלומי רנטגן של החזה, של כ-38 אלף חולים ב-14 מחלות שונות, וביניהן דלקת ריאות. כל חולה סווג כחולה בדלקת ריאות, או כלא חולה בדלקת ריאות. הנתונים חולקו לפי כל כללי הטקס[4] לשלושה קובצי נתונים נפרדים.

ראשית הם השתמשו בנתונים של כ-29 אלף חולים, ובסך הכל כ-99 אלף תצלומים לצורך "אימון המודל"[5], כ-3.5 תצלומים לחולה, בממוצע.

לאחר שאימנו את המודל, עברו לקובץ השני, בו היו כ-6400 צילומים של כ-1700 חולים (3.8 צילומים לחולה, בממוצע). בעזרת קובץ זה הם ביצעו תיקוף (ולידציה) של המודל.

לסיום, בחנו את ביצועי המודל על הקובץ השלישי, שהכיל 420 צילומים של 389 חולים (כ-1.08 תצלומי רנטגן לחולה, בממוצע).[6]

בתהליך הבחינה 420 התצלומים נבדקו על ידי ארבעה רדיולוגים מאוניברסיטת סטנפורד שסיווגו את החולים לאחת מ-14 המחלות שהיו בקובץ המקורי, וכמובן שגם האלגוריתם אמר את דברו. לרדיולוגים לא היה כל מידע רפואי על החולים מעבר לתצלומי הרנטגן, וכמו כן הם לא ידעו את השכיחויות של כל אחת מ-14 המחלות בקובץ המקורי. במילים אחרות, היה להם בדיוק את אותו המידע שהיה לאלגוריתם.

החוקרים חישבו לכל אחד מהרדיולוגים, וגם עבור האלגוריתם, מדד ביצוע מקובל בשם F1. [7]  הם הראו כי ההפרש בין המדד שהתקבל לאלגוריתם גבוה ב-0.051 מהמדד הממוצע של ארבעת הרדיולוגים, וכי ההפרש הזה מובהק סטטיסטית (רווח הסמך להפרש ברמת סמך של 95% הוא 0.005-0.084).

החוקרים מודים כי למודל שלהם יש שלוש מגבלות, אך מציינים רק שתיים[8]. ראשית, הנתונים כללו רק צילומי חזה פרונטליים, בעוד שבכ-15% מהמקרים של דלקת ריאות יש צורך גם בתצלומי צד כדי לבצע אבחנה מדוייקת. שלישית[9] , החוקרים מודים כי העובדה שהמודל והחוקרים לא נעזרו בנתונים נוספים, כגון היסטוריה רפואית, פוגעת בביצועים של הרופאים (ושל המודל כמובן).

אוקדן-ריידר: אלגוריתמים הם מגניבים, אבל…

ד"ר אוקדן-ריינר אכן סבור כי נוכל להגיע למצב בו לאלגוריתם יהיו ביצועים שווים לביצועים של רופא אנושי ואף יעלו עליו. עם זאת, הוא טוען כי האלגוריתם של רג'פורקאר אינו מתאים לבצע אבחון רפואי. הסיבה לכך נעוצה, לדבריו, בנתונים של ואנג ועמיתיו, בהם רג'פורקאר ועמיתיו השתמשו לצורך פיתוח המודל.

אוקדן-ריינר טוען  כי יש בעייתיות בסיווגים של התצלומים בקובץ הנתונים המקורי של ואנג. לא ברור עד כמה הסיווגים מדוייקים, מה המשמעות הרפואית של הסיווגים, ועד כמה הסיווגים שימושיים לצרכים של ניתוח הצילומים. הוא מציין כי קובץ הנתונים והדוקומנטציה שלו עודכנו מספר פעמים מאז הפרסום המקורי. המאמר שמתאר את בניית הקובץ כמעט ואינו מתייחס להיבטים הקליניים של הנתונים, ומכיל רק פיסקה אחת שמתייחסת לרמת הדיוק של האבחונים שהותאמו לכל סט של תצלומים של חולה אחד.

עד כמה מדויקים הסיווגים? הם התקבלו בשיטות של text mining. הם לא התבוננו בתצלומים. אוקדן-ריינר טוען שרמת הדיוק של הסיווגים בקובץ אינה מספקת. הוא קבע זאת על ידי התבוננות בתצלומים. אמנם לא בכולם, אלא רק במדגם. הסיווגים שלו, כרדיולוג מומחה, היו שונים באופן מהותי מהסיווגים שבקובץ הנתונים.

השאלה השנייה היא מה המשמעות הרפואית/קלינית של הסיווגים. הנה הבעיה: הקביעה האם לחולה יש או אין דלקת ריאות היא קביעה קלינית. צילום רנטגן של החזה הוא נתון התומך באבחון (surrogate measure) ואינו מספיק לבדו לקבוע האם לחולה יש דלקת ריאות, או שה-"עננים" הנראים בצילום הם סימפטום לבעיה רפואית אחרת. המצב בו רואים "עננים" נקרא קונסולידציה. למעוניינים בהסבר רפואי מפורט יותר אני מפנה לפוסט אחר שלו. השורה התחתונה היא שהסיווג של ואנג ועמיתיו במקרה של "עננים" הוא סיווג של יש קונסולידציה או יש דלקת ריאות. אולם, מבחינה רדיולוגית קשה מאוד להחליט מתי קונסולידציה היא דלקת ריאות או משהו אחר. דלקת ריאות היא סוג של קונסולידציה. ההיפך לא נכון. כאשר ואנג ועמיתיו מציינים בנתונים שיש קונסולידציה, יכול להיות שלחולה יש דלקת ריאות. גם יכול להיות שלא. אוקן-ריינר טוען כי הנתונים שבדק מראים שהבעיה הזו קיימת.

וכאן עולה השאלה שלישית, והחשובה ביותר: אם הסיווגים של הנתונים בעייתיים, והמשמעות הקלינית שלהם מוטלת בספק, מה המודל באמת לומד? מה הערך של מודל המתבסס על נתונים בעייתיים?

מה הבעיה במאמר של רג'פורקאר?

אני סומך ב-100% על העבודה שעשו רג'פורקאר ועמיתיו. ההבנה שלי בתחום בו עוסקים היא בסיסית, ומבוססת בעיקר על לימוד עצמי. לצורך הדיון, אני מוכן להתעלם מהביקורת של אוקדן-ריידר על טיב הנתונים. זה לא משפיע על האיכות של המודל, שהרי התחרות בין ארבעת הרדיולוגים ובין המודל התבססה על אותם נתונים, והמודל ניצח. החוקרים מצאו כי במונחי F1, המודל היה יותר טוב מהרדיולוגים בשר ודם ב-0.051, וההבדל הזה מובהק סטטיסטית.

יש לי רק שאלה אחת: מה המשמעות הקלינית של ההבדל הזה? מה הערך המוסף הקליני של המודל? לצערי, אין לי מושג, ואני לא בטוח שלמישהו יש מושג. ברור שהשאלה הזו לא עלתה כלל על דעתם של החוקרים, כי אחרת הם היו לפחות מזכירים אותה  בדיון המסכם. המילה clinical הופיעה במאמר רק פעמיים, שתיהן בפרק המבוא. זהו אחד משבעת החטאים של הסטטיסטיקה: אי הבחנה בין תוצאה מובהקת לתוצאה משמעותית.

מה הבעיה המרכזית במודל של רג'פורקאר?

הבעיה המרכזית במודל של רג'פורקאר היא אבחון חלקי. כשהמודל קובע שלחולה אין דלקת ריאות, הוא לא אומר מה כן יש לו. כאן יש לרדיולוג יתרון ברור על המודל. יש לו ידע קליני שמאפשר לו לקבוע מה מצבו של החולה.

נכון שזה רק מודל, ואנחנו בתחילת הדרך. אין לי ספק שהמודל הזה הוא צעד בכיוון הנכון, אבל זהו צעד קטן מאוד. כדי נגיע למצב בו מודל כזה יהיה ראוי להישקל לשימוש, הוא יהיה צריך לסווג את תצלומי החזה ל-15 קטגוריות לפחות. מישהו יכול להעריך עד כמה אנחנו רחוקים ממודל כזה?

איך צריך להעריך את הביצועים של מודל רג'פורקאר? (וגם את ביצועי הרופא)

תסלחו לי, אבל אני לא מבין מה המשמעות האינטואיטיבית של מדד F1, ומה זה אומר אם הוא שווה ל-0.435. אני ביוסטטיסטיקאי. אחד מתפקידיי הוא לתקשר את התוצאות לצוות הקליני, כדי שהם יוכלו להעריך את המשמעות שלהם. כשהמטרה היא להעריך כלי דיאגנוסטי[10] אני בהחלט מציג בפניהם מדדים כמו accuracy, specificity, ו-sensitivity, למרות שבמקרים רבים גם להם אין משמעות אינטואיטיבית ברורה[11]. אבל כל המדדים האלה לא מספיקים. אלוהים נמצא בפרטים הקטנים, ולכן צריך להתעמק בהם.

מה יקרה אם המודל של רג'פורקאר ישמש ככלי אבחון עיקרי או יחיד למחלת ריאות? בואו נניח לצורך הדיון, כי המודל משמש כשלב הראשון בתהליך האבחוני, ויסווג את החולים כסובלים מדלקת ריאות, או לא סובלים מדלקת ריאות אלא ממשהו אחר, שהמודל לא יודע לזהות, ובמקרה כזה התהליך האבחוני יימשך. נניח גם כי זהו גם התהליך הרדיולוגי.

כאשר מודל או רדיולוג צופים בצילום חזה, יש ארבע אפשרויות.

קודם כל, יש מצב שבו המודל או הרדיולוג מאבחנים כי לחולה יש דלקת ריאות, ולחולה אכן יש באמת דלקת ריאות. זה מצויין. נותנים לחולה את הטיפול המתאים ושלום על ישראל. כאן יש תועלת.

ייתכן כי לחולה אין דלקת ריאות, והמודל או הרדיולוג יקבעו כי לחולה אין דלקת ריאות. זה אכן טוב, אבל לא יותר מדי טוב. החדשות הטובות הן שלא נעשה משהו רע. הבעיה היא שלא התקדמנו. אדם נשלח לביצוע צילום חזה כי הוא חולה במשהו. אם אין לו דלקת ריאות אז יש לו משהו אחר. מה? ובכן, יש צורך בבדיקות נוספות. כאן אין תועלת וגם אין נזק.

נמשיך. יכול להיות כי לחולה יש דלקת ריאות והמודל או הרדיולוג יקבעו כי אין לו דלקת ריאות. הרופאים ימשיכו בתהליך האבחוני. הטיפול בחולה מתעכב. כאן יש קצת נזק. במקרה הטוב, בחינה נוספת של הרופאים תעלה כי בכל זאת יש לו דלקת ריאות, והנזק מינימלי. במקרה הפחות טוב, אם כי לדעתי יותר נדיר, החולה יאובחן כסובל מבעיה אחרת, יקבל טיפול רפואי בלתי מתאים, יסבול מתופעות הלוואי והנזקים הבריאותיים שנגרמים מעצם הטיפול (ותמיד יש תופעות לוואי ונזקים בריאותיים), והבעיה הרפואית האמיתית שלו לא תטופל. עלול להיגרם נזק משמעותי.

ועכשיו נגיע למצב הגרוע ביותר: לחולה אין דלקת ריאות והמודל או הרדיולוג אומרים כי יש לו דלקת ריאות. החולה יקבל טיפול רפואי לדלקת ריאות, (אנטיביוטיקה, למשל) שאינו מתאים למצבו הרפואי, וכאמור לעיל, יסבול מתופעות הלוואי והנזקים הבריאותיים שנגרמים מעצם הטיפול (השגוי). שוב, החולה לא יקבל טיפול מתאים לבעיה הרפואית האמיתית שלו, שאינה דלקת ריאות, אלא ככל הנראה משהו יותר חמור. כאן נגרם נזק משמעותי. עד כמה הנזק משמעותי? זה כבר תלוי בהרבה גורמים, כמו למשל המצב הבריאותי האמיתי של החולה, ומשך הזמן שיעבור עד שיבחינו כי הטיפול הנוכחי שהחולה מקבל אינו יעיל ויבצעו הערכה מחדש של האבחון.

השאלה הגדולה היא: האם המודל והרדיולוג טועים את אותן הטעויות?

מדדים כגון F1 לא אומרים לנו מה השכיחות של כל מצב מארבעת המדדים שתיארתי, ובוודאי לא מספקים לנו הערכה של סך הנזק הפוטנציאלי, סך התועלת הצפויה, והערכה האם התועלת עולה על הנזק, ואם כן, עד כמה. אפשר לבצע את ההערכה הזו. אפשר לכנס צוות רופאים שיבחנו אחד לאחד את 389 התיקים ששימשו לבחינת המודל. סטטיסטיקאי טוב יוכל להקל עליהם את העבודה באמצעות הצגה בהירה של הנתונים. בסופו של דבר, תהיה לנו הערכה לגבי הביצועים הקליניים של המודל.

באותו אופן, אפשר להעריך את הביצועים הקליניים של ארבעת הרדיולוגים שהתחרו במודל.

כעת, נוכל לקבוע האם למודל יש באמת יתרון על הרופאים בשר ודם, ואם כן, האם היתרון משמעותי מבחינה קלינית.

הדיון בקבוצת הפייסבוק ותשובות לשאלות

חברי הקבוצה לא הקלו עלי את החיים כששיתפתי עימם את הפוסט של ד"ר הארווי, וטוב שכך. אני ציינתי שאני מסכים עם הטענות שלו, ומטבע הדברים היו חברים בקבוצה שלא הסכימו איתנו. הם העלו טיעונים טובים ושאלו אותי שאלות קשות ומצויינות. עניתי כמיטב יכולתי במסגרת המגבלות הטכניות של ממשק הפייסבוק. אביא כאן את עיקרי הדיון, אתייחס לשאלות שנשאלתי בכל הרצינות, ואענה כמיטב יכולתי. אם פיספסתי שאלה של מישהו, אנא הפנו את תשומת ליבי לכך ואתקן. אשמח גם להמשיך בדיון.

כמו כן, אני ממליץ לכם לקרוא את הדיון עצמו שכן מעבר לדיון הספציפי בטיעונים של ד"ר הארווי ולשאלות שנשאלתי נאמרו בו עוד דברים מעניינים וחשובים.

  • ערן פז טוען שאלגוריתמים יכולים ללמוד גם פעילויות אחרות שמבצע הרופא כולל אינטראקציה בין אישית, וחוזה בבדיחות הדעת כי גם באינטראקציה בין אישית ביצועי האלגוריתמים יהיו טובים יותר מאלה של הרופא. בסופו של דבר, אומר ערן, הרפואה תהיה אוטומטית כמעט לחלוטין.

האמת היא שאין לי מה לענות לטענה הזו. מדובר בהערכה סובייקטיבית. אני לא שולל את האפשרות שזה אכן יקרה[12], אבל יש לדעתי סיכוי הרבה יותר סביר שזה לא יקרה. בכל מקרה, אני משוכנע שהדור שלנו לא יזכה לראות את הרפואה האוטומטית, אם אכן החזון יתגשם. ההערכה הסובייקטיבית שלי היא כי זה לא יקרה בעתיד הנראה לעין.

  • ערן מתייחס גם לטיעון השני של ד"ר הארווי, ואומר כי זה נושא יותר פילוסופי/רגולטורי מאשר טכנולוגי, ובכך הוא צודק כמובן. הוא ממשיך וטוען כי הבעיה שגם אם המערכת היה טובה יותר מבן אדם, לנו כבני אדם קשה יותר לקבל טעות ספציפית שנעשתה ע"י מחשב, גם אם בסה"כ הוא טועה הרבה פחות מבן אדם.

לי יש בעיה עם האמירה הזו. המחשב לא טועה, גם לא המודל (או יותר נכון, האלגוריתם).[13] מקור הטעויות הן בפיתוח האלגוריתם.

  • כאן מתערב בדיון ים פלג ושואל מה אם יש רעש בדאטה.

התשובה המיידית שלי הייתה כי יש הבדל בין מודל שמנסה לחזות התנהגות של לקוח ובין מודל שעוסק בחיי אדם. עם זאת, ים בהחלט צודק. רעש בנתונים הוא בעיה שצריך להתמודד איתה. הדרך להתמודד, לדעתי, היא לבדוק את הביצועים הקליניים של המודל, כפי שהסברתי למעלה, ולהשוות אותו לביצועים של הרופאים, במונחים של סך תועלת מול סך נזק.

  • ים ממשיך ושואל האם סך התועלת הוא לא ההפרש בין ביצועי האלגוריתם לביצועי האדם.

עניתי מהמותן שלא, אבל אני מודה שהתשובה שלי לא הייתה מדוייקת. ים צודק עקרונית, אבל לקביעה שלו אין משמעות אם לא מגדירים היטב איך מודדים את ביצועי האלגוריתם וביצועי האדם. מי שקרא עד כאן יודע כבר שהתשובה הרבה יותר מסובכת, ו-F1 הוא לא המדד האולטימטיבי.

  • ים המשיך והקשה עלי. הוא טען כי אם יש לך אדם שמאבחן נכון X אנשים ומציל את חייהם ויש אלגוריתם שמאבחן נכון X+Y אנשים נכון (מהנתון שהוא יותר מדויק) ומציל את חייהם. יש לך Y יותר אנשים חיים.

זה כמובן נכון, אבל זה רק צד אחד של המטבע. מספר התוצאות החיוביות האמיתיות, או יותר מדוייק – שיעורן. ה-True Positive Rate הוא בהחלט מדד חשוב, אבל כפי שעניתי בקצרה בקבוצת הפייסבוק והסברתי כאן בפירוט, יש עוד צד למטבע, עוד שלושה צדדים למעשה. הבעיות העיקריות, כפי שהסברתי למעלה, נובעות מהאבחונים הלא נכונים: תוצאות חיוביות שגויות (False Positive) ותוצאות שליליות שגויות (False Negative).

  • ערן חוזר ושואל: בוא נניח לרגע שמודל לא יהיה יותר מדוייק, אלא יהיה יותר קרוב ל(1,1) על הROC או לכל מדד אחר שתבחר מבן אדם, עכשיו הטיעונים בסדר? כמו כן הוא מציין כי בדיון גם לא לקחנו בחשבון את העלויות של הקמת חוות GPU לעומת העלות של הכשרת רדיולוג, זה גם משפיע על התועלת?

אני טוען שבמצבים רפואיים התועלות והנזקים הם לא 0-1. נכון שאולי ב-ROC המודל יעשה טוב יותר, עם זה אני לא מתווכח. אני טוען שלטעויות שונות יש משמעויות שונות, וכמו כן, גם במצבים של חוסר טעות, TP ו-TN, עדיין יש משמעויות שונות. המצב נעשה הרבה יותר חמור אם עוברים מדלקת ריאות לסרטן, למשל. מי ייקח אחריות על חולה סרטן שלא יאובחן בזמן בגלל שהמודל היה רועש מדי?

  • אמיר רוזנפלד שואל: יהי המדד האולטימטיבי כפי שאתה מגדיר אותו. נניח שתחת מדד זה מכונה מתעלה על אדם. במי תבחר?

תשובתי היא שכשמדובר ברפואה אין דבר כזה "מדד אולטימטיבי". צריך לבצע הערכה כוללת של התועלת מול הנזק כי הנזקים עלולים להיות שונים מחולה לחולה. יש משמעויות לטעויות, והן שונות מחולה לחולה. חזרתי והבאתי את הדוגמה של חולה שמאובחן בטעות כחולה סרטן. הוא יקבל כימותרפיה שהוא לא צריך[14]. מילא התופעות לוואי של בחילות ונשירת שיער וכאלה – כימותרפיה גם גורמת נזקים בריאותיים ממשייים.

עם זאת, אני בהחלט מסכים שאם למודל יש יתרון קליני משמעותי על פני הרופאים בשר ודם, יש להעדיף את המודל, לפחות ברמה היישומית. עדיין יש לפתור את עניין האחריות.

  • ערן טוען כי אני סתם מתחמק מתשובה, ושואל: הנה, מודל, שעבור רמת הFP והFN של רופא נותן יותר TP מרופא אבל עדין טועה, מחליף את הרופא?

אני מודה שלא הבנתי את השאלה, אבל סבור שהבהרתי לחלוטין איך יש להעריך את הביצועים של המודל ולהשוות אותם לביצועים של הרופא.

סיכום

אני חושב שכולם מסכימים כי עדיין לא הגיע היום בו אלגוריתמים יכולים להחליף רופאים, אלא אם מדובר בתהליכים ממש פשוטים. למשל, אני סבור שאפשר להכניס לשימוש אלגוריתם שיקבל בתור קלט נתונים על חולה (כמו בדיקות דם, מדדי דופק ולחץ דם, וכולי) ויוציא התרעה לרופא המשפחה אם הנתונים בעייתיים. ייתכן ואלגוריתמים מסוג זה כבר קיימים ופועלים.

במקרים יותר ממוקדים, כמו אלגוריתם הפיענוח של רג'פורקאר הדברים הרבה יותר מסובכים. יש הסכמה כי הנתונים ששימשו ל-"אימון" המודל היו בעייתיים. אלגוריתם זה אמנם הראה יתרון מובהק סטטיסטית בביצועיו על פי מדד F1 לעומת ארבעה רופאים בשר ודם, אבל לא ברורה המשמעת הקלינית של יתרון זה (בלשון המעטה). כמו כן, האלגוריתם מוגבל בכך שבמקרה והוא מזהה כי לחולה אין דלקת ריאות, הוא לא מספק תובנה לגבי הבעיה האמיתית שיש לחולה. בסופו של דבר, האלגוריתם הזה הוא אמנם צעד בכיוון הנכון, אבל צעד זעיר מאוד, כמעט זניח.

יתר על כן, המקרה הרפואי של דלקת ריאות הוא קל יחסית מבחינה רפואית. מחלות אחרות, כגון סרטנים ומחלות לב, למשל, צופנות בחובן אתגרים הרבה יותר גדולים.

עם זאת, יש דרך טובה ויעילה לבחון האם הביצועים של אלגוריתמים כאלה עולים על הביצועים של רופא אנושי, ובכמה.

אבל הבעיה העיקרית אינה טכנולוגית אלא אתית.

מי אחראי במקרה שהאלגוריתם טועה? מספר הדעות יהיה כנראה כמספר המשיבים.

בואו נראה מה יכול לקרות בארצות הברית, מכיוון שסביר להניח כי היא תהיה בין המדינות הראשונות בהן יוכנסו אלגוריתמים כאלה לשימוש (בהנחה שבכלל יוכנסו). במדינה בה תביעות על רשלנות רפואית[15] נפוצות מאוד, הנפגעים לא יהססו לתבוע את החברה שמיישמת את האלגוריתמים, את בעלי הפטנט, ומי יודע את מי עוד. האם חברות הביטוח יסכימו לבטח את החברה שמיישמת את האלגוריתם? איש אינו יודע.

אני רוצה להרחיב את הדיון בשאלת האחריות, כי זו לדעתי השאלה המהותית, וממנה נגזרה הכותרת הפרובוקטיבית של הרשימה הזו.

בואו ניקח, כדוגמה פשוטה ביותר, אלגוריתם שצריך לזהות האם בתמונה שמוצגת לו יש חתול. לאף אחד לא איכפת באמת אם האלגוריתם יטען שתמונה של כלב מראה לדעתו חתול.

מה עם אלגוריתם שמחליט אם כדאי להציע לאדם שנכנס לאתר אינטרנט עיסקת קניה מסויימת? יכול להיות שאנשים שהעיסקה תוצע להם לא יבצעו את הקניה, וגם יכול להיות שיפוספסו קונים שהיו מבצעים את הרכישה אם העיסקה הייתה מוצעת. זה חבל, אבל בסך הכל מדובר פה בכסף.

אם מדובר בהרבה כסף, הבעיות יכולות להיות גדולות. בנקים שמנסים לזהות איזה לקוח עלול לא להחזיר את ההלוואה שיקבל עלולים לעמוד בפני בעיה אם האלגוריתם לא מספיק טוב. עם זאת, אני יודע שאלגוריתמים כאלה פועלים, וכנראה שיקול הדעת שלהם יותר טוב משיקול הדעת של הפקיד.

בואו נמשיך. מה עם אלגוריתם שמחליט על ביצוע עיסקות קניה ומכירה בבורסה? בסרט הזה כבר היינו בשנת 2008. אני מקווה שהאלגוריתמים האלה השתפרו מאז, כי לא מתאים לי עוד משבר כלכלי עולמי.

מה בקשר למכונית אוטונומית? כאן כבר מתחילים לדבר על חיי אדם. מישהו יודע כמה טעויות שליליות שגויות (False Negative) יש לאלגוריתם של מובילאיי? וכמה מהטעויות האלה מובילות לתאונות? וכמה מהתאונות האלה כוללות פגיעות בגוף? אני לא יודע. אני לא בטוח שיש מי שיודע.

נכון, מכוניות אוטונומיות כבר נוסעות בכל מיני מקומות בארצות הברית, במסגרת ניסויים לבחינת האלגוריתמים. מי יעריך את מאזן התועלת מול הנזק של האלגוריתמים שמפעילים את המכוניות האלה וישווה אותם לביצועים של נהג אנושי? ואיך? האם יהיה רגולטור, כמו שיש את ה-FDA בתחום הרפואי? האם חברות הביטוח יסכימו לבטח את המכוניות והאלה והנוסעים בהם? ואם כן, מה תהיה עלות הביטוח?

מה בקשר למטוס אוטונומי? מי מוכן לעלות על טיסה טרנס אטלנטית במטוס ללא טייס?

אני יודע שאי אפשר לעצור את הקידמה, ובניגוד למה שעלולים לחשוב אני בעד הקידמה. אני בהחלט חושב שעתיד בו אלגוריתם יוכל להחליף רופא ולבצע את מלאכתו באופן טוב יותר מהרופא האנושי, וכולנו ניסע במכוניות אוטונומיות, הוא עתיד טוב. אבל כדי להגיע לעתיד הזה עלינו להתגבר על הרבה מאוד בעיות, והבעיות הטכנולוגיות הרבה יותר פשוטות מהבעיות האתיות. אני גם חושב שהעתיד הזה רחוק מאוד מאיתנו ואנו לא נזכה לראות אותו, וגם לא בנינו ובני בנינו.


הערות
  1. עם זאת, לא אתייחס לטענה "תן תמונה היום לעשרה רדיולוגים ותקבל 11 חוות דעת" []
  2. שכן הוא לא התייחס אליו []
  3. כגון תצלומי רנטגן, סריקות CT ו-MRI, ועוד []
  4. כלומר, באופן רנדומלי []
  5. שזה תיאור מרשים לתהליך של אמידת פרמטרים []
  6. אעיר ואומר כי יש כאן בעיה מסויימת – נתוני הבדיקה שונים באופן מהותי מנתוני האימון והתיקוף. []
  7. זהו הממוצע ההרמוני של הרגישות – recall ושל הדיוק – precision. ראו הגדרות בויקיפדיה []
  8. השלישית ירדה בכביסה? יותר סביר להניח כי אחרי מחשבה נוספת הם הגיעו למסקנה כי המגבלה הנוספת שחשבו עליה אינה באמת מגבלה []
  9. או בעצם שנית, לא משנה []
  10. כמו בדיקת דם חדשה, או אלגוריתם מגניב שפיתחו החבר'ה בסטנפורד []
  11. יש מחקרים שמראים כי הרבה רופאים מפרשים אותם באופן לא נכון, אבל לא ניכנס לזה עכשיו []
  12. כלומר, אני סבור כי ההסתברות לכך גדולה מאפס []
  13. מכאן הגיעה הכותרת הצינית והפרובוקטיבית של הפוסט הזה []
  14. או אפילו יעבור ניתוח מיותר []
  15. ובארצות הברית גם טעות בתום לב נחשבת כרשלנות []

נורווגיה עוברת למדיניות אי הפללה של צרכני סמים

לפני כחודש (דצמבר 2017)  דיווח  העיתון Independent כי נורווגיה עומדת לעבור למדיניות אי הפללה של צרכני סמים.[1] אני חושב שזוהי הזדמנות מצויינת לדון בנושא ובהשלכות האפשריות של הנהגת מדיניות דומה בישראל.

ראשית כל, ננסה להבין מה כתוב באותיות הקטנות, אלה שמופיעות אחרי הכותרת. קודם כל, יו"ר ועדת הבריאות של הפרלמנט הנורווגי מבהיר כי לא מדובר בהרשאה גורפת לשימוש בסמים (לרבות קנאביס) ובסחר בהם. אין כאן לגליזציה. הסחר וההפצה עדיין יישארו עבירות פליליות. המטרה היא להעביר האחריות למדיניות הסמים ממערכת המשפט למערכת הבריאות. השינוי במדיניות יתבטא בהתייחסות אל צרכני סמים כאל חולים, ולכן המהלך ילווה בתכניות טיפוליות, כגון תהליכי גמילה. משתמשים שלא ישתפו פעולה עם מערכת הבריאות בהחלט עלולים למצוא את עצמם בכלא. בכך מאמצת נורווגיה את מדיניות הסמים של פורטוגל, שגם היא העבירה את האחריות למדיניות הסמים ממערכת המשפט אל מערכת הבריאות. כאן המקום לציין כי למרות שבפורטוגל אכן אין הפללה של משתמשים בסמים, יש אפשרות לנקוט נגדם סנקציות אזרחיות, כגון הטלת קנסות, שלילת רישיון הנהיגה, איסור לעסוק במקצועות מסויימים, ועוד.

שינוי המדיניות בנורווגיה בא בעקבות ההבנה כי במדינה יש תמותה משמעותית עקב שימוש בסמים – מעל 250 איש בשנה. זה שקול לתמותה של כ-425 איש בישראל – יותר ממספר ההרוגים בתאונות דרכים בישראל, והרבה הרבה יותר מספר ההרוגים בשנה עקב פעולות איבה.

מה המשמעות של כל זה לגבי מה שקורה בישראל?

אקדים ואומר כי אני בהחלט תומך בהנהגת תכנית כוללת לטיפול בנושא הסמים שתכלול אי הפללה של המשתמשים אך לא של הסוחרים והמפיצים, וזאת במשולב עם תכנית טיפולית מקיפה, כמו שיש בפורטוגל ועומדת להיות בנורווגיה. עם זאת, אני חושש כי הסיכוי שזה יקרה בישראל הוא קטן. ראו למשל את הצעת החוק (הפופוליסטית, לדעתי) שהגישה תמר זנדברג עם בחירתה לכנסת: אי הפללה בלי שום תכנית נלווית. זה כמו להגיש הצעת חוק לאי הפללה של מי שעובר ברמזור אדום.

ולמי שיגיד שהאנלוגיה של הרמזור האדום קיצונית, אענה כי שימוש בסמים מסוכן אף הוא. אל תגידו לי שזה לא מסוכן כי לכם לא קרה כלום. דברים קורים. זה כמו תופעות לוואי של תרופות. יש אנשים שמתו עקב שימוש באקמול. אני מכיר מקרה שבו חברת תרופות נאלצה להפסיק פיתוח של תרופה חדשה לטרשת נפוצה עקב 3 מקרים של דופק מהיר בקרב כ-2000 איש שקיבלו את התרופה בניסויים הקליניים. בכל בית חולים פסיכיאטרי בארץ יש מקרים של מטופלים שחוו התקף פסיכוטי (במקרה הטוב) לאחר שימוש בגראס. אלה אמנם אנקדוטות, אך מייד נעבור לנתונים מבוססי ראיות.

חיפוש קצר בגוגל או במאגרי מידע רפואיים יעלה מייד מחקרים המדווחים על נזקים שנגרמים עקב שימוש בסמים, גם כאלה שנחשבים כ-"קלים".  כך למשל, הסיכון להתפרצות סכיזופרניה בקרב משתמשי קנאביס גדול פי 4 מהסיכון אצל לא-משתמשים, הסיכון להתפתחות פסיכוזה גבוה ב-40% אצל משתמשי קנאביס לעומת לא משתמשים, והסיכון למעורבות בתאונת דרכים גדול פי 3 עד 7 בקרב נהגים שצרכו קנאביס (גם מספר ימים לפני הנהיגה בפועל, עקב רמת ה-THC בדם) לעומת הסיכון של נהגים שלא צרכו קנאביס, כאשר רמת הסיכון עולה עם המינון. יותר שימוש – יותר סיכון. כל זה רק מארבע התוצאות הראשונות בחיפוש בגוגל אחרי cannabis usage risk.[2] יש עוד הרבה מחקרים, שמזהים גם סיכונים מוגברים לכל מיני סוגים של סרטן, ועוד. יש לקחת בחשבון גם את ההשפעות הכלכליות והחברתיות של שימוש בסמים. כמובן, אי החוקיות של השימוש בסמים גורמת להגברת הפשיעה, ולנזקים בריאותיים נוספים הנגרמים עקב חוסר פיקוח על איכות המוצרים הנמכרים.

מה כל זה אומר לגבי ישראל?

לדעתי יש להעריך מה יקרה בשני תרחישים: תרחיש של מעבר למדיניות של אי הפללה מלווה בתכנית בריאותית, כפי שנהוג בפורטוגל ובקרוב בנורווגיה, וכן יש לבחון תרחיש של לגליזציה מלאה של שימוש בסמים (כשלדעתי, אם מחליטים לבחור בלגליזציה, אז יש ליישם מדיניות זו לגבי כל סוגי הסמים).

הערכתי היא כי מדיניות בנוסח פורטוגל ונורווגיה תביא לתוצאות חיוביות ולירידה בהיקף השימוש בסמים ובתוצאות הבריאותיות השליליות הנגרמות מהם. אני אומר זאת על סמך הניסיון החיובי של פורטוגל. לעומת זאת, מדיניות של לגליזציה תוביל לדעתי לעליה בהיקף השימוש ועקב כך לעליה באירועים בריאותיים ונזקים אחרים (כגון תאונות דרכים). לכן אני מעדיף את האפשרות הראשונה. אני סבור כי רוב מוחלט של הקוראים יסכימו איתי בקביעה כי המצב הנוכחי בלתי נסבל.

בשני המקרים יש לדון בשאלה מי יישא בהיבטים הכלכליים של כל אחת מהתכניות. אציין שוב רק את דעתי האישית.

במקרה של מדיניות אי הפללה והתערבות טיפולית בנוסח פורטוגל, ראוי לדעתי שהמימון יבוא מתוך תקציב הבריאות. יש להעביר לשם את הכספים שמוקצבים כיום למלחמה בסמים[3]. בנוסף, יהיה ניתן להפנות לתכנית את הכספים שיחסכו עקב הירידה הצפויה באירועים בריאותיים הנובעים משימוש בסמים.

במקרה של לגליזציה, חלקית או מלאה, ראוי שהמימון של הנזקים הבריאותיים ואחרים יושת על המשתמשים, הסוחרים ויצרנים, וזאת על ידי מיסוי ישיר, כפי שנהוג לגבי חומרים מסוכנים וחוקיים אחרים, כגון טבק ואלכוהול (מיסוי כזה גם צפוי להוריד את הביקוש לצריכת סמים). כך למשל הפעילות של ארגון הפשע טלגראס, שמגלגל כל חודש כ-60 מיליון ₪, תהפוך לחוקית, ותמוסה בהתאם.[4]

יש לי חששות לגבי ההיבטים הכלכליים של שני התרחישים. מימון ממלכתי במסגרת מדיניות אי הפללה חשוף לקיצוצים רוחביים למיניהם, או סתם לתת תקצוב או חוסר תקצוב, כפי שקורה בתחומים אחרים. מיסוי בתרחיש של לגליזציה צפוי להיתקל לקשיים בישראל. ראו מה קורה כיום, כאשר שר האוצר מסרב, משיקולים פופוליסטיים, למסות כראוי מוצרי טבק כגון אייקוס וטבק לגלגול. אני לא סבור, לצערי, כי המצב יהיה שונה כאשר הממשלה הנוכחית תוחלף בממשלה אחרת.

לסיכום, יש להודות כי שימוש בסמים מהווה בעיה שצריך להתמודד איתה, אם בדרך של אי הפללה בשילוב תכנית בריאותית כפי שנעשה בפורטוגל, אם בדרך של לגליזציה מלאה, ואם בדרך אחרת. בכל מקרה יש לבחון את ההשלכות על בריאות הציבור, ואת ההיבטים הכלכליים וחברתיים של כל האלטרנטיבות.


רשימות נוספות בנושא:


הערות
  1. את זה למדתי מציוץ מלא שמחה של טלגראס הבוקר []
  2. התוצאה שהשמטתי היא עוד מחקר המזהה את השימוש בקנאביס כגורם סיכון להתפרצות סכיזופרניה []
  3. ויש כאלה שיגידו "מלחמה". אני לא מתווכח []
  4. אמנם גם כספים שמקורם בפעילות לא חוקית חייבים במיסים, אבל זה כבר סיפור אחר []

על מכבי תל אביב ורוג’ר פדרר

האמת, לא ראיתי את המשחק בין מכבי תל-אביב וצסק"א מוסקבה בפיינל פור 2014 של היורוליג. אני לא צופה במשחקי כדורסל מאז הזכיה האחרונה של שיקגו בולז באליפות ה-NBA, ב-1998. בלי מיקל ג'ורדן, אני פשוט משתעמם. אבל על מה שקרה במשחק של מכביי שמעתי גם שמעתי.

למי שלא שמע: כשקבוצתו בפיגור של 15 נקודות בסוף הרבע השלישי של המשחק, הורה דייויד בלאט,  מאמן מכבי, לשחקניו לנסות ללכת על כל הקופה: לעבור למשחק מהיר, הגנה אגרסיבית, וזריקות לשלוש נקודות, תוך תקווה שהיריבה תעשה יותר טעויות מהרגיל.

במונחי ספורט, אולי זה היה הימור. במונחים סטטיסטיים, בלאט החליט להגדיל את השונות. לאחר 3 הרבעים הראשונים, המשחק כבר לא היה שקול. האסטרטגיה של בלאט הגדילה את ההסתברות לתבוסה: המשחק היה יכול להגמר ב-30 נקודות הפרש לטובת צסק"א, אבל במשחק של הכל או לא כלום, זה באמת לא משנה אם ההפסד הוא בהפרש של 15 נקודות או 30 נקודות. לעומת זאת, לקיחת הסיכון גם אפשרה הסתברות לרבע שייגמר ב-16 נקודות הפרש לטובת מכבי, בניגוד לאסטרטגיות של 3 הרבעים הראשונים במשחק שמהלכם לא היה טוב במיוחד מנקודת הראות של הצהובים.

איך זה קשור לרוג’ר פדרר?

הסבר קצר על משחק הטניס. המשחק הטיפוסי מורכב משלוש מערכות, וכדי לנצח על הזוכה לנצח בשתי מערכות מתוך ה-3[1]. כל מערכה מורכבת ממשחקונים, וכדי לנצח במערכה יש לנצח ב-6 (ולפעמים 7 או יותר) משחקונים. כך יכול להווצר מצב מוזר: שחקן שהפסיד 6:1 במערכה הראשונה (כלומר ניצח במשחקון אחד והפסיד ב-6), וניצח בשתי המערכות הבאות בתוצאה 6:4, זכה המשחק כי ניצח ב-2 מערכות מתוך ה-3, אבל ניצח בסך הכל ב-13 משחקונים, בעוד שיריבו ניצח  ב-14 משחקונים. תופעה זו, המזכירה את פרדוקס סימפסון,  קורה בערך ב-5% ממשחקי הטניס המקצועניים[2]. דבר דומה קרה גם במשחק הכדורסל: צסק"א ניצחה ב-3 מתוך 4 רבעי המשחק, אך הפסידה במשחק כולו.

מסתבר כי אלוף העולם בהפסדים ב-"משחקי סימפסון" בענף הטניס הוא לא אחר מאשר רוג’ר פדרר, אחד מגדולי הטניס בכל הזמנים. הוא שיחק ב-28 משחקים בהם המפסיד זכה ביותר משחקונים מאשר המנצח. המאזן שלו? 24 הפסדים, רק 4 ניצחונות.

מעניין לציין כי השחקן בעל המאזן הטוב ביותר במשחקים כאלה הוא ג'ון אייזנר , עם מאזן של 19 נצחונות ו-5 הפסדים. אייזנר זכור גם כמנצח במשחק הארוך ביותר בהיסטוריה, בטוניר וימבלדון ב-2010, בו ניצח את יריבו בתוצאה 70:68 במערכה החמישית. במשחק הנ"ל, אייזנר זכה ב-24 נקודות פחות מאשר יריבו.[3] אייזנר מבסס את כל משחקו על חבטת הגשה חזקה במיוחד שמותירה את היריב ללא מענה במקרים רבים. כאשר ליריב יש מענה, לאייזנר בדרך כלל אין.

למי שמשחק מול פדרר אין הרבה סיכויים לנצח; פדרר ניצח ביותר מ-80% המשחקים בהם השתתף. מעבר לכך – שיטת הניקוד בטניס מוטה לטובת השחקן הטוב יותר. יתרון קטן על היריב מתורגם על ידי שיטת הניקוד להבדל משמעותי בסיכויי הניצחון במשחק. הדרך הכמעט יחידה לנסות לנצח את פדרר היא להגדיל את הסיכון על ידי משחק אגרסיבי. אתה עלול להפסיד שתי מערכות בתוצאה 6:0, אבל יש לך גם סיכוי להפסיד פחות משחקונים מאשר בדרך כלל, ואם תנצח מספיק משחקונים, אולי זה יספיק לך לנצח בשתי מערכות צמודות, ואז למי איכפת מהמערכה בה פדרר הביס אותך?


הערות
  1. 1. ישנם טורנירים בהם המנצח נקבע בשיטת הטוב מ-5 מערכות []
  2. 2. Wright, B., Rodenberg, R. M., & Sackmann, J. (2013). Incentives in Best of N Contests: Quasi-Simpson's Paradox in Tennis.International Journal of Performance Analysis in Sport13(3), 790-802. []
  3. 3. כדי לנצח במשחקון, יש לצבור יותר נקודות מאשר היריב []

ניהול סיכונים במערכות יחסים (כולל סקס)

 הקדמה קצרה: ב-13/11/2012 הופיע בבלוג "יחסי מין – הגיגים של (א)נשים על מגדר" פוסט מעורר הדים שכתבה קרן תחת הכותרת "על חלוקת סיכונים בסקס ובכלל".  הקדשתי לפוסט ולרעיונות שהועלו בו מחשבה רבה, וארבעה ימים לאחר מכן כתבתי תגובה מסודרת ושלחתי אותה לעורכי הבלוג בבקשה לפרסמו כפוסט אורח. הם מצידם השקיעו גם כן מחשבה רבה בבקשתי, והיום הודיעו לי כי אינם מעוניינים לפרסם את תגובתי כפוסט אורח מכיוון שפוסט כזה "לא יחדש הרבה", כפי שניסח זאת חגי, אחד העורכים. מכיוון שכך, אני מפרסם את תגובתי כאן, בבלוג הבית שלי, למרות שבלוג זה עוסק במוצהר בנושאים אחרים. עם זאת, יש גם קשר לסטטיסטיקה, כפי שתראו אם תמשיכו לקרוא.

הפוסט שכתבה קרן עסק בהשוואה בין הסיכונים שבהם עומדים גברים ונשים כתוצאה מקיום יחסי מין הטרוסקסואליים. הטענה המרכזית הייתה כי נשים עומדות בפני סיכונים גבוהים יותר מאשר גברים במצבים אלה, ולכן הגיעה למסקנה כי יש לנסות לחפש דרכים להעביר חלק מהסיכון הקיים מהצד הנשי לצד הגברי, במטרה לייצר מצב שבו סך הסיכון הקיים מתחלק באופן שווה (או לפחות שווה יותר) בין הצדדים. האם זה אפשרי? לדעתי לא, ולכן נכתב פוסט זה: להסביר מדוע זה לא אפשרי, ולהציע דרך אחרת, אפשרית.

ברצוני להציע נקודת מבט אחרת לנושא זה. אני בעוונותיי סטטיסטיקאי, ולכן נוטה לראות כל דבר מזווית ראיה סטטיסטית. בפרט, למונח "סיכון" יש בעיניי משמעות אחרת ממשמעותו בעיני קרן, והניתוח שאציע מבוסס על הגדרה מדויקת יותר של מונח זה.

ליחסי מין (או, עדיף, למערכת יחסים שכוללת בתוכה מין) יש הרבה תוצאות אפשריות. חלק מהתוצאות האפשריות רעות מאוד, חלקן סתם רעות, ולעומת זאת יש גם תוצאות אפשריות טובות ואפילו מצוינות ("והם חיים באושר ובעושר עד עצם היום הזה"). הבעיה העיקרית, שהיא אינהרנטית לכל אספקט של חיינו, היא בעיית חוסר הודאות. אנחנו לא יכולים לדעת מראש מה יהיה. מה שאנחנו כן יכולים לעשות זה לנסות לערוך רשימה של כל התוצאות האפשריות, והעריך את ההסתברות (הסיכוי) של כל תוצאה אפשרית להתרחש. ההערכה יכולה להיות כמותית (מספר בין 0% ל100%) או איכותית (סבירות נמוכה/גבוהה וכולי).

כמו כן, גם את מידת החוּמרה של כל תוצאה אפשרית ניתן להעריך. כשדנים בפיננסים זה קל – החומרה נקבעת לפי כמות הכסף שמרוויחים או מפסידים. בתוצאות של מערכת יחסים בין שני בני אדם לא ניתן לכמת את התוצאות האפשריות באופן כזה, עם זאת, אני מניח כי ניתן לדרג את התוצאות האפשריות על פי חומרתן. אני מניח, למשל, שכן אפשר לקבוע כי אונס גרוע יותר מסתם סקס משעמם שלא יוביל לדייט נוסף, וסקס טוב שלא יוביל לדייט נוסף עדיף על סקס משעמם שלא יוביל לדייט נוסף, וכדומה.

כאשר יש לנו רשימת תוצאות אפשריות עם הערכות להסתברות של כל אחת מהן להתרחש (אי-ודאות) ואפשרות להשוות בין כל שתי תוצאות על פי חומרתן (או טיבן), ניתן לומר כי סיכון הוא מצב של אי ודאות בו חלק מהתוצאות האפשריות הינן רעות, וסיכון ניתן למדידה על ידי כימות הנזק שייגרם אם תקרה תוצאה מסויימת וכימות הסיכוי כי תוצאה זו אכן תתרחש. למעשה אני מכליל כאן את ההגדרה הקלאסית של הובארד לסיכון, שהתמקדה בסיכונים כלכליים. אם מדובר בפיננסים, אז אפשר למדוד את הסיכון על ידי הכפלת ההסתברות בנזק הכספי הצפוי. כשעוברים ליחסים בין בני אדם זה בלתי אפשרי, כמובן, אבל אני חושב שלא תחלקו עלי אם אקבע כי, בהתאם להגדרה שנתתי, המאורע "אונס בסבירות גבוהה" טומן בתוכו יותר סיכון מאשר המאורע "סקס גרוע בסבירות נמוכה".

עוד הבדל בין סיכונים פיננסיים וסיכונים במערכות יחסים: בתחום הפיננסי ניתן לקנות ולמכור סיכונים – כל המשבר הכלכלי העולמי הנוכחי החל מסחר לא מבוקר בסיכונים פיננסיים. במערכות יחסים הסיכונים הם סובייקטיביים (הנושא נדון בהרחבה בתגובות לפוסט של קרן), ולכן העברת סיכונים אינה אפשרית למעשה ("תשמעי, יש לי דייט, הוא ממש נחמד וחתיך, אבל בפעם הקודמת הסקס איתו היה ממש גרוע, אז אחרי היציאה את יכולה לעלות אליו במקומי ולקבל את הסקס הגרוע?" – לא נראה לי). ההצעה של קרן להעביר סיכון מצד לצד נחמדה, אבל לדעתי לא ישימה.

וכאן, אפשר גם לראות את הבעיה בתרגיל המחשבתי (המבריק) שהציעה קרן כנקודת פתיחה לדיון שלה: התרגיל לא עסק באמת בסיכונים, אלא בתרחיש הגרוע ביותר (worst case scenario), בו הציבה הרשעה ודאית באונס ללא אפשרות משפטית להתגונן לגבר, מול אונס לאשה. מה שקרן יצרה למעשה בתרגיל המחשבתי שלה הוא מאזן אימה. היא הגדילה סיכון לגבר, בלי הפחתה משמעותית בסיכון לאשה, מתוך תקווה שאנס פוטנציאלי יירתע אם הסיכוי שיורשע באונס יגדל בצורה משמעותית.

אני שונא מאזני אימה, משתי סיבות. קודם כל, הם כוללים בתוכם אימה. שנית, האיזון בדרך כלל לא יציב. אני מעדיף מצבים נטולי אימה עד כמה שאפשר. את האימה לא ניתן לבטל לגמרי. אמנם איני קרימינולוג, אבל אני לא חושב שקיימת מערכת ענישה כלשהי שתיצור דמוטיבציה מוחלטת לביצוע פשעים. זה לא אומר שאני מציע לוותר על מערכת החוק והענישה, אבל בהחלט יש צורך במודעות למגבלות שלהם. עד כמה החמרה בענישה והורדת רף ההוכחה תביא להקטנת ההסתברות למקרי אונס (או רצח, או נסיעה במהירות גבוהה מהמותרת, או שימוש בסמים לא חוקיים)? פתרון הרבה יותר טוב הוא פשוט להפחית את הסיכונים.

דרך אחת להקטנת סיכון היא הפחתה של הנזק הצפוי במקרה של התרחשות המאורע הרע. כשעוסקים בפיננסים זה אפשרי – אפשר לקנות ביטוח. שוב, במערכות יחסים הפתרון הזה לא ישים. אולי אפשר לקנות ביטוח שבמקרה של אונס ישלם לקורבן סכום של X שקלים, אבל אני באופן אישי לא הייתי רואה בכך הפחתה משמעותית של הסיכון. אני סבור שרוב הקוראים מסכימים עימי.

כיוון שלסיכון יש שני מרכיבים: חומרת התוצאה של מאורע וההסתברות להתרחשותו, וכשמדובר בסיכונים במערכת יחסים לא ניתן לשנות באופן משמעותי את חומרת התוצאה, הדרך היחידה להפחתת הסיכונים היא על ידי הקטנת ההסתברויות של המאורעות הרעים. אונס הוא רע, ויישאר רע בכל מצב, אבל אם נוכל להקטין את הסיכוי להתרחשותו, הסיכון יפחת.

עד כאן התיאוריה. באופן מעשי, זה הרבה יותר מסובך. ברור לחלוטין שכל אחת ואחד צריכים לנקוט בצעדים שיפחיתו את ההסתברויות להתרחשות מאורעות עם תוצאות חמורות במידת האפשר. זה אומר לנהוג בזהירות, זה אומר לרוץ לממ"ד כשיש אזעקה, וזה אומר להיות זהירים במערכות יחסים, בייחוד במערכות יחסים שכוללות גם מין או פוטנציאל למין. עד לאן אפשר לקחת את זה? יש מי שיאמר כי הפתרון הוא לא לצאת מהבית (פתרון אדיוטי) , ואם את כבר יוצאת אז תלבשי בורקה ורעלה (עיצה מטופשת, כמובן, זה ממש לא מגן מפני אונס). מה בכל זאת? אני מציע שכל אחד ואחת יחשבו מה הפתרונות שמתאימים להם ויישמו אותם.

החברה צריכה גם היא לתת פתרונות לטובת הכלל. מערכות חוקים וענישה הם כאמור פתרון קיים אך בעל יעילות מוגבלת. פתרון הרבה יותר יעיל, אך דורש אומץ ואורך נשימה, טמון בחינוך. חינוך לשוויון וכבוד הדדי, חינוך להכרה כי כל אחד ואחת הם בעלי הזכויות על גופם, חינוך כי מערכות יחסים ויחסי מין הם יותר מאשר סקס. זה אינו פתרון קסם, אבל לעומת זאת זהו פתרון אמיתי.