חיפוש באתר

קישורים

עמודים

קטגוריות

ארכיב עבור 'קבלת החלטות'

האם מכוני כושר הם מקור להתפרצות קורונה?

אני אתחיל בהתנצלות: אין לי מושג מה התשובה לשאלה שבכותרת. אני לא חושב שלמישהו יש מושג. אבל משום מה, הנושא של סגירת מכוני הכושר הפך בימים האחרונים לוויכוח ציבורי לוהט, ולכן החלטתי להפסיק את שתיקתי בעניינים הקשורים למגיפת הקורונה. אבל אם הגעתם עד לכאן, אודה לכם אם תקראו לפחות את הפיסקה הבאה.

מה תמצאו בפוסט הזה? ראשית אביא סקירה מאוד קצרה למה שידוע לנו על הנושא נכון לעכשיו. לאחר מכן אדון בשאלה איך למצוא תשובה לשאלה שבכותרת (או שאלות דומות). לסיום אביא את דעתי האישית בנושא.

מה ידוע על הקשר בין פעילות מכוני הכושר והתחלואה בקורונה?

מה אנחנו יודעים על הקשר בין הדבקות בקורונה ובין פעילות חדרי הכושר? בשתי מילים: כמעט כלום.

הלכתי לשאול את ד”ר גוגל מה הוא חושב. מילות החיפוש שלי היו “covid-19 gym reopening”. אסקור כאן את שלוש התוצאות הראשונות[1]

תוצאת החיפוש הראשונה היא כתבה בכתב העת science ב-26.6.2020. הנה הכותרת: It’s safe to go back to the gym—if there’s little COVID-19 around, study suggests ובעברית: אין בעיה להתאמן במכוני הכושר אם אין שם חולי קורונה. מדובר במחקר שנעשה בנורבגיה[2]. החוקרים גייסו לניסוי כ-4000 איש, כולם מנויים בחדרי כושר בעיר אוסלו וכולם לא עברו בדיקות קורונה בחודשים מאי עד יוני 2020. כמחצית מהנבדקים קיבלו אפשרות להתאמן במשך שבועיים בחמישה חדרי כושר שנפתחו במיוחד לצורך המחקר. בחדרי הכושר האלה נשמרו כל התנאים הנדרשים: מרחק של שני מטר, מסיכות, וניקוי המכשירים בסיום השימוש. שאר המשתתפים בניסוי היוו את קבוצת הביקורת. מלבד המשתתפים בניסוי היחידים ששהו בחדרי הכושר היו אנשי הצוות. התוצאות: כעבור שבועיים זוהה חולה אחד בקבוצת המתאמנים, ואף לא אחד בקבוצת הביקורת. נחמד. הבעיה: במשך תקופת הניסוי מספר החולים החדשים באוסלו היה נמוך מאוד: 105 בסך הכל, כ-8 חולים ליום בממוצע. יותר מכך: מספר החולים המאושפזים בעיר, שמהווה אינדיקציה למספר החולים הכללי, ירד מ-35 בתחילת תקופת המחקר ל-21 בסיומה. לסיכום, הכותרת של הכתבה אכן מאוד מדוייקת: אם אין חולים אז אין ממי להידבק, אפילו לא בחדר הכושר. השורה התחתונה של המחקר הזה: לא למדנו ממנו שום דבר משמעותי.

תוצאת החיפוש השניה היא מהאתר של השידור הציבורי בארצות הברית, NPR. מתאריך 5.7.2020. הכותרת: My Gym Is Reopening. Is It Safe To Work Out There?  עיקר הכתבה הוא ראיונות עם מומחים שונים. המסרים: כל אחד צריך להעריך את הסיכון שלו, עדיף להתאמן בבית או באוויר הפתוח, אם בכל זאת הולכים לחדר כושר לבדוק איזה אמצעי זהירות הם נוקטים, לשים לב לזרימת האוויר ועוד ועוד. ההמלצה המודגשת ביותר: אם יש באיזור שבו אתה נמצא הרבה חולים, הסיכון שלך להידבק בחדר הכושר גדול יותר. ממש כמו שהמחקר הנורבגי גילה. בכתבה יש גם הפניה למחקר תצפיתי בהיקף קטן שנעשה בדרום קוריאה[3]. ההמלצה של המחקר הזה אינה שונה מההמלצות הקודמות.

התוצאה השלישית היא מהוול-סטריט ג’ורנל: Gyms Reopening May Not Facilitate Coronavirus Infections, Study Finds. הכתבה נמצאת מאחורי חומת תשלום, אבל מהמעט שאפשר לקרוא עולה כי היא מתייחסת לאותו מחקר נורבגי. העורכים של העיתון, כפי שאני מסיק מהכותרת, סבורים כי התוצאות של המחקר הזה דווקא מעודדות, למרות ההסתייגות שהוכנסה שם[4]

בגוגל סקולאר, מלבד מהמחקר הקוריאני, לא מצאתי שום מחקר שמביא נתונים כמותיים בעניין בין עשר התוצאות הראשונות.

איך אפשר לאסוף נתונים על הסיכון לתחלואה בקורונה בחדרי הכושר?

מי שהגיע לכאן, ובפרט מי שעוקב אחרי הבלוג הזה לאורך השנים, כבר יודע את התשובה: צריך לעשות ניסוי מבוקר. הנורבגים עשו בדיוק את זה.

אני מסתייג מהמחקר הזה בגלל מספר סיבות. הסיבה הראשונה היא כל מיני עניינים שקשורים לתכנון המחקר. למשל, המתאמנים לא התאמנו בחדרי הכושר שבהם הם מתאמנים בדרך כלל אלא חדרי כושר שנפתחו במיוחד עבור המחקר. זה יוצר הטיה, כי מכונים אלה לא בהכרח מייצגים את כל המכונים. לא נאמר איך חמשת המכונים האלה נבחרו. כמו כן, לא נמסרו פרטים על גודלם של המכונים, מספר האנשים שכל מכון יכול להכיל, ועד כמה צפיפות המתאמנים במהלך הניסוי הייתה דומה לצפיפות בזמן שגרה. בעיה נוספת שאני רואה היא משך תקופת המעקב – שבועיים בלבד. החוקרים לא לקחו את משך תקופת המעקב בחשבון כאשר חישבו את גודל המדגם. אם חדרי הכושר היו נפתחים לתקופה ארוכה יותר סביר להניח שהיינו רואים יותר הדבקות, וייתכן שההבדלים בין הקבוצות יהיו שונים. כמו כן, לא נעשה שקלול על פי מספר הפעמים שבהם כל אחד מהנבדקים בקבוצת הניסוי התאמן, אבל בדיעבד זה לא משנה לאור התוצאה של מקרה הדבקה בודד בכל הניסוי.

בעיה שניה: הניסוי השווה בין מתאמנים ללא מתאמנים, ולא בדק את ההשפעה הכוללת של הפתיחה על כלל האוכלוסייה. קשה להאשים כאן את החוקרים. אני לא רואה דרך סבירה לבדוק את זה.

בעיה שלישית: המחקר לא עונה, ולא יכול לענות, על השאלה האם יש קשר בין שיעור התחלואה הכולל ושיעור ההדבקה בין המתאמנים. כן, ראינו כי כאשר שיעור התחלואה באוכלוסייה נמוך אז שיעור ההדבקה בחדרי הכושר על משך תקופה של שבועיים הוא אפסי. אבל מה יקרה אם שיעור התחלואה באוכלוסייה יעלה? סביר להניח שגם שיעור ההדבקות בחדרי הכושר יעלה, אבל אין לנו מידע על מספיק על אופי הקשר.

עם זאת, אני מבין את הקשיים בפניהם עמדו החוקרים. אולי היה אפשר לתכנן את הניסוי טוב יותר, אבל זו חכמה של צופה מהצד.

אני רוצה להציע תכנון אחר, שנראה לי יותר הגיוני: לדגום אוכלוסיית מחקר של מכוני כושר, ולא של מתאמנים. לאחר מכן, נקבע על ידי הקצאה רנדומלית איזה מכונים ייפתחו ואיזה יישארו סגורים[5]. אני בהחלט חושב שתקופת מעקב של שבועיים אינה מספיקה, והתחושה שלי היא שהתקופה צריכה לארוך לפחות חודש, אם לא יותר מכך. ההשוואה תהיה דומה להשוואה שעשו הנורבגים: השוואת שיעור הנדבקים בין המנויים בחדרים שנפתחו לבין המנויים במכונים שנשארו סגורים.

יש עוד אפשרות, פחות טובה. יש לנו כבר את נתוני ההדבקה מהתקופה שבה מכוני הכושר היו סגורים. בואו נפתח עכשיו את חדרי הכושר ונראה אם יחול שינוי. הבעיה היא כמובן שאנחנו לא חיים בחלל ריק. אי אפשר רק לפתוח את מכוני הכושר ולהשאיר את כל הגורמים האחרים קבועים. עם זאת, אנחנו עושים את זה הלכה למעשה כל הזמן. אנחנו מסתכלים על השינויים בתחלואה ומנסים למצוא קשר לכל מיני דברים: בתי ספר סגורים, אוטובוסים עם חלונות פתוחים, בתי הספר שוב נפתחים, ושוב נסגרים, 100 מטר, 500 מטר, חתונות קטנות, חתונות עד 250 איש, חתונות עד 100 איש, אני אעצור כאן ברשותכם.

אז מה לעשות עם חדרי הכושר?

רק אתמול קראתי באתר ynet כי חדרי הכושר, הבריכות וחלק מהמסעדות נסגרו כחלק מהגבלות הקורונה החדשות – אבל יו”ר ועדת הקורונה יפעת שאשא-ביטון דורשת קבלת נתונים לפני שתאשר את אותן הגבלות. שאשא-ביטון אמרה בריאיון לאולפן ynet כי הממשלה קיבלה את ההחלטה מבלי להציג נתונים – ובשלב זה אין בכוונתה לאשר את צו הסגירה. “נקבל את הנתונים ונחליט עד מחר”, הוסיפה.

אני לא בא להשמיץ את ח”כ שאשא-ביטון. לדרוש נתונים זו דרישה סבירה לגמרי. אני תומך נלהב של קבלת החלטות על סמך נתונים.

אבל היא גם אמרה, בראיון לרדיו 103FM (קישור לראיון המוקלט), כי “אם משרד הבריאות לא יוכיח שבריכות, חדרי כושר ומסעדות הם מקור התפרצות, נבטל ההנחיות”.

אז הנה הבעיה: אין נתונים  על חדרי כושר, וכנראה שגם לא על מסעדות ובריכות[6], ובטח שאין נתונים אמינים על מה שקורה בישראל. משרד הבריאות לא יכול להוכיח שחדרי כושר הם מקור התפרצות, אבל גם לא יכול להוכיח שלא. והחלטה צריך לקבל בכל מקרה. שאשא-ביטון החליטה למעשה שאם אין נתונים שמראים כי חדרי כושר הם מקור התפרצות, אז בהכרח חדרי כושר אינם מקור התפרצות. אני חולק על דעתה. אבל אל תטעו, אפשר גם לטעון את הטענה ההפוכה:  שאם אין נתונים שמראים כי חדרי כושר אינם מקור התפרצות, אז בהכרח חדרי כושר הם מקור התפרצות. שתי הטענות סובלות מאותו כשל לוגי.

ושוב, אין לי שום דבר אישי נגד חברת הכנסת, כולנו עומדים בפני אותה הדילמה, לכל אחד יש דיעה, ומאוד סביר להניח שרבים חושבים כמו שאשא-ביטון, לכיוון כזה או אחר. היא פשוט בולטת בגלל התפקיד שהיא ממלאת והאחריות שהיא נושאת על כתפיה. וגם אם פורמלית יש כאן כשל לוגי, אי אפשר לומר שאין הגיון במה שהיא אומרת. אני בטוח כי היא חשבה על הנושא ולקחה בחשבון עוד שיקולים שצריך לקחת בחשבון, כמו שיקולים כלכליים ודאגה לרווחת הציבור.

אין נתונים, אין ברירה וצריך להחליט בלעדיהם. אפשר לבצע ניסוי כמו שעשו בנורבגיה. אפשר לנסות להניח הנחות, לבנות מודל, לבדוק עד כמה הוא עמיד. ואפשר, כמו שעשו ב-NPR, להתייעץ עם מומחים, בעיקר אפידמיולוגים ומומחים לבריאות הציבור אבל בהחלט גם עם אנשים שיש להם מומחיות בתחומים אחרי שרלוונטיים לדיון.

דעתי האישית היא שאת חדרי הכושר יש לסגור. אנחנו בישראל ולא בנורבגיה, ואני לא מאמין שדווקא שם ישמרו על ההנחיות של ריחוק חברתי, היגיינה וחבישת מסיכות. אדרבא. כאן לדעתי יש להפעיל את עיקרון הזהירות המונעת. לגבי בריכות ומסעדות? אין לי מושג, מצטער.

מאחל לכולכם רק בריאות.


הערות
  1. לאחר מכן המקורות מתחילים להיות מפוקפקים. התוצאה הרביעית הייתה מאתר בשם mindbodyonline נקודה קום, והחמישית מאתר מסחרי בשם europeactive נקודה אי.יו. שעוסק בקידום פעילויות ספורט. []
  2. קישור למחקר – קובץ פדף []
  3. מצאתי אותו גם בגוגל סקולר []
  4. “may not…” []
  5. אני לא אכנס כאן לפרטי הדגימה וההקצאה. אני מודע לכך שאני כותב כאן בצורה פשטנית, והתהליך הרבה יותר מורכב []
  6. מי שמעוניין מוזמן לבדוק []

עוד שימוש מפתיע לרנדומיזציה: קבלת החלטות

לפני שבוע, הצייצן eSivion העלה סקר לא שגרתי בטוויטר, בו ביקש מהמשיבים להצביע כך התפלגות התשובות לסקר תהיה 10% לתשובה א, 20% לתשובה ב, 30% לתשובה ג ו-40% לתשובה ד:

הניסוי הצליח![1]

איך עושים את זה, או יותר נכון, איך הציבור הצליח לעשות את זה?

אחת המגיבים לסקר סיפק ספוילר כחצי שעה לאחר שהסקר פורסם:

 

טוב, אני לא יודע עד כמה הספוילר הזה השפיע על התוצאה הסופית. אומר רק שאני נתבקשתי לחוות את דעתי כמה דקות אחרי שהסקר עלה, ועניתי שאתייחס רק לאחר שהוא הסתיים. התשובה אל אותו ליאור היא אכן הדרך הנכונה להגיע להתפלגות שרוצים: רנדומיזציה, אם כי אני הייתי ממליץ על ספרת היחידות של השניות, או על מחוג השניות.

לפני כמה ימים כתבתי על רנדומיזציה בהקשר על ניסויים מבוקרים, אבל רעיון הרנדומיזציה טוב גם לדרים אחרים, כמו להשיג תוצאה מסויימת בסקר של טוויטר. אבל…

אם תצפו במשחקי טניס מקצוענים, תראו שרבים מן השחקנים עונדים שעון יד. זה לא בהכרח בלל שהם ממהרים לאן שהוא, ורוצים לסיים את המשחק בהתאם לתוכניות שלהם[2]. כאשר מגיע תורו של שחקן טניס לחבוט את חבטת הפתיחה, יש לו בגדול שתי אפשרויות: לחבוט ימינה או לחבוט שמאלה[3] . אם יחבוט כל הזמן ימינה, היריב ייערך בהתאם, וזה גם מה שיקרה אם יחבוט כל הזמן שמאלה. גם אם יחבוט ימינה ושמאלה לסירוגין, היריב יעלה על זה מהר מאוד. חייבים לשמור כל הזמן על יתרון ההפתעה. איך עושים את זה? מציצים בשעון. אם מספר השניות שעברו בדקה הנוכחית קטן משלושים, חובטים ימינה. אחרת – חובטים שמאלה. כך ליריב לא תהיה דרך טובה לחזות לאן תיחבט החבטה הבאה.

זה קורה גם בבייסבול. כאן יש פיצ’ר, שהוא השחקן שזורק את הכדור לעבר החובט. יש כל מיני סוגי זריקות שהפיצ’ר יכול לזרוק: כדור מהיר, כדור מסובב, וכדומה. אם החובט יודע מראש איזה סוג זריקה יזרוק הפיצ’ר, זה ישפר את סיכוייו לחבוט בכדור[4].

הפתרון הוא כמובן לזרוק את הכדור באופן שיקשה על החובט לנחש מראש מה יהיה סוג הזריקה. אפשר לעשות את זה על ידי רנדומיזציה, למשל על ידי מבט מהיר בשעון. גרג מאדוקס, אחד מגדולי הפיצ’רים בכל הזמנים, סיפר כי הוא השתמש בשיטה הזו כדי לקבל החלטות באשר לזריקה שאותה יזרוק. זה כמובן לא מספיק, כדי להיות כמו גרג מאדוקס צריך גם כשרון נדיר, אבל הרנדומיזציה בודאי שלא הזיקה לא.


הערות
  1. אם כי מבחן כי בריבוע מראה כי ההתפלגות של ההצבעות שונה באופן מובהק סטטיסטית מההתפלגות לה קיווה אי-שיוויון []
  2. כמו שקרה בסרטו של אלפרד היצ’קוק זרים הרכבת []
  3. אני מפשט קצת את הדברים []
  4. גם ככה הסכוי לחבוט נמוך למדי. החובטים הממש טובים מצליחים לחבוט בכדור בכ-30% מהפעמים []

דמוקרטיה או שוק?

מירב ארלוזורוב ירדה מהפסים

רק לפני כמה ימים התבדחתי בטוויטר והצעתי להפריט את הכנסת ולפתוח את שוק החקיקה לתחרות, והנה באה מירב ארלוזורוב ומוכיחה שכל בדיחה, הזויה ככל ששתהיה, על ליברטיאנים היא רק תיאור למה שהם באמת חושבים. כשל שוק בדמוקרטיה, היא כותבת. ירדת לגמרי מהפסים, מירב. תגשי לרופא.

כשל שוק דמוקרטי

 

 

קודם כל, לקחתי צילום מסך, לפני שבדה-מרקר יבינו עד כמה הדברים האלה מחפירים ויעלימו אותם.

ועכשיו התייחסות רצינית.

האמת על הדמוקרטיה ועל חוק ההסדרים

קודם כל: דמוקרטיה זה לא שוק. דמוקרטיה זה ערך. אפשר להתווכח אם זו השיטה השלטונית שמתאימה לנו או לא (לי זה נשמע קצת הזוי, אבל אני יודע שיש הרבה אנשים שחושבים אחרת). בינתיים אנחנו דמוקרטיה, או לפחות קרובים לזה.

בדמוקרטיה אמורה להיות הפרדת רשויות, וזה כולל בין היתר הפרדה בין הרשות המחוקקת – הכנסת, והרשות המבצעת – הממשלה. אנחנו קצת חלשים בזה, זה נכון[1]. אבל חוק ההסדרים הוא חוק בלתי דמוקרטי במיוחד. האם אתם מכירים מדינה דמוקרטית אחרת שיש בה חוק כזה?

אומר כאן דברים חריפים: חוק ההסדרים הוא פוטש של הרשות המבצעת נגד הרשות המחוקקת, שמתקיים, למרבה הצער, תוך כדי שיתוף פעולה של חברי הכנסת מהקואליציה. החוק הזה מנוסח על ידי פקידים, שתפקידם ליישם מדיניות ולא לקבוע מדיניות. החוק הזה מבטל החלטות שהתקבלו בכנסת ועל הממשלה ליישם.

בפועל, הממשלה לא מאפשרת קיום דיון רציני בחוק ובמשמעויות שלו. וכל הפארסה האנטי דמוקרטית הזאת מתקיימת בגלל שהממשלה לא מוכנה לקבל החלטות אמיתיות ולקבוע סדרי עדיפויות.

ניקח למשל את חוק חינוך חובה חינם, שביצועו נדחה כל שנה במסגרת חוק ההסדרים. הממשלה יכולה להחליט שהחוק הזה לא מספיק חשוב, או שהוא חשוב אבל לצערנו מצבנו הכלכלי (שמעולם לא היה טוב יותר!) אינו מאפשר את קיום החוק. אז שיקום שר האוצר, או ראש הממשלה, ורצוי שניהם, ויגידו את זה. אבל זה לא פופוליסטי, ולכן הם מעדיפים לטאטא את זה מתחת לשטיח של חוק ההסדרים.

הכשל העיקרי: חוסר מנהיגות

ואם מדברים על כשלים בדמוקרטיה שלנו, אז הנה הכשל העיקרי: אין לנו היום מנהיגים שבאמת רוצים להנהיג ולקבל החלטות אמיצות, כמו למשל, להטיל מס על טבק לגילגול, וזו רק דוגמה קטנה. וזה מתבטא בהרבה מקומות אחרים.הנה דוגמה הרבה יותר חמורה: קיצוץ רוחבי בתקציב, דבר שהפך להיות מאוד פופולרי בשנים האחרונות. צריך כסף למשהו? “האדם הרציונלי” שהכלכלנים כל כך אוהבים, אמור להחליט על מה הוא מוותר בתמורה לכך שישתמש בכסף למטרה שהוא חושב לראויה. הממשלה, לפי האנלוגיה הזו, צריכה להגדיר סדרי עדיפויות ולקבל החלטות. אבל שוב, זה לא פופוליסטי. עדיף לקצץ קיצוץ רוחבי, ולעזאזל אם הקיצוץ הזה יפגע גם בדברים שנראים חשובים בעיני רוב האזרחים, כמו למשל מערכת הבריאות.

מה שחסר לנו זה לא חוק הסדרים וקיצוצים רוחביים. חסרה לנו מנהיגות. ואת זה אי אפשר להשיג בחוק ההסדרים.


הערות
  1. דוגמה אחת קטנה: החלטות בנושא חקיקה, כלומר החלטות איזה חוק יחוקק ואיזה לא, מתבצעות בועדת השרים לענייני חקיקה ולא בכנסת. הכנסת, או יותר נכון הקואליציה, היא רק חותמת גומי להחלטות שמתקבלות בממשלה []

“המחשב טעה. שלא תדעו עוד צער.”

האם מקצוע הרדיולוג עומד להיכחד? האם אלגוריתמים של בינה מלאכותית, כגון רשתות נוירונים, יחליפו את הרדיולוגים, ובהמשך את שאר הרופאים? ואיך כל זה קשור למכוניות אוטונומיות?

כל השאלות האלה עלו בעקבות פוסט בבלוג  Toward Data Science שפרסם יו הארווי, רופא המתמחה ברדיולוגיה. הארווי טוען כי האלגוריתמים לא יחליפו את הרדיולוגים בעתיד הנראה לעין, אם בכלל. בדיון בקבוצת Machine & Deep learning Israel בפייסבוק הופיע הפניה לפוסט של לוק אוקדן-ריינר, גם הוא רופא המתמחה ברדיולוגיה.  הפוסט של אוקדן-ריינר מתייחס למאמר שפורסם ממש לפני כמה חודשים (נובמבר 2017), מאת רג’פורקאר ועמיתיו, שתיאר אלגוריתם לפענוח תצלומי רנטגן. בין העמיתים החתומים על המאמר זה נמנה אנדרו אנג, מה שמחייב התייחסות רצינית ביותר למאמר.

ברשימה זו אביא את דבריהם של הארווי ואוקדן-ריינר, ואתייחס למאמר של רג’פורקאר. כמו כן, אומר מה לדעתי צריכים להיות הקריטריונים לפיהם יהיה ניתן לקבוע כי אלגוריתם כזה יכול להחליף רופא מומחה. בנוסף אענה באופן מסודר לטענות (הטובות) שהועלו בקבוצת הפייסבוק.[1]

זוהי רשימה ארוכה במיוחד. חילקתי אותה למספר פרקים כשלכל פרק כותרת נפרדת, כדי שתוכלו לדלג על הפרקים שלא מעניינים אתכם.

הארווי: אינטליגנציה מלאכותית לא תחליף את הרדיולוגים

ד”ר הארווי, שכנראה לא היה מודע למאמר של ראג’פורקאר כשכתב את דבריו[2] משיב לטענתו של ג’פרי הינטון, מומחה לרשתות נוירונים, שאמר כי “ברור שצריך להפסיק להכשיר רדיולוגים”. הוא מביא שלושה טיעונים כתשובה להינטון.

ראשית, טוען הארווי, כי בניגוד לאלגוריתם, הרדיולוג עושה יותר מאשר להביט בהדמיות[3]. הארווי מתאר בפירוט את תפקידיו של הרדיולוג בתהליכי האבחון, שאמנם מתבססים על הדמיות, אך גם על אינפורמציה נוספת. הוא אמנם מסכים כי אלגוריתמים למיניהם עשויים לסייע ולשפר כמה תחנות בתהליך האבחוני, אך אינם יכולים להחליף את שיקול הדעת של הרופא.

הנימוק השני של הארווי הוא שבסופו של דבר מי שנושא באחריות הסופית הם בני אדם. הארווי מציג אנלוגיה בין התעופה ובין הרפואה (לא מוצלחת, לדעתי), אולם בסופו של דבר מדגיש את הנקודה המהותית: כשהרופא טועה, ורופאים אכן עלולים לטעות, הרופא אחראי. מי יהיה אחראי במקרה שבו האלגוריתם טעה? האם החברה שמכרה לבית החולים את המערכת שמפענחת תצלומי רנטגן תהיה מוכנה לקחת אחריות על מקרה שבו חולה ימות כי האלגוריתם טעה ולא זיהה כי הפציינט חולה בדלקת ריאות? אולי החולה שהסכים להפקיד את בריאותו בידיו של האלגוריתם (בהנחה שהייתה לו ברירה) אחראי? הרי אף אחד לא יעלה בדעתו שהרופא ששלח את החולה הבייתה כי האלגוריתם אמר שהוא בריא יהיה אחראי. או שכן? הארווי טוען שאף מערכת AI לא תהיה מדוייקת ב-100%. זה נכון, אבל לדעתי הטענה הזו מחלישה את הטיעון שלו. הרי גם רופאים טועים. עם זאת טוען הארווי כי רופאים עשויים לתפקד טוב יותר מאלגוריתם במקרי קצה, וכאן אני נוטה להסכים איתו.

הטענה השלישית של הארווי פחות רלוונטית לנושא של השוואת הביצועים של רופאים ואלגוריתמים רפואיים. הוא טוען כי כאשר יוכנסו מערכות AI למיניהן ויחליפו חלק מהשלבים בתהליך האבחוני, התהליך אכן יתייעל, אולם זה רק ייצור יותר ביקוש לשירותי רדיולוגיה, הביקוש לרדיולוגים יעלה ויגבר הצורך בהכשרת רדיולוגים נוספים.

ראג’פורקאר: האלגוריתם יכול לאבחן דלקת ריאות יותר טוב מהרופאים

הפוסט של אוקדן-ריינר מתייחס למאמר של רג’פורקאר. לכן אסקור בקצרה את הרעיון הכללי של מאמר, ואחר כך אביא את דבריו.

ראג’פורקאר ועמיתיו (שמכאן והלאה אכנה בשם “החוקרים”) נעזרו בבסיס נתונים שהכיל יותר מ-100 אלף תצלומי רנטגן של החזה, של כ-38 אלף חולים ב-14 מחלות שונות, וביניהן דלקת ריאות. כל חולה סווג כחולה בדלקת ריאות, או כלא חולה בדלקת ריאות. הנתונים חולקו לפי כל כללי הטקס[4] לשלושה קובצי נתונים נפרדים.

ראשית הם השתמשו בנתונים של כ-29 אלף חולים, ובסך הכל כ-99 אלף תצלומים לצורך “אימון המודל”[5], כ-3.5 תצלומים לחולה, בממוצע.

לאחר שאימנו את המודל, עברו לקובץ השני, בו היו כ-6400 צילומים של כ-1700 חולים (3.8 צילומים לחולה, בממוצע). בעזרת קובץ זה הם ביצעו תיקוף (ולידציה) של המודל.

לסיום, בחנו את ביצועי המודל על הקובץ השלישי, שהכיל 420 צילומים של 389 חולים (כ-1.08 תצלומי רנטגן לחולה, בממוצע).[6]

בתהליך הבחינה 420 התצלומים נבדקו על ידי ארבעה רדיולוגים מאוניברסיטת סטנפורד שסיווגו את החולים לאחת מ-14 המחלות שהיו בקובץ המקורי, וכמובן שגם האלגוריתם אמר את דברו. לרדיולוגים לא היה כל מידע רפואי על החולים מעבר לתצלומי הרנטגן, וכמו כן הם לא ידעו את השכיחויות של כל אחת מ-14 המחלות בקובץ המקורי. במילים אחרות, היה להם בדיוק את אותו המידע שהיה לאלגוריתם.

החוקרים חישבו לכל אחד מהרדיולוגים, וגם עבור האלגוריתם, מדד ביצוע מקובל בשם F1. [7]  הם הראו כי ההפרש בין המדד שהתקבל לאלגוריתם גבוה ב-0.051 מהמדד הממוצע של ארבעת הרדיולוגים, וכי ההפרש הזה מובהק סטטיסטית (רווח הסמך להפרש ברמת סמך של 95% הוא 0.005-0.084).

החוקרים מודים כי למודל שלהם יש שלוש מגבלות, אך מציינים רק שתיים[8]. ראשית, הנתונים כללו רק צילומי חזה פרונטליים, בעוד שבכ-15% מהמקרים של דלקת ריאות יש צורך גם בתצלומי צד כדי לבצע אבחנה מדוייקת. שלישית[9] , החוקרים מודים כי העובדה שהמודל והחוקרים לא נעזרו בנתונים נוספים, כגון היסטוריה רפואית, פוגעת בביצועים של הרופאים (ושל המודל כמובן).

אוקדן-ריידר: אלגוריתמים הם מגניבים, אבל…

ד”ר אוקדן-ריינר אכן סבור כי נוכל להגיע למצב בו לאלגוריתם יהיו ביצועים שווים לביצועים של רופא אנושי ואף יעלו עליו. עם זאת, הוא טוען כי האלגוריתם של רג’פורקאר אינו מתאים לבצע אבחון רפואי. הסיבה לכך נעוצה, לדבריו, בנתונים של ואנג ועמיתיו, בהם רג’פורקאר ועמיתיו השתמשו לצורך פיתוח המודל.

אוקדן-ריינר טוען  כי יש בעייתיות בסיווגים של התצלומים בקובץ הנתונים המקורי של ואנג. לא ברור עד כמה הסיווגים מדוייקים, מה המשמעות הרפואית של הסיווגים, ועד כמה הסיווגים שימושיים לצרכים של ניתוח הצילומים. הוא מציין כי קובץ הנתונים והדוקומנטציה שלו עודכנו מספר פעמים מאז הפרסום המקורי. המאמר שמתאר את בניית הקובץ כמעט ואינו מתייחס להיבטים הקליניים של הנתונים, ומכיל רק פיסקה אחת שמתייחסת לרמת הדיוק של האבחונים שהותאמו לכל סט של תצלומים של חולה אחד.

עד כמה מדויקים הסיווגים? הם התקבלו בשיטות של text mining. הם לא התבוננו בתצלומים. אוקדן-ריינר טוען שרמת הדיוק של הסיווגים בקובץ אינה מספקת. הוא קבע זאת על ידי התבוננות בתצלומים. אמנם לא בכולם, אלא רק במדגם. הסיווגים שלו, כרדיולוג מומחה, היו שונים באופן מהותי מהסיווגים שבקובץ הנתונים.

השאלה השנייה היא מה המשמעות הרפואית/קלינית של הסיווגים. הנה הבעיה: הקביעה האם לחולה יש או אין דלקת ריאות היא קביעה קלינית. צילום רנטגן של החזה הוא נתון התומך באבחון (surrogate measure) ואינו מספיק לבדו לקבוע האם לחולה יש דלקת ריאות, או שה-“עננים” הנראים בצילום הם סימפטום לבעיה רפואית אחרת. המצב בו רואים “עננים” נקרא קונסולידציה. למעוניינים בהסבר רפואי מפורט יותר אני מפנה לפוסט אחר שלו. השורה התחתונה היא שהסיווג של ואנג ועמיתיו במקרה של “עננים” הוא סיווג של יש קונסולידציה או יש דלקת ריאות. אולם, מבחינה רדיולוגית קשה מאוד להחליט מתי קונסולידציה היא דלקת ריאות או משהו אחר. דלקת ריאות היא סוג של קונסולידציה. ההיפך לא נכון. כאשר ואנג ועמיתיו מציינים בנתונים שיש קונסולידציה, יכול להיות שלחולה יש דלקת ריאות. גם יכול להיות שלא. אוקן-ריינר טוען כי הנתונים שבדק מראים שהבעיה הזו קיימת.

וכאן עולה השאלה שלישית, והחשובה ביותר: אם הסיווגים של הנתונים בעייתיים, והמשמעות הקלינית שלהם מוטלת בספק, מה המודל באמת לומד? מה הערך של מודל המתבסס על נתונים בעייתיים?

מה הבעיה במאמר של רג’פורקאר?

אני סומך ב-100% על העבודה שעשו רג’פורקאר ועמיתיו. ההבנה שלי בתחום בו עוסקים היא בסיסית, ומבוססת בעיקר על לימוד עצמי. לצורך הדיון, אני מוכן להתעלם מהביקורת של אוקדן-ריידר על טיב הנתונים. זה לא משפיע על האיכות של המודל, שהרי התחרות בין ארבעת הרדיולוגים ובין המודל התבססה על אותם נתונים, והמודל ניצח. החוקרים מצאו כי במונחי F1, המודל היה יותר טוב מהרדיולוגים בשר ודם ב-0.051, וההבדל הזה מובהק סטטיסטית.

יש לי רק שאלה אחת: מה המשמעות הקלינית של ההבדל הזה? מה הערך המוסף הקליני של המודל? לצערי, אין לי מושג, ואני לא בטוח שלמישהו יש מושג. ברור שהשאלה הזו לא עלתה כלל על דעתם של החוקרים, כי אחרת הם היו לפחות מזכירים אותה  בדיון המסכם. המילה clinical הופיעה במאמר רק פעמיים, שתיהן בפרק המבוא. זהו אחד משבעת החטאים של הסטטיסטיקה: אי הבחנה בין תוצאה מובהקת לתוצאה משמעותית.

מה הבעיה המרכזית במודל של רג’פורקאר?

הבעיה המרכזית במודל של רג’פורקאר היא אבחון חלקי. כשהמודל קובע שלחולה אין דלקת ריאות, הוא לא אומר מה כן יש לו. כאן יש לרדיולוג יתרון ברור על המודל. יש לו ידע קליני שמאפשר לו לקבוע מה מצבו של החולה.

נכון שזה רק מודל, ואנחנו בתחילת הדרך. אין לי ספק שהמודל הזה הוא צעד בכיוון הנכון, אבל זהו צעד קטן מאוד. כדי נגיע למצב בו מודל כזה יהיה ראוי להישקל לשימוש, הוא יהיה צריך לסווג את תצלומי החזה ל-15 קטגוריות לפחות. מישהו יכול להעריך עד כמה אנחנו רחוקים ממודל כזה?

איך צריך להעריך את הביצועים של מודל רג’פורקאר? (וגם את ביצועי הרופא)

תסלחו לי, אבל אני לא מבין מה המשמעות האינטואיטיבית של מדד F1, ומה זה אומר אם הוא שווה ל-0.435. אני ביוסטטיסטיקאי. אחד מתפקידיי הוא לתקשר את התוצאות לצוות הקליני, כדי שהם יוכלו להעריך את המשמעות שלהם. כשהמטרה היא להעריך כלי דיאגנוסטי[10] אני בהחלט מציג בפניהם מדדים כמו accuracy, specificity, ו-sensitivity, למרות שבמקרים רבים גם להם אין משמעות אינטואיטיבית ברורה[11]. אבל כל המדדים האלה לא מספיקים. אלוהים נמצא בפרטים הקטנים, ולכן צריך להתעמק בהם.

מה יקרה אם המודל של רג’פורקאר ישמש ככלי אבחון עיקרי או יחיד למחלת ריאות? בואו נניח לצורך הדיון, כי המודל משמש כשלב הראשון בתהליך האבחוני, ויסווג את החולים כסובלים מדלקת ריאות, או לא סובלים מדלקת ריאות אלא ממשהו אחר, שהמודל לא יודע לזהות, ובמקרה כזה התהליך האבחוני יימשך. נניח גם כי זהו גם התהליך הרדיולוגי.

כאשר מודל או רדיולוג צופים בצילום חזה, יש ארבע אפשרויות.

קודם כל, יש מצב שבו המודל או הרדיולוג מאבחנים כי לחולה יש דלקת ריאות, ולחולה אכן יש באמת דלקת ריאות. זה מצויין. נותנים לחולה את הטיפול המתאים ושלום על ישראל. כאן יש תועלת.

ייתכן כי לחולה אין דלקת ריאות, והמודל או הרדיולוג יקבעו כי לחולה אין דלקת ריאות. זה אכן טוב, אבל לא יותר מדי טוב. החדשות הטובות הן שלא נעשה משהו רע. הבעיה היא שלא התקדמנו. אדם נשלח לביצוע צילום חזה כי הוא חולה במשהו. אם אין לו דלקת ריאות אז יש לו משהו אחר. מה? ובכן, יש צורך בבדיקות נוספות. כאן אין תועלת וגם אין נזק.

נמשיך. יכול להיות כי לחולה יש דלקת ריאות והמודל או הרדיולוג יקבעו כי אין לו דלקת ריאות. הרופאים ימשיכו בתהליך האבחוני. הטיפול בחולה מתעכב. כאן יש קצת נזק. במקרה הטוב, בחינה נוספת של הרופאים תעלה כי בכל זאת יש לו דלקת ריאות, והנזק מינימלי. במקרה הפחות טוב, אם כי לדעתי יותר נדיר, החולה יאובחן כסובל מבעיה אחרת, יקבל טיפול רפואי בלתי מתאים, יסבול מתופעות הלוואי והנזקים הבריאותיים שנגרמים מעצם הטיפול (ותמיד יש תופעות לוואי ונזקים בריאותיים), והבעיה הרפואית האמיתית שלו לא תטופל. עלול להיגרם נזק משמעותי.

ועכשיו נגיע למצב הגרוע ביותר: לחולה אין דלקת ריאות והמודל או הרדיולוג אומרים כי יש לו דלקת ריאות. החולה יקבל טיפול רפואי לדלקת ריאות, (אנטיביוטיקה, למשל) שאינו מתאים למצבו הרפואי, וכאמור לעיל, יסבול מתופעות הלוואי והנזקים הבריאותיים שנגרמים מעצם הטיפול (השגוי). שוב, החולה לא יקבל טיפול מתאים לבעיה הרפואית האמיתית שלו, שאינה דלקת ריאות, אלא ככל הנראה משהו יותר חמור. כאן נגרם נזק משמעותי. עד כמה הנזק משמעותי? זה כבר תלוי בהרבה גורמים, כמו למשל המצב הבריאותי האמיתי של החולה, ומשך הזמן שיעבור עד שיבחינו כי הטיפול הנוכחי שהחולה מקבל אינו יעיל ויבצעו הערכה מחדש של האבחון.

השאלה הגדולה היא: האם המודל והרדיולוג טועים את אותן הטעויות?

מדדים כגון F1 לא אומרים לנו מה השכיחות של כל מצב מארבעת המדדים שתיארתי, ובוודאי לא מספקים לנו הערכה של סך הנזק הפוטנציאלי, סך התועלת הצפויה, והערכה האם התועלת עולה על הנזק, ואם כן, עד כמה. אפשר לבצע את ההערכה הזו. אפשר לכנס צוות רופאים שיבחנו אחד לאחד את 389 התיקים ששימשו לבחינת המודל. סטטיסטיקאי טוב יוכל להקל עליהם את העבודה באמצעות הצגה בהירה של הנתונים. בסופו של דבר, תהיה לנו הערכה לגבי הביצועים הקליניים של המודל.

באותו אופן, אפשר להעריך את הביצועים הקליניים של ארבעת הרדיולוגים שהתחרו במודל.

כעת, נוכל לקבוע האם למודל יש באמת יתרון על הרופאים בשר ודם, ואם כן, האם היתרון משמעותי מבחינה קלינית.

הדיון בקבוצת הפייסבוק ותשובות לשאלות

חברי הקבוצה לא הקלו עלי את החיים כששיתפתי עימם את הפוסט של ד”ר הארווי, וטוב שכך. אני ציינתי שאני מסכים עם הטענות שלו, ומטבע הדברים היו חברים בקבוצה שלא הסכימו איתנו. הם העלו טיעונים טובים ושאלו אותי שאלות קשות ומצויינות. עניתי כמיטב יכולתי במסגרת המגבלות הטכניות של ממשק הפייסבוק. אביא כאן את עיקרי הדיון, אתייחס לשאלות שנשאלתי בכל הרצינות, ואענה כמיטב יכולתי. אם פיספסתי שאלה של מישהו, אנא הפנו את תשומת ליבי לכך ואתקן. אשמח גם להמשיך בדיון.

כמו כן, אני ממליץ לכם לקרוא את הדיון עצמו שכן מעבר לדיון הספציפי בטיעונים של ד”ר הארווי ולשאלות שנשאלתי נאמרו בו עוד דברים מעניינים וחשובים.

  • ערן פז טוען שאלגוריתמים יכולים ללמוד גם פעילויות אחרות שמבצע הרופא כולל אינטראקציה בין אישית, וחוזה בבדיחות הדעת כי גם באינטראקציה בין אישית ביצועי האלגוריתמים יהיו טובים יותר מאלה של הרופא. בסופו של דבר, אומר ערן, הרפואה תהיה אוטומטית כמעט לחלוטין.

האמת היא שאין לי מה לענות לטענה הזו. מדובר בהערכה סובייקטיבית. אני לא שולל את האפשרות שזה אכן יקרה[12], אבל יש לדעתי סיכוי הרבה יותר סביר שזה לא יקרה. בכל מקרה, אני משוכנע שהדור שלנו לא יזכה לראות את הרפואה האוטומטית, אם אכן החזון יתגשם. ההערכה הסובייקטיבית שלי היא כי זה לא יקרה בעתיד הנראה לעין.

  • ערן מתייחס גם לטיעון השני של ד”ר הארווי, ואומר כי זה נושא יותר פילוסופי/רגולטורי מאשר טכנולוגי, ובכך הוא צודק כמובן. הוא ממשיך וטוען כי הבעיה שגם אם המערכת היה טובה יותר מבן אדם, לנו כבני אדם קשה יותר לקבל טעות ספציפית שנעשתה ע”י מחשב, גם אם בסה”כ הוא טועה הרבה פחות מבן אדם.

לי יש בעיה עם האמירה הזו. המחשב לא טועה, גם לא המודל (או יותר נכון, האלגוריתם).[13] מקור הטעויות הן בפיתוח האלגוריתם.

  • כאן מתערב בדיון ים פלג ושואל מה אם יש רעש בדאטה.

התשובה המיידית שלי הייתה כי יש הבדל בין מודל שמנסה לחזות התנהגות של לקוח ובין מודל שעוסק בחיי אדם. עם זאת, ים בהחלט צודק. רעש בנתונים הוא בעיה שצריך להתמודד איתה. הדרך להתמודד, לדעתי, היא לבדוק את הביצועים הקליניים של המודל, כפי שהסברתי למעלה, ולהשוות אותו לביצועים של הרופאים, במונחים של סך תועלת מול סך נזק.

  • ים ממשיך ושואל האם סך התועלת הוא לא ההפרש בין ביצועי האלגוריתם לביצועי האדם.

עניתי מהמותן שלא, אבל אני מודה שהתשובה שלי לא הייתה מדוייקת. ים צודק עקרונית, אבל לקביעה שלו אין משמעות אם לא מגדירים היטב איך מודדים את ביצועי האלגוריתם וביצועי האדם. מי שקרא עד כאן יודע כבר שהתשובה הרבה יותר מסובכת, ו-F1 הוא לא המדד האולטימטיבי.

  • ים המשיך והקשה עלי. הוא טען כי אם יש לך אדם שמאבחן נכון X אנשים ומציל את חייהם ויש אלגוריתם שמאבחן נכון X+Y אנשים נכון (מהנתון שהוא יותר מדויק) ומציל את חייהם. יש לך Y יותר אנשים חיים.

זה כמובן נכון, אבל זה רק צד אחד של המטבע. מספר התוצאות החיוביות האמיתיות, או יותר מדוייק – שיעורן. ה-True Positive Rate הוא בהחלט מדד חשוב, אבל כפי שעניתי בקצרה בקבוצת הפייסבוק והסברתי כאן בפירוט, יש עוד צד למטבע, עוד שלושה צדדים למעשה. הבעיות העיקריות, כפי שהסברתי למעלה, נובעות מהאבחונים הלא נכונים: תוצאות חיוביות שגויות (False Positive) ותוצאות שליליות שגויות (False Negative).

  • ערן חוזר ושואל: בוא נניח לרגע שמודל לא יהיה יותר מדוייק, אלא יהיה יותר קרוב ל(1,1) על הROC או לכל מדד אחר שתבחר מבן אדם, עכשיו הטיעונים בסדר? כמו כן הוא מציין כי בדיון גם לא לקחנו בחשבון את העלויות של הקמת חוות GPU לעומת העלות של הכשרת רדיולוג, זה גם משפיע על התועלת?

אני טוען שבמצבים רפואיים התועלות והנזקים הם לא 0-1. נכון שאולי ב-ROC המודל יעשה טוב יותר, עם זה אני לא מתווכח. אני טוען שלטעויות שונות יש משמעויות שונות, וכמו כן, גם במצבים של חוסר טעות, TP ו-TN, עדיין יש משמעויות שונות. המצב נעשה הרבה יותר חמור אם עוברים מדלקת ריאות לסרטן, למשל. מי ייקח אחריות על חולה סרטן שלא יאובחן בזמן בגלל שהמודל היה רועש מדי?

  • אמיר רוזנפלד שואל: יהי המדד האולטימטיבי כפי שאתה מגדיר אותו. נניח שתחת מדד זה מכונה מתעלה על אדם. במי תבחר?

תשובתי היא שכשמדובר ברפואה אין דבר כזה “מדד אולטימטיבי”. צריך לבצע הערכה כוללת של התועלת מול הנזק כי הנזקים עלולים להיות שונים מחולה לחולה. יש משמעויות לטעויות, והן שונות מחולה לחולה. חזרתי והבאתי את הדוגמה של חולה שמאובחן בטעות כחולה סרטן. הוא יקבל כימותרפיה שהוא לא צריך[14]. מילא התופעות לוואי של בחילות ונשירת שיער וכאלה – כימותרפיה גם גורמת נזקים בריאותיים ממשייים.

עם זאת, אני בהחלט מסכים שאם למודל יש יתרון קליני משמעותי על פני הרופאים בשר ודם, יש להעדיף את המודל, לפחות ברמה היישומית. עדיין יש לפתור את עניין האחריות.

  • ערן טוען כי אני סתם מתחמק מתשובה, ושואל: הנה, מודל, שעבור רמת הFP והFN של רופא נותן יותר TP מרופא אבל עדין טועה, מחליף את הרופא?

אני מודה שלא הבנתי את השאלה, אבל סבור שהבהרתי לחלוטין איך יש להעריך את הביצועים של המודל ולהשוות אותם לביצועים של הרופא.

סיכום

אני חושב שכולם מסכימים כי עדיין לא הגיע היום בו אלגוריתמים יכולים להחליף רופאים, אלא אם מדובר בתהליכים ממש פשוטים. למשל, אני סבור שאפשר להכניס לשימוש אלגוריתם שיקבל בתור קלט נתונים על חולה (כמו בדיקות דם, מדדי דופק ולחץ דם, וכולי) ויוציא התרעה לרופא המשפחה אם הנתונים בעייתיים. ייתכן ואלגוריתמים מסוג זה כבר קיימים ופועלים.

במקרים יותר ממוקדים, כמו אלגוריתם הפיענוח של רג’פורקאר הדברים הרבה יותר מסובכים. יש הסכמה כי הנתונים ששימשו ל-“אימון” המודל היו בעייתיים. אלגוריתם זה אמנם הראה יתרון מובהק סטטיסטית בביצועיו על פי מדד F1 לעומת ארבעה רופאים בשר ודם, אבל לא ברורה המשמעת הקלינית של יתרון זה (בלשון המעטה). כמו כן, האלגוריתם מוגבל בכך שבמקרה והוא מזהה כי לחולה אין דלקת ריאות, הוא לא מספק תובנה לגבי הבעיה האמיתית שיש לחולה. בסופו של דבר, האלגוריתם הזה הוא אמנם צעד בכיוון הנכון, אבל צעד זעיר מאוד, כמעט זניח.

יתר על כן, המקרה הרפואי של דלקת ריאות הוא קל יחסית מבחינה רפואית. מחלות אחרות, כגון סרטנים ומחלות לב, למשל, צופנות בחובן אתגרים הרבה יותר גדולים.

עם זאת, יש דרך טובה ויעילה לבחון האם הביצועים של אלגוריתמים כאלה עולים על הביצועים של רופא אנושי, ובכמה.

אבל הבעיה העיקרית אינה טכנולוגית אלא אתית.

מי אחראי במקרה שהאלגוריתם טועה? מספר הדעות יהיה כנראה כמספר המשיבים.

בואו נראה מה יכול לקרות בארצות הברית, מכיוון שסביר להניח כי היא תהיה בין המדינות הראשונות בהן יוכנסו אלגוריתמים כאלה לשימוש (בהנחה שבכלל יוכנסו). במדינה בה תביעות על רשלנות רפואית[15] נפוצות מאוד, הנפגעים לא יהססו לתבוע את החברה שמיישמת את האלגוריתמים, את בעלי הפטנט, ומי יודע את מי עוד. האם חברות הביטוח יסכימו לבטח את החברה שמיישמת את האלגוריתם? איש אינו יודע.

אני רוצה להרחיב את הדיון בשאלת האחריות, כי זו לדעתי השאלה המהותית, וממנה נגזרה הכותרת הפרובוקטיבית של הרשימה הזו.

בואו ניקח, כדוגמה פשוטה ביותר, אלגוריתם שצריך לזהות האם בתמונה שמוצגת לו יש חתול. לאף אחד לא איכפת באמת אם האלגוריתם יטען שתמונה של כלב מראה לדעתו חתול.

מה עם אלגוריתם שמחליט אם כדאי להציע לאדם שנכנס לאתר אינטרנט עיסקת קניה מסויימת? יכול להיות שאנשים שהעיסקה תוצע להם לא יבצעו את הקניה, וגם יכול להיות שיפוספסו קונים שהיו מבצעים את הרכישה אם העיסקה הייתה מוצעת. זה חבל, אבל בסך הכל מדובר פה בכסף.

אם מדובר בהרבה כסף, הבעיות יכולות להיות גדולות. בנקים שמנסים לזהות איזה לקוח עלול לא להחזיר את ההלוואה שיקבל עלולים לעמוד בפני בעיה אם האלגוריתם לא מספיק טוב. עם זאת, אני יודע שאלגוריתמים כאלה פועלים, וכנראה שיקול הדעת שלהם יותר טוב משיקול הדעת של הפקיד.

בואו נמשיך. מה עם אלגוריתם שמחליט על ביצוע עיסקות קניה ומכירה בבורסה? בסרט הזה כבר היינו בשנת 2008. אני מקווה שהאלגוריתמים האלה השתפרו מאז, כי לא מתאים לי עוד משבר כלכלי עולמי.

מה בקשר למכונית אוטונומית? כאן כבר מתחילים לדבר על חיי אדם. מישהו יודע כמה טעויות שליליות שגויות (False Negative) יש לאלגוריתם של מובילאיי? וכמה מהטעויות האלה מובילות לתאונות? וכמה מהתאונות האלה כוללות פגיעות בגוף? אני לא יודע. אני לא בטוח שיש מי שיודע.

נכון, מכוניות אוטונומיות כבר נוסעות בכל מיני מקומות בארצות הברית, במסגרת ניסויים לבחינת האלגוריתמים. מי יעריך את מאזן התועלת מול הנזק של האלגוריתמים שמפעילים את המכוניות האלה וישווה אותם לביצועים של נהג אנושי? ואיך? האם יהיה רגולטור, כמו שיש את ה-FDA בתחום הרפואי? האם חברות הביטוח יסכימו לבטח את המכוניות והאלה והנוסעים בהם? ואם כן, מה תהיה עלות הביטוח?

מה בקשר למטוס אוטונומי? מי מוכן לעלות על טיסה טרנס אטלנטית במטוס ללא טייס?

אני יודע שאי אפשר לעצור את הקידמה, ובניגוד למה שעלולים לחשוב אני בעד הקידמה. אני בהחלט חושב שעתיד בו אלגוריתם יוכל להחליף רופא ולבצע את מלאכתו באופן טוב יותר מהרופא האנושי, וכולנו ניסע במכוניות אוטונומיות, הוא עתיד טוב. אבל כדי להגיע לעתיד הזה עלינו להתגבר על הרבה מאוד בעיות, והבעיות הטכנולוגיות הרבה יותר פשוטות מהבעיות האתיות. אני גם חושב שהעתיד הזה רחוק מאוד מאיתנו ואנו לא נזכה לראות אותו, וגם לא בנינו ובני בנינו.


הערות
  1. עם זאת, לא אתייחס לטענה “תן תמונה היום לעשרה רדיולוגים ותקבל 11 חוות דעת” []
  2. שכן הוא לא התייחס אליו []
  3. כגון תצלומי רנטגן, סריקות CT ו-MRI, ועוד []
  4. כלומר, באופן רנדומלי []
  5. שזה תיאור מרשים לתהליך של אמידת פרמטרים []
  6. אעיר ואומר כי יש כאן בעיה מסויימת – נתוני הבדיקה שונים באופן מהותי מנתוני האימון והתיקוף. []
  7. זהו הממוצע ההרמוני של הרגישות – recall ושל הדיוק – precision. ראו הגדרות בויקיפדיה []
  8. השלישית ירדה בכביסה? יותר סביר להניח כי אחרי מחשבה נוספת הם הגיעו למסקנה כי המגבלה הנוספת שחשבו עליה אינה באמת מגבלה []
  9. או בעצם שנית, לא משנה []
  10. כמו בדיקת דם חדשה, או אלגוריתם מגניב שפיתחו החבר’ה בסטנפורד []
  11. יש מחקרים שמראים כי הרבה רופאים מפרשים אותם באופן לא נכון, אבל לא ניכנס לזה עכשיו []
  12. כלומר, אני סבור כי ההסתברות לכך גדולה מאפס []
  13. מכאן הגיעה הכותרת הצינית והפרובוקטיבית של הפוסט הזה []
  14. או אפילו יעבור ניתוח מיותר []
  15. ובארצות הברית גם טעות בתום לב נחשבת כרשלנות []

איך להמר (אם אתה מוכרח)

איך להמר (אם אתה מוכרח)

אתם חייבים 100 אלף דולר לשוק האפור, אבל יש לכם רק 50 אלף, וצריך לשלם בערב. זה לא משנה אם יהיו לכם 50 אלף דולר, או 90 אלף, או 99,999. כל סכום קטן מ-100 אלף יגרום לתוצאות הרות אסון. הסיכוי היחיד שלכם נמצא בקזינו. אתם ניגשים לשולחן הרולטה, שם אפשר להמר על אדום-שחור. אם הימרתם בדולר אחד על אדום, והתוצאה היא אדום, תקבלו בחזרה את הדולר שלכם ודולר אחד נוסף. אם התוצאה אינה אדום[1] הפסדתם את הדולר. יש לציין כי הסתברות הזכיה כאשר מהמרים על אדום היא קצת פחות מ-50%. מה הכי כדאי לעשות? מהי האסטרטגיה שתביא למקסימום את ההסתברות שתצאו מהקזינו ובכיסכם 100 אלף דולר?

שאלה דומה לזו הוצגה בעמוד הראשון של הספר הקלאסי How to gamble if you must מאת Lester E. Dubins, ‎Leonard J. Savage, andb ‎William Sudderth. כותרת המשנה של הספר היא Inequalities for Stochastic Processes, ומעידה על כך שזהו בהחלט ספר מתמטי. ההוכחה לתשובה שמייד אציג נמצאת בפרק החמישי של הספר, למי שמתעניין. כאן אנסה לתת הסבר אינטואיטיבי לתשובה.

אבל לפני כן קצת שעשועים. בסקר שערכתי בטוויטר השתתפו 46 צייצנים. הדיעות התחלקו פחות או יותר שווה בשווה בין ארבע התשובות האפשריות שהוצעו:

לפני שנדון בתשובות קצת היסטוריה, על קצה המזלג. משחקי הימורים היו נפוצים כבר בזמנים קדומים, ויש תיעוד שלהם בכל התרבויות העתיקות. מחקרים אודות הימורים ומשחקי מזל שערכו מלומדים כקרדנו במאה ה-16, כריסטיאן הויגנס במאה ה-17, ואברהם דה-מואבר ויעקב ברנולי במאה ה-18, ואחרים, הניחו את היסודות לתורת ההסתברות. למעשה, הפתרון שאציג מייד נובע מעבודה של דה-מואבר משנת 1711.

ועוד אנקדוטה (אולי משעשעת): בראשית ימיה, עמדה חברת FedEx בפני משבר. היה עליה לשלם חוב של 24,000 דולר, כשבקופתה היו 5000 דולר בלבד. יו”ר החברה ומייסדה, נטל את הכסף שבקופה, טס ללאס וגאס, הימר בשולחן הבלאק ג’ק וזכה ב-27,000 דולר. כך ניצלה החברה, והשאר, כמו שאומרים, היסטוריה. תודה לשי אלקין שהסב את תשומת ליבי לסיפור.

למתעניינים בהיסטוריה של חקר ההימורים והנחת יסודות תורת ההסתברות, אמליץ לקרוא את הספר נגד האלים מאת פיטר ברנשטיין, או את הספר הקלאסי
Games, Gods and Gambling מאת פלורנס נייטיגייל דייויד[2] .

ועכשיו לתשובות.

תשובה אפשרית אחת היא שלא משנה מה עושים כי ממילא נפסיד הכל. זה נכון. ההימור נוטה לטובת הקזינו. ההסתברות לזכיה ברולטה בהימור על אדום (או על שחור) היא 18/38, בערך 47%. מי שיהמר לאורך זמן יצבור אט אט הפסדים, ומי שימשיך להמר עוד ועוד יפסיד בסופו של דבר את כל כספו.  את זה הוכיח כריסטיאן הויגנס. מי שענה את התשובה הזו בסקר צדק.

אבל חדי העין ישימו לב כי השאלה כפי שנוסחה כאן שונה מעט מהניסוח בטוויטר, גם בגלל מגבלת התוים בטוויטר ואולי גם בגלל חוסר דיוק מצידי. בואו נדון באסטרטגיה שתביא למקסימום את ההסתברות לצאת מהקזינו עם 100 דולר, כאשר מגיעים אליו עם 50 אלף דולר. כאן בגדול יש שתי אפשרויות. אפשרות אחת היא להמר מייד על כל הסכום, בתקוה שתזכה בהימור אדום-שחור וכספך יוכפל. ההסתברות לכך היא, כאמור, בערך 47%.

מה קורה אם מהמרים כל פעם על חלק מהסכום? בואו ניקח לדוגמא את האסטרטגיה הבאה: להמר על 25 אלף דולר, לקוות לזכות ועל ידי כך להגדיל את הונך ל-75 אלף דולר, ואחר כך להמר שוב על 25 אלף דולר, כאשר זכיה תביא אותך אל הסכום הנכסף של 100 אלף דולר. במקרה הטוב ביותר תגיע למטרה על ידי שתי זכיות רצופות של 25 אלף דולר כל אחת. ההסתברות לכך היא 0.47 כפול 0.47[3] , כלומר בערך 22.4%.

יש כמובן אפשרות שתפסיד בהימור הראשון את 25 אלפי הדולרים עליהם הימרת. עכשיו יהיה עליך להכפיל את הונך פי 4, וזה ידרוש שוב לפחות שתי זכיות רצופות[4] , וההסתברות לכך היא שוב כ-22.4%.

אם מהמרים על סכומים קטנים יותר, יש צורך ביותר זכיות, וההסתברות להגיע ל-100 אלף דולר צונחת בהתאם.

זו האינטואיציה שעומדת מאחורי הקביעה כי האסטרטגיה האופטימלית היא להמר מייד על כל הסכום בתקווה להכפילו. ברנולי ודה-מואבר הבינו זאת כבר בראשית המאה ה-18. הוכחות מתמטיות מלאות לטענות קרובות הופיעו בתחילת המאה ה-20.

רק רגע, יש עוד אפשרות: לעשות משהו אחר. אפשר להמר בשיטת ההכפלות, הידועה גם בשם  שיטת המרטינגייל.

הנה הרעיון: אתה מתחיל בהימור אדום שחור על דולר. אם זכית – קיבלת את הדולר שלך בחזרה ועוד דולר אחד כרווח. אם הפסדת, לא נורא. המר כעת על שני דולר. אם זכית, אתה מקבל את שני הדולרים שלך בחזרה, ועוד שני דולרים כרווח, בסך בכל ארבעה דולרים. אבל הימרת רק על שלושה דולרים! מכאן שהרווחת דולר.

ומה קורה אם הפסדת גם בהימור השני? אין בעיה. הכפל את סכום ההימור והמר כעת על ארבעה דולר. אם זכית, תקבל שמונה דולר, אבל הימרת רק על שבעה דולר (1+2+4). הרווחת דולר.

ומה אם הפסדת בהימור על ארבעת הדולרים? אין בעיה. הכפל את סכום ההימור ל-8 דולר. אם תזכה תקבל בחזרה 16 דולר, כשהימרת רק על 15 דולר – כלומר שוב הרווחת דולר.

ומה יקרה אם הפסדת בהימור על שמונת הדולרים? אולי עדיין אין בעיה, אבל בקרוב תהיה לך בעיה.

קודם כל נתייחס לבעיה הספציפית שלנו – להגיע מ-50 אלף דולר ל-100 אלף דולר. בשיטה הזו זה ייקח קצת זמן, ותצטרך לזכות בהרבה הימורים בדרך.

כמובן, אם עומד לרשותך סכום כסף בלתי מוגבל, השיטה הזו תוביל אותך לזכיה בהסתברות 1. אבל, הסכום שעומר לרשותך[5] מוגבל, וייתכן מאוד שתגיע למצב בו אין בידיך מספיק כסף כדי להכפיל את ההימור. למעשה, אפשר להוכיח כי אם תהמר בשיטה זו לאורך זמן, תגיע למצב בו אין בידיך די כסף כדי להכפיל את ההימור בהסתברות 1.

שלישית, ברוב בתי הקזינו יש הגבלה על גובה ההימור. שיטת ההכפלות תביא אותך בסופו של דבר אל המחסום הזה ואז לא תוכל למשיך ולהכפיל את ההימור גם אם יש בכיסך את הסכום הדרוש.

באופן אישי, אם היה לי קזינו, לא הייתי מתנגד לכך שיהמרו נגדי בשיטת ההכפלה. אדרבא. אמנם מדי פעם אפסיד דולר, אך ההפסד הזה יכוסה על ידי ההפסדים של כל המכפילים שיגיעו לגבול ההימור שלהם, והפסדים אלה יהיו יותר נפוצים ויותר גדולים מדולר אחד.

אז אם אתם רוצים להמר בשביל הכיף – סבבה. אם אתם רוצים להרוויח כסף מהימורים, כדאי שיהיה לכם קזינו. והכי חשוב, אל תסתבכו עם השוק האפור.


הערות
  1. יש עוד שתי אפשרויות – שחור וירוק []
  2. שאין לבלבל בינה ובין פלורנס נייטינגייל []
  3. בהנחה הסבירה לגמרי שאין תלות בין ההימורים []
  4. להמר על 25, לזכות, ואז להמר על 50 ושוב לזכות []
  5. ולרשות כל אחד, בעצם []