האם מקצוע הרדיולוג עומד להיכחד? האם אלגוריתמים של בינה מלאכותית, כגון רשתות נוירונים, יחליפו את הרדיולוגים, ובהמשך את שאר הרופאים? ואיך כל זה קשור למכוניות אוטונומיות?
כל השאלות האלה עלו בעקבות פוסט בבלוג Toward Data Science שפרסם יו הארווי, רופא המתמחה ברדיולוגיה. הארווי טוען כי האלגוריתמים לא יחליפו את הרדיולוגים בעתיד הנראה לעין, אם בכלל. בדיון בקבוצת Machine & Deep learning Israel בפייסבוק הופיע הפניה לפוסט של לוק אוקדן-ריינר, גם הוא רופא המתמחה ברדיולוגיה. הפוסט של אוקדן-ריינר מתייחס למאמר שפורסם ממש לפני כמה חודשים (נובמבר 2017), מאת רג’פורקאר ועמיתיו, שתיאר אלגוריתם לפענוח תצלומי רנטגן. בין העמיתים החתומים על המאמר זה נמנה אנדרו אנג, מה שמחייב התייחסות רצינית ביותר למאמר.
ברשימה זו אביא את דבריהם של הארווי ואוקדן-ריינר, ואתייחס למאמר של רג’פורקאר. כמו כן, אומר מה לדעתי צריכים להיות הקריטריונים לפיהם יהיה ניתן לקבוע כי אלגוריתם כזה יכול להחליף רופא מומחה. בנוסף אענה באופן מסודר לטענות (הטובות) שהועלו בקבוצת הפייסבוק. ((עם זאת, לא אתייחס לטענה “תן תמונה היום לעשרה רדיולוגים ותקבל 11 חוות דעת” ))
זוהי רשימה ארוכה במיוחד. חילקתי אותה למספר פרקים כשלכל פרק כותרת נפרדת, כדי שתוכלו לדלג על הפרקים שלא מעניינים אתכם.
הארווי: אינטליגנציה מלאכותית לא תחליף את הרדיולוגים
ד”ר הארווי, שכנראה לא היה מודע למאמר של ראג’פורקאר כשכתב את דבריו ((שכן הוא לא התייחס אליו)) משיב לטענתו של ג’פרי הינטון, מומחה לרשתות נוירונים, שאמר כי “ברור שצריך להפסיק להכשיר רדיולוגים”. הוא מביא שלושה טיעונים כתשובה להינטון.
ראשית, טוען הארווי, כי בניגוד לאלגוריתם, הרדיולוג עושה יותר מאשר להביט בהדמיות ((כגון תצלומי רנטגן, סריקות CT ו-MRI, ועוד)). הארווי מתאר בפירוט את תפקידיו של הרדיולוג בתהליכי האבחון, שאמנם מתבססים על הדמיות, אך גם על אינפורמציה נוספת. הוא אמנם מסכים כי אלגוריתמים למיניהם עשויים לסייע ולשפר כמה תחנות בתהליך האבחוני, אך אינם יכולים להחליף את שיקול הדעת של הרופא.
הנימוק השני של הארווי הוא שבסופו של דבר מי שנושא באחריות הסופית הם בני אדם. הארווי מציג אנלוגיה בין התעופה ובין הרפואה (לא מוצלחת, לדעתי), אולם בסופו של דבר מדגיש את הנקודה המהותית: כשהרופא טועה, ורופאים אכן עלולים לטעות, הרופא אחראי. מי יהיה אחראי במקרה שבו האלגוריתם טעה? האם החברה שמכרה לבית החולים את המערכת שמפענחת תצלומי רנטגן תהיה מוכנה לקחת אחריות על מקרה שבו חולה ימות כי האלגוריתם טעה ולא זיהה כי הפציינט חולה בדלקת ריאות? אולי החולה שהסכים להפקיד את בריאותו בידיו של האלגוריתם (בהנחה שהייתה לו ברירה) אחראי? הרי אף אחד לא יעלה בדעתו שהרופא ששלח את החולה הבייתה כי האלגוריתם אמר שהוא בריא יהיה אחראי. או שכן? הארווי טוען שאף מערכת AI לא תהיה מדוייקת ב-100%. זה נכון, אבל לדעתי הטענה הזו מחלישה את הטיעון שלו. הרי גם רופאים טועים. עם זאת טוען הארווי כי רופאים עשויים לתפקד טוב יותר מאלגוריתם במקרי קצה, וכאן אני נוטה להסכים איתו.
הטענה השלישית של הארווי פחות רלוונטית לנושא של השוואת הביצועים של רופאים ואלגוריתמים רפואיים. הוא טוען כי כאשר יוכנסו מערכות AI למיניהן ויחליפו חלק מהשלבים בתהליך האבחוני, התהליך אכן יתייעל, אולם זה רק ייצור יותר ביקוש לשירותי רדיולוגיה, הביקוש לרדיולוגים יעלה ויגבר הצורך בהכשרת רדיולוגים נוספים.
ראג’פורקאר: האלגוריתם יכול לאבחן דלקת ריאות יותר טוב מהרופאים
הפוסט של אוקדן-ריינר מתייחס למאמר של רג’פורקאר. לכן אסקור בקצרה את הרעיון הכללי של מאמר, ואחר כך אביא את דבריו.
ראג’פורקאר ועמיתיו (שמכאן והלאה אכנה בשם “החוקרים”) נעזרו בבסיס נתונים שהכיל יותר מ-100 אלף תצלומי רנטגן של החזה, של כ-38 אלף חולים ב-14 מחלות שונות, וביניהן דלקת ריאות. כל חולה סווג כחולה בדלקת ריאות, או כלא חולה בדלקת ריאות. הנתונים חולקו לפי כל כללי הטקס ((כלומר, באופן רנדומלי)) לשלושה קובצי נתונים נפרדים.
ראשית הם השתמשו בנתונים של כ-29 אלף חולים, ובסך הכל כ-99 אלף תצלומים לצורך “אימון המודל” ((שזה תיאור מרשים לתהליך של אמידת פרמטרים)), כ-3.5 תצלומים לחולה, בממוצע.
לאחר שאימנו את המודל, עברו לקובץ השני, בו היו כ-6400 צילומים של כ-1700 חולים (3.8 צילומים לחולה, בממוצע). בעזרת קובץ זה הם ביצעו תיקוף (ולידציה) של המודל.
לסיום, בחנו את ביצועי המודל על הקובץ השלישי, שהכיל 420 צילומים של 389 חולים (כ-1.08 תצלומי רנטגן לחולה, בממוצע). ((אעיר ואומר כי יש כאן בעיה מסויימת – נתוני הבדיקה שונים באופן מהותי מנתוני האימון והתיקוף.))
בתהליך הבחינה 420 התצלומים נבדקו על ידי ארבעה רדיולוגים מאוניברסיטת סטנפורד שסיווגו את החולים לאחת מ-14 המחלות שהיו בקובץ המקורי, וכמובן שגם האלגוריתם אמר את דברו. לרדיולוגים לא היה כל מידע רפואי על החולים מעבר לתצלומי הרנטגן, וכמו כן הם לא ידעו את השכיחויות של כל אחת מ-14 המחלות בקובץ המקורי. במילים אחרות, היה להם בדיוק את אותו המידע שהיה לאלגוריתם.
החוקרים חישבו לכל אחד מהרדיולוגים, וגם עבור האלגוריתם, מדד ביצוע מקובל בשם F1. (( זהו הממוצע ההרמוני של הרגישות – recall ושל הדיוק – precision. ראו הגדרות בויקיפדיה )) הם הראו כי ההפרש בין המדד שהתקבל לאלגוריתם גבוה ב-0.051 מהמדד הממוצע של ארבעת הרדיולוגים, וכי ההפרש הזה מובהק סטטיסטית (רווח הסמך להפרש ברמת סמך של 95% הוא 0.005-0.084).
החוקרים מודים כי למודל שלהם יש שלוש מגבלות, אך מציינים רק שתיים ((השלישית ירדה בכביסה? יותר סביר להניח כי אחרי מחשבה נוספת הם הגיעו למסקנה כי המגבלה הנוספת שחשבו עליה אינה באמת מגבלה)). ראשית, הנתונים כללו רק צילומי חזה פרונטליים, בעוד שבכ-15% מהמקרים של דלקת ריאות יש צורך גם בתצלומי צד כדי לבצע אבחנה מדוייקת. שלישית ((או בעצם שנית, לא משנה)) , החוקרים מודים כי העובדה שהמודל והחוקרים לא נעזרו בנתונים נוספים, כגון היסטוריה רפואית, פוגעת בביצועים של הרופאים (ושל המודל כמובן).
אוקדן-ריידר: אלגוריתמים הם מגניבים, אבל…
ד”ר אוקדן-ריינר אכן סבור כי נוכל להגיע למצב בו לאלגוריתם יהיו ביצועים שווים לביצועים של רופא אנושי ואף יעלו עליו. עם זאת, הוא טוען כי האלגוריתם של רג’פורקאר אינו מתאים לבצע אבחון רפואי. הסיבה לכך נעוצה, לדבריו, בנתונים של ואנג ועמיתיו, בהם רג’פורקאר ועמיתיו השתמשו לצורך פיתוח המודל.
אוקדן-ריינר טוען כי יש בעייתיות בסיווגים של התצלומים בקובץ הנתונים המקורי של ואנג. לא ברור עד כמה הסיווגים מדוייקים, מה המשמעות הרפואית של הסיווגים, ועד כמה הסיווגים שימושיים לצרכים של ניתוח הצילומים. הוא מציין כי קובץ הנתונים והדוקומנטציה שלו עודכנו מספר פעמים מאז הפרסום המקורי. המאמר שמתאר את בניית הקובץ כמעט ואינו מתייחס להיבטים הקליניים של הנתונים, ומכיל רק פיסקה אחת שמתייחסת לרמת הדיוק של האבחונים שהותאמו לכל סט של תצלומים של חולה אחד.
עד כמה מדויקים הסיווגים? הם התקבלו בשיטות של text mining. הם לא התבוננו בתצלומים. אוקדן-ריינר טוען שרמת הדיוק של הסיווגים בקובץ אינה מספקת. הוא קבע זאת על ידי התבוננות בתצלומים. אמנם לא בכולם, אלא רק במדגם. הסיווגים שלו, כרדיולוג מומחה, היו שונים באופן מהותי מהסיווגים שבקובץ הנתונים.
השאלה השנייה היא מה המשמעות הרפואית/קלינית של הסיווגים. הנה הבעיה: הקביעה האם לחולה יש או אין דלקת ריאות היא קביעה קלינית. צילום רנטגן של החזה הוא נתון התומך באבחון (surrogate measure) ואינו מספיק לבדו לקבוע האם לחולה יש דלקת ריאות, או שה-“עננים” הנראים בצילום הם סימפטום לבעיה רפואית אחרת. המצב בו רואים “עננים” נקרא קונסולידציה. למעוניינים בהסבר רפואי מפורט יותר אני מפנה לפוסט אחר שלו. השורה התחתונה היא שהסיווג של ואנג ועמיתיו במקרה של “עננים” הוא סיווג של יש קונסולידציה או יש דלקת ריאות. אולם, מבחינה רדיולוגית קשה מאוד להחליט מתי קונסולידציה היא דלקת ריאות או משהו אחר. דלקת ריאות היא סוג של קונסולידציה. ההיפך לא נכון. כאשר ואנג ועמיתיו מציינים בנתונים שיש קונסולידציה, יכול להיות שלחולה יש דלקת ריאות. גם יכול להיות שלא. אוקן-ריינר טוען כי הנתונים שבדק מראים שהבעיה הזו קיימת.
וכאן עולה השאלה שלישית, והחשובה ביותר: אם הסיווגים של הנתונים בעייתיים, והמשמעות הקלינית שלהם מוטלת בספק, מה המודל באמת לומד? מה הערך של מודל המתבסס על נתונים בעייתיים?
מה הבעיה במאמר של רג’פורקאר?
אני סומך ב-100% על העבודה שעשו רג’פורקאר ועמיתיו. ההבנה שלי בתחום בו עוסקים היא בסיסית, ומבוססת בעיקר על לימוד עצמי. לצורך הדיון, אני מוכן להתעלם מהביקורת של אוקדן-ריידר על טיב הנתונים. זה לא משפיע על האיכות של המודל, שהרי התחרות בין ארבעת הרדיולוגים ובין המודל התבססה על אותם נתונים, והמודל ניצח. החוקרים מצאו כי במונחי F1, המודל היה יותר טוב מהרדיולוגים בשר ודם ב-0.051, וההבדל הזה מובהק סטטיסטית.
יש לי רק שאלה אחת: מה המשמעות הקלינית של ההבדל הזה? מה הערך המוסף הקליני של המודל? לצערי, אין לי מושג, ואני לא בטוח שלמישהו יש מושג. ברור שהשאלה הזו לא עלתה כלל על דעתם של החוקרים, כי אחרת הם היו לפחות מזכירים אותה בדיון המסכם. המילה clinical הופיעה במאמר רק פעמיים, שתיהן בפרק המבוא. זהו אחד משבעת החטאים של הסטטיסטיקה: אי הבחנה בין תוצאה מובהקת לתוצאה משמעותית.
מה הבעיה המרכזית במודל של רג’פורקאר?
הבעיה המרכזית במודל של רג’פורקאר היא אבחון חלקי. כשהמודל קובע שלחולה אין דלקת ריאות, הוא לא אומר מה כן יש לו. כאן יש לרדיולוג יתרון ברור על המודל. יש לו ידע קליני שמאפשר לו לקבוע מה מצבו של החולה.
נכון שזה רק מודל, ואנחנו בתחילת הדרך. אין לי ספק שהמודל הזה הוא צעד בכיוון הנכון, אבל זהו צעד קטן מאוד. כדי נגיע למצב בו מודל כזה יהיה ראוי להישקל לשימוש, הוא יהיה צריך לסווג את תצלומי החזה ל-15 קטגוריות לפחות. מישהו יכול להעריך עד כמה אנחנו רחוקים ממודל כזה?
איך צריך להעריך את הביצועים של מודל רג’פורקאר? (וגם את ביצועי הרופא)
תסלחו לי, אבל אני לא מבין מה המשמעות האינטואיטיבית של מדד F1, ומה זה אומר אם הוא שווה ל-0.435. אני ביוסטטיסטיקאי. אחד מתפקידיי הוא לתקשר את התוצאות לצוות הקליני, כדי שהם יוכלו להעריך את המשמעות שלהם. כשהמטרה היא להעריך כלי דיאגנוסטי ((כמו בדיקת דם חדשה, או אלגוריתם מגניב שפיתחו החבר’ה בסטנפורד)) אני בהחלט מציג בפניהם מדדים כמו accuracy, specificity, ו-sensitivity, למרות שבמקרים רבים גם להם אין משמעות אינטואיטיבית ברורה ((יש מחקרים שמראים כי הרבה רופאים מפרשים אותם באופן לא נכון, אבל לא ניכנס לזה עכשיו)). אבל כל המדדים האלה לא מספיקים. אלוהים נמצא בפרטים הקטנים, ולכן צריך להתעמק בהם.
מה יקרה אם המודל של רג’פורקאר ישמש ככלי אבחון עיקרי או יחיד למחלת ריאות? בואו נניח לצורך הדיון, כי המודל משמש כשלב הראשון בתהליך האבחוני, ויסווג את החולים כסובלים מדלקת ריאות, או לא סובלים מדלקת ריאות אלא ממשהו אחר, שהמודל לא יודע לזהות, ובמקרה כזה התהליך האבחוני יימשך. נניח גם כי זהו גם התהליך הרדיולוגי.
כאשר מודל או רדיולוג צופים בצילום חזה, יש ארבע אפשרויות.
קודם כל, יש מצב שבו המודל או הרדיולוג מאבחנים כי לחולה יש דלקת ריאות, ולחולה אכן יש באמת דלקת ריאות. זה מצויין. נותנים לחולה את הטיפול המתאים ושלום על ישראל. כאן יש תועלת.
ייתכן כי לחולה אין דלקת ריאות, והמודל או הרדיולוג יקבעו כי לחולה אין דלקת ריאות. זה אכן טוב, אבל לא יותר מדי טוב. החדשות הטובות הן שלא נעשה משהו רע. הבעיה היא שלא התקדמנו. אדם נשלח לביצוע צילום חזה כי הוא חולה במשהו. אם אין לו דלקת ריאות אז יש לו משהו אחר. מה? ובכן, יש צורך בבדיקות נוספות. כאן אין תועלת וגם אין נזק.
נמשיך. יכול להיות כי לחולה יש דלקת ריאות והמודל או הרדיולוג יקבעו כי אין לו דלקת ריאות. הרופאים ימשיכו בתהליך האבחוני. הטיפול בחולה מתעכב. כאן יש קצת נזק. במקרה הטוב, בחינה נוספת של הרופאים תעלה כי בכל זאת יש לו דלקת ריאות, והנזק מינימלי. במקרה הפחות טוב, אם כי לדעתי יותר נדיר, החולה יאובחן כסובל מבעיה אחרת, יקבל טיפול רפואי בלתי מתאים, יסבול מתופעות הלוואי והנזקים הבריאותיים שנגרמים מעצם הטיפול (ותמיד יש תופעות לוואי ונזקים בריאותיים), והבעיה הרפואית האמיתית שלו לא תטופל. עלול להיגרם נזק משמעותי.
ועכשיו נגיע למצב הגרוע ביותר: לחולה אין דלקת ריאות והמודל או הרדיולוג אומרים כי יש לו דלקת ריאות. החולה יקבל טיפול רפואי לדלקת ריאות, (אנטיביוטיקה, למשל) שאינו מתאים למצבו הרפואי, וכאמור לעיל, יסבול מתופעות הלוואי והנזקים הבריאותיים שנגרמים מעצם הטיפול (השגוי). שוב, החולה לא יקבל טיפול מתאים לבעיה הרפואית האמיתית שלו, שאינה דלקת ריאות, אלא ככל הנראה משהו יותר חמור. כאן נגרם נזק משמעותי. עד כמה הנזק משמעותי? זה כבר תלוי בהרבה גורמים, כמו למשל המצב הבריאותי האמיתי של החולה, ומשך הזמן שיעבור עד שיבחינו כי הטיפול הנוכחי שהחולה מקבל אינו יעיל ויבצעו הערכה מחדש של האבחון.
השאלה הגדולה היא: האם המודל והרדיולוג טועים את אותן הטעויות?
מדדים כגון F1 לא אומרים לנו מה השכיחות של כל מצב מארבעת המדדים שתיארתי, ובוודאי לא מספקים לנו הערכה של סך הנזק הפוטנציאלי, סך התועלת הצפויה, והערכה האם התועלת עולה על הנזק, ואם כן, עד כמה. אפשר לבצע את ההערכה הזו. אפשר לכנס צוות רופאים שיבחנו אחד לאחד את 389 התיקים ששימשו לבחינת המודל. סטטיסטיקאי טוב יוכל להקל עליהם את העבודה באמצעות הצגה בהירה של הנתונים. בסופו של דבר, תהיה לנו הערכה לגבי הביצועים הקליניים של המודל.
באותו אופן, אפשר להעריך את הביצועים הקליניים של ארבעת הרדיולוגים שהתחרו במודל.
כעת, נוכל לקבוע האם למודל יש באמת יתרון על הרופאים בשר ודם, ואם כן, האם היתרון משמעותי מבחינה קלינית.
הדיון בקבוצת הפייסבוק ותשובות לשאלות
חברי הקבוצה לא הקלו עלי את החיים כששיתפתי עימם את הפוסט של ד”ר הארווי, וטוב שכך. אני ציינתי שאני מסכים עם הטענות שלו, ומטבע הדברים היו חברים בקבוצה שלא הסכימו איתנו. הם העלו טיעונים טובים ושאלו אותי שאלות קשות ומצויינות. עניתי כמיטב יכולתי במסגרת המגבלות הטכניות של ממשק הפייסבוק. אביא כאן את עיקרי הדיון, אתייחס לשאלות שנשאלתי בכל הרצינות, ואענה כמיטב יכולתי. אם פיספסתי שאלה של מישהו, אנא הפנו את תשומת ליבי לכך ואתקן. אשמח גם להמשיך בדיון.
כמו כן, אני ממליץ לכם לקרוא את הדיון עצמו שכן מעבר לדיון הספציפי בטיעונים של ד”ר הארווי ולשאלות שנשאלתי נאמרו בו עוד דברים מעניינים וחשובים.
- ערן פז טוען שאלגוריתמים יכולים ללמוד גם פעילויות אחרות שמבצע הרופא כולל אינטראקציה בין אישית, וחוזה בבדיחות הדעת כי גם באינטראקציה בין אישית ביצועי האלגוריתמים יהיו טובים יותר מאלה של הרופא. בסופו של דבר, אומר ערן, הרפואה תהיה אוטומטית כמעט לחלוטין.
האמת היא שאין לי מה לענות לטענה הזו. מדובר בהערכה סובייקטיבית. אני לא שולל את האפשרות שזה אכן יקרה ((כלומר, אני סבור כי ההסתברות לכך גדולה מאפס)), אבל יש לדעתי סיכוי הרבה יותר סביר שזה לא יקרה. בכל מקרה, אני משוכנע שהדור שלנו לא יזכה לראות את הרפואה האוטומטית, אם אכן החזון יתגשם. ההערכה הסובייקטיבית שלי היא כי זה לא יקרה בעתיד הנראה לעין.
- ערן מתייחס גם לטיעון השני של ד”ר הארווי, ואומר כי זה נושא יותר פילוסופי/רגולטורי מאשר טכנולוגי, ובכך הוא צודק כמובן. הוא ממשיך וטוען כי הבעיה שגם אם המערכת היה טובה יותר מבן אדם, לנו כבני אדם קשה יותר לקבל טעות ספציפית שנעשתה ע”י מחשב, גם אם בסה”כ הוא טועה הרבה פחות מבן אדם.
לי יש בעיה עם האמירה הזו. המחשב לא טועה, גם לא המודל (או יותר נכון, האלגוריתם). ((מכאן הגיעה הכותרת הצינית והפרובוקטיבית של הפוסט הזה)) מקור הטעויות הן בפיתוח האלגוריתם.
- כאן מתערב בדיון ים פלג ושואל מה אם יש רעש בדאטה.
התשובה המיידית שלי הייתה כי יש הבדל בין מודל שמנסה לחזות התנהגות של לקוח ובין מודל שעוסק בחיי אדם. עם זאת, ים בהחלט צודק. רעש בנתונים הוא בעיה שצריך להתמודד איתה. הדרך להתמודד, לדעתי, היא לבדוק את הביצועים הקליניים של המודל, כפי שהסברתי למעלה, ולהשוות אותו לביצועים של הרופאים, במונחים של סך תועלת מול סך נזק.
- ים ממשיך ושואל האם סך התועלת הוא לא ההפרש בין ביצועי האלגוריתם לביצועי האדם.
עניתי מהמותן שלא, אבל אני מודה שהתשובה שלי לא הייתה מדוייקת. ים צודק עקרונית, אבל לקביעה שלו אין משמעות אם לא מגדירים היטב איך מודדים את ביצועי האלגוריתם וביצועי האדם. מי שקרא עד כאן יודע כבר שהתשובה הרבה יותר מסובכת, ו-F1 הוא לא המדד האולטימטיבי.
- ים המשיך והקשה עלי. הוא טען כי אם יש לך אדם שמאבחן נכון X אנשים ומציל את חייהם ויש אלגוריתם שמאבחן נכון X+Y אנשים נכון (מהנתון שהוא יותר מדויק) ומציל את חייהם. יש לך Y יותר אנשים חיים.
זה כמובן נכון, אבל זה רק צד אחד של המטבע. מספר התוצאות החיוביות האמיתיות, או יותר מדוייק – שיעורן. ה-True Positive Rate הוא בהחלט מדד חשוב, אבל כפי שעניתי בקצרה בקבוצת הפייסבוק והסברתי כאן בפירוט, יש עוד צד למטבע, עוד שלושה צדדים למעשה. הבעיות העיקריות, כפי שהסברתי למעלה, נובעות מהאבחונים הלא נכונים: תוצאות חיוביות שגויות (False Positive) ותוצאות שליליות שגויות (False Negative).
- ערן חוזר ושואל: בוא נניח לרגע שמודל לא יהיה יותר מדוייק, אלא יהיה יותר קרוב ל(1,1) על הROC או לכל מדד אחר שתבחר מבן אדם, עכשיו הטיעונים בסדר? כמו כן הוא מציין כי בדיון גם לא לקחנו בחשבון את העלויות של הקמת חוות GPU לעומת העלות של הכשרת רדיולוג, זה גם משפיע על התועלת?
אני טוען שבמצבים רפואיים התועלות והנזקים הם לא 0-1. נכון שאולי ב-ROC המודל יעשה טוב יותר, עם זה אני לא מתווכח. אני טוען שלטעויות שונות יש משמעויות שונות, וכמו כן, גם במצבים של חוסר טעות, TP ו-TN, עדיין יש משמעויות שונות. המצב נעשה הרבה יותר חמור אם עוברים מדלקת ריאות לסרטן, למשל. מי ייקח אחריות על חולה סרטן שלא יאובחן בזמן בגלל שהמודל היה רועש מדי?
- אמיר רוזנפלד שואל: יהי המדד האולטימטיבי כפי שאתה מגדיר אותו. נניח שתחת מדד זה מכונה מתעלה על אדם. במי תבחר?
תשובתי היא שכשמדובר ברפואה אין דבר כזה “מדד אולטימטיבי”. צריך לבצע הערכה כוללת של התועלת מול הנזק כי הנזקים עלולים להיות שונים מחולה לחולה. יש משמעויות לטעויות, והן שונות מחולה לחולה. חזרתי והבאתי את הדוגמה של חולה שמאובחן בטעות כחולה סרטן. הוא יקבל כימותרפיה שהוא לא צריך ((או אפילו יעבור ניתוח מיותר)). מילא התופעות לוואי של בחילות ונשירת שיער וכאלה – כימותרפיה גם גורמת נזקים בריאותיים ממשייים.
עם זאת, אני בהחלט מסכים שאם למודל יש יתרון קליני משמעותי על פני הרופאים בשר ודם, יש להעדיף את המודל, לפחות ברמה היישומית. עדיין יש לפתור את עניין האחריות.
- ערן טוען כי אני סתם מתחמק מתשובה, ושואל: הנה, מודל, שעבור רמת הFP והFN של רופא נותן יותר TP מרופא אבל עדין טועה, מחליף את הרופא?
אני מודה שלא הבנתי את השאלה, אבל סבור שהבהרתי לחלוטין איך יש להעריך את הביצועים של המודל ולהשוות אותם לביצועים של הרופא.
סיכום
אני חושב שכולם מסכימים כי עדיין לא הגיע היום בו אלגוריתמים יכולים להחליף רופאים, אלא אם מדובר בתהליכים ממש פשוטים. למשל, אני סבור שאפשר להכניס לשימוש אלגוריתם שיקבל בתור קלט נתונים על חולה (כמו בדיקות דם, מדדי דופק ולחץ דם, וכולי) ויוציא התרעה לרופא המשפחה אם הנתונים בעייתיים. ייתכן ואלגוריתמים מסוג זה כבר קיימים ופועלים.
במקרים יותר ממוקדים, כמו אלגוריתם הפיענוח של רג’פורקאר הדברים הרבה יותר מסובכים. יש הסכמה כי הנתונים ששימשו ל-“אימון” המודל היו בעייתיים. אלגוריתם זה אמנם הראה יתרון מובהק סטטיסטית בביצועיו על פי מדד F1 לעומת ארבעה רופאים בשר ודם, אבל לא ברורה המשמעת הקלינית של יתרון זה (בלשון המעטה). כמו כן, האלגוריתם מוגבל בכך שבמקרה והוא מזהה כי לחולה אין דלקת ריאות, הוא לא מספק תובנה לגבי הבעיה האמיתית שיש לחולה. בסופו של דבר, האלגוריתם הזה הוא אמנם צעד בכיוון הנכון, אבל צעד זעיר מאוד, כמעט זניח.
יתר על כן, המקרה הרפואי של דלקת ריאות הוא קל יחסית מבחינה רפואית. מחלות אחרות, כגון סרטנים ומחלות לב, למשל, צופנות בחובן אתגרים הרבה יותר גדולים.
עם זאת, יש דרך טובה ויעילה לבחון האם הביצועים של אלגוריתמים כאלה עולים על הביצועים של רופא אנושי, ובכמה.
אבל הבעיה העיקרית אינה טכנולוגית אלא אתית.
מי אחראי במקרה שהאלגוריתם טועה? מספר הדעות יהיה כנראה כמספר המשיבים.
בואו נראה מה יכול לקרות בארצות הברית, מכיוון שסביר להניח כי היא תהיה בין המדינות הראשונות בהן יוכנסו אלגוריתמים כאלה לשימוש (בהנחה שבכלל יוכנסו). במדינה בה תביעות על רשלנות רפואית ((ובארצות הברית גם טעות בתום לב נחשבת כרשלנות)) נפוצות מאוד, הנפגעים לא יהססו לתבוע את החברה שמיישמת את האלגוריתמים, את בעלי הפטנט, ומי יודע את מי עוד. האם חברות הביטוח יסכימו לבטח את החברה שמיישמת את האלגוריתם? איש אינו יודע.
אני רוצה להרחיב את הדיון בשאלת האחריות, כי זו לדעתי השאלה המהותית, וממנה נגזרה הכותרת הפרובוקטיבית של הרשימה הזו.
בואו ניקח, כדוגמה פשוטה ביותר, אלגוריתם שצריך לזהות האם בתמונה שמוצגת לו יש חתול. לאף אחד לא איכפת באמת אם האלגוריתם יטען שתמונה של כלב מראה לדעתו חתול.
מה עם אלגוריתם שמחליט אם כדאי להציע לאדם שנכנס לאתר אינטרנט עיסקת קניה מסויימת? יכול להיות שאנשים שהעיסקה תוצע להם לא יבצעו את הקניה, וגם יכול להיות שיפוספסו קונים שהיו מבצעים את הרכישה אם העיסקה הייתה מוצעת. זה חבל, אבל בסך הכל מדובר פה בכסף.
אם מדובר בהרבה כסף, הבעיות יכולות להיות גדולות. בנקים שמנסים לזהות איזה לקוח עלול לא להחזיר את ההלוואה שיקבל עלולים לעמוד בפני בעיה אם האלגוריתם לא מספיק טוב. עם זאת, אני יודע שאלגוריתמים כאלה פועלים, וכנראה שיקול הדעת שלהם יותר טוב משיקול הדעת של הפקיד.
בואו נמשיך. מה עם אלגוריתם שמחליט על ביצוע עיסקות קניה ומכירה בבורסה? בסרט הזה כבר היינו בשנת 2008. אני מקווה שהאלגוריתמים האלה השתפרו מאז, כי לא מתאים לי עוד משבר כלכלי עולמי.
מה בקשר למכונית אוטונומית? כאן כבר מתחילים לדבר על חיי אדם. מישהו יודע כמה טעויות שליליות שגויות (False Negative) יש לאלגוריתם של מובילאיי? וכמה מהטעויות האלה מובילות לתאונות? וכמה מהתאונות האלה כוללות פגיעות בגוף? אני לא יודע. אני לא בטוח שיש מי שיודע.
נכון, מכוניות אוטונומיות כבר נוסעות בכל מיני מקומות בארצות הברית, במסגרת ניסויים לבחינת האלגוריתמים. מי יעריך את מאזן התועלת מול הנזק של האלגוריתמים שמפעילים את המכוניות האלה וישווה אותם לביצועים של נהג אנושי? ואיך? האם יהיה רגולטור, כמו שיש את ה-FDA בתחום הרפואי? האם חברות הביטוח יסכימו לבטח את המכוניות והאלה והנוסעים בהם? ואם כן, מה תהיה עלות הביטוח?
מה בקשר למטוס אוטונומי? מי מוכן לעלות על טיסה טרנס אטלנטית במטוס ללא טייס?
אני יודע שאי אפשר לעצור את הקידמה, ובניגוד למה שעלולים לחשוב אני בעד הקידמה. אני בהחלט חושב שעתיד בו אלגוריתם יוכל להחליף רופא ולבצע את מלאכתו באופן טוב יותר מהרופא האנושי, וכולנו ניסע במכוניות אוטונומיות, הוא עתיד טוב. אבל כדי להגיע לעתיד הזה עלינו להתגבר על הרבה מאוד בעיות, והבעיות הטכנולוגיות הרבה יותר פשוטות מהבעיות האתיות. אני גם חושב שהעתיד הזה רחוק מאוד מאיתנו ואנו לא נזכה לראות אותו, וגם לא בנינו ובני בנינו.
אתה צריך להכיר F1 הוא לא רחוק כל כך משאר המדדים שציינת מאד מקובל ב- ML
https://en.wikipedia.org/wiki/F1_score
תודה על הלינק, שבודאי יעזור גם לקוראים אחרים.
הבעיה היא כמובן לא בהגדרת המדד או בדרך שבו מחשבים אותו הבעיה היא הרבה יותר מהותית: מה המשמעות של המדד בהקשר הקליני של המחקר, ומה המשמעות הקלינית של הפרש בגודל 0.05 במדד. ללינק שנתת לויקיפדיה אין תשובות, ובמאמר החוקרים אפילו לא העלו בדעתם לחשוב על זה.
אני חושב שנקודה מהותית נוספת היא מה אפשר ללמוד מהאלגוריתם. במצב אידיאלי, אלגוריתם ישמש כמאבחן נוסף, וכשהמסקנה שלו תהיה שונה משל הרופא אפשר יהיה לבדוק למה היא כזו. השאלה היא האם האלגוריתם יוכל “להסביר” איך הוא הגיע למסקנה בצורה שהרופא יבין ויוכל לשפוט האם היא סבירה. זה יכול לעזור לרופא שאולי התעלם מנתון חשוב, אבל גם לבטל אבחנה שהוא יכול לשלול במידה רבה של וודאות כמבוססת על משהו שגוי. אבל אם יהיה מדובר רק בקופסא שחורה שמוציאה פלט ואתה צריך להתמודד איתו, אז זו בעייה.
אלגוריתמים שמבוססים על רשתות נוירונים (ואלה האלגוריתמים עליהם מודבר) אינם יכולים “להסביר” או “לנמק”. במונחים אנושיים היינו אומרים שהם מונחים ע”י האינטואיציה שלהם 🙂
אבל זו בדיוק הבעייה. אם הם לא יכולים ל”נמק” או שאנשים לא מסוגלים להבין את ההגיון מאחורי ההחלטות שלהם, איך נוכל למנוע מצב שהם טועים? נניח במקרה שרדיולוג בטוח בסבירות גבוהה שהמחשב טועה, על מי משניהם נסמוך?
במילים אחרות, אתה מודה שזו קופסה שחורה.
כל הגישה של הפוסט מזכירה את הבדיחה על הפטיש.
ראשית, חשוב לי לומר שלדעתי אין מקום לרדיולוגים – כלומר לאנשים מלומדים המאומנים לצפות בתמונות ולקבוע הבחנות מתוך סט נתון. כל מי שמצוי קצת בתחום הלמידה הממוחשבת מבין שזה רק עניין של מספר דוגמאות עד שמחשב יוכל להסתכל על תמונה (סליחה – לצרוך מספר מיליוני פיקסלים) ולספק הסברות לאבחנה מתוך מספר סופי, וגם 100,000 הוא מספר סופי.
הטכנולוגיה קיימת, וכל מה שצריך הוא לשפר אותה.
הרדיולוגים לא צריכים להיות צד בדיון. הם רופאים מלומדים שיכולים לתרום במגוון תחומים אחרים, ומקום העבודה שלהם לא צריך לעניין אותנו כקליפת השום.
מעבר לכך, התועלת של אלגוריתם אפילו פחות מדוייק מרופא הוא בעלות. אני בטוח שיש בעולם לפחות 2 מיליארד (ככל הנראה 5 מיליארד) אנשים שאין להם גישה לרדיולוג, פשוט כי אין מספיק, או כי הם יקרים. אלגוריתם יאפשר לכל בית חולים באפריקה שיש לו מכשיר רנטגן לתת תוצאה טובה יותר מהמצב הקיים שבו אין בכלל רדיולוג זמין
לבסוף, לא ברור לי איך אפשר ליפול לטיעון המשפטי האמרקאי כל כך של מה יקרה אם המחשב ״יטעה״, ואת מי אפשר יהיה לתבוע. טובת הציבור היא אופטימיזציה כללית של המערכת, ולא התעשרות של עורכי דין בטענות של טובת הציבור. אנשים טועים, אלגוריתמים לא יכולים להיות מדוייקים ב 100 אחוז, אבל הם עקבייים ואפשר לשפר אותם כל הזמן.
הטענות שלך כל כך מנותקות מהמציאות עד שאני לא יודע איפה להתחיל.
ראשית, ברור שלא טרחת לקרוא את דבריו של ד”ר הארווי, ובודאי לא ניסית להתמודד עם הטענות שלו. אתה קובע שרדיולוג הוא אדם שבסך בכל מסתכל על תמונות, ובכך אתה פשוט מפגין בורות.
הטענה כי “שזה רק עניין של מספר דוגמאות עד שמחשב יוכל להסתכל על תמונה” היא דמגוגית. המחשב לא מסתכל על תמונות. האלגוריתם מקבל תמונה כקלט ופולט פלט. “כל מי שמתמצא קצת בתחום” יודע שאיכות הפלט תלויה באיכות הקלט, ובמילים קצת יותר בוטות: “Garbae In, Garbae Out”. ד”ר אוגדן ריידר, רדיולוג, “סתם הסתכל על התמונות” וקבע כי האבחונים ששהוצמדו לתמונות שבהן הוזן האלגוריתם לא היו מדוייקים, בלשון המעטה. אתה מעדיף להתעלם מזה.
והרדיולוגים הם בהחלט צד בדיון. כדי לפתח אלגוריתם שיחקה רדיולוגים, הסיווג של הדוגמאות שישמשו לפיתוח האלגוריתם צריך להתבצע על ידי רדיולוגים. זה לא פשוט, דורש השקעה של זמן וכסף, ולא מאפשר לפרסם מאמר במהירות. כמה באמת יעלה אלגוריתם כזה?
והדאגה שלך לחולים באפריקה ממש מכמירת לב. <ציניות>אני בטוח שהחברה שתפתח את האלגוריתם ותשווק אותו תמכור אותו לבתי החולים באפריקה במחיר העלות השולית של התקנה נוספת (שהיא בערך אפס). מה, לא?ציניות>
ובעניין האחריות: מדובר פה בהרבה יותר מאשר התפלפלות משפטית. כאשר פעולה של רופא (וכל אחד בעצם) מביאה תוצאה שלילית, יש לכך שתי סיבות אפשריות: טעות או רשלנות. טעות היא תלויית זמן, מקום ונסיבות. מדובר ברשלנות כאשר יש נזק שאדם סביר היה יכול להיות מודע לו בנסיבות דומות. אמרת שהאלגוריתם עקבי. אני מסכים. כאשר האלגוריתם טועה, הוא טועה באופן עקבי. אם רופא אחר יסתכל בצילום הרנטגן הוא עשוי לראות מששהו שהרופא הראשון לא ראה. גם הרופא הראשון עשוי להתבונן שוב בצילום ולגלות בו משהו שלא הבחין בו קודם. האלגוריתם לא יכול לעשות את זה. האם מפתחי האלגוריתם יכולים להיות מודעים לטעות כזו (סיווג פיברוזיס כדלקת ריאות) בנסיבות דומות? אני חושב שכן. מכאן שטעות של האלגוריתם היא רשלנות של מפתחי האלגוריתם. אם מדובר באלגוריתם שמקבל תמונה של כלב ואומר שזה חתול, לאף אחד לא איכפת. אם האלגוריתם אומר שלחולה יש דלקת ריאות בעוד שיש לו פיברוזיס, יש לכך השלכות חמורות.
כתבת “המחשב לא טועה, גם לא האלגוריתם, מקור הטעויות הן בפיתוח האלגוריתם” וזה ממש לא מדויק.
יש לך טעות בהבנה של איך עובדת בינה מלאכותית.
לאלגוריתמים של רשתות נוירונים (וטכניקות דומות של בינה מלאכותית) יש טעויות. הרבה טעויות. וזו לא טעות באלגוריתם אלא מגבלה ידועה מראש. זה המחיר שמשלמים בשביל לקבל יכולות גבוהות יותר ואנושיות יותר.
יתירה מכך, גם אחרי שהתבררה הטעות לפעמים אין אפשרות לתקן את האלגוריתם. ייתכן שהוא מכויל באופן המדויק ביותר שניתן להשיג וכל שינוי רק יזיק.
בענין הזה האלגוריתמים המתקדמים של בינה מלאכותית קרובים (ומתקרבים עוד ועוד) לבינה האנושית – מצד אחד הם מסוגלים לבצע משימות חכמות מאד (הכוונה למשימות שאין לנו דרך אלגוריתמית לתאר איך לבצע אותן) ומצד שני הם יכולים לטעות, והם טועים.
כשמבינים את זה נשאר רק להשוות בין שיעור הטעויות של אדם לשל מכונה. ואם המחשב טוב יותר אין סיבה לא להסתמך עליו.
העובדה שלא יהיה לנו על מי לכעוס במקרה של טעות, אינה מצדיקה להעדיף גורם אנושי שביצועיו פחות טובים.
אני מסכים עם הטענה שלך שלאלגוריתם יש מגבלות, ושיש מחיר שצריך, ואולי אף כדאי לשלם כדי לקבל ביצועים טובים יותר משל רופא בשר ודם. אני גם מוכן לקבל את הטענה שלפעמים אי אפשר לשפר את האלגוריתם גם כאשר מודעים לטעויות שלו.
השאלה שצריך לשאול היא איך קובעים האם האלגוריתם עובד יותר טוב מרופא (או, כפי שאתה בעצמך אמרת, מתקרב ליכולות של רופא). אני העליתי את השאלה הזו בפוסט וגם עניתי עליה: הקביעה צריכה להיות קביעה קלינית. מדד כמו F1 (או כל מדד שתיקח שמשקלל את כמות הטעויות ולא מתייחס למשמעות שלהן) הוא פשוט מדד רע עבור אלגוריתמים כאלה.
ולגבי הבעיות האתיות, מי יקח את האחריות וכו’, לדעתי התשובה מאד פשוטה.
כל מי שמשתמש במערכת שיש בה מרכיב שעשוי לטעות, וטעות שלו עלולה לגרום נזק כספי או בריאותי – בין אם זה אדם שמחזיק ברכב אוטונומי או מרפאה שמחזיקה מפענח בדיקות אוטומטי – יהיה חייב לערוך ביטוח לנזקי צד ג’.
הלא כך אנו עושים כיום בנהיגה ברכב. אף אחד אינו משלה את עצמו שיש נהג מושלם וחסין תקלות. אנשים הם אנשים והם עלולים להיכשל בנהיגה, ולכן אנחנו מחייבים את כולם ב”ביטוח חובה”. אין שום סיבה שלא ננהג כך בתחומים נוספים.
למרבה המזל, שיעור הטעויות של מערכות בינה מלאכותית הוא עקבי וצפוי, בדרך כלל, ולא תהיה בעיה לבטח אותן.
ובהנחה שהמערכות האלקטרוניות ישיגו תוצאות טובות יותר מבני אדם, אזי לא רק שעלות הקמת המערכת תהיה זולה מהכשרת רופא ועלות התחזוקה שלה תהיה נמוכה בהרבה משכרו של רופא, אלא גם עלות הביטוח המקצועי שלה תהיה נמוכה מביטוח הרשלנות המקצועית שעושה כיום הרופא…
אתה נותן יותר מדי קרדיט לחברות הביטוח. להזכירך, אתה חי במדינה שבה אם היית מעורב בשתי תאונות דרכים, וברור לחלוטין כי לא היית אשם באף אחת משתי התאונות, בכל זאת אף חברת ביטוח לא תסכים לבטח אותך. בארצות הברית, תאמין או לא, המצב הרבה יותר גרוע.
הטענה כי אפשר לפתור את הבעיה באמצעות ביטוח היא תמימה. זו בעיה הרבה יותר מהותית, מכיוון שכשהאלגוריתם טועה, הוא טועה באופן עקבי. זו המשמעות של רשלנות.
אני סבור שהעניין של האחריות במקרה של טעות היא פתירה בעליל, ואנמק זאת להלן –
הטענה כנגד השימוש באלגוריתמים היא שבמקרה שהשגיאה תהיה של האלגוריתם אין מי שיישא באחריות. מה היא אותה האחריות? בשורה התחתונה, כשרופא נתבע בשל טעות שביצע, בסופו של דבר זה מסתכם בכסף שמועבר לנפגע\למשפחתו כפיצוי ו\או הליך פלילי כנגד הרופא במקרים חריגים.
באופן דומה, אם האלגוריתם יעשה טעות, החברה שייצרה\מתחזקת\מפעילה אותו תשלם לנפגע\משפחתו פיצוי לפי קביעת ביהמ”ש, בדיוק כמו היום – רק שמי שישלם הוא חברה מסחרית ולא הרופא (או חברת הביטוח שלו לצורך העניין). כמובן שמן הסתם – לא ניתן להאשים אלגוריתם בפלילים או ברשלנות.
אני סבור שלנוכח העלויות הגבוהות של הכשרה ותחזוקה של רופאים – למרות העלויות הכרוכות בפיתוח ואחזקה של אלגוריתם, והעלויות הכרוכות בתשלום פיצויים בשל טעויות מדי פעם בפעם – זה עדיין ישתלם.
אני מסכים שלא ניתן להאשים אלגוריתם ברשלנות. את מפתחי האלגוריתם, לעומת זאת, אפשר גם אפשר.
המאמר של רג’פורקאר מתאר אלגוריתם שפותח ברשלנות וביצועיו לא נבדקו כראוי, וזו רשלנות עוד יותר גדולה. העובדה שבין החתומים על המאמר נמנה אחד האנשים המובילים בתחום (אם לא ה-), רק מעלה את רמת הדאגה.
אני אנסה לתקוף את העניין מכיוון קצת שונה מהמגיבים המלומדים שהיו לפני. ככלל טכנולוגיה (גם כזו של בינה מלאכותית) לא מחליפה את האדם אלא רק משנה את הדרך בה הוא מבצע את תפקידו. רופאים, עורכי דין, רואי חשבון ומדענים כולם מבצעים את עבודתם בצורה אחרת היום מאשר לפני 100 שנים בין השאר מפני שהטכנולוגיה העומדת לרשותם השתנתה בצורה דרסטית. כולם פותחים היום גוגל בשביל משהו שקשור לעבודה. לפני 20 שנה לא היה גוגל.
עד שהרופא המכני שלך יהיה אנדרואיד שעובר את מבחן טיורינג ומחזיק באזרחות בכל מקרה מישהו אנושי יצטרך לתת את המידע ל-AI ולקרוא את מה שה-AI אומר. אבל יש מקצועות שבכל זאת דועכים. נסתכל על אחד מהם: סוכני נסיעות. באחוזים, סוכני נסיעות אנושיים מזמינים היום הרבה פחות מהטיסות, חדרי המלון וחבילות הנופש הנרכשים בעולם. הסיבה לכך היא לא שלא צריך בן אדם שישתתף בתהליך, אלא שלא צריך מתווך מקצועי. אני ואתה ועוד מיליונים מבינים מספיק בטכנולוגיה כדי להשתמש באמצעים הזמינים היום כדי לעשות את העבודה של סוכן הנסיעות, ובכך מייתרים אותו.
בעולם עתידי היפותטי אני יכול לצלם שומה חשודה בטלפון והאפליקציה הרפואית תגיד לי אם זה נראה כמו מלאנומה, אבל בשלב הבא עדיין צריך ללכת לרופא. והאם אדם בן 70 עם מחלת חום וכאבים בחזה מסוגל להתמודד עם טכנולוגיה, טובה ככל שתהיה ולאבחן ולטפל בעצמו? אני חושב שבד”כ לא. אנשים עדיין יאובחנו בבתי חולים ע”י צוותים רפואיים. יכול להיות שעבודת הרדיולוג (והרופאים באופן כללי) בעוד 20 שנה תהיה שונה מאוד ממה שהיא היום (הרבה יותר הפעלת כלי דיאגנוסטיקה אוטומאטיים). יכול להיות שאנשים שעובדים בתחום היום כבר יתקשו לזהות אותו כאותו תחום. יכול גם להיות שיהיו איחודי תפקידים במסגרת ההתיעלות כי המחשב יעשה הרבה מהעבודה. אבל עדיין יהיה בן אדם שמבין יותר מהאיש הממוצע שיאבחן חולים. יש איזו פנטזיה לפיה עכשיו עם מהפכת ה-AI המחשב פשוט מוחק את האנושות מתעשיות שלמות. אבל זה לא מה שקורה. המחשב משנה את התפקידים, מקטין את מספר שעות האדם שדרושות לביצוע אותה עבודה, אבל עדיין יהיה צורך באנשים, ובמקרה של עניני בריאות (בניגוד להזמנת כרטיס טיסה לחו”ל) אתה ממש לא תמיד תוכל לעשות זאת בעצמך.
נקודה נוספת שלדעתי לא באה לידי ביטוי בטקסט:
עוד כמה שנים טובות, יצליחו לבנות מצלמות ומכשירי הדמייה טובים יותר. למכשירים החדשים תהיה רזולוציה טובה יותר, והם יאפשרו לרופא רדיולוג לאבחן בדיוק טוב יותר ואולי אף למצוא מחלות שונות הניתנות לזיהוי בעזרת הטכנולוגיה החדשה. לעומת זאת, מה יעשה האלגוריתם עם המידע החדש? יוריד את האיכות על מנת להתאים את עצמו לצורה שעליה יש מספיק דוגמאות?
לטעמי, במקרה הזה האמירה שלא צריך להכשיר עוד רדיולוגים היא חסרת אחריות. יש מקום לכל כך הרבה שיפורים טכנולוגיים בתחום הרפואה כל שיפור חומרתי – פשוט לא יוכל להשיג את מלוא הפוטנציאל שלו רק בעזרת אלגוריתמים שאומנו על בסיס האתמול.
“לא יוכל להשיג את מלוא הפוטנציאל שלו רק בעזרת אלגוריתמים שאומנו על בסיס האתמול” – לעומת הרופא שמשיג את מלא הפוטנציאל שלו על בסיס המחר?
שאלת האחריות המקרי שגיאה פחות חמורה ממה שנראה. לצערנו טעויות הן חלק מהמשחק גם כשהרופה מבוסס על כימיה פחמנית, והשאלה המשפטית היא שאלה של *רשלנות* בלבד. מפתחי האלגוריתם יהיו אחראים לטעויות רק אם מישהו יוכל להוכיח שהם *התרשלו* בעת יצירת האלגוריתם – ויותר קל לפקח על התהליך הזה מאשר על פעילות רופא במשך כל עשרות השנים בהן הוא עובד. בנוסף, יש להניח שאחרי תביעה אחת מוצלחת האלגוריתם יעבור שינוי שיבטיח את אי-הישנותה. הלוואי שזה היה נכון לגבי בני אדם.
התייחסתי למעלה (בתגובה ליעקב) לשאלת האחריות והרשלנות.
אוסיף ואומר רק שעל פי דבריך, ייתכן ולא יהיה אפשר לתקן את האלגוריתם גם במקרה שבו תתגלה טעות חמורה. המשמעות היא שהמשך השימוש באלגוריתם יהיה רשלני.