דמוקרטיה או שוק?

מירב ארלוזורוב ירדה מהפסים

רק לפני כמה ימים התבדחתי בטוויטר והצעתי להפריט את הכנסת ולפתוח את שוק החקיקה לתחרות, והנה באה מירב ארלוזורוב ומוכיחה שכל בדיחה, הזויה ככל ששתהיה, על ליברטיאנים היא רק תיאור למה שהם באמת חושבים. כשל שוק בדמוקרטיה, היא כותבת. ירדת לגמרי מהפסים, מירב. תגשי לרופא.

כשל שוק דמוקרטי

 

 

קודם כל, לקחתי צילום מסך, לפני שבדה-מרקר יבינו עד כמה הדברים האלה מחפירים ויעלימו אותם.

ועכשיו התייחסות רצינית.

האמת על הדמוקרטיה ועל חוק ההסדרים

קודם כל: דמוקרטיה זה לא שוק. דמוקרטיה זה ערך. אפשר להתווכח אם זו השיטה השלטונית שמתאימה לנו או לא (לי זה נשמע קצת הזוי, אבל אני יודע שיש הרבה אנשים שחושבים אחרת). בינתיים אנחנו דמוקרטיה, או לפחות קרובים לזה.

בדמוקרטיה אמורה להיות הפרדת רשויות, וזה כולל בין היתר הפרדה בין הרשות המחוקקת – הכנסת, והרשות המבצעת – הממשלה. אנחנו קצת חלשים בזה, זה נכון ((דוגמה אחת קטנה: החלטות בנושא חקיקה, כלומר החלטות איזה חוק יחוקק ואיזה לא, מתבצעות בועדת השרים לענייני חקיקה ולא בכנסת. הכנסת, או יותר נכון הקואליציה, היא רק חותמת גומי להחלטות שמתקבלות בממשלה)). אבל חוק ההסדרים הוא חוק בלתי דמוקרטי במיוחד. האם אתם מכירים מדינה דמוקרטית אחרת שיש בה חוק כזה?

אומר כאן דברים חריפים: חוק ההסדרים הוא פוטש של הרשות המבצעת נגד הרשות המחוקקת, שמתקיים, למרבה הצער, תוך כדי שיתוף פעולה של חברי הכנסת מהקואליציה. החוק הזה מנוסח על ידי פקידים, שתפקידם ליישם מדיניות ולא לקבוע מדיניות. החוק הזה מבטל החלטות שהתקבלו בכנסת ועל הממשלה ליישם.

בפועל, הממשלה לא מאפשרת קיום דיון רציני בחוק ובמשמעויות שלו. וכל הפארסה האנטי דמוקרטית הזאת מתקיימת בגלל שהממשלה לא מוכנה לקבל החלטות אמיתיות ולקבוע סדרי עדיפויות.

ניקח למשל את חוק חינוך חובה חינם, שביצועו נדחה כל שנה במסגרת חוק ההסדרים. הממשלה יכולה להחליט שהחוק הזה לא מספיק חשוב, או שהוא חשוב אבל לצערנו מצבנו הכלכלי (שמעולם לא היה טוב יותר!) אינו מאפשר את קיום החוק. אז שיקום שר האוצר, או ראש הממשלה, ורצוי שניהם, ויגידו את זה. אבל זה לא פופוליסטי, ולכן הם מעדיפים לטאטא את זה מתחת לשטיח של חוק ההסדרים.

הכשל העיקרי: חוסר מנהיגות

ואם מדברים על כשלים בדמוקרטיה שלנו, אז הנה הכשל העיקרי: אין לנו היום מנהיגים שבאמת רוצים להנהיג ולקבל החלטות אמיצות, כמו למשל, להטיל מס על טבק לגילגול, וזו רק דוגמה קטנה. וזה מתבטא בהרבה מקומות אחרים.הנה דוגמה הרבה יותר חמורה: קיצוץ רוחבי בתקציב, דבר שהפך להיות מאוד פופולרי בשנים האחרונות. צריך כסף למשהו? "האדם הרציונלי" שהכלכלנים כל כך אוהבים, אמור להחליט על מה הוא מוותר בתמורה לכך שישתמש בכסף למטרה שהוא חושב לראויה. הממשלה, לפי האנלוגיה הזו, צריכה להגדיר סדרי עדיפויות ולקבל החלטות. אבל שוב, זה לא פופוליסטי. עדיף לקצץ קיצוץ רוחבי, ולעזאזל אם הקיצוץ הזה יפגע גם בדברים שנראים חשובים בעיני רוב האזרחים, כמו למשל מערכת הבריאות.

מה שחסר לנו זה לא חוק הסדרים וקיצוצים רוחביים. חסרה לנו מנהיגות. ואת זה אי אפשר להשיג בחוק ההסדרים.

איך לא ללמד חשיבה סטטיסטית

גברת נחמדה, בעלת רצון עז להבין את מה שמלמדים אותה באוניברסיטה (או מנסים ללמד), העלתה אתמול לקבוצת סטטיסטיקה והסתברות בפייסבוק מספר שאלות שניתנו במבחנים בסטטיסטיקה. די מהר התברר שבשאלה אחת הייתה טעות גסה, והשאלות האחרות, איך לומר, היו בעייתיות, לפחות בעיני. שאלתי אותה איפה היא לומדת, והיא ענתה שמדובר בקורס "חשיבה סטטיסטית לפסיכולוגים". עיון מהיר בפרופיל שלה העלה כי היא לומדת באוניברסיטה העברית ((שהיא ה-alma mater שלי)).

כמה מילים על חשיבה סטטיסטית

כאן צריך להתקיים דיון בשאלה מהי חשיבה סטטיסטית ואיך מלמדים אותה. ברשותכם אני אדחה את הדיון הזה למועד אחר. אציין רק שחשיבה סטטיסטית זה דבר קשה, שלא בא בטבעיות כמעט לאף אחד (כולל אותי). שני פסיכולוגים מהאוניברסיטה העברית, דניאל כהנמן ועמוס טברסקי, הוכיחו כבר בסוף שנות השישים כי בני האדם אינם "סטטיסטיקאים טבעיים", וחשיבה סטטיסטית אינה אינטואיטיבית. ללמד חשיבה סטטיסטית זה עוד יותר קשה ומסובך, אם כי לא בלתי אפשרי (ואני רוצה להפנות את הקוראים המתעניינים בכך לספרם של עמוס טברסקי וורדה ליברמן, "חשיבה ביקורתית"). אני בספק האם ניתן ללמד חשיבה סטטיסטית בקורס של כמה שעות בסמסטר אחד.

כפי שכבר ניתן להבין מדבריי עד כה, אני חושב שהשאלות שהיא העלתה (כאמור שאלות שניתנו במבחנים של הקורס הזה) אינן בודקות שום מימד של חשיבה, אלא יכולות של חישובים ולהטוטים בנוסחאות. אולי זה לגיטימי להתמקד בנוסחאות וחישובים במסגרת קורס בסיסי בסטטיסטיקה (אני חושב שלא) אבל זו לא חשיבה סטטיסטית.

איך לא בודקים יכולות של חשיבה סטטיסטית

ועכשיו בואו ננתח את השאלה שממש הרגיזה אותי:

ובכן, מה יש לנו כאן? מנהל בית ספר שנתוני הציון הממוצע וסטיית התקן בכיתה מסויימת לא מתאימים לאג'נדה שלו. הפתרון של המנהל הוא לעוות את הנתונים ((ביטוי מכובס ל-"לשקר" )). מחבר השאלה מציע למנהל הזה ארבע אופציות: בשתיים מהן מוסיפים לנתונים נתון נוסף של תלמידה מכיתה אחרת שקיבלה ציון גבוה מהממוצע (יש שתי אפשרויות כי המנהל גם רוצה להקטין את השונות, הרי בכל זאת מתיימרים לדבר על חשיבה סטטיסטית). בשתי האופציות האחרות משמיטים מנתוני הכיתה את הציון של תלמיד או תלמידה עם ציון נמוך מהממוצע.

אני חושב שהשאלה הזו ממצה את כל מה שרע בפרקטיקות של אנשים, חוקרים או אחרים, שמשתמשים בסטטיסטיקה ללא שמץ של הבנה או יושרה. כתבתי סדרה של שבעה פוסטים על סטטיסטיקה רעה, והנה שבע שורות שלוקחות את כל מה שכתבתי בהליכה.

מצד שני, באופן אבסורדי, דווקא כאן יש סוג של חשיבה סטטיסטית (אמנם בהקשר רע, אבל בכל זאת חשיבה). אבל השאלה לא בודקת את יכולות החשיבה של הסטודנטים, אלא לכל היותר מציגה בצורה מוגבלת את יכולת החשיבה הסטטיסטית של מחבר השאלה ((אני מקווה שהיכולות שלו גבוהות יותר, אי אפשר לשפוט את היכולות שלו על סמך מה שכתוב בשאלה אחת)). הוא אכן מבין, או לפחות יודע, שככל שממוצע הציונים גבוה יותר וסטיית התקן נמוכה יותר, כך העדות לטובת שיטת הלימוד החדשה חזקה יותר ((אם כי איפה קבוצת הביקורת? )). אבל הוא אומר את זה במפורש לסטודנטים: צריך ממוצע יותר גבוה וסטיית תקן יותר קטנה. מה שנשאר לסטודנטים לעשות זה רק לערוך ארבעה חישובים ((אמנם לא מסובכים)) חסרי טעם.

איך בכל זאת אפשר לבדוק יכולות של חשיבה סטטיסטית

כותב השאלה ממש לא מבין איך לברר את היכולת החשיבתית הזאת אצל הסטודנטים בצורה ישירה, ללא התעסקות בחישובים, וללא הצגה של סטטיסטיקה רעה. הוא היה יכול, למשל, להציע לסטודנטים את ארבע האפשרויות בלי לומר להם שהשאיפה היא לממוצע יותר גבוה עם סטיית תקן יותר קטנה. זה היה בודק האם הסטודנטים בוחרים באפשרות הנכונה ללא הנחיה. עם זאת, הלגיטימיות שניתנת כאן להונאה באמצעות שפצור הנתונים עדיין נשארת.

יש גם אפשרות אחרת: להציג נתוני ממוצע וסטיית תקן של ארבע כיתות היפותטיות, ולשאול איזה נתונים היפותטיים מבטאים עדות חזקה יותר ליעילותה של השיטה החדשה. כך הוא ניתן האם הסטודנטים אכן יודעים להעריך את העדויות על פי הממוצע וסטיית התקן, ללא חישובים, וללא הסיפור המזעזע ((אין כאן שום ציניות)) על המנהל הבלתי מרוצה.

אבל בשביל זה צריך חשיבה סטטיסטית.

סטטיסטיקה רעה: לא לתת מדד לאי ודאות

נתונים סטטיסטיים מבוססים בדרך כלל על מדגמים, ובמדגמים, גם מדגמים מייצגים, יש אלמנט של אי ודאות. עד כמה ניתן לסמוך על התוצאות המתקבלות מהמדגם? את זה אפשר לכמת, ולתת מדד למידת אי הודאות של התוצאות המדווחות.

הנה דוגמא מלאכותית אבל קלאסית: במקום עבודה מסויים השכר הממוצע הוא 10400 ₪. יפה, לא? בטח טוב לעבוד שם. אבל עיון יותר מעמיק בנתונים מעלה כי יש 9 עובדים שכל אחד מהם מרוויח 6000 ₪ בחודש, בעוד שהמנהל לוקח הייתה בכל חודש 50000 ₪. מי שיעשה חשבון יגלה כי סטיית התקן של השכר במפעל היא 13200 ₪. הדוגמא הזו מחשבת את הממוצע וסטיית התקן מתוך הנתונים (המלאכותיים) המלאים, ובדרך כלל מיועדת להדגים את רגישותו של הממוצע לערכים קיצוניים, אך סטיית התקן נותנת לנו מושג עד כמה אפשר לסמוך על הנתון הממוצע.  אם למשל אומר לכם כי במפעל אחר השכר הממוצע גם שם שווה ל-10400 ₪, אבל סטיית התקן היא 1200 ₪, יהיה לכם מידע יותר ודאי על רמות השכר במפעל הזה. תוכלו להסיק כי פערי השכר במפעל הזה קטנים יותר מאשר במפעל הראשון. ((בדוגמא הזו 9 עובדים מרוויחים 10000 ₪ בחודש, המנהל מרוויח 14000 ₪ ))

בספרות המדעית בדרך כלל לא חוטאים את החטא הזה. העורכים של כתבי העת המדעיים כמעט תמיד דורשים לצרף לאומדנים המתפרסמים מדד לאי-ודאות, בדרך כלל סטיית תקן או רווח סמך.

עם זאת, זיהיתי שני תחומים שבהם מרבים לפרסם אמדנים כגון ממוצעים או חציונים ללא מדדים לאי הודאות.

התחום הראשון הוא העיתונות. חיפוש מהיר בגוגל באתרים של 5 עיתונים גדולים (( ידיעות אחרונות – Ynet, מעריב/מקור ראשון –nrg, הארץ, דה-מרקר וגלובס)) הראה כי המילה "ממוצע" מופיע פעמים רבות בידיעות שהתפרסמו בשנה האחרונה. החיפוש אחרי "סטיית תקן" (לאורך כל השנים) כמעט ולא העלה ממצאים. חיפוש אחרי "רווח סמך" (שוב, לאורך כל השנים)  באתרים הנ"ל העלה תוצאה בודדת (( סקירה בגלובס על ספר של חיים שפירא, בשנת 2015 )) . עם זאת, שני העיתונים הכלכליים מפרסמים את סטיות התקן עבור נתונים כלכליים שוטפים (מסחר בבורסה ומסחר במטבע חוץ). כמו כן, כאשר מתפרסמים בעיתונות סקרים למיניהם, מפורסמת יחד עימם טעות הדגימה, וטוב שכך.

התחום השני הרבה יותר בעייתי. מדובר בפרסומים רשמיים של נתונים סטטיסטיים על ידי המדינה, בראש ובראשונה על ידי הלשכה המרכזית לסטטיסטיקה (אך גם על ידי מוסדות נוספים, כגון הביטוח הלאומי, בנק ישראל, ומשרדי ממשלה שונים). כתבתי כאן בעבר על הבעייתיות שיש בפרסום השכר הממוצע שהלמ"ס מפרסמת מדי חודש. זה היה ב-2004. מה השתנה מאז? כלום. בשנתון הסטטיסטי לישראל יש נתונים על גבי נתונים (הנה למשל פרק שוק העבודה מתוך שנתון 2016 – קובץ pdf) . מופיעים שם לוחות על גבי לוחות. סטיות תקן או רווחי סמך? יוק. מי שמבין קצת סטטיסטיקה ורוצה לערוך חישובים יכול אמנם לקבל אומדנים למדדי אי-וודאות  כך למשל, פירקתי פעם את נתוני התפלגות השכר לפי עשירונים שפירסמה הלמ"ס כדי לאמוד את קטגוריית השכר השכיחה, כלומר "כמה משתכרים הרוב". באופן דומה הייתי יכול לאמוד גם את סטיית התקן של התפלגות השכר. אוסיף ואומר כי הבעיה שבפרסומי הלמ"ס אינה רק בעיה סטטיסטית חמורה אלא גם בעיה ציבורית חמורה: מדובר כאן בחוסר שקיפות ובמקרים מסויימים גם בהטעיית הציבור.


רשימות נוספות בסדרה:

הערות על חישוב מדד השכירות של הלשכה המרכזית לסטטיסטיקה

ביום שני השבוע, 29.1.208, התפרסמה בגלובס כתבה שדיווחה על טעות מהותית בחישוב מדד השכירות של הלשכה המרכזית לסטטיסטיקה, עליה דיווחה המייעצת שהקימה הממשלה לבחינת מדדי המחירים בשוק הנדל"ן.

הפעם אתחיל מהסיכום

  • הועדה התייחסה בצורה עניינית לנושא אמידת שכר הדירה. אין המלצה לתקן את המדדים לאחור, ואין המלצה לשנות את מתודולוגיית הדגימה. 
  • בניגוד למה שנאמר בכתבה, הועדה לא מתחה ביקורת על המתודולוגיה של הלמ"ס, אלא המליצה על שיפור בעניין ממוקד יחיד במתודולוגיה.
  • הפער שדווח בכתבה אינו בין נתוני הועדה ונתוני הלמ"ס, אלא בין נתוני הלמ"ס ונתונים של ד"ר רז-דרור, שאיני מזלזל בכישוריו.עם זאת, לא ברור מהי המתודולוגיה בה ד"ר רז-דרור השתמש כדי לאמוד את גובה שכר הדירה. כמו כן, נתוניו ככל הנראה פחות מדוייקים עקב מדגם קטן יחסית.
  • הפער בין הנתונים של הלמ"ס והנתונים של ד"ר רז-דרור נמוך ממה שדווח בכתבה. הפער שעלול לנבוע בין ערכו של מדד המחירים לצרכן כפי שדווח ובין ערכו התיאורטי, בהנחה שהנתונים של רז-דרור נכונים ומדוייקים, הוא זניח ולא מדווח בכתבה.
  • הקביעה של דרור מרמור כי הטעות של הלמ"ס היא "חלמאית" הינה לחלוטין חסרת בסיס. הפרשנות של מעמירם ברקת על "תיבת הפנדורה" שתיפתח מבוססת על המידע המטעה בכתבה של דרור מרמור, ויש להתייחס אליה בהתאם. ההתנפלות של סטלה קורין-ליבר על המועצה הציבורית לסטטיסטיקה (שאני מכיר אישית את רוב החברים בה) מתבססת אף היא על הקביעות הלא מדוייקות של מרמור, ואינה מביאה שום טענה עניינית. איתן כבל מיהר לגזור קופון פוליטי (לפחות הוא סייג את דבריו והתנה אותם בכך שמרמור צודק בדברים שכתב – הוא לא).

מה בדיוק קרה?

הנה ציטוטים מהכתבה:

"מדד שכר הדירה של הלמ"ס, המהווה 5.7% ממדד המחירים לצרכן (האינפלציה), כלל במשך השנים טעות מובנית וכמעט חלמאית, שהטתה בפועל את המחירים בשוק השכירות באחוזים ניכרים כלפי מטה. תיקון הטעות לאחור יעלה בדיעבד גם את מדד המחירים לצרכן, וישנה את חישובי האינפלציה בשנים האחרונות… מאז 2008 נוצר פער של כ-25% בין שני סוגי המדידה. לפי החישובים החדשים, מאז 2008 עלה מדד שכר הדירה בכ-65%, לעומת עלייה כוללת של 40% לפי מדד שכר הדירה הישן, תוספת שמגלמת יותר מאחוז אינפלציה בעשור האחרון"

הכתבה ממשיכה:

"לכל מי שמכיר את שוק הדיור ברור כי דווקא חילופי שוכרים מהווים לא פעם הזדמנות להקפצת המחירים – ללא שום ביטוי לכך במדד. לפי הדוח, בדיקה שנערכה בעבר בלמ"ס העלתה ששוכרים שהחליפו דירות שילמו בממוצע 6.6% יותר משוכרים שנשארו בדירותיהם"

הכתב דרור מרמור מביא ציטוטים מדו"ח הועדה המייעצת:

"בשוק המצוי במגמה של עליית מחירים, צפויה הטיה כלפי מטה במדד שכר הדירה, הואיל וחלק מהדיירים עוברים לדירה אחרת בשל דרישה לדמי שכירות גבוהים יותר. ..לחילופין, בשוק המצוי במגמת ירידת מחירים, ההטיה עשויה להתרחש כלפי מעלה, שכן המשכיר עשוי להוריד את שכר הדירה בעת התחלפות דיירים כדי להימנע ממצב שבו הדירה נותרת ריקה"

עוד ממשיך הכתב ומסביר:

"מאז 1999 מדד מחירי הדירות (מכירה) אינו חלק ממדד המחירים לצרכן, ובמקומו מחושב השינוי במחירי שכר הדירה. בלמ"ס מדגישים כי ההטיה המוטעית לא השפיעה על כל מרכיב הדיור בשכירות, התופס נתח משמעותי של כ-24% בתוך מדד המחירים לצרכן, אלא רק על אותם 5% מהמדד שבוצעו באמצעות החישוב המוטה (החישוב המשלים מתבסס על מחירים ממוצעים)"

לכתבה עצמה נלוו גם טורי פרשנות ותגובות שעסקו באפוקליפסה של טעות החישוב שדווחה. עמירם ברקת כותב על העדכון שפותח תיבת פנדורה. סטלה קורין ליבר כותבת על המחדל של מדד הלמ"ס: בכירים שבבכירים לא עשו את עבודתם. ח"כ איתן כבל הכריז כי לחשיפה על טעות הלמ"ס יש השפעה דרמטית, וקרא לכנס את כל גורמי המקצוע בתחום הדיור כדי להבין את חישוב הנתונים השגוי של הלמ"ס.

בכתבה של גלובס הובאה תגובתו של דורון סייג, מרכז הוועדה מטעם הלמ"ס:

"הלמ"ס החלה בבדיקות לאמידה מדויקת וטובה יותר של ההטיה. לדברי סייג, "הפער שנמצא על ידי רז דרור, בשיעור של 25%, לא חושב על ידי הלמ"ס ואנחנו מבצעים כעת בדיקה טובה יותר. כרגע מדובר בבדיקה ראשונית, אבל לנו נראה שהפער שיימצא בסוף בין המדד שהוצג למדד החדש יהיה נמוך יותר".

ב-Ynet, מובאת תגובה נרחבת יותר מטעם הלמ"ס ((לא מצאתי בגלובס)):

"(אנשי המקצוע) מודעים לאי הדיוק בחישוב של מדד שכר הדירה הנכלל במדד המחירים לצרכן, והסבירו זאת בקשיי איסוף נתונים אודות שוכרים חדשים, אך עם זאת טענו כי מדובר בהשפעה מינורית: מבדיקות שונות שביצענו עולה שהשפעת שכר הדירה של שוכרים חדשים על מדד המחירים לצרכן זניחה. מסקנה זאת מוסברת בין השאר בכך שמדובר על 5.7% ממדד המחירים לצרכן וקבוצת השוכרים החדשים מהווה על סמך בדיקות ראשוניות שערכנו לא יותר מאשר 20% מתוך אוכלוסיית השוכרים"

כמו כן הסבירו כי בניגוד לנטען בפרסומים השונים, הודיעו על בדיקת הנתונים לאחור ולא על תיקונם לאחור.

עם זאת, בלמ"ס לא פסלו כי יוחלט לתקן את המדד בהמשך ואמרו: "עם סיום תוצאות הבדיקות וטיוב הנתונים לגבי שוכרים חדשים, ובהתייעצות עם הוועדה הציבורית המייעצת בנושאי בינוי, דיור ונדל"ן נחליט על המשך הטיפול".

Ynet מיידעים את קוראיהם גם על תגובת בנק ישראל, שם טוענים כי ההשפעה אינה משמעותית:

"בנק ישראל עומד בקשר רציף עם גורמי המקצוע בלמ"ס. בדיקות ראשוניות שנערכו בבנק ישראל מראות שהשפעת ההבדל במדידה על האינפלציה במדד המחירים לצרכן קטנה, ובוודאי שלא הייתה מביאה לשינוי במדיניות המוניטרית".

בואו נעשה סדר במספרים

בואו נדבר על הפער בין שתי ההערכות. לפי הלמ"ס, שכר הדירה עלה בין 2008 ל-2015 ב-40%, ולפי חישובי הועדה המייעצת  שהם לצעשה חישוביו של ד"ר רז-דרור, העלייה הייתה בגובה 65%.

במילים אחרות, אם שכר הדירה לדירה ממוצעת ב-2008 היה 1000 ₪, הרי שלפי הלמ"ס שכר הדירה ב-2015 היה 1400 ₪ ולפי הועדה הוא היה 1650 ₪. מה הפער? ההפרש בין 1650 ב-1400 הוא 250. נחלק את ההפרש הזה ב-1400 ונכפיל ב-100 ((חישובי אחוזים של בי"ס יסודי)) ונקבל כי התוצאה היא קצת פחות מ-18%, ולא 25%. הפער פחות גדול ממה שנאמר בכתבה,

נמשיך. מדובר בפער הכולל שנפתח לאורך 8 שנים. מהו הפער הממוצע בשנה? זה חישוב קצת יותר טריקי: הפער הממוצע הוא השורש השמיני של 1.18. החישוב מראה כי הפער הממוצע בשנה הוא קצת פחות מ-1.8% בשנה ((ידע בחישובי אחוזים של בית ספר יאפשר לכם לבדוק את התוצאה. תתחילו מ-100, תוסיפו לו 1.8%. לתוצאה שקיבלתם תוסיפו שוב 1.8%, וכך הלאה, 8 פעמים)). כמו כן, חישוב דומה יראה כי לפי אומדני הועדה, העלייה הממוצעת בשכר הדירה לאורך 8 השנים האלה הוא כ-6.5%, ופי הלמ"ס העלייה הממוצעת בשנה היא כ-4.3%.

מה ההשפעה של זה על המדד? לפי מחשבון מדד המחירים של הלמ"ס, מ-2008 עד 2015 עלה מדד המחירים לצרכן בקצת יותר מ-16%. זו עליה ממוצעת של 1.7% בשנה כלומר, אם מחיר סל המצרכים שלפיהם מחושב המדד היה 1000 ₪ בתחילת שנה ממוצעת, מחירו בסוף השנה היה 1017 ₪.

שכר הדירה מהווה 5.7% מסל המצרכים ((לפי הנתון בכתבה בגלובס)). נעגל את זה ל-6%. פירוש הדבר הוא שאם ערך סל המצרכים היה בתחילת השנה 1000 ₪, שכר הדירה היה 60 ₪, וערכו של שאר הסל היה 940 ₪.

לפי הלמ"ס, שכר הדירה עלה במשך השנה בכ-3.8%, ולכן בסוף השנה הוא היה כ-62 ₪. מכאן שערכו של שאר הסל בסוף השנה היה 955 ₪.

לפי הועדה המייעצת, שכר הדירה בשנה ממוצעת עלה ב-6.5%. נעגל את זה ל-7%. כלומר אם עלות הסל בתחילת השנה הייתה 1000 ₪, הרי ששכר הדירה היה, כפי שחישבנו, שכר הדירה בתחילת השנה היה, כפי שחישבנו, 60 ₪. אם הוא עלה ב-7% במשך השנה, הרי שבסופה הוא היה כ-64 ₪. שווי שאר המצרכים בסוף השנה היה 955 ₪, ולכן השווי הכולל של הסל היה 1019 ₪. אם הועדה צודקת, האינפלציה השנתית הממוצעת הייתה 1.9%, ולא 1.7%.

אני לא כלכלן, ולכן לא יודע עד כמה ההבדל הזה משמעותי. התחושה שלי היא שלא מדובר בקטסטרופה.

איך אומדים את העלייה בשכר הדירה?

אקדים ואומר כי אני לא מתמחה בדגימה. הידע שלי בתחום מוגבל למה שלמדתי בלימודי התואר הראשון, פלוס קצת ידע נוסף שרכשתי בעזרת לימוד עצמי.

אבל הנה תיאור בסיסי של התהליך. כדי לדגום, צריך להגדיר קודם כל את מסגרת הדגימה, שהיא בעצם האוכלוסייה שבה אנו מתעניינים. במקרה שלנו, אנחנו רוצים לאמוד את שכר הדירה הממוצע, ולכן יש לנו שתי מסגרות דגימה אפשריות.

אפשרות אחת היא לערוך רשימה של כל הדירות המושכרות, ואז ניקח מדגם של דירות מושכרות ונברר מה שכר הדירה עבור כל דירה שנכללת במדגם.

אפשרות שניה היא לערוך רשימה של כל משקי הבית ששוכרים דירות, לקחת מדגם מתוך משקי הבית האלה, ולברר מה שכר הדירה שהם משלמים.

יש שתי דרכים עיקריות לביצוע המדגמים. ניתן לבצע מדגם בחתך רוחבי (cross sectional), כלומר לקחת כל חודש מדגם חדש, או באופן אורכי (longitudinal), כלומר לקחת מדגם ולעקוב אחריו לאורך זמן.

לכל שיטה יש יתרונות וחסרונות, שלא אפרט כאן ((בין היתר, כיוון שאני לא מומחה בתחום)).

אני מציע שכעת תפסיקו את הקריאה לדקה או שתיים, ותחשבו מה אתם הייתם עושים אם הייתם מתבקשים לבצע את המדגם: האם הייתם דוגמים דירות או שוכרים? האם הייתם לוקחים כל חודש מדגם חדש, או שהייתם לוקחים מדגם ועוקבים אחריו לאורך זמן? אולי תחשבו על דרך אחרת?

מסתבר שהדברים לא כל כך פשוטים. קשה מאוד, אולי בלתי אפשרי, לערוך רשימה של כל הדירות המושכרות. קשה מאוד, אולי בלתי אפשרי, לערוך רשימה של כל משקי הבית המתגוררים בדירות שכורות. בלמ"ס בחרו בדרך ביניים. למעוניינים, הנה לינק למסמך המתאר את מתודולוגיית חישוב סעיף הדיור במדד המחירים לצרכן (קישור לקובץ pdf). אפשר להתווכח על מתודולוגיית הדגימה, אך רצוי מאוד להבין את הנושא לפני שמחווים דיעה.

מה אומר דו"ח הועדה המייעצת?

אמנם בגלובס לא טרחו לתת הפניה אל הדו"ח אבל חיפוש מהיר בגוגל מצא אותו (קישור לקובץ pdf).

כדאי קודם כל לעיין בעמוד 2 בו תמצאו את רשימת חברי הועדה. בוועדה יש 35 חברים, שהם נציגים ממגוון רחב של מוסדות ממשלתיים ואחרים, כולל בנק ישראל, משרד האוצר, משרד הבינוי והשיכון, המועצה הלאומית לכלכלה, משרד המשפטים, וכן, גם 9 נציגים של הלשכה המרכזית לסטטיסטיקה. גילוי נאות: אני מכיר אישית שלושה חברים בוועדה.

ההתייחסות של הועדה לנושא מדד שכר הדירה נמצאת בעמודים 37-39. הנתון של עליית המחירים ב-65% אינו כתוב במפורש בדו"ח והוא ככל הנראה נגזר מהגרף שבעמוד 37. לדעתי הגרף מראה שינוי הקרוב יותר ל-60% מאשר ל-65%, (ראו הצגה מוגדלת של הגרף בדה-מרקר) אבל בואו נניח לזה. בעיה יותר גדולה בגרף, לדעתי, היא שהוא לא מציג סטייות תקן או רווחי סמך לאומדנים, לא עבור הנתונים של רז-דרור ולא עבור נתוני הלמ"ס. ((אכתוב על עניין זה בהרחבה בקרוב))

בשולי הגרף מצויין כי מקור הגרף במסמך של ד"ר עופר רז-דרור מ-2017. לא הצלחתי לאתר את המסמך המקורי. בדה-מרקר מציינים כי המדגם של רז-דרור קטן יחסית, מה שאומר כי סטיית התקן שלו (טעות הדגימה) יותר גדולה. לא הצלחתי למצוא מה הייתה שיטת הדגימה של ד"ר רז-דרור.

המלצות הועדה בנושא הן לשפר את המעקב אחר דירות בשכירות בעת תחלופת שוכר, וכן לפרסם מדדים לשכר-דירה ואת שכר הדירה הממוצע בפילוח לפי מחוזות וערים גדולות. בניגוד למה שדווח בגלובס, אין המלצה לתקן את המדדים לאחור, ואין המלצה לשנות את מתודולוגיית הדגימה.

משפט מסכם אחרון: תמיד כדאי לקרוא בביקורתיות כתבות, דו"חות, כל דבר בעצם. תהיו ספקנים.

 

"המחשב טעה. שלא תדעו עוד צער."

האם מקצוע הרדיולוג עומד להיכחד? האם אלגוריתמים של בינה מלאכותית, כגון רשתות נוירונים, יחליפו את הרדיולוגים, ובהמשך את שאר הרופאים? ואיך כל זה קשור למכוניות אוטונומיות?

כל השאלות האלה עלו בעקבות פוסט בבלוג  Toward Data Science שפרסם יו הארווי, רופא המתמחה ברדיולוגיה. הארווי טוען כי האלגוריתמים לא יחליפו את הרדיולוגים בעתיד הנראה לעין, אם בכלל. בדיון בקבוצת Machine & Deep learning Israel בפייסבוק הופיע הפניה לפוסט של לוק אוקדן-ריינר, גם הוא רופא המתמחה ברדיולוגיה.  הפוסט של אוקדן-ריינר מתייחס למאמר שפורסם ממש לפני כמה חודשים (נובמבר 2017), מאת רג'פורקאר ועמיתיו, שתיאר אלגוריתם לפענוח תצלומי רנטגן. בין העמיתים החתומים על המאמר זה נמנה אנדרו אנג, מה שמחייב התייחסות רצינית ביותר למאמר.

ברשימה זו אביא את דבריהם של הארווי ואוקדן-ריינר, ואתייחס למאמר של רג'פורקאר. כמו כן, אומר מה לדעתי צריכים להיות הקריטריונים לפיהם יהיה ניתן לקבוע כי אלגוריתם כזה יכול להחליף רופא מומחה. בנוסף אענה באופן מסודר לטענות (הטובות) שהועלו בקבוצת הפייסבוק. ((עם זאת, לא אתייחס לטענה "תן תמונה היום לעשרה רדיולוגים ותקבל 11 חוות דעת" ))

זוהי רשימה ארוכה במיוחד. חילקתי אותה למספר פרקים כשלכל פרק כותרת נפרדת, כדי שתוכלו לדלג על הפרקים שלא מעניינים אתכם.

הארווי: אינטליגנציה מלאכותית לא תחליף את הרדיולוגים

ד"ר הארווי, שכנראה לא היה מודע למאמר של ראג'פורקאר כשכתב את דבריו ((שכן הוא לא התייחס אליו)) משיב לטענתו של ג'פרי הינטון, מומחה לרשתות נוירונים, שאמר כי "ברור שצריך להפסיק להכשיר רדיולוגים". הוא מביא שלושה טיעונים כתשובה להינטון.

ראשית, טוען הארווי, כי בניגוד לאלגוריתם, הרדיולוג עושה יותר מאשר להביט בהדמיות ((כגון תצלומי רנטגן, סריקות CT ו-MRI, ועוד)). הארווי מתאר בפירוט את תפקידיו של הרדיולוג בתהליכי האבחון, שאמנם מתבססים על הדמיות, אך גם על אינפורמציה נוספת. הוא אמנם מסכים כי אלגוריתמים למיניהם עשויים לסייע ולשפר כמה תחנות בתהליך האבחוני, אך אינם יכולים להחליף את שיקול הדעת של הרופא.

הנימוק השני של הארווי הוא שבסופו של דבר מי שנושא באחריות הסופית הם בני אדם. הארווי מציג אנלוגיה בין התעופה ובין הרפואה (לא מוצלחת, לדעתי), אולם בסופו של דבר מדגיש את הנקודה המהותית: כשהרופא טועה, ורופאים אכן עלולים לטעות, הרופא אחראי. מי יהיה אחראי במקרה שבו האלגוריתם טעה? האם החברה שמכרה לבית החולים את המערכת שמפענחת תצלומי רנטגן תהיה מוכנה לקחת אחריות על מקרה שבו חולה ימות כי האלגוריתם טעה ולא זיהה כי הפציינט חולה בדלקת ריאות? אולי החולה שהסכים להפקיד את בריאותו בידיו של האלגוריתם (בהנחה שהייתה לו ברירה) אחראי? הרי אף אחד לא יעלה בדעתו שהרופא ששלח את החולה הבייתה כי האלגוריתם אמר שהוא בריא יהיה אחראי. או שכן? הארווי טוען שאף מערכת AI לא תהיה מדוייקת ב-100%. זה נכון, אבל לדעתי הטענה הזו מחלישה את הטיעון שלו. הרי גם רופאים טועים. עם זאת טוען הארווי כי רופאים עשויים לתפקד טוב יותר מאלגוריתם במקרי קצה, וכאן אני נוטה להסכים איתו.

הטענה השלישית של הארווי פחות רלוונטית לנושא של השוואת הביצועים של רופאים ואלגוריתמים רפואיים. הוא טוען כי כאשר יוכנסו מערכות AI למיניהן ויחליפו חלק מהשלבים בתהליך האבחוני, התהליך אכן יתייעל, אולם זה רק ייצור יותר ביקוש לשירותי רדיולוגיה, הביקוש לרדיולוגים יעלה ויגבר הצורך בהכשרת רדיולוגים נוספים.

ראג'פורקאר: האלגוריתם יכול לאבחן דלקת ריאות יותר טוב מהרופאים

הפוסט של אוקדן-ריינר מתייחס למאמר של רג'פורקאר. לכן אסקור בקצרה את הרעיון הכללי של מאמר, ואחר כך אביא את דבריו.

ראג'פורקאר ועמיתיו (שמכאן והלאה אכנה בשם "החוקרים") נעזרו בבסיס נתונים שהכיל יותר מ-100 אלף תצלומי רנטגן של החזה, של כ-38 אלף חולים ב-14 מחלות שונות, וביניהן דלקת ריאות. כל חולה סווג כחולה בדלקת ריאות, או כלא חולה בדלקת ריאות. הנתונים חולקו לפי כל כללי הטקס ((כלומר, באופן רנדומלי)) לשלושה קובצי נתונים נפרדים.

ראשית הם השתמשו בנתונים של כ-29 אלף חולים, ובסך הכל כ-99 אלף תצלומים לצורך "אימון המודל" ((שזה תיאור מרשים לתהליך של אמידת פרמטרים)), כ-3.5 תצלומים לחולה, בממוצע.

לאחר שאימנו את המודל, עברו לקובץ השני, בו היו כ-6400 צילומים של כ-1700 חולים (3.8 צילומים לחולה, בממוצע). בעזרת קובץ זה הם ביצעו תיקוף (ולידציה) של המודל.

לסיום, בחנו את ביצועי המודל על הקובץ השלישי, שהכיל 420 צילומים של 389 חולים (כ-1.08 תצלומי רנטגן לחולה, בממוצע). ((אעיר ואומר כי יש כאן בעיה מסויימת – נתוני הבדיקה שונים באופן מהותי מנתוני האימון והתיקוף.))

בתהליך הבחינה 420 התצלומים נבדקו על ידי ארבעה רדיולוגים מאוניברסיטת סטנפורד שסיווגו את החולים לאחת מ-14 המחלות שהיו בקובץ המקורי, וכמובן שגם האלגוריתם אמר את דברו. לרדיולוגים לא היה כל מידע רפואי על החולים מעבר לתצלומי הרנטגן, וכמו כן הם לא ידעו את השכיחויות של כל אחת מ-14 המחלות בקובץ המקורי. במילים אחרות, היה להם בדיוק את אותו המידע שהיה לאלגוריתם.

החוקרים חישבו לכל אחד מהרדיולוגים, וגם עבור האלגוריתם, מדד ביצוע מקובל בשם F1.  (( זהו הממוצע ההרמוני של הרגישות – recall ושל הדיוק – precision. ראו הגדרות בויקיפדיה ))  הם הראו כי ההפרש בין המדד שהתקבל לאלגוריתם גבוה ב-0.051 מהמדד הממוצע של ארבעת הרדיולוגים, וכי ההפרש הזה מובהק סטטיסטית (רווח הסמך להפרש ברמת סמך של 95% הוא 0.005-0.084).

החוקרים מודים כי למודל שלהם יש שלוש מגבלות, אך מציינים רק שתיים ((השלישית ירדה בכביסה? יותר סביר להניח כי אחרי מחשבה נוספת הם הגיעו למסקנה כי המגבלה הנוספת שחשבו עליה אינה באמת מגבלה)). ראשית, הנתונים כללו רק צילומי חזה פרונטליים, בעוד שבכ-15% מהמקרים של דלקת ריאות יש צורך גם בתצלומי צד כדי לבצע אבחנה מדוייקת. שלישית ((או בעצם שנית, לא משנה)) , החוקרים מודים כי העובדה שהמודל והחוקרים לא נעזרו בנתונים נוספים, כגון היסטוריה רפואית, פוגעת בביצועים של הרופאים (ושל המודל כמובן).

אוקדן-ריידר: אלגוריתמים הם מגניבים, אבל…

ד"ר אוקדן-ריינר אכן סבור כי נוכל להגיע למצב בו לאלגוריתם יהיו ביצועים שווים לביצועים של רופא אנושי ואף יעלו עליו. עם זאת, הוא טוען כי האלגוריתם של רג'פורקאר אינו מתאים לבצע אבחון רפואי. הסיבה לכך נעוצה, לדבריו, בנתונים של ואנג ועמיתיו, בהם רג'פורקאר ועמיתיו השתמשו לצורך פיתוח המודל.

אוקדן-ריינר טוען  כי יש בעייתיות בסיווגים של התצלומים בקובץ הנתונים המקורי של ואנג. לא ברור עד כמה הסיווגים מדוייקים, מה המשמעות הרפואית של הסיווגים, ועד כמה הסיווגים שימושיים לצרכים של ניתוח הצילומים. הוא מציין כי קובץ הנתונים והדוקומנטציה שלו עודכנו מספר פעמים מאז הפרסום המקורי. המאמר שמתאר את בניית הקובץ כמעט ואינו מתייחס להיבטים הקליניים של הנתונים, ומכיל רק פיסקה אחת שמתייחסת לרמת הדיוק של האבחונים שהותאמו לכל סט של תצלומים של חולה אחד.

עד כמה מדויקים הסיווגים? הם התקבלו בשיטות של text mining. הם לא התבוננו בתצלומים. אוקדן-ריינר טוען שרמת הדיוק של הסיווגים בקובץ אינה מספקת. הוא קבע זאת על ידי התבוננות בתצלומים. אמנם לא בכולם, אלא רק במדגם. הסיווגים שלו, כרדיולוג מומחה, היו שונים באופן מהותי מהסיווגים שבקובץ הנתונים.

השאלה השנייה היא מה המשמעות הרפואית/קלינית של הסיווגים. הנה הבעיה: הקביעה האם לחולה יש או אין דלקת ריאות היא קביעה קלינית. צילום רנטגן של החזה הוא נתון התומך באבחון (surrogate measure) ואינו מספיק לבדו לקבוע האם לחולה יש דלקת ריאות, או שה-"עננים" הנראים בצילום הם סימפטום לבעיה רפואית אחרת. המצב בו רואים "עננים" נקרא קונסולידציה. למעוניינים בהסבר רפואי מפורט יותר אני מפנה לפוסט אחר שלו. השורה התחתונה היא שהסיווג של ואנג ועמיתיו במקרה של "עננים" הוא סיווג של יש קונסולידציה או יש דלקת ריאות. אולם, מבחינה רדיולוגית קשה מאוד להחליט מתי קונסולידציה היא דלקת ריאות או משהו אחר. דלקת ריאות היא סוג של קונסולידציה. ההיפך לא נכון. כאשר ואנג ועמיתיו מציינים בנתונים שיש קונסולידציה, יכול להיות שלחולה יש דלקת ריאות. גם יכול להיות שלא. אוקן-ריינר טוען כי הנתונים שבדק מראים שהבעיה הזו קיימת.

וכאן עולה השאלה שלישית, והחשובה ביותר: אם הסיווגים של הנתונים בעייתיים, והמשמעות הקלינית שלהם מוטלת בספק, מה המודל באמת לומד? מה הערך של מודל המתבסס על נתונים בעייתיים?

מה הבעיה במאמר של רג'פורקאר?

אני סומך ב-100% על העבודה שעשו רג'פורקאר ועמיתיו. ההבנה שלי בתחום בו עוסקים היא בסיסית, ומבוססת בעיקר על לימוד עצמי. לצורך הדיון, אני מוכן להתעלם מהביקורת של אוקדן-ריידר על טיב הנתונים. זה לא משפיע על האיכות של המודל, שהרי התחרות בין ארבעת הרדיולוגים ובין המודל התבססה על אותם נתונים, והמודל ניצח. החוקרים מצאו כי במונחי F1, המודל היה יותר טוב מהרדיולוגים בשר ודם ב-0.051, וההבדל הזה מובהק סטטיסטית.

יש לי רק שאלה אחת: מה המשמעות הקלינית של ההבדל הזה? מה הערך המוסף הקליני של המודל? לצערי, אין לי מושג, ואני לא בטוח שלמישהו יש מושג. ברור שהשאלה הזו לא עלתה כלל על דעתם של החוקרים, כי אחרת הם היו לפחות מזכירים אותה  בדיון המסכם. המילה clinical הופיעה במאמר רק פעמיים, שתיהן בפרק המבוא. זהו אחד משבעת החטאים של הסטטיסטיקה: אי הבחנה בין תוצאה מובהקת לתוצאה משמעותית.

מה הבעיה המרכזית במודל של רג'פורקאר?

הבעיה המרכזית במודל של רג'פורקאר היא אבחון חלקי. כשהמודל קובע שלחולה אין דלקת ריאות, הוא לא אומר מה כן יש לו. כאן יש לרדיולוג יתרון ברור על המודל. יש לו ידע קליני שמאפשר לו לקבוע מה מצבו של החולה.

נכון שזה רק מודל, ואנחנו בתחילת הדרך. אין לי ספק שהמודל הזה הוא צעד בכיוון הנכון, אבל זהו צעד קטן מאוד. כדי נגיע למצב בו מודל כזה יהיה ראוי להישקל לשימוש, הוא יהיה צריך לסווג את תצלומי החזה ל-15 קטגוריות לפחות. מישהו יכול להעריך עד כמה אנחנו רחוקים ממודל כזה?

איך צריך להעריך את הביצועים של מודל רג'פורקאר? (וגם את ביצועי הרופא)

תסלחו לי, אבל אני לא מבין מה המשמעות האינטואיטיבית של מדד F1, ומה זה אומר אם הוא שווה ל-0.435. אני ביוסטטיסטיקאי. אחד מתפקידיי הוא לתקשר את התוצאות לצוות הקליני, כדי שהם יוכלו להעריך את המשמעות שלהם. כשהמטרה היא להעריך כלי דיאגנוסטי ((כמו בדיקת דם חדשה, או אלגוריתם מגניב שפיתחו החבר'ה בסטנפורד)) אני בהחלט מציג בפניהם מדדים כמו accuracy, specificity, ו-sensitivity, למרות שבמקרים רבים גם להם אין משמעות אינטואיטיבית ברורה ((יש מחקרים שמראים כי הרבה רופאים מפרשים אותם באופן לא נכון, אבל לא ניכנס לזה עכשיו)). אבל כל המדדים האלה לא מספיקים. אלוהים נמצא בפרטים הקטנים, ולכן צריך להתעמק בהם.

מה יקרה אם המודל של רג'פורקאר ישמש ככלי אבחון עיקרי או יחיד למחלת ריאות? בואו נניח לצורך הדיון, כי המודל משמש כשלב הראשון בתהליך האבחוני, ויסווג את החולים כסובלים מדלקת ריאות, או לא סובלים מדלקת ריאות אלא ממשהו אחר, שהמודל לא יודע לזהות, ובמקרה כזה התהליך האבחוני יימשך. נניח גם כי זהו גם התהליך הרדיולוגי.

כאשר מודל או רדיולוג צופים בצילום חזה, יש ארבע אפשרויות.

קודם כל, יש מצב שבו המודל או הרדיולוג מאבחנים כי לחולה יש דלקת ריאות, ולחולה אכן יש באמת דלקת ריאות. זה מצויין. נותנים לחולה את הטיפול המתאים ושלום על ישראל. כאן יש תועלת.

ייתכן כי לחולה אין דלקת ריאות, והמודל או הרדיולוג יקבעו כי לחולה אין דלקת ריאות. זה אכן טוב, אבל לא יותר מדי טוב. החדשות הטובות הן שלא נעשה משהו רע. הבעיה היא שלא התקדמנו. אדם נשלח לביצוע צילום חזה כי הוא חולה במשהו. אם אין לו דלקת ריאות אז יש לו משהו אחר. מה? ובכן, יש צורך בבדיקות נוספות. כאן אין תועלת וגם אין נזק.

נמשיך. יכול להיות כי לחולה יש דלקת ריאות והמודל או הרדיולוג יקבעו כי אין לו דלקת ריאות. הרופאים ימשיכו בתהליך האבחוני. הטיפול בחולה מתעכב. כאן יש קצת נזק. במקרה הטוב, בחינה נוספת של הרופאים תעלה כי בכל זאת יש לו דלקת ריאות, והנזק מינימלי. במקרה הפחות טוב, אם כי לדעתי יותר נדיר, החולה יאובחן כסובל מבעיה אחרת, יקבל טיפול רפואי בלתי מתאים, יסבול מתופעות הלוואי והנזקים הבריאותיים שנגרמים מעצם הטיפול (ותמיד יש תופעות לוואי ונזקים בריאותיים), והבעיה הרפואית האמיתית שלו לא תטופל. עלול להיגרם נזק משמעותי.

ועכשיו נגיע למצב הגרוע ביותר: לחולה אין דלקת ריאות והמודל או הרדיולוג אומרים כי יש לו דלקת ריאות. החולה יקבל טיפול רפואי לדלקת ריאות, (אנטיביוטיקה, למשל) שאינו מתאים למצבו הרפואי, וכאמור לעיל, יסבול מתופעות הלוואי והנזקים הבריאותיים שנגרמים מעצם הטיפול (השגוי). שוב, החולה לא יקבל טיפול מתאים לבעיה הרפואית האמיתית שלו, שאינה דלקת ריאות, אלא ככל הנראה משהו יותר חמור. כאן נגרם נזק משמעותי. עד כמה הנזק משמעותי? זה כבר תלוי בהרבה גורמים, כמו למשל המצב הבריאותי האמיתי של החולה, ומשך הזמן שיעבור עד שיבחינו כי הטיפול הנוכחי שהחולה מקבל אינו יעיל ויבצעו הערכה מחדש של האבחון.

השאלה הגדולה היא: האם המודל והרדיולוג טועים את אותן הטעויות?

מדדים כגון F1 לא אומרים לנו מה השכיחות של כל מצב מארבעת המדדים שתיארתי, ובוודאי לא מספקים לנו הערכה של סך הנזק הפוטנציאלי, סך התועלת הצפויה, והערכה האם התועלת עולה על הנזק, ואם כן, עד כמה. אפשר לבצע את ההערכה הזו. אפשר לכנס צוות רופאים שיבחנו אחד לאחד את 389 התיקים ששימשו לבחינת המודל. סטטיסטיקאי טוב יוכל להקל עליהם את העבודה באמצעות הצגה בהירה של הנתונים. בסופו של דבר, תהיה לנו הערכה לגבי הביצועים הקליניים של המודל.

באותו אופן, אפשר להעריך את הביצועים הקליניים של ארבעת הרדיולוגים שהתחרו במודל.

כעת, נוכל לקבוע האם למודל יש באמת יתרון על הרופאים בשר ודם, ואם כן, האם היתרון משמעותי מבחינה קלינית.

הדיון בקבוצת הפייסבוק ותשובות לשאלות

חברי הקבוצה לא הקלו עלי את החיים כששיתפתי עימם את הפוסט של ד"ר הארווי, וטוב שכך. אני ציינתי שאני מסכים עם הטענות שלו, ומטבע הדברים היו חברים בקבוצה שלא הסכימו איתנו. הם העלו טיעונים טובים ושאלו אותי שאלות קשות ומצויינות. עניתי כמיטב יכולתי במסגרת המגבלות הטכניות של ממשק הפייסבוק. אביא כאן את עיקרי הדיון, אתייחס לשאלות שנשאלתי בכל הרצינות, ואענה כמיטב יכולתי. אם פיספסתי שאלה של מישהו, אנא הפנו את תשומת ליבי לכך ואתקן. אשמח גם להמשיך בדיון.

כמו כן, אני ממליץ לכם לקרוא את הדיון עצמו שכן מעבר לדיון הספציפי בטיעונים של ד"ר הארווי ולשאלות שנשאלתי נאמרו בו עוד דברים מעניינים וחשובים.

  • ערן פז טוען שאלגוריתמים יכולים ללמוד גם פעילויות אחרות שמבצע הרופא כולל אינטראקציה בין אישית, וחוזה בבדיחות הדעת כי גם באינטראקציה בין אישית ביצועי האלגוריתמים יהיו טובים יותר מאלה של הרופא. בסופו של דבר, אומר ערן, הרפואה תהיה אוטומטית כמעט לחלוטין.

האמת היא שאין לי מה לענות לטענה הזו. מדובר בהערכה סובייקטיבית. אני לא שולל את האפשרות שזה אכן יקרה ((כלומר, אני סבור כי ההסתברות לכך גדולה מאפס)), אבל יש לדעתי סיכוי הרבה יותר סביר שזה לא יקרה. בכל מקרה, אני משוכנע שהדור שלנו לא יזכה לראות את הרפואה האוטומטית, אם אכן החזון יתגשם. ההערכה הסובייקטיבית שלי היא כי זה לא יקרה בעתיד הנראה לעין.

  • ערן מתייחס גם לטיעון השני של ד"ר הארווי, ואומר כי זה נושא יותר פילוסופי/רגולטורי מאשר טכנולוגי, ובכך הוא צודק כמובן. הוא ממשיך וטוען כי הבעיה שגם אם המערכת היה טובה יותר מבן אדם, לנו כבני אדם קשה יותר לקבל טעות ספציפית שנעשתה ע"י מחשב, גם אם בסה"כ הוא טועה הרבה פחות מבן אדם.

לי יש בעיה עם האמירה הזו. המחשב לא טועה, גם לא המודל (או יותר נכון, האלגוריתם). ((מכאן הגיעה הכותרת הצינית והפרובוקטיבית של הפוסט הזה)) מקור הטעויות הן בפיתוח האלגוריתם.

  • כאן מתערב בדיון ים פלג ושואל מה אם יש רעש בדאטה.

התשובה המיידית שלי הייתה כי יש הבדל בין מודל שמנסה לחזות התנהגות של לקוח ובין מודל שעוסק בחיי אדם. עם זאת, ים בהחלט צודק. רעש בנתונים הוא בעיה שצריך להתמודד איתה. הדרך להתמודד, לדעתי, היא לבדוק את הביצועים הקליניים של המודל, כפי שהסברתי למעלה, ולהשוות אותו לביצועים של הרופאים, במונחים של סך תועלת מול סך נזק.

  • ים ממשיך ושואל האם סך התועלת הוא לא ההפרש בין ביצועי האלגוריתם לביצועי האדם.

עניתי מהמותן שלא, אבל אני מודה שהתשובה שלי לא הייתה מדוייקת. ים צודק עקרונית, אבל לקביעה שלו אין משמעות אם לא מגדירים היטב איך מודדים את ביצועי האלגוריתם וביצועי האדם. מי שקרא עד כאן יודע כבר שהתשובה הרבה יותר מסובכת, ו-F1 הוא לא המדד האולטימטיבי.

  • ים המשיך והקשה עלי. הוא טען כי אם יש לך אדם שמאבחן נכון X אנשים ומציל את חייהם ויש אלגוריתם שמאבחן נכון X+Y אנשים נכון (מהנתון שהוא יותר מדויק) ומציל את חייהם. יש לך Y יותר אנשים חיים.

זה כמובן נכון, אבל זה רק צד אחד של המטבע. מספר התוצאות החיוביות האמיתיות, או יותר מדוייק – שיעורן. ה-True Positive Rate הוא בהחלט מדד חשוב, אבל כפי שעניתי בקצרה בקבוצת הפייסבוק והסברתי כאן בפירוט, יש עוד צד למטבע, עוד שלושה צדדים למעשה. הבעיות העיקריות, כפי שהסברתי למעלה, נובעות מהאבחונים הלא נכונים: תוצאות חיוביות שגויות (False Positive) ותוצאות שליליות שגויות (False Negative).

  • ערן חוזר ושואל: בוא נניח לרגע שמודל לא יהיה יותר מדוייק, אלא יהיה יותר קרוב ל(1,1) על הROC או לכל מדד אחר שתבחר מבן אדם, עכשיו הטיעונים בסדר? כמו כן הוא מציין כי בדיון גם לא לקחנו בחשבון את העלויות של הקמת חוות GPU לעומת העלות של הכשרת רדיולוג, זה גם משפיע על התועלת?

אני טוען שבמצבים רפואיים התועלות והנזקים הם לא 0-1. נכון שאולי ב-ROC המודל יעשה טוב יותר, עם זה אני לא מתווכח. אני טוען שלטעויות שונות יש משמעויות שונות, וכמו כן, גם במצבים של חוסר טעות, TP ו-TN, עדיין יש משמעויות שונות. המצב נעשה הרבה יותר חמור אם עוברים מדלקת ריאות לסרטן, למשל. מי ייקח אחריות על חולה סרטן שלא יאובחן בזמן בגלל שהמודל היה רועש מדי?

  • אמיר רוזנפלד שואל: יהי המדד האולטימטיבי כפי שאתה מגדיר אותו. נניח שתחת מדד זה מכונה מתעלה על אדם. במי תבחר?

תשובתי היא שכשמדובר ברפואה אין דבר כזה "מדד אולטימטיבי". צריך לבצע הערכה כוללת של התועלת מול הנזק כי הנזקים עלולים להיות שונים מחולה לחולה. יש משמעויות לטעויות, והן שונות מחולה לחולה. חזרתי והבאתי את הדוגמה של חולה שמאובחן בטעות כחולה סרטן. הוא יקבל כימותרפיה שהוא לא צריך ((או אפילו יעבור ניתוח מיותר)). מילא התופעות לוואי של בחילות ונשירת שיער וכאלה – כימותרפיה גם גורמת נזקים בריאותיים ממשייים.

עם זאת, אני בהחלט מסכים שאם למודל יש יתרון קליני משמעותי על פני הרופאים בשר ודם, יש להעדיף את המודל, לפחות ברמה היישומית. עדיין יש לפתור את עניין האחריות.

  • ערן טוען כי אני סתם מתחמק מתשובה, ושואל: הנה, מודל, שעבור רמת הFP והFN של רופא נותן יותר TP מרופא אבל עדין טועה, מחליף את הרופא?

אני מודה שלא הבנתי את השאלה, אבל סבור שהבהרתי לחלוטין איך יש להעריך את הביצועים של המודל ולהשוות אותם לביצועים של הרופא.

סיכום

אני חושב שכולם מסכימים כי עדיין לא הגיע היום בו אלגוריתמים יכולים להחליף רופאים, אלא אם מדובר בתהליכים ממש פשוטים. למשל, אני סבור שאפשר להכניס לשימוש אלגוריתם שיקבל בתור קלט נתונים על חולה (כמו בדיקות דם, מדדי דופק ולחץ דם, וכולי) ויוציא התרעה לרופא המשפחה אם הנתונים בעייתיים. ייתכן ואלגוריתמים מסוג זה כבר קיימים ופועלים.

במקרים יותר ממוקדים, כמו אלגוריתם הפיענוח של רג'פורקאר הדברים הרבה יותר מסובכים. יש הסכמה כי הנתונים ששימשו ל-"אימון" המודל היו בעייתיים. אלגוריתם זה אמנם הראה יתרון מובהק סטטיסטית בביצועיו על פי מדד F1 לעומת ארבעה רופאים בשר ודם, אבל לא ברורה המשמעת הקלינית של יתרון זה (בלשון המעטה). כמו כן, האלגוריתם מוגבל בכך שבמקרה והוא מזהה כי לחולה אין דלקת ריאות, הוא לא מספק תובנה לגבי הבעיה האמיתית שיש לחולה. בסופו של דבר, האלגוריתם הזה הוא אמנם צעד בכיוון הנכון, אבל צעד זעיר מאוד, כמעט זניח.

יתר על כן, המקרה הרפואי של דלקת ריאות הוא קל יחסית מבחינה רפואית. מחלות אחרות, כגון סרטנים ומחלות לב, למשל, צופנות בחובן אתגרים הרבה יותר גדולים.

עם זאת, יש דרך טובה ויעילה לבחון האם הביצועים של אלגוריתמים כאלה עולים על הביצועים של רופא אנושי, ובכמה.

אבל הבעיה העיקרית אינה טכנולוגית אלא אתית.

מי אחראי במקרה שהאלגוריתם טועה? מספר הדעות יהיה כנראה כמספר המשיבים.

בואו נראה מה יכול לקרות בארצות הברית, מכיוון שסביר להניח כי היא תהיה בין המדינות הראשונות בהן יוכנסו אלגוריתמים כאלה לשימוש (בהנחה שבכלל יוכנסו). במדינה בה תביעות על רשלנות רפואית ((ובארצות הברית גם טעות בתום לב נחשבת כרשלנות)) נפוצות מאוד, הנפגעים לא יהססו לתבוע את החברה שמיישמת את האלגוריתמים, את בעלי הפטנט, ומי יודע את מי עוד. האם חברות הביטוח יסכימו לבטח את החברה שמיישמת את האלגוריתם? איש אינו יודע.

אני רוצה להרחיב את הדיון בשאלת האחריות, כי זו לדעתי השאלה המהותית, וממנה נגזרה הכותרת הפרובוקטיבית של הרשימה הזו.

בואו ניקח, כדוגמה פשוטה ביותר, אלגוריתם שצריך לזהות האם בתמונה שמוצגת לו יש חתול. לאף אחד לא איכפת באמת אם האלגוריתם יטען שתמונה של כלב מראה לדעתו חתול.

מה עם אלגוריתם שמחליט אם כדאי להציע לאדם שנכנס לאתר אינטרנט עיסקת קניה מסויימת? יכול להיות שאנשים שהעיסקה תוצע להם לא יבצעו את הקניה, וגם יכול להיות שיפוספסו קונים שהיו מבצעים את הרכישה אם העיסקה הייתה מוצעת. זה חבל, אבל בסך הכל מדובר פה בכסף.

אם מדובר בהרבה כסף, הבעיות יכולות להיות גדולות. בנקים שמנסים לזהות איזה לקוח עלול לא להחזיר את ההלוואה שיקבל עלולים לעמוד בפני בעיה אם האלגוריתם לא מספיק טוב. עם זאת, אני יודע שאלגוריתמים כאלה פועלים, וכנראה שיקול הדעת שלהם יותר טוב משיקול הדעת של הפקיד.

בואו נמשיך. מה עם אלגוריתם שמחליט על ביצוע עיסקות קניה ומכירה בבורסה? בסרט הזה כבר היינו בשנת 2008. אני מקווה שהאלגוריתמים האלה השתפרו מאז, כי לא מתאים לי עוד משבר כלכלי עולמי.

מה בקשר למכונית אוטונומית? כאן כבר מתחילים לדבר על חיי אדם. מישהו יודע כמה טעויות שליליות שגויות (False Negative) יש לאלגוריתם של מובילאיי? וכמה מהטעויות האלה מובילות לתאונות? וכמה מהתאונות האלה כוללות פגיעות בגוף? אני לא יודע. אני לא בטוח שיש מי שיודע.

נכון, מכוניות אוטונומיות כבר נוסעות בכל מיני מקומות בארצות הברית, במסגרת ניסויים לבחינת האלגוריתמים. מי יעריך את מאזן התועלת מול הנזק של האלגוריתמים שמפעילים את המכוניות האלה וישווה אותם לביצועים של נהג אנושי? ואיך? האם יהיה רגולטור, כמו שיש את ה-FDA בתחום הרפואי? האם חברות הביטוח יסכימו לבטח את המכוניות והאלה והנוסעים בהם? ואם כן, מה תהיה עלות הביטוח?

מה בקשר למטוס אוטונומי? מי מוכן לעלות על טיסה טרנס אטלנטית במטוס ללא טייס?

אני יודע שאי אפשר לעצור את הקידמה, ובניגוד למה שעלולים לחשוב אני בעד הקידמה. אני בהחלט חושב שעתיד בו אלגוריתם יוכל להחליף רופא ולבצע את מלאכתו באופן טוב יותר מהרופא האנושי, וכולנו ניסע במכוניות אוטונומיות, הוא עתיד טוב. אבל כדי להגיע לעתיד הזה עלינו להתגבר על הרבה מאוד בעיות, והבעיות הטכנולוגיות הרבה יותר פשוטות מהבעיות האתיות. אני גם חושב שהעתיד הזה רחוק מאוד מאיתנו ואנו לא נזכה לראות אותו, וגם לא בנינו ובני בנינו.

סטטיסטיקה רעה: לא לתכנן

"לקרוא לסטטיסטיקאי לאחר שהניסוי התבצע זה כמו לבקש ממנו לבצע ניתוח שלאחר המוות. לכל היותר הוא יוכל לומר מה הייתה סיבת המוות" – רונלד פישר.

כשמדברים בסטטיסטיקה על תכנון, מדברים בדרך כלל על תכנון ניסויים. ((תכנון איסוף הנתונים ותכנון הניתוח הסטטיסטי הם חלק מתהליך תכנון הניסוי. )) קשה להביא דוגמאות למקרים של כשלים בתכנון ניסויים, כי הכשלים בדרך כלל מובילים לכישלון, וכישלונות בדרך כלל נזרקים לפח האשפה. הכישלונות עלולים להיות צורבים. זה לא נעים לראות ניסוי קליני שנכשל (אם כי במקרים כאלה יש בדרך כלל סיבות רבות לכישלון, מעבר לבעייתיות אפשרית בתכנון הסטטיסטי). כשל וכישלון בניסוי במעבדה עלול להוביל להחמצה של תגלית חשובה, או להשקעה מיותרת. מתכנון לקוי של ניסויים עלולים לנבוע תהליכי ייצור לא אופטימליים, וגם החלטות שיווקיות לא נכונות. יכולות להיות גם השלכות בטיחותיות (רכב אוטונומי, מישהו?) או השלכות על בריאות הציבור.

לא אדון כאן בכל התורה המורכבת של תכנון ניסויים. כדי לראות את קצה קצהו של הקרחון יש צורך בקורס שלם. אתם מוזמנים לעיין במצגת שלי שעוסקת בנושא תכנון הניסויים בזעיר אנפין, בעיקר מנקודת המבט של התעשייה הפרמצבטית.

בגדול, התהליך של תכנון ניסוי כולל מספר רב של שלבים, וביניהם: החלטה על מטרת הניסוי, החלטה אלו פרטים יהוו את אוכלוסיית הניסוי (חיות? ואם כן, איזה חיה? בני אדם? תרביות תאים? ריאקציות כימיות? גולשים באתר? תצלומים שיש לזהות בהם תבניות, כגון האם רואים בתצלום חתול?), לקבוע מה יהיו משתני הניסוי, לבדוק האם יש אפשרות ליחסי גומלין בין משתני הניסוי, להחליט איזו תגובה או תגובות ימדדו, להחליט איזו אינפורמציה לאסוף מעבר למשתני הניסוי ומשתני התגובה (למשל משתני בסיס, או משתנים מתערבים (confounding) פוטנציאליים שעשויים להשפיע גם על המשתנה התלוי – התגובה, וגם על משתני הניסוי), להחליט איך לאסוף את האינפורמציה, לקבוע את דרך הבקרה של הניסוי, להחליט האם תהיה סמיות, לקבוע היכן ומתי ייערך הניסוי ומי יבצע אותו, לקבוע את גודל המדגם, להחליט האם לבצע רנדומיזציה, ואם כן איך, לצפות תרחישים אפשריים למהלך הניסוי ולהחליט מראש כיצד להתמודד איתם, לתכנן את הניסוי כך שיאפשר הסקת מסקנות כלליות (external validity), להחליט על השיטות הסטטיסטיות שבעזרתן ינותחו הנתונים של הניסוי ((בהנחה שלא מתכננים לבצע p-hacking, כמובן )), ועוד הרבה החלטות אחרות.

בכל אחת מההחלטות שצריך לקבל בתהליך התכנון יש פוטנציאל לכשל או לכשלים, ותאמינו לי, ראיתי את כולם. אתמקד כאן רק במספר כשלים עיקריים.

כשל הגדול מכולם הוא, כמובן, להתחיל את הניסוי לפני שיש תשובות ברורות לכל השאלות האלה, ולפני שהתקבלו כל ההחלטות. ((זה קורה באמת. ראו את הרשימה שלי על הסטטיסטיקה בתעשייה. )) גם אם התקבלו כל ההחלטות הרלוונטיות, יש לפרט אותן בפרוטוקול הניסוי, אותו יש לכתוב, שוב, לפני תחילת הניסוי. הפרוטוקול הוא חלק מהתכנון.

הכשל העיקרי השני הוא גודל מדגם לא מתאים. גודל מדגם אמור להיקבע על ידי לקיחה בחשבון של מספר גורמים: ההסתברויות הרצויות לטעויות (False Positive  ו-False Negative), איזה גודל אפקט ייחשב למשמעותי, ומה רמת אי הודאות הצפויה, כלומר השונות של הנתונים שייאספו. כמו כן, יש לקחת בחשבון כמובן את השיטה בה ייערך הניסוי ((כגון: שתי קבוצות מקבילות, תכנון של לפני-אחרי, וכדומה)). מניסיוני, הבעיה העיקרית היא בהערכת השונות. לחוקרים לא תהיה בעיה להגיד מה ההסתברויות לטעות המקובלות עליהם ((אפס, כמובן)), ולאחר לחץ פיזי מתון גם יאמרו לך מה לדעתם ייחשב לאפקט משמעותי. לגבי הערכת השונות יש אכן בעיה שהסטטיסטיקאי צריך להתמודד איתה. לעיתים השונות נקבעת על ידי הפרמטר ((לדוגמא, אם מדברים על תדירות של אירועים בתהליך פואסון, אז השונות נגזרת ישירות מהתדירות המשוערת)). במקרים אחרים יש לערוך מחקר בפרסומים אודות ניסויים דומים בספרות המדעית. האפשרות הטובה ביותר היא להשתמש בנתונים של ניסויים דומים קודמים שביצע אותו החוקר.

בקביעת גודל המדגם (ולא רק שם) יש לשקול גם שיקולים אתיים. למשל, ניסוי בחיות (וגם בבני אדם, בעצם) ייחשב ללא אתי אם גודל המדגם קטן מדי ולכן בעל עצמה סטטיסטית נמוכה – חייהן של החיות יוקרבו לשווא. יש דרכים סטטיסטיות להקטין את מספר החיות בהן ישתמשו בניסוי, וסטטיסטיקאי טוב יוכל להמליץ עליהן.

הכשל העיקרי השלישי הוא התעלמות מאינטראקציות – כלומר התעלמות מיחסי הגומלין בין המשתנים השונים. זהו כשל נפוץ ביותר, וראיתי אותו מתרחש במספר רב של יישומים.

הנה דוגמא (מלאכותית) פשוטה אך ארוכה.

שיטת המחקר העוברת בין הדורות של החוקרים המדעיים היא OFAT, כלומר One Factor At a Time. בכל קובעים את ערכם של כל המשתנים העשויים להשפיע על התוצאה פרט למשתנה אחד, שאת ערכו משנים. מה לא בסדר?

מהנדס כימיה רוצה לכוונן שני גורמים המשפיעים על התפוקה של תהליך כלשהו: משך הזמן של הריאקציה, שיכול לנוע בין 60 ל-180 דקות, והטמפרטורה בה היא מתבצעת, שיכולה לנוע בין 21 ל-25 מעלות. הוא עורך סדרה של 5 ריאקציות בהן הטמפרטורה קבועה על 22.5 מעלות, ובודק את ההשפעה של משכי זמן שונים על התהליך. הוא מגיע למסקנה כי התפוקה הגבוהה ביותר, כ-75 גרם, מתקבלת כאשר משך זמן הריאקציה היה 130 דקות.

 

עכשיו המהנדס שלנו עורך סדרה שניה של עוד 5 ריאקציות, בהן משך זמן הריאקציה קבוע ל-130 דקות, ובודק את התפוקה בטמפרטורות שונות. תוצאת הניסויים: התפוקה הגבוהה ביותר, גם כאן כ-75 גרם, כאשר הטמפרטורה היא 22.5 מעלות.

 

המסקנה של המהנדס: תהליך הייצור האופטימלי הינו כאשר טמפרטורת הריאקציה היא 22.5 מעלות ומשך הזמן של הריאקציה הוא 130 דקות, והתפוקה המקסימלית היא כ-75 גרם. האם המסקנה נכונה? ייתכן מאוד שלא, כיוון שסביר מאוד להניח כי יש יחסי גומלין בין המשתנים.

בדוגמא שלנו המצב הוא כפי שהגרף הבא מראה. התפוקה תהיה מקסימלית כאשר הטמפרטורה היא 25.5 מעלות, ומשך הזמן הוא כ-70 דקות. התפוקה בתנאים האלה תהיה כ-91 גרם, שיפור של למעלה מ-20%.

 

אילו נועץ המהנדס בסטטיסטיקאי טוב, הוא היה מציע לו לערוך סדרה של ארבע ריאקציות, בהם ישתנו גם הטמפרטורה וגם משך הזמן של הריאקציה. הריאקציה הראשונה, למשל, תהיה בטמפרטורה של 22 מעלות ומשך הזמן יהיה 120 דקות, הריאקציה השנייה תהיה גם היא בטמפרטורה של 22 מעלות אך עם משך זמן של 150 דקות, וכן הלאה. תכנון כזה יראה, בתנאי הדוגמא, כי הורדת משך הזמן ביחד עם העלאת הטמפרטורה מגדילה את התפוקה.

 

שימו לב גם כי התהליך של המהנדס היה בזבזני: הוא ביצע 10 ריאקציות והגיע לתוצאה פחות טובה ממה שיכול היה לעשות בארבע ריאקציות בלבד. את התכנון שהציע הסטטיסטיקאי ניתן להכליל למספר רב יותר של משתנים ((אני תכננתי פעם ניסוי עם 8 משתנים, כאשר לכל משתנה יש שתי רמות אפשריות, סה"כ 256 אפשרויות, אם אכן מנסים את כל האפשרויות. יש דרכים לצמצם את מספר האפשרויות, אם מוכנים לוותר על חלק מהאינפורמציה, כמו למשל אינטראקציות מסדר גבוה))

כשל נוסף ובעייתי מאוד, הוא שינוי תנאי הניסוי במהלכו, וכן, זה קורה הרבה פעמים. אמנם אפשר לשנות את תנאי הניסוי בתנאים מסויימים, אך יש להגדיר מראש בפרוטוקול הניסוי באלו מצבים אפשר לשנות את תנאי הניסוי, איזה שינוי יבוצע (אם יבוצע), ומהם הקריטריונים לפיהם ייקבע האם יש לבצע את השינוי. כמובן שיש לקחת בחשבון את ההשלכות של שינוי כזה על שאר הפרמטרים של הניסוי.

לסיכום, תכנון ניסוי הוא דבר מסובך, ויש להיעזר באנשי מקצוע במהלך התכנון (סטטיסטיקאי, ובדרך כלל גם אנשי מקצוע נוספים). תכנון לקוי יוביל במקרה הטוב לבזבוז משאבים, ובדרך כלל לתוצאות חמורות בהרבה.

 


רשימות נוספות בסדרה:

נורווגיה עוברת למדיניות אי הפללה של צרכני סמים

לפני כחודש (דצמבר 2017)  דיווח  העיתון Independent כי נורווגיה עומדת לעבור למדיניות אי הפללה של צרכני סמים. ((את זה למדתי מציוץ מלא שמחה של טלגראס הבוקר)) אני חושב שזוהי הזדמנות מצויינת לדון בנושא ובהשלכות האפשריות של הנהגת מדיניות דומה בישראל.

ראשית כל, ננסה להבין מה כתוב באותיות הקטנות, אלה שמופיעות אחרי הכותרת. קודם כל, יו"ר ועדת הבריאות של הפרלמנט הנורווגי מבהיר כי לא מדובר בהרשאה גורפת לשימוש בסמים (לרבות קנאביס) ובסחר בהם. אין כאן לגליזציה. הסחר וההפצה עדיין יישארו עבירות פליליות. המטרה היא להעביר האחריות למדיניות הסמים ממערכת המשפט למערכת הבריאות. השינוי במדיניות יתבטא בהתייחסות אל צרכני סמים כאל חולים, ולכן המהלך ילווה בתכניות טיפוליות, כגון תהליכי גמילה. משתמשים שלא ישתפו פעולה עם מערכת הבריאות בהחלט עלולים למצוא את עצמם בכלא. בכך מאמצת נורווגיה את מדיניות הסמים של פורטוגל, שגם היא העבירה את האחריות למדיניות הסמים ממערכת המשפט אל מערכת הבריאות. כאן המקום לציין כי למרות שבפורטוגל אכן אין הפללה של משתמשים בסמים, יש אפשרות לנקוט נגדם סנקציות אזרחיות, כגון הטלת קנסות, שלילת רישיון הנהיגה, איסור לעסוק במקצועות מסויימים, ועוד.

שינוי המדיניות בנורווגיה בא בעקבות ההבנה כי במדינה יש תמותה משמעותית עקב שימוש בסמים – מעל 250 איש בשנה. זה שקול לתמותה של כ-425 איש בישראל – יותר ממספר ההרוגים בתאונות דרכים בישראל, והרבה הרבה יותר מספר ההרוגים בשנה עקב פעולות איבה.

מה המשמעות של כל זה לגבי מה שקורה בישראל?

אקדים ואומר כי אני בהחלט תומך בהנהגת תכנית כוללת לטיפול בנושא הסמים שתכלול אי הפללה של המשתמשים אך לא של הסוחרים והמפיצים, וזאת במשולב עם תכנית טיפולית מקיפה, כמו שיש בפורטוגל ועומדת להיות בנורווגיה. עם זאת, אני חושש כי הסיכוי שזה יקרה בישראל הוא קטן. ראו למשל את הצעת החוק (הפופוליסטית, לדעתי) שהגישה תמר זנדברג עם בחירתה לכנסת: אי הפללה בלי שום תכנית נלווית. זה כמו להגיש הצעת חוק לאי הפללה של מי שעובר ברמזור אדום.

ולמי שיגיד שהאנלוגיה של הרמזור האדום קיצונית, אענה כי שימוש בסמים מסוכן אף הוא. אל תגידו לי שזה לא מסוכן כי לכם לא קרה כלום. דברים קורים. זה כמו תופעות לוואי של תרופות. יש אנשים שמתו עקב שימוש באקמול. אני מכיר מקרה שבו חברת תרופות נאלצה להפסיק פיתוח של תרופה חדשה לטרשת נפוצה עקב 3 מקרים של דופק מהיר בקרב כ-2000 איש שקיבלו את התרופה בניסויים הקליניים. בכל בית חולים פסיכיאטרי בארץ יש מקרים של מטופלים שחוו התקף פסיכוטי (במקרה הטוב) לאחר שימוש בגראס. אלה אמנם אנקדוטות, אך מייד נעבור לנתונים מבוססי ראיות.

חיפוש קצר בגוגל או במאגרי מידע רפואיים יעלה מייד מחקרים המדווחים על נזקים שנגרמים עקב שימוש בסמים, גם כאלה שנחשבים כ-"קלים".  כך למשל, הסיכון להתפרצות סכיזופרניה בקרב משתמשי קנאביס גדול פי 4 מהסיכון אצל לא-משתמשים, הסיכון להתפתחות פסיכוזה גבוה ב-40% אצל משתמשי קנאביס לעומת לא משתמשים, והסיכון למעורבות בתאונת דרכים גדול פי 3 עד 7 בקרב נהגים שצרכו קנאביס (גם מספר ימים לפני הנהיגה בפועל, עקב רמת ה-THC בדם) לעומת הסיכון של נהגים שלא צרכו קנאביס, כאשר רמת הסיכון עולה עם המינון. יותר שימוש – יותר סיכון. כל זה רק מארבע התוצאות הראשונות בחיפוש בגוגל אחרי cannabis usage risk. ((התוצאה שהשמטתי היא עוד מחקר המזהה את השימוש בקנאביס כגורם סיכון להתפרצות סכיזופרניה)) יש עוד הרבה מחקרים, שמזהים גם סיכונים מוגברים לכל מיני סוגים של סרטן, ועוד. יש לקחת בחשבון גם את ההשפעות הכלכליות והחברתיות של שימוש בסמים. כמובן, אי החוקיות של השימוש בסמים גורמת להגברת הפשיעה, ולנזקים בריאותיים נוספים הנגרמים עקב חוסר פיקוח על איכות המוצרים הנמכרים.

מה כל זה אומר לגבי ישראל?

לדעתי יש להעריך מה יקרה בשני תרחישים: תרחיש של מעבר למדיניות של אי הפללה מלווה בתכנית בריאותית, כפי שנהוג בפורטוגל ובקרוב בנורווגיה, וכן יש לבחון תרחיש של לגליזציה מלאה של שימוש בסמים (כשלדעתי, אם מחליטים לבחור בלגליזציה, אז יש ליישם מדיניות זו לגבי כל סוגי הסמים).

הערכתי היא כי מדיניות בנוסח פורטוגל ונורווגיה תביא לתוצאות חיוביות ולירידה בהיקף השימוש בסמים ובתוצאות הבריאותיות השליליות הנגרמות מהם. אני אומר זאת על סמך הניסיון החיובי של פורטוגל. לעומת זאת, מדיניות של לגליזציה תוביל לדעתי לעליה בהיקף השימוש ועקב כך לעליה באירועים בריאותיים ונזקים אחרים (כגון תאונות דרכים). לכן אני מעדיף את האפשרות הראשונה. אני סבור כי רוב מוחלט של הקוראים יסכימו איתי בקביעה כי המצב הנוכחי בלתי נסבל.

בשני המקרים יש לדון בשאלה מי יישא בהיבטים הכלכליים של כל אחת מהתכניות. אציין שוב רק את דעתי האישית.

במקרה של מדיניות אי הפללה והתערבות טיפולית בנוסח פורטוגל, ראוי לדעתי שהמימון יבוא מתוך תקציב הבריאות. יש להעביר לשם את הכספים שמוקצבים כיום למלחמה בסמים ((ויש כאלה שיגידו "מלחמה". אני לא מתווכח)). בנוסף, יהיה ניתן להפנות לתכנית את הכספים שיחסכו עקב הירידה הצפויה באירועים בריאותיים הנובעים משימוש בסמים.

במקרה של לגליזציה, חלקית או מלאה, ראוי שהמימון של הנזקים הבריאותיים ואחרים יושת על המשתמשים, הסוחרים ויצרנים, וזאת על ידי מיסוי ישיר, כפי שנהוג לגבי חומרים מסוכנים וחוקיים אחרים, כגון טבק ואלכוהול (מיסוי כזה גם צפוי להוריד את הביקוש לצריכת סמים). כך למשל הפעילות של ארגון הפשע טלגראס, שמגלגל כל חודש כ-60 מיליון ₪, תהפוך לחוקית, ותמוסה בהתאם. (( אמנם גם כספים שמקורם בפעילות לא חוקית חייבים במיסים, אבל זה כבר סיפור אחר ))

יש לי חששות לגבי ההיבטים הכלכליים של שני התרחישים. מימון ממלכתי במסגרת מדיניות אי הפללה חשוף לקיצוצים רוחביים למיניהם, או סתם לתת תקצוב או חוסר תקצוב, כפי שקורה בתחומים אחרים. מיסוי בתרחיש של לגליזציה צפוי להיתקל לקשיים בישראל. ראו מה קורה כיום, כאשר שר האוצר מסרב, משיקולים פופוליסטיים, למסות כראוי מוצרי טבק כגון אייקוס וטבק לגלגול. אני לא סבור, לצערי, כי המצב יהיה שונה כאשר הממשלה הנוכחית תוחלף בממשלה אחרת.

לסיכום, יש להודות כי שימוש בסמים מהווה בעיה שצריך להתמודד איתה, אם בדרך של אי הפללה בשילוב תכנית בריאותית כפי שנעשה בפורטוגל, אם בדרך של לגליזציה מלאה, ואם בדרך אחרת. בכל מקרה יש לבחון את ההשלכות על בריאות הציבור, ואת ההיבטים הכלכליים וחברתיים של כל האלטרנטיבות.


רשימות נוספות בנושא:

סטטיסטיקה רעה: מדגם לא מייצג

הסטטיסטיקה מבוססת על מדגמים. מדגם לא מייצג מוביל בדרך כלל להטיה בנתונים הנאספים ולמסקנות שאינן תקפות.

לרוב אין זה מעשי לאסוף את כל הנתונים הדרושים למחקר מסויים ((למשל נתוני השכר של כל אזרחי מדינת ישראל)), ולכן יש להסתפק במדגם – כלומר בנתונים חלקיים. המדגם צריך לאפשר הסקה לגבי כלל הנתונים. אם המדגם אכן מאפשר זאת, המדגם הוא מייצג. מדגם לא מייצג, ברוב המקרים, לא מאפשר הסקה אמינה.

במקום לתת הסברים טכניים, אציג כאן מספר דוגמאות. רובן עוסקות בסקרים, אך הבעיות עלולות לצוץ בכל מיני יישומים אחרים (למשל דגימה של מוצרים מפס הייצור לצורך בקרת איכות, או ביצוע AB testing בקרב משתמשים, למשל עלי ידי הכללה של משתמשים חדשים בלבד).

נתחיל בסקרי בחירות. שתי דוגמאות מפורסמות הן סקרי הבחירות לנשיאות ארצות הברית ב-1936 (רוזוולט נגד לנדון) וב-1948 (טרומן נגד דיואי) .

ב-1936 ערך העיתון Literary Digest סקר שהקיף 2.4 מיליון משתתפים. זהו הסקר הגדול ביותר שנערך אי פעם. למעשה נשלחו 10 מיליון שאלונים, אך רק רבע מהנמענים השיבו. הסקר חזה ניצחון מוחץ ללנדון, אך רוזוולט הוא זה שנבחר. התברר שהמדגם לא היה מייצג. במדגם היו שתי בעיות. השאלונים נשלחו לאנשים שהופיעו ברשימות של חברי מועדונים ו/או בספרי טלפונים. ב-1936, רוב מוחלט של האנשים האלה היו עשירים. הסקר דגם אנשים עשירים באופן שיטתי. אנשים עשירים תמכו בלנדון. העניים, שהיו רבים יותר מן העשירים, תמכו ברוזוולט. בעיה נוספת בסקר הייתה שכשלושה רבעים מהאנשים אליהם נשלחו השאלונים לא השיבו. האנשים שלא השיבו שונים מאלה שהשיבו (הם הרי לא השיבו). ייתכן מאוד כי הם נבדלו מהמשיבים גם בהעדפותיהם הפוליטיות.

יש לציין כי סקרים קודמים שהעיתון ערך בשיטה זו חזו את המנצחים בבחירות, למרות שהמדגמים לא היו מייצגים ((גם אז הם דגמו יותר עשירים באופן שיטתי)). זה קרה מכיוון שהנושאים המרכזיים בבחירות קודמות היו מדיניים ולא כלכליים, ובנושאים אלה אין הבדלים מהותיים בין עניים ועשירים.

מסקנה חשובה מהסקר של 1936: מדגם גדול לא עוזר להתגבר על הטיה באיסוף הנתונים. להיפך – הוא מעצים את ההטיה.

עם זאת, היה מי שחזה היטב את התוצאות ששל הבחירות האלה – ג'ורג' גאלופ, והוא עשה זו בעזרת מדגם של 50,000 נסקרים בלבד. גאלופ השתמש בשיטת דגימה שנקראת Quota Sampling. הסוקרים שלו יצאו לשטח וראיינו בעלי זכות בחירה. כך נמנע חלק גדול מבעיית חוסר ההשבה. כמו כן, הסוקרים קיבלו הוראות מדוייקות איך לדגום את המרואיינים. למשל, סוקר שנשלח לראיין 13 איש, הונחה לראיין 7 גברים ו-6 נשים. את 7 הגברים היה עליו לבחור כך ש-3 מהם יהיו מתחת לגיל 40 ו-4 מעל גיל 40, וכולי. כך קיבל גאלופ מדגם שייצג את אוכלוסיית הבוחרים בכל הפרמטרים שלפיהם נבנתה תכנית הדגימה: מין, גיל ופרמטרים נוספים. השיטה הזו עבדה יפה עד 1948. ב-1948 חזה גאלופ, על פי השיטה הזו, כי בבחירות לנשיאות המועמד הרפובליקני, דיואי, יביס את המועמד הדמוקרטי, טרומן. טרומן ניצח. מה קרה פה? הוראות הדגימה לא כללו פילוח לפי העדפה מפלגתית – הרי זה מה שהסקר ניסה לחזות. התברר כי לסוקרים היה הרבה יותר נוח לדגום רפובליקאים (בלי שיהיו מודעים לכך, כמובן). הסקר היה מוטה לטובת הרפובליקאים.

מה קרה בבחירות 2016, בהן הסקרים והמודלים חזו כי הילארי קלינטון תנצח את טראמפ בבחירות לנשיאות? ((טראמפ ניצח, לידיעת מי שהדחיק)) התשובה עדיין לא ברורה. החיזוי נעשה על פי מודלים ששקללו מספר רב של סקרי בחירות, מעין מטה-אנליזה. המודלים האלה פותחו לקראת בחירות 2012, וחזו בדייקנות את נצחונו של אובמה על רומני. הם כשלו ב-2016. יש ויכוח בין המומחים האם המודל היה מוטה כבר ב-2012, וחזה את ניצחון אובמה למרות ההטיה, או שמא המודל נפל קורבן להטיה ספציפית ב-2016.

ראינו קודם בעיה בסקר שנגרמה, בין השאר, כיוון שרוב הנסקרים הפוטנציאליים לא השיבו לשאלות הסקר. יכולה להיות גם בעיה הפוכה – אנשים שנלהבים להשיב לסקר. כך, למשל, קרה לבעלת הטור אן לנדרס, ששאלה את קוראיה שהינם הורים לילדים שאלה פשוטה: "לו הייתם חיים שוב את חייכם, האם שוב הייתם מביאים ילדים לעולם?" (קישור לקובץ pdf). היא קיבלה כ-10000 תגובות לסקר. 70% אמרו שלא. בסקר דומה שנערך על ידי המגזין Good Housekeeping, מספר חודשים לאחר מכן, שיעור משיבי ה-"לא" היה 95%. אני חושב שכאן ברור שהמדגם לא מייצג. סביר להניח שציבור הקוראים אינו מייצג את כל האוכלוסייה (מדובר בטור במדור שמיועד לנשים, ובמגזין לנשים). כמו כן, המשיבים לסקר לא נדגמו מתוך האוכלוסייה הכללית. הם בחרו להשיב לסקר. ייתכן מאוד כי בעלי הדיעה הקיצונית, משיבי ה-"לא", היו נלהבים יותר להשיב לסקר.

דוגמה היסטורית נוספת – מחקריו של אלפרד קינזי על מיניות האדם. אני חושב שאין חולק על כך שקינזי היה פורץ דרך במחקר תחום שנחשב בזמנו לטאבו. גם ממצאיו האיכותניים עדיין נחשבים כמשמעותיים, גם כאשר עברו יותר מ-60 שנה מאז פירסם את הדו"ח שלו על מיניות האדם. עם זאת, שיטות המחקר שלו היו שנויות במחלוקת, בלשון המעטה. אני אתייחס כאן רק למחקר הכמותי שביצע. קינזי הכיר בקיומה של הומוסקסואליות, גם אצל גברים וגם אצל נשים, ואף הבחין כי מדובר ברצף, ובנה סולם בן 7 דרגות, כך שרמת הנטייה המינית של כל אדם מבוטאת על ידי דרגה בסולם, שעדיין נמצא בשימוש. שאלה מעניינת, עד עצם היום הזה, היא איזה אחוז מהאוכלוסייה נמצא בכל שלב של הסולם? הנמצאים בשתי הדרגות של הסולם נחשבים כהומוסקסואלים (או לסביות). קינזי הגיע למסקנה כי  13% מהנשים ו-7% מהגברים נמצאים בדרגות האלה. ((הנתון הידוע, הטוען כי שיעור ההומוסקסואלים ו/או לסביות באוכלוסייה הוא 10%, הגיע מחישוב הממוצע של 7 ו-13)) אולם המדגם של קינזי לא היה מייצג, ככל הנראה במודע. היה בו ייצוג יתר לאסירים ולזונות ממין זכר. גם העובדה כי רוב הנסקרים (והנסקרות) שלו היו מתנדבים הפחיתה מרמת הייצוג של הסקרים שלו. עקב כך, ממצאיו הכמותיים שנויים במחלוקת.

הדוגמה האחרונה שאביא היא מהמחקר שפירסם משרד האוצר בשנת 2004 על מה שכינה "שכר המינימום ונזקיו". החלק הכמותי/אקונומטרי של המחקר עסק בנתונים מתקופה של 11 שנים, מ-1993 ל-2003, וזאת למרות ששכר המינימום הונהג בישראל בראשית שנות ה-70. ה-"מדגם" שלהם לא מייצג, וזה נעשה במודע. החוקרים ((שלא היו מספיק אמיצים כדי לחתום על המחקר בשמם)) הסבירו כי "תקופת המדגם נבחרה כך שלא תכלול את השינויים המבניים הגדולים שהתרחשו בתחילת שנות ה-90". במילים אחרת, הם התעלמו במכוון מתקופה של כ-20 שנה בהן היה נהוג שכר מינימום, ומהתובנות שעשויות לעלות מהנתונים הכלכליים של התקופה ההיא. אפשר לחשוב על הרבה סיבות נוספות לבחירה שלהם, מלבד הסיבה שהם סיפקו. לא אכנס כאן לספקולציות. כמו כן, עדיין לא ניתן לקבוע בבירור האם הם צדקו במסקנותיהם. שכר המינימום כמעט ולא השתנה באופן ריאלי בין 2004 ל-2014. עם זאת, מאז 2014 חלה עליה ריאלית משמעותית בשכר המינימום, והאסונות שנחזו בדו"ח (שהיו אמורים להיות מיידיים) עדיין לא אירעו.

אז איך עורכים מדגם לא מייצג?

נסביר תחילה איך עורכים מדגם מייצג, כפי שמלמדים בקורס הבסיסי בדגימה בשנה ג' של לימודי הסטטיסטיקה. קודם כל צריכים לערוך רשימה של כל המועמדים להיכלל במדגם. זוהי מסגרת הדגימה. כעת אפשר לבחור את שיטת הדגימה.

הבסיס לכל השיטות היא דגימה הסתברותית – לכל פרט באוכלוסייה נקבעת ההסתברות כי ייכלל במדגם.

הדרך הפשוטה ביותר היא לערוך מדגם מקרי פשוט – לכל הפרטים יש את אותה ההסתברות להיכלל במדגם. כדי לקבוע מי יידגם, מכניסים לתוך כובע גדול פתקים, כשלכל פרט באוכלוסייה יש פתק עליו כתוב השם (או מזהה אחר) הפרט. מערבבים היטב את כל הפתקים, ומוציאים מהכובע מספר פתקים על פי גודל המדגם הדרוש. אפשר, כמובן, לבצע את התהליך הזה באופן ממוחשב.

יש וריאציות יותר מתקדמות. אם האוכלוסייה מתחלקת למספר שכבות אשר שונות זו מזו באופן מהותי (למשל דתיים וחילוניים), אפשר לבצע מדגם נפרד בתוך כל שכבה ולאחר מכן לשקלל את התוצאות. אם לעומת זאת, האוכלוסייה מורכבת מאשכולות אשר לא שונים זה מזה באופן מהותי (דוגמה היפותטית: אוכלוסיית הקיבוצים), אפשר לדגום רק מספר אשכולות (קיבוצים) מתוך רשימת הקיבוצים, ובעזרת מודל מתמטי לא מורכב להסיק ממדגם זה על האוכלוסייה כולה.

אבל יש גם דרכים לקבל מדגם לא מייצג. ציינתי חלק מהן בדוגמאות שהבאתי. אציין כמה מהשיטות הפופולריות.

המקרה הנפוץ הוא להשתמש במסגרת דגימה השונה באופן מהותי מהאוכלוסייה הנחקרת. זה עשוי לקרות בטעות, כפי שקרה בסקר הבחירות בארה"ב ב-1936, או במודע, כפי שנעשה במחקר המדובר של משרד האוצר. מסגרת דגימה לא ראויה עלולה לגרום לייצוג יתר של חלק מהאוכלוסייה, וייצוג חסר של חלקים אחרים. ייתכן גם כי יידגמו פרטים שאינם נכללים באוכלוסייה (למשל, נער בן 16 העונה לסוקר טלפוני לשאלה בעד מי יצביע בבחירות הקרובות).

גם כאשר בונים היטב את מסגרת הדגימה, המדגם שמתקבל עשוי להיות מוטה ובלתי מייצג עקב שיעורי השתתפות נמוכים של הנדגמים במדגם עצמו.

מדגם נוחות, בו החוקר בוחר את המדגם באופן הנוח לו (למשל, חוקר באוניברסיטה שבמחקר שלו משתתפים הסטודנטים שלו) הוא מתכון כמעט בטוח למדגם לא מייצג.

שליחת שאלונים לכל מי שאפשר (כמו בבחירות 1936 בארצות הברית) גורמת בדרך כלל גם היא לחוסר ייצוג. לפרטים שונים באוכלוסייה יש הסתברויות שונות להכללות במדגם, אולם איש אינו יודע מה ההסתברויות האלה, ולכן אין אפשרות סבירה לסיכום התוצאות.

מדגם המבוסס על מתנדבים יביא גם הוא לחוסר ייצוג, כפי שלמדנו מהמקרה של אן לנדרס. אנשים המעוניינים להיות חלק מהמדגם (נניח, מוכנים להשיב לסקר כלשהו) שונים באופן מהותי מאלה שאינם מעוניינים. זו בעיה די שכיחה בטכניקה של הפצת שאלונים באינטרנט, למשל.

המתודולוגיה של הפצת שאלונים (כיום בעיקר דרך האינטרנט) כאשר מצורפת אליהם הבקשה "אנא שתפו עם חבריכם" ידועה בשם "מדגם כדור השלג". מספר ראשוני קטן של נדגמים מפיצים את השאלון בקרב חבריהם, ואלה בתורם מפיצים את השאלון הלאה. התוצאה: הנדגמים יהיו כולם שייכים לרשת חברתית מסויימת, שקרוב לוודאי תהיה שונה באופן מהותי מכלל האוכלוסייה ולא תייצג אותה.

לסיכום – יש להחליט על הדרך בה ייאספו הנתונים שישמשו לאחר מכן כבסיס לניתוח סטטיסטי בכובד ראש, וזאת כדי להמנע מהכשלים והבעיות שנימנו כאן. מדגם לא מייצג יוביל כמעט תמיד לתוצאות לא תקפות.

 


רשימות נוספות בסדרה:

סטטיסטיקה רעה: p-Hacking

p-hacking ((אשמח להצעות לתרגום לעברית)) היא הפרקטיקה של חתירה לתוצאה מובהקת, ובאמירה פופולרית "לענות את הנתונים עד שיודו". לעיתים הדבר נעשה מחוסר מודעות, ולעיתים בכוונה תחילה.

יש הרבה דרכים להגיע לתוצאה מובהקת. אפשר לנסות לנתח את הנתונים בכל מיני שיטות סטטיסטיות. אפשר לאסוף נתונים, לנתח אותם, ואז לפרסם אם מתקבלת תוצאה מובהקת, ואם לא, לאסוף עוד נתונים בתקווה שהתוצאה תהפוך למובהקת. אפשר לבדוק הרבה השערות, בייחוד אם אוספים נתונים על הרבה משתנים. ככל שבודקים יותר השערות, עולה הסיכוי כי לפחות אחת מהן תהיה מובהקת. אם משתמשים במודל רגרסיה כלשהו אפשר להוסיף למודל משתנים מסבירים (covariates) או להסיר אותם, עד שמתקבלת תוצאה מובהקת. אפשר לנסות מספר טרנספורמציות של המשתנים בתקווה שתתקבל תוצאה מובהקת. אפשר גם לזרוק מהנתונים תצפיות "לא מתאימות", לאחר הניתוח הראשוני של הנתונים. אפשר כמובן, לצרף כמה שיטות יחד, ואף לנסות את כולן.

אי אפשר להכחיש את קיומה של התופעה, בייחוד בתחום המחקר האקדמי, שם קיים לחץ על החוקרים לפרסם תוצאות מובהקות (( שגם צריכות להיות משמעותיות, אבל בעניין הזה כבר דנו )) כדי להתקדם בתוך המערכת האקדמית. יש הטוענים כי התופעה קיימת במידה מסויימת גם במגזר העסקי, שם עלול להיות לחץ על עובדים להשביע את רצון ההנהלה או הלקוחות. עם זאת, קשה להשיג נתונים מהם יהיה אפשר לעמוד על היקף הבעיה במגזר העסקי, וזאת בניגוד למה שקורה במחקר האקדמי.

אולם לפני שנתאר את היקף הבעיה, נראה מספר דוגמאות.

האם ידעתם ששוקולד מריר הוא תוסף תזונה בריא שתורם לירידה במשקל? הנה לינק למחקר שנערך בגרמניה שהוכיח זאת. נערך ניסוי קליני, ובו, לאחר בדיקה של ההיסטוריה הרפואית שלהם, מילוי שאלון רפואי וביצוע מספר בדיקות, חולקו הנבדקים לשלוש קבוצות באופן אקראי. קבוצה אחת הושמה לטיפול של דיאטה דלת פחמימות. הקבוצה השנייה הושמה אף היא לדיאטה דלת פחמימות, אך גם הונחתה לאכול כ-40 גרם שוקולד מריר בכל יום. הקבוצה השלישית הייתה קבוצת הביקורת. הנבדקים בקבוצה זו הונחו להמשיך בהרגלי התזונה שלהם ללא כל שינוי. הנבדקים שקלו את עצמם כל יום ודיווחו את המשקל לעורכי הניסוי. הניסוי נמשך 21 יום, ובסופם חזרו הנבדקים אל עורכי הניסוי, מילאו שוב את השאלון הרפואי וחזרו על הבדיקות שעשו בתחילת הניסוי.

התוצאות? בקבוצת הביקורת שינוי המשקל הממוצע היה בערך 0, כצפוי. בשתי הקבוצות האחרות הייתה ירידת משקל ממוצעת של כ-2.3 ק"ג. בקבוצת השוקולד קצב הירידה במשקל (כפי שהתבטא בדיווחים היומיים) היה מהיר יותר בכ-10%. בקבוצת השוקולד נצפתה גם ירידה משמעותית ברמת הכולסטרול!

מה קרה פה? מי שהציץ בלינק כבר יודע שהמחקר תוכנן מראש כך שיביא ליתרון של קבוצת השוקולד על פני הקבוצות האחרות. קודם כל, מספר המשתתפים במחקר היה 16, 5 גברים ו-11 נשים. לכן בכל קבוצה היו 5-6 נבדקים. במדגם קטן יש שונות גבוהה, וכתוצאה מכך צפויות להתקבל תוצאות קיצוניות. זהו חוק המספרים הקטנים. כמו כן, נבדקו בניסוי הזה 18 משתנים שונים. אם רמת המובהקות (כלומר ההסתברות לתוצאה חיובית שגויה) של כל בדיקה היא 5%, ההסתברות כי תתקבל במקרה תוצאה חיובית היא מעל ל-60%.

המחקר הזה תוכנן מראש כדי לספק הדגמה לסרט דוקומנטרי על מדע-זבל בתעשיית הדיאטות. כל התרגיל שנעשה כאן הובא לידיעת הצופים כהמחשה לתוקף המפוקפק של ה-"תוצאות המוכחות מדעית" שמבטיחים יצרני דיאטות למיניהם.

עוד הדגמה ל-p-hacking ניתנה בכתב העת Psychological Science. בניסוי, שערכו החוקרים סימונס, נלסון וסימונסון (קישור למאמר – קובץ pdf),  היו שתי קבוצות נבדקים. לאחר מילוי שאלון, קבוצה אחת האזינה לשיר When I'm Sixty Four של הביטלס. הקבוצה השנייה נאלצה להאזין ל-Kalimba (ההאזנה לא מומלצת, ומייד תראו מדוע). לאחר ההאזנה כל נבדק התבקש למסור לחוקרים את תאריך הלידה שלו ואת גילו של אביו. נערך ניתוח ANCOVA בו המשתנה המוסבר היה גיל הנבדק, והמשתנים המסבירים היו גיל האב, והשיר לו האזין כל נבדק. התקבלה תוצאה מובהקת. ממוצע הגיל המותאם (adjusted) של הנבדקים בקבוצת הביטלס היה 20.1 שנה, ובקבוצת הקלימבה הגיל הממוצע היה 21.5 (p-value=0.040). האזנה לביטלס גורמת לאנשים להיות צעירים יותר. אני מדגיש: הנבדקים בקבוצת הביטלס לא הרגישו צעירים יותר. הם היו ממש צעירים יותר!

גם כאן עורכי המחקר חשפו את ה"סוד". המחקר נערך במספר שלבים. בכל פעם גוייסו למחקר 10 סטודנטים, הנתונים נותחו, ואז הוחלט אם להגדיל את גודל המדגם ב-10 נבדקים נוספים. כמו כן, פרט לתאריכי הלידה של הנבדקים וגילי האבות, נאספו עוד נתונים רבים אחרים, ונערכו ניתוחים רבים, עם כל מיני משתנים מוסברים ומשתנים מסבירים. הם היו חייבים למצוא משהו, עם כל הגמישות המחקרית שהרשו לעצמם. המאמר נועד, כמובן, לשמש כתמרור אזהרה לבעיות שנגרמות כאשר חוקרים מרשים לעצמם יותר מדי דרגות חופש. סימונס ועמיתיו הציעו שש דרישות שכל מחקר צריך לקיים, וארבע הנחיות לשופטים המחליטים האם מחקרים שמוצעים לכתב העת אכן ראויים לפרסום. אפרט את הדרישות וההנחיות ברשימה אחרת בהמשך סדרה זו.

אבל יש גם דוגמאות אמיתיות.

אנדרו גלמן מתאר בעיה של p-hacking על ידי בדיקת השערות מרובות ((ביחד עם בעיות אחרות)) במאמר במגזין Slate. במאמר בכתב העת Psychological Science מדווחים החוקרים ביל וטרייסי כי נשים נוטות ללבוש בגדים אדומים או ורודים כאשר הן בשיא הפוריות (במהלך המחזור החודשי). מתברר כי בשאלון הוצעו 9 צבעים שונים מהן הנבדקות נתבקשו לבחור צבע אחד. החוקרים דיווחו כי הצבעים האחרים לא היו מובהקים סטטיסטית. בנוסף לכך, היו שתי הגדרות שונות לשיא הפוריות: ימים 0-5 של המחזור וימים 15-28. מכאן עולה כי הם בדקו 18 השערות שונות. ההסתברות לקבל לפחות תוצאה אחת מובהקת היא קצת יותר מ-60%. האם הדבר נעשה בכוונה או מחוסר מודעות? אין לדעת. מצד שני, המחקר הזה לא גורם לנזק.

בעיה של p-hacking תעלה ככל הנראה גם ממחקר ה-PURE. מדובר במחקר ענק שכבר הניב מספר מאמרים, ויניב בוודאי עוד. סביר להניח שתוצאות לא מובהקות לא יפורסמו. (בעיה זו ידועה כאפקט המגירה). כאן יש סכנה כי יפורסמו המלצות רפואיות בלתי אחראיות שיזכו לכותרות סנסציוניות בעיתונות (כמו ההמלצה לצרוך שומנים), וכמובן שתהיה לכך השפעה על בריאות הציבור.

עד כמה הבעיה חמורה? החוקרים יואנידס, סטנלי ודוקוליאגוס דיווחו בכתב העת היוקרתי Economic Journal באוקטובר 2017 כי בדקו כ-6700 מחקרים אקונומטריים. ליותר ממחציתם לא הייתה עוצמה סטטיסטית מספיקה, בלשון המעטה: העוצמה החציונית הייתה 18%. במילים אחרות, גדלי המדגמים היו קטנים מדי. חוק המספרים הקטנים פועל שוב: במדגמים קטנים יש יותר שונות, יותר תוצאות קיצוניות, וכשעורכים הרבה מחקרים קטנים מקבלים הרבה תוצאות מובהקות. נשיא אוניברסיטת דיוק, קמפבל הארווי, שהינו גם נשיא האיגוד האמריקני לכלכלה פיננסית, התריע בהרצאתו בינואר 2017 על התפשטות תופעת ה-p-hacking בתחום הכלכלה הפיננסית, וזאת גם במגזר העסקי. כאן יש סכנה שהפרקטיקה תתפשט מהמחקר אל היישומים, ותגרום לתוצאות פיננסיות הרות אסון.

החוקרים הד, הולמן, לנפיר, קאהן וג'ניוס ניסו לבדוק עד כמה התופעה של p-hacking נפוצה בתחום מדעי החיים ומהן ההשלכות הנובעות מכך.  בעזרת שימוש בשיטות של text-mining במאגר PubMed, ועל ידי שימוש בכלי p-curve הם הגיעו למסקנה כי התופעה של p-hacking  על ידי איסוף נתונים עד שמתקבלת תוצאה מובהקת נפוצה למדי. החדשות הטובות הן שלדעתם התופעה אינה משפיעה ככל הנראה באופן דרסטי על מסקנות מדעיות המתקבלות על ידי מטה-אנליזה.

גם בתחום הפסיכולוגיה המצב לא מזהיר. במחקר שפורסם ב-2012 על ידי ג'ון, לוונשטיין ופרלק, פנו השלושה ישירות אל כ-6000 חוקרים אקדמיים בתחום, וביקשו מהם לענות על שאלון שעסק בפרקטיקות מחקריות .כ-2100 חוקרים נענו, אך 700 מהם ענו רק על חלק מהשאלון. התוצאות עגומות: כ-65% הודו כי הם לא פירטו את כל משתני המחקר במאמר שביקשו לפרסם. קרוב ל-60% החליטו לאסוף עוד נתונים לאחר שניתחו את הנתונים שנאספו. כ-27% לא דיווחו על כל פרטי תכנון הניסוי. כ-20% הפסיקו לאסוף נתונים במהלך הניסוי כאשר התברר להם כי בנתונים החלקיים יש תוצאות מובהקות. מעל ל-20% עיגלו את ה-p-value (למשל דווחו על ערך של 0.054 כקטן מ-5%). כמחצית מהמשיבים דיווחו באופן סלקטיבי רק על מה ש-"עבד". כ-40% השמיטו תצפיות מבסיס הנתונים לאחר שבדקו את ההשפעה של השמטת הנתונים על התוצאות. כ-30% דיווחו במאמרים על תוצאות בלתי צפויות כאילו הן נחזו בתחילת המחקר. עם זאת, רק אחוזים בודדים הודו כי טענו שהתוצאות אינן מושפעות ממשתנים דמוגרפיים כאשר לא היו בטוחים בכך, או כאשר אכן ידעו כי יש השפעה כזו. כאחוז מהמשיבים הודו כי זייפו נתונים.

ברגולציה של התעשייה הפרמצבטית יש, לעומת זאת, הנחיות ברורות למניעת p-hacking, לפחות בשלבי הפיתוח. רמת המובהקות (ההסתברות לדחייה מוטעית של השערת האפס) במקרה של השערות מרובות נשמרת בקפידה. אין אפשרות לאסוף נתונים עד לקבלת תוצאה מובהקת. תהליך איסוף הנתונים מוגדר מראש ויש למלא אותו בקפדנות. אמנם ניתן בתנאים מסויימים להביט בנתונים שנאספו במהלך הניסוי (תהליך זה נקרא ניתוח ביניים – interim analysis), אך רק אם האפשרות הזו צויינה מראש בפרוטוקול הניסוי, והניתוח נעשה באופן שההסתברות לטעות מסוג ראשון לא תעלה על הערך המותר של 5%. יתר על כן, כדי למנוע הטיות, ניתוח הביניים נעשה על ידי ועדה בלתי תלויה המורכבת מאנשי מקצוע שאינם עובדים בחברת התרופות. ההנחה היא כי אנשים אלה לא יסכנו את יוקרתם המקצועית למען האינטרס של החברה. לחברה נמסרת רק השורה התחתונה של הניתוח (בדרך כלל המלצה להמשיך את הניסוי כמתוכנן או להפסיק אותו בטרם עת).

בשלבי המחקר, לעומת זאת, אפשרות של p-hacking בהחלט קיימת. זה עלול לנבוע מהשערות מרובות, למשל כאשר נבחנות מולקולות רבות בעלות פוטנציאל תרפויטי, ומעוניינים לגלות את המולקולה "הטובה ביותר". כמו במחקר אקדמי, יש בהחלט גם בחברות התרופות (ובחברות מסחריות בכלל) אנשי מחקר שמעוניינים להציג הישגים, גם במחיר של חתירה לתוצאה מובהקת.

לסיכום, תמונת המצב היא עגומה. זוהי כנראה הבעיה הקשה ביותר בקרב המשתמשים בסטטיסטיקה, וללא ספק יש לבעיה זו חלק נכבד במשבר השחזוריות העובר כעת על הקהילה המדעית.

אני מקווה שהקוראים שלי ילמדו ממה שתואר כאן מה אסור לעשות במחקר, ולא יאמצו את הפרקטיקות הבעייתיות שתוארו כאן.


רשימות נוספות בסדרה:

איפה הקפיטליסט היומי

לפני כמעט עשר שנים, בינואר 2007, פרסמתי (עדיין באתר הישן של רשימות), רשימה שהתייחסה לפוסט בבלוג (האיום) "הקפיטליסט היומי" שהמליץ להעלות בצורה חדה את שכר הלימוד באוניברסיטאות כתרופה לחוליי מערכת ההשכלה הגבוהה בישראל.

אתמול קראתי במקרה את הרשימה ההיא, ותהיתי אם הבלוג הסופר ניאו-ליברלי ההוא עדיין קייםובכן, הוא לא. לחצתי על הלינק. היום יש בדומיין הזה אתר של חברת הובלות.

איך אומרים? הטובים שורדים.