נסיכת המדעים

כמה מחשבות בעקבות תאונת הדרכים הקטלנית בכביש 90

ביום הבחירות לראשויות המקומיות שהתקיים לפני שבוע, בתאריך 30.10.2018, התרחשה תאונת דרכים קשה מאוד בכביש מספר 90, באיזור ים המלח. התנגשות חזיתית בין שני כלי רכב גרמה לעליית אחד מהם באש, ושמונת נוסעיו, זוג הורים וששת ילדיהם נספו. בתאונה טראגית זו היה שילוב נדיר של מספר גורמים שהפכו אותה לקשה במיוחד. האם אפשר היה למנוע את התאונה הזו? איש אינו יודע. הנה דעתי בקשר למספר נושאים הקשורים לתאונה הזו. המשותף לכל הנושאים: אני לא מאמין שייעשה משהו בעניינים אלה.

ההתנגשות

לא ברור (לי לפחות) אם ההתנגשות החזיתית קרתה בגלל שנהג ג'יפ הטויוטה יצא לעקיפה מסוכנת בכביש לא פנוי או סטה ממסלולו. וכך נגרמה ההתנגשות החזיתית. למרבה הצער זה לא משנה.

עם זאת, יש לדון כאן בשתי שאלות. שאלה אחת היא האם ניתן היה למנוע את הסטייה או העקיפה. השאלה השנייה היא האם ניתן היה למנוע את ההתנגשות – בהנחה שהיא נגרמה כתוצאה מסטייה לא רצונית מהנתיב. לשתי השאלות יש תשובה אחת.

אורלי וגיא העלו את הנושא הזו בתכניתם בערוץ 10/14. יש תשובה פשוטה לשאלות האלה: אילו הייתה גדר הפרדה בין הנתיבים, ההתנגשות החזיתית לא הייתה יכולה להתרחש. אבל הדברים יותר מסובכים: מדובר בכביש חד מסלולי ודו נתיבי. גדר הפרדה בין הנתיבים תגרום לכך שלא תהיה שום אפשרות עקיפה בכביש המופרד, וגם אם נהג סוטה מנתיבו בשוגג, עדיין הגדר תמנע התנגשות חזיתית. אבל, מה עושים אם רכב נתקע, נניח אוטובוס או משאית? או אם רחמנא לצלן נתקעים מאחורי רכב שנוסע במהירות המותרת או אף פחות מכך?

פתרון אפשרי הוא להציע לסלול כביש דו מסלולי עם ארבעה נתיבים, שניים לכל כיוון. העלות של הסבת חלקו הדרומי (מאיזור ים המלח ועד יטבתה) של כביש 90 לכביש כזה נאמדת במיליארדים. נפח התנועה בכביש ככל הנראה אינו מצדיק השקעה כזו, ובאשר לחיים שיינצלו: יכול להיות שאם הכסף הזה יושקע במקום אחר יינצלו חיים רבים יותר.

יש פתרון שלישי: להרחיב את הכביש לכביש חד מסלולי עם 3 נתיבים, ולהקים גדר הפרדה כך שהנתיב השלישי ישרת לעיתים את התנועה דרומה ולעיתים את התנועה צפונה, על ידי הסטה של גדר ההפרדה מידי כמה קילומטרים.

פתרון נוסף הוא לבנות גדר הפרדה במקומות מועדים לפורענות: קטעים עם שדה ראיה מוגבל, פיתולים וכדומה. אפשר להגדיל ולעשות ולבנות גדר הפרדה לאורך רוב הכביש, עם השארת קטעים ללא הפרדה בהם אפשר לבצע עקיפות בטוחות.

המהירות

לא הצלחתי למצוא בשלל הכתבות שהתפרסמו התייחסות למהירות שבה נסעו שני כלי הרכב. המהירות המותרת בכביש בו אירעה התאונה היא 90 קמ"ש. על סמן היכרותי עם תרבות הנהיגה בארץ, אני חושב שהסיכוי כי שני הנהגים לא עברו את המהירות המותרת הוא נמוך. מצד שני, גם כאשר נוהגים במהירות המותרת, התנגשות חזיתית בין שני כלי רכב מובילה לתוצאות קשות. בכל מקרה, אתייחס כאן לנושא המהירות ללא כל קשר לתאונה עצמה.

יש מי שיטענו שמהירות עצמה אינה הורגת. פורמלית זה כנראה נכון. מטוסי נוסעים חוצים את האוקיינוס האטלנטי במהירות של 900 קמ"ש ולנוסעים לא קורה כלום.

אבל, אני לא חושב שיקום פה מישהו שיטען כי להתנגשות של שני כלי רכב הנוסעים במהירות 20 קמ"ש תהיה אותה תוצאה כמו במקרה של התנגשות בין שני כלי רכב הנוסעים במהירות 90 קמ"ש. אם מתרחשת תאונה, למהירות הרכב יש תפקיד גדול מאוד בקביעת הנזק הנגרם כאשר ג'יפ טויוטה מתנגש ברכב אחר, או בעץ או בקיר בטון.

גורם נוסף שצריך לקחת בחשבון הוא זמן התגובה. מקובל כי הזמן שעובר מהרגע שבו נהג מבחין במשהו שמצריך את תגובתו ועד לביצוע התגובה הוא שתי שניות. רכב שנוסע במהירות 90 קמ"ש עובר 25 מטר בשניה, או 50 מטר בשתי שניות. יש לזה השלכות. למשל, אם נוסעים במהירות הזאת מאחורי רכב אחר, צריך לשמור ממנו מרחק של כ-50 מטר. זה לא קורה בכבישים שלנו. הנהג צריך גם להיות מסוגל להבחין בעצמים בעייתיים בכביש שמצריכים את תגובתו: הולכי רגל ((פחות סביר בכביש 90, אני מודה)), אופניים, רכב שעומד בשוליים, רכב שסוטה ממסלולו מסיבה כלשהי ונכנס למסלול התנגשות מולך, או רכב שעוקף אותו וחותך במהירות ימינה כדי להימנע מהתנגשות ברכב שבא ממול. ככל שהדברים האלה מתרחשים במהירות גבוהה יותר פוטנציאל הנזק גבוה יותר.

המסקנה ההגיונית היא לכן להקטין את המהירות, אבל ההיגיון הזה מוביל למסקנה הנכונה אבל בלתי קבילה שאין לנסוע כלל – או, במילים אחרות, לקבוע את המהירות המותרת ל-0 קמ"ש.

המהירות המותרת היא לכן פשרה: איזה מחיר אנחנו מוכנים לשלם תמורת האפשרות לנוע במכוניות. בשטחים עירוניים יש יותר הולכי רגל, יותר ילדים, יותר אופניים, ולכן שם אנחנו מגבילים את המהירות המותרת ל-50 קמ"ש. זה לא מונע לגמרי תאונות, פצועים והרוגים, אבל מישהו כאן חושב שצריך להעלות את המהירות המותרת בעיר ל-90 קמ"ש?

המשוואה בכביש 90 דומה: למהירות מותרת של 90 קמ"ש בכביש חד מסלולי, דו סטרי ודו נתיבי ללא גדר הפרדה יש מחיר מסויים, שמתבטא בחיי אדם, בפצועים ובסתם נזק לרכוש. אם המחיר גבוה מדי, צריך לעשות משהו, שכרוך במחיר אחר. אבל מי בעד הורדת המהירות המותרת? ומי חושב שאם יורידו את המהירות המותרת זה יעזור?

וכאן אני מגיע לנושא כואב במיוחד: אכיפת חוקי התנועה בכלל ואכיפת המהירות המותרת בפרט.

הארץ סוערת מזה מספר חודשים עקב קביעת בית המשפט השלום בעכו כי מצלמות המהירות החדשות שהוצבו ברחבי הארץ אינן אמינות. אין לי נתונים ולכן לא אכנס כאן לדיון בנושא. אומר רק שההתרשמות שלי היא כי הציבור הרחב די מרוצה מהחלטת בית המשפט שגרמה, באופן זמני לפחות, להפסקה בפועל של אכיפת המהירות המותרת בכבישים ברחבי הארץ. אני לא שותף לשמחה הזו, כי כפי שציינתי למעלה למהירות יש מחיר, ואני חושב שלעיתים לא מעטות המחיר הזה גבוה מדי.

בואו נתבונן במקרה חריג במיוחד: כביש 6. המהירות המותרת בכביש זה גבוהה במיוחד, ומגיע בקטעים מסויימים ל-120 קמ"ש. אני לא חושב שיהיה מי שיחלוק על כך שבפועל כלי רכב רבים נוסעים בכביש הזה במהירות הגבוהה באופן משמעותי מהמהירות המותרת. אם אתם חושבים שזה בסדר תעברו הלאה, אבל רק אחרי שתענו על השאלה הבאה: כמה זה "בסדר"? לנסוע במהירות 10 קמ"ש מעל המהירות המותרת זה בסדר? 20? 30? כמה שרוצים?

אם אתם חושבים שיש רמת מהירות שהינה בלתי נסבלת אפילו בכביש 6, נניח 140 קמ"ש לצורך הדיון, הנה הצעה. בכביש 6 יש שערי אגרה, ובכל פעם שמכונית עוברת תחת שער אגרה המכונית מצולמת, ונרשמים מספר הרישוי של המכונית והשעה שבה היא עברה בשער. נניח שיש לנו שני שערים כאלה שהמרחק ביניהם הוא 20 ק"מ. מכונית שנוסעת במהירות המותרת, 120 קמ"ש, תעבור את המרחק הזה ב-10 דקות. מכונית שעברה את המרחק בשמונה דקות נסעה בין השערים במהירות ממוצעת של 150 קמ"ש, 30 קמ"ש מעל המהירות המותרת. בינגו. מה שצריך לעשות עכשיו זה לשלוף את פרטי בעלי הרכב לפי מספר הרישוי, ולזמן אותו לבית המשפט.

כשהעליתי את ההצעה הזו בטוויטר לפני זמן לא רב, נתקלתי בהתנגדות גורפת. נאמרו דברים על "חוסר הגינות" והובעה התנגדות ל-"אכיפה אוטומטית". אני עדיין לא מבין למה זה לא בסדר.

הנה הצעה דומה לגבי כביש 90: אפשר להציב לאורך הכביש מצלמות דומות במרחקים סבירים, קילומטר או שניים או עשרה, ולתעד באופן דומה את המהירות הממוצעת של כלי רכב לאורך הכביש לצורך אכיפה. לדעתי זה עדיף על מצלמה בודדת שמודדת מהירות רגעית. יש הבדל משמעותי בין נהג שברגע של חוסר תשומת לב עבר על המהירות המותרת אך התעשת ותיקן את טעותו ובין נהג שנסע באופן קונסיסטנטי במהירות ממוצעת גבוהה לאורך קטע דרך ארוך יחסית אתם בעד או נגד? החבר'ה בטוויטר התנגדו.

חגורות בטיחות

למרות שכל הכתבות על התאונה של יום הבחירות ציינו במפורש כי אחד מכלי הרכב המעורבים היה ג'יפ טויוטה, רכב גדול וכבד, באף כלי תקשורת רשמי לא נאמר מאיזה סוג היה כלי הרכב השני. אם תפשו את הכתבות תמצאו ביטויים כגון "טנדר", ו-"רכב מסחרי". בשתי כתבות נאמר בפירוש כי כל שמונת הנוסעים שנהרגו היו חגורים בחגורות בטיחות. בחדשות ערוץ 10 נאמר פעם אחת כי זה היה רכב מסוג סיטרואן ברלינגו, אך אין לי תיעוד של הדיווח הזה. אתם יכולים להאמין לי שכך שמעתי או לא להאמין. בפורום רוטר ובאחד מאתרי המכוניות נאמר כי זה היה רכב מסוג רנו לוגאן, מיניואן לא יקר שייבואו לארץ הופסק לפני כמה שנים. בסיטרואן ברלינגו יש 5 מושבים, ואפילו ברנו לוגאן יש רק 7 שבעה מושבים. לפחות נוסע אחד לא היה חגור בחגורת בטיחות.

יומיים לאחר התאונה הייתי בתורנות נשק חבק וסע בבית הספר של ילדיי. היה עלי לעמוד על המדרכה בכניסה לבית הספר, ולסייע לילדים שהוריהם הסיעו אותם לבית הספר לרדת במהירות רבה יותר מהרכב, ובכך להקל מעט על עומס התנועה ברחוב שבו שוכן בית הספר. נדהמתי לראות כמה ילדים נסעו לא חגורים, ולא פחות ממספר הילדים שישבו במושב הקדמי למרות שגילם ומימדיהם הגופניים לא התאימו לישיבה במושב הקדמי.

אין לי הרבה מה לומר בנושא. זה עוד סימפטום לתרבות עיגול הפינות שלנו ותחושת ה-"לי זה לא יקרה" המפורסמת.

עם זאת אעיר שתי הערות: אמנם החלטה לא לחגור חגורת בטיחות לא פוגעת באופן ישיר באנשים אחרים – זו לכאורה בעיה רק של מי שלא חגר. אבל האם יש קשר בין הנטייה לזלזל בחוק אחד לנטייה לזלזל בחוק אחר? אולי האנשים שלא חוגרים את עצמם ו/או את ילדיהם בחגורת בטיחות גם נוטים יותר לא לתת זכות קדימה להולכי רגל, לדבר בטלפון הסלולרי בזמן הנהיגה ולגנוב רמזורים אדומים? התחושה שלי היא שכן. זה משהו שכדאי וצריך לבדוק.

ועוד משהו: אני לא מקבל את הטענה שזו זכותו של הורה לקבל החלטת בקשר לילד שלו ולכן אם הוא לא רוצה לחגור את הילד בחגורת בטיחות או כיסא בטיחות זו זכותו. הורה כזה מסכן את חייו של הילד, ודינו כדין הורה מתעלל.

קנאביס

לפי מספר דיווחים, נהג הג'יפ שהיה מעורב בתאונת הדרכים של יום הבחירות נהג תחת השפעת קנאביס אותו צרך מספר שעות לפני הנסיעה. בשלב מסויים נטען כי זה היה קנאביס רפואי, ואילו בחדשות ערוץ 10 דווח כי לנהג לא היה רישיון לקנאביס רפואי. צייצתי על כך ציוץ קצת דמגוגי, אני מודה, בטוויטר, וכמובן שמייד קפצו כמה מגיבים ונתנו לי על הראש. בין היתר נשאלתי: "נתקלת במישהו רציני שאמר שסבבה לנהוג תחת השבעת קנאביס?". נכון, לא נתקלתי, ויש לזה סיבה טובה: הנהיגה תחת השפעת קנאביס מסוכנת.

בואו ניפרד מהתאונה ונדון בנושא במנותק.

קנאביס הוא כמו דינמיט וכמו אלכוהול. כשהוודקה נמצאת בתוך בקבוק על המדף בחנות היא לא מסוכנת, גם לא הדינמיט הארוז היטב ושמור בבונקר. הסיכון נובע מהשימוש ומהנסיבות.

אם מישהו חושב שלנהוג בכביש 90 תחת השפעת קנאביס זה לא מסוכן, באמת אין לי מה לומר לו. אבל על סמך התגובה שציטטתי למעלה אני מניח שרובכם יסכימו איתי שזה כן מסוכן. ((יש עוד סיכונים בקנאביס אבל נניח להם כרגע)) ואם כן, מה שצריך לעשות זה לנהל את הסיכונים. ((אל תגידו לי שקנאביס פחות מסוכן מאלכוהול, כי זה לא רלוונטי. אלכוהול הוא לא קו פרשת המים. לא כל מה שפחות מסוכן מאלכוהול אינו מסוכן. יש הרבה מאוד דברים שפחות מסוכנים מאלכוהול והם בכל זאת מסוכנים))

יש מספר גישות בעניין.

הגישה הראשונה היא הגישה של "מלחמה בסמים": איסור גורף המלווה בענישה פלילית.

גישה שניה טוענת שיש להחיל לגליזציה גורפת של שימוש בקנאביס ואולי אף בסמים אחרים. אם יש סיכונים, זכותו של המשתמש לקחת על עצמו את הסיכונים האלה. ואם הסיכונים עלולים לגרום לנזק לסביבה ולא רק למשתמש עצמו, אפשר לטפל בזה בשלל אמצעים. למשל: חוק שיאסור נהיגה תחת השפעת קנאביס, ומי שיעבור על החוק הזה יקבל עונש.

הגישה השלישית היא גישת עצימת העיניים: זה לא חוקי, אבל נתעלם. הגישה הזו מיושמת בהולנד ((אם כי נעשתה שם בשנים האחרונות נסיגה מסויימת במדיניות הזו)) ובמידה מסויימת גם בישראל.

לגישה הזו יש הרחבה: נגיד שזה לא בסדר, אבל לא נעשה שום דבר משמעותי בעניין. ראו את הצעת החוק הפופוליסטית שהגישה ח"כ תמר זנדברג שהתגבשה בינתיים להצעת חוק ממשלתית שתחול כהוראת שעה למשך שלוש שנים.

על הגישה הרביעית אני רוצה לדבר בפירוט: גישת ה-"אי הפללה" על פי המודל הפורטוגלי. השימוש בקנאביס (ובסמים אחרים) אסור על פי חוק, אך העוברים על החוק לא מטופלים באמצעים פליליים אלא באמצעים חברתיים/רפואיים, והסנקציות הננקטות כלפיהם הן סנקציות אזרחיות. החלוצה של גישת אי ההפללה הייתה כמובן פורטוגל, ולפני כשנה נורבגיה הלכה בעקבותיה. בפורטוגל, משתמשים בסמים מופנים לתכניות המתאימות למצבם. נרקומנים מקבלים את הסם לו הם זקוקים, וכך הם לפחות מוצאים ממעגלי הפשיעה ונמנעת התפשטות מחלות מסויימות. משתמשים "קטנים" מופיעים בפני ועדה שחברים בה עובד סוציאלי, פסיכיאטר ועורך דין. הועדה מוסמכת לנקוט סנקציות, שיכולות להיות קנסות, שלילת רישיון הנהיגה, איסור לעסוק במקצועות מסויימים, ועוד.

לפני כחמש שנים כתבתי פוסט ארוך שזכה להרבה תגובות נזעמות. בפוסט ההוא סקרתי שישה טיעונים מרכזיים של תומכי הלגליזציה, ועניתי לכל אחד מהם באופן מפורט.

אני עדיין עומד מאחורי חמישה מתוך ששת הטיעונים שלי. הטיעון שממנו נסוגותי הוא "טיעון פורטוגל". אמרתי כי לדעתי יש צורך להמתין לנתונים נוספים לפני שמאמצים את המודל הפורטוגלי. בפוסט שכתבתי לפני כשנה אודות המעבר של נורבגיה למודל הפורטוגלי כתבתי כי אני נוטה כעת לתמוך במודל הזה. האם ישראל תאמץ את המודל הזה? אני בספק. זה דורש הודאה בקיומה של בעיה ורצון אמיתי להתמודד איתה. אלה דברים שלא מקובלים בישראל.

נשלח: 6 בנובמבר, 2018 נושאים: ניהול סיכונים, על סדר היום.
תגובות: 4 | טראקבק

שגעון הפווארבול

שגעון הפאוורבול בארצות הברית הגיע השבוע לשיאים חדשים, לאחר שבהגרלות שנערכו ב-20.10.2018 איש לא ניחש נכונה את המספרים שעלו בגורל. הפרס הגדול, נכון לעכשיו, הוא 2.22 מיליארד דולר. אני בטוח שאתם רוצים לזכות בפרס הזה. אני רוצה לזכות בפרס הזה.

מה הסיכויים לזכות בפרס הגדול בפווארבול?

למעשה מדובר בשתי הגרלות שונות. בהגרלת המגה-מיליון הפרס הגדול הוא 1.6 מיליארד דולר, וההסתברות לזכייה בו היא בערך 1 ל-302 מיליון. בהגרלה השנייה, היא הגרלת הפווארבול, הפרס הגדול הוא "רק" 620 מיליון דולר, וההסתברות לזכייה בו היא קצת יותר גבוהה – 1 ל-292 מיליון.

כדי לזכות ב-2.2 מיליארד דולר, צריך לזכות בפרס הגדול של שתי ההגרלות, שהינן כמובן בלתי תלויות זו בזו. הסיכוי לכך הוא מכפלת הסיכויים לזכייה בשתי ההגרלות בנפרד, והוא בערך שווה ל-1 ל-88000000000000000.
צריך לזכור כי למרות שההסתברות לזכייה בפרס הגדול, בייחוד אם קונים רק כרטיס אחד, היא נמוכה מאוד, היא עדיין חיובית, כלומר יש סיכוי לזכות. מי שלא קנה כרטיס, לא יוכל לזכות. לכן, הצעד הראשון בדרך לזכייה הוא לקנות כרטיס.

האם קניית כרטיס הגרלה היא השקעה טובה?

זה תלוי כמובן בשאלה איך מגדירים האם השקעה היא טובה. אפשרות אחת היא להעריך את ההחזר הצפוי על ההשקעה. בואו לא נהיה חמדניים, ונתרכז רק בהגרלת המגה-מיליון ובפרס של 1.6 מיליארד דולר. מחיר כל כרטיס הוא שני דולר. בממוצע, מי שקונה כרטיס זוכה ב-1.6 מיליארד דולר בהסתברות של 1 ל-302 מיליון, או מפסיד 2 דולר בהסתברות כמעט קרובה ל-1. לכן ההחזר הממוצע על הכרטיס הוא בערך 1.6 מיליארד כפול 1 חלקי 302 מיליון פחות 2. זה יוצא בערך 3.30 דולר. למעשה חישבתי כאן את תוחלת הזכייה של כרטיס הגרלה. שימו לב כי התוחלת חיובית. בממוצע, מפעל ההגרלות מפסיד בהגרלה הזו 3.30 דולר על כל כרטיס שנמכר. בדרך כלל, במשחקי הימורים תוחלת הזכייה היא שלילית. למשל, אם אתם מהמרים ברולטה על ניחוש שחור/אדום, תוחלת הזכייה שלכם על כל דולר הימור היא בערך מינוס 5.2 סנט, כלומר בממוצע אתם מפסידים 5.2 סנט בכל פעם שאתם מהמרים על דולר. זה מספיק לקזינו כדי להרוויח מיליונים.

ראיתי במספר פורומים (בדיונים על הגרלות אחרות עם פרסים גדולים במיוחד) אנשים שטענו כי תוחלת הזכייה חיובית ולכן כדאי לקנות כרטיס השתתפות בהגרלה. למרבה הצער הטענה הזו לא נכונה. אותם 3.30 דולר שחישבתי למעלה הם תוחלת של כסף, ותוחלת של כסף זה לא כסף. אתם לא יכולים לקחת כרטיס להגרלה שתיערך מחרתיים ולשלם איתו במכולת, גם אם תוחלת הזכייה חיובית (( נסו ותיווכחו )). מה שיקרה זה שמועד ההגרלה יגיע, ואז תזכו, או שאולי לא. כמובן, אם תוכלו להשתתף בהגרלות כאלה כמה פעמים שתרצו, משתלם לגמרי לקנות כרטיס ועוד כרטיס ועוד כרטיס. חוק המספרים הגדולים יהיה לצידכם. אבל זה לא יקרה כמובן. ההזדמנות להשתתף בהגרלה היא חד פעמית

אבל הסיכוי לזכות כל כך קטן – ברור שאין זוכה

אמנם הסיכוי שאתם תזכו בהגרלה הוא מאוד נמוך, אך הסיכוי שמישהו יזכה בפרס הגדול הוא גבוה למדי. (( זו למעשה בעיית ימי ההולדת )). הנה הסבר אינטואיטיבי. תחשבו על קובייה. אם תטילו אותה הסיכוי שתוצאת ההטלה תהיה 6 היא 1 ל-6. אם שני אנשים יטילו כל אחד קובייה, הסיכוי שלפחות באחת ההטלות התוצאה תהיה 6 הוא גבוה יותר – בערך 1 ל-3.3. אם שלושה אנשים יטילו כל אחד קובייה, הסיכוי שלפחות באחת ההטלות התוצאה תהיה 6 הוא אפילו גבוה יותר – בערך 1 ל-2.37. וכן הלאה. אפשר לחשוב על כרטיס הגרלה כמין קובייה מטאפורית, כזו שהסיכוי לתוצאת 6 אם תטילו אותה הוא 1 ל-302 מיליון. אם יותר אנשים יטילו יותר קוביות, כלומר אם יותר כרטיסי הגרלה יימכרו, הסיכוי שתתקבל תוצאת 6, כלומר שמישהו יזכה בפרס, הולך וגדל.

כמה כרטיסים צריכים להימכר כדי שהסיכוי שלפחות כרטיס אחד יזכה יהיה 5%? 10%? 50%? מה הסיכוי ששני זוכים יחלקו את הפרס הגדול? אם אתם יודעים את מספר הכרטיסים שנמכרו, אתם יכולים לחשב את הסיכויים האלה בעזרת התפלגות פואסון. אדלג ברשותכם על הפרטים הטכניים. אפשר גם לעשות חישוב הפוך, ולחשב כמה כרטיסים צריכים להימכר כדי שההסתברות שמישהו יזכה בפרס הגדול תהיה שווה ל-50%. המספר הזה הוא בערך 210 מיליון. זה לא מספר מופרך. לפי הדיווח הזה, כ-226 מיליון כרטיסים צפויים להימכר לקראת ההגרלה הקרובה.

מה אם קונים את כל הכרטיסים?

הנה עוד רעיון שבוודאי עבר במוחו של מישהו: יש 302 מיליון צירופי מספרים אפשריים. אם נקנה 302 מיליון כרטיסים, ובכל כרטיס יופיע צירוף מספרים אחר, אז הכרטיס הזוכה חייב להיות בין הכרטיסים שקנינו. כל כרטיס עולה שני דולר, אז 302 מיליון כרטיסים יעלו 604 מיליון דולר. הפרס הגדול הוא 1600 מיליון דולר, ולכן מובטח רווח של כמעט מיליארד דולר. האם אפשר לעשות את זה?

התשובה הקצרה היא "כן". התשובה הארוכה היא "כנראה שלא".

מבחינה חוקית זה אפשרי, וזה כבר נעשה לפחות פעם אחת. בשנת 1992 הפרס הגדול בהגרלת הלוטו של מדינת וירג'יניה היה 27 מיליון דולר, והסיכוי לזכייה היה בערך 1 ל-7 מיליון. כל מה שצריך היה לעשות זה לקנות 7 מיליון כרטיסים ב-7 מיליון דולר ולגרוף רווח של 20 מיליון דולר. קבוצה של כ-2500 משקיעים התארגנה לגייס את הכסף ולרכוש את הכרטיסים. למרבה צערם הם הספיקו לקנות רק כ-5 מיליון כרטיסים עד מועד ההגרלה. לאחר קצת כסיסת ציפורניים התברר שהם אכן הצליחו לרכוש את הכרטיס הזוכה, מדינת וירג'יניה ניסתה להערים קשיים משפטיים כדי להימנע מתשלום, אך בסופו של דבר סכום הפרס הגדול שולם (וגם עוד כמה עשרות אלפי פרסים יותר קטנים). ((לפרטים נוספים ראו את ספרו של דייויד הנד The improbability Principle ))

בהגרלת המגה מיליון זה סיפור בסדר גודל אחר לגמרי. קודם כל, כדי לקנות 302 מיליון כרטיסים צריך 604 מיליון דולר, במזומן. שנית, יש לכם רק ארבעה ימים עד ההגרלה הבאה. בארבעה ימים יש 345600 שניות, כלומר תצטרכו לקנות כמעט 900 כרטיסים בכל שניה. וכמובן, אתם צריכים לוודא איכשהו שקניתם 302 מיליון כרטיסים שונים.

נניח שעשיתם את כל זה וזכיתם. הפרס משולם לזוכה ב-30 תשלומים שנתיים. מי שרוצה כסף עכשיו ומייד, יקבל רק 57% מהסכום. צריך גם לשלם מס בסך 25%. מ-1.6 מיליארדי הדולרים יישארו רק 684 מיליון. עדיין רווח נקי של 80 מיליון דולר תוך ארבעה ימים. לא רע.

אבל… כל זאת, כמובן, אם לא יהיה זוכה נוסף בפרס הגדול.

וההסתברות שיהיה זוכה נוסף או אפילו יותר אינה זניחה. כבר ראינו כי אם נמכרים עוד כ-200 מיליון כרטיסים מלבד 302 מיליון הכרטיסים שלכם, ההסתברות כי יהיה זוכה אחד נוסף לפחות היא כ-50%. אם יהיה זוכה אחד נוסף, החלק שלכם בפרס יהיה רק 800 מיליון דולר, שלאחר ההיוון ותשלום המס יתכווצו ל- 342 מיליון, וזה כבר הפסד נקי של 262 מיליון דולר. אם הפרס יתחלק בין שלושה זוכים ההפסד יהיה גבוה יותר. לא טוב. אם היו לכם 604 מיליון דולר, האם הייתם מוכנים לקחת את הסיכון?

האם כדאי לקנות כרטיס?

אני חושב שכן. אם הייתי תושב ארצות הברית הייתי קונה כרטיס. אחד. זה שעשוע נחמד ויש סיכוי כלשהו לזכות. היכן עוד תוכלו לקנות תקווה תמורת שני דולר בלבד? (( פראפרזה על דברים שאמרו פרופ' צבי גילולה ופרופ' ישראל אומן))

נשלח: 22 באוקטובר, 2018 נושאים: הימורים, מה אומרת הסטטיסטיקה.
תגובות: אין | טראקבק

ממוגרפיה – סיכונים ונתונים

באחת מקבוצות הפייסבוק שאני חבר בהן הופיע ביום שני האחרון (17.9.2018) צילום המסך של הודעה שבה נאמר: "מידע סופר חשוב שעשוי להציל את חייך…הסכנות בבדיקת הממוגרפיה". הפוסט הנ"ל כלל גם קישור לכתבה באתר שעוסק בבריאות הוליסטית או משהו כזה – מייד אמסור פרטים נוספים על הכתבה הזאת.

הגברת ששיתפה את צילום המסך כתבה: "ממוגרפיה – בחירה מושכלת… פשוט אין לתאר".

התגובות לא איחרו לבוא. הנה כמה ציטוטים:

לפחות הפעם זה לא יפגע בילדים של הנשים
מי שעומדת ברף קוגניטיבי מינימלי (כלומר – בלא מוגבלות שכלית או נפשית), ומחליטה לא לעבור ממוגרפיה בגלל הקשקוש הזה – וואלה זכותה. האהבלה תצטרך לשאת בתוצאות של החלטותיה כמו אדם מבוגר.
אבל זה מהאתר הסופר אמין Healthy-Holistic-Living. אפילו יש לו את המילה Health בשם!
הכתבה באנגלית? זהו, כבר שוכנעתי.
אה, יופי. עכשיו הם גם בעד סרטן השד?

התגובה שלי הייתה מעט שונה:

לא קראתי את כל התגובות, אבל התגובה שלי תהיה ככל הנראה לא פופולרית: לממוגרפיה יש שיעור false positive גבוה, בייחוד בגילאים צעירים. זה מוביל לנזקים של טיפולים רפואיים מיותרים, כולל כריתות וכימותרפיות מיותרות, שלא לדבר על הנזק הנפשי. לכן ההמלצה של גופי הרפואה בארה"ב (לא זוכר בדיוק איזה) היא לערוך ממוגרפיה רק החל מגיל 50, וגם אז רק אחת לשנתיים.

הדיעות נחלקו. אשה שלא ברור לי מה גילה, אחות במקצועה, כתבה: "אחרי שלאמא שלי היה סרטן השד אני אשאר עם מעקב פעם בשנה". הערתי כי זה מה שקורה בקבוצה המושכלת: הרגשות גוברים על הנתונים. תשובתה: "הנתונים הם עדיין שגילוי מוקדם מציל חיים. באמת, שנגיד לכל אותן בנות 30-40 שגילו אצלם סרטן שיחכו לגיל 50?"

בשלב זה הצעתי הפניה למקורות. המלצתי על ספרו של הפסיכולוג והסטטיסטיקאי הגרמני גרד גיגרנצר, Calculated Risks, שעוסק באופן שבו אנשים מעריכים סיכונים, ונושא בדיקות הממוגרפיה לגילוי מוקדם של סרטן השד נידון בו בהרחבה, יחד עם דוגמאות נוספות (( למשל, בדיקות לגילוי מוקדם של סרטן הערמונית )). בספר יש הפניות למחקרים רבים בנושאים האלה. המלצתי גם על ספרו של דויד שפיגלהאלטר, The Norm Chronicles, שפונה יותר לקהל הרחב. אני אדלג על המשך הדיון שהיה בהחלט מרתק.

מה פיספסנו פה?

אני מסכים שאתר ששמו www.healthy-holistic-living.com מעורר תגובה אנטגוניסטית. גם אצלי. אבל שלושה ימים לאחר ההודעה הראשונה בפייסבוק, פתחתי את הלינק וקראתי את הכתבה. אני חושש שאף אחד לא טרח מלבדי לפתוח את הלינק ולקרוא את הכתבה שהציתה את כל הדיון. שאלתי בפירוש מי פתח את הלינק וקרא את הכתבה. אף לא אדם אחד ((נכון למועד כתיבת שורות אלה)) הצהיר כי הוא קרא את הכתבה, וזאת אחרי שכתבתי בפירוש כי לדעתי יש ממש בדברים. במבט ראשון, מה שראיתי לא מבשר טובות. היו שם כל מיני טענות עם לינקים שהובילו לדפים אחרים באתר הזה. היו שם סימונים של מראי מקום למחקרים שצוטטו (כמו: (1) למשל), אבל הם לא הכילו קישורים. בקיצור: הפניות למחקרים לא היו שם. זה נשמע לי הגיוני. ייתכן מאוד שלא בכל כתבה באתר הזה מסתמכים על מחקרים חיצוניים, ואם יש כתבה ללא הפניות כאלה היא תעורר חשד אם בכתבות אחרות יש הפניות.

מצד שני, על סמך הידע המוקדם שלי, טענתי בקבוצה כי אכן יש ממש בטענות שהועלו, לממוגרפיה יש שיעור גבוה של תוצאות חיוביות שגויות, וייתכן מאוד כי הסיכונים בבדיקה עולים על התועלת שלה. לכן המשכתי לקרוא בעיון.

אפשר לזהות אם יש מקורות או אין. מה שצריך לעשות זה לערוך חיפוש בגוגל על משפטי מפתח מהכתבה. אם הם ציטטו מחקרים, סביר להניח שהציטוט הועתק כלשונו מהמאמר בו פורסם המחקר.

החיפוש הראשון היה אחרי המחקר קנדי שהוזכר שם. איזה מחקר קנדי? חיפוש בגוגל אחרי הביטוי Canadian study breast cancer הוביל אל כתב העת British Medical Journal, אחד מארבעת כתבי העת המובילים בעולם בתחום הרפואה. המחקר שכותרתו " Twenty five year follow-up for breast cancer incidence and mortality of the Canadian National Breast Screening Study: randomised screening trial" עקב במשך 25 שנה אחרי כ-89000 נשים בגילאי 40 עד 59 (בתחילת המעקב), שחלקן עברו ממוגרפיה וחלקן לא (( קרן לנדסמן סקרה את המחקר הזה בבלוג שלה: . אומר בנימוס כי אני לא מסכים עם הניתוח שלה )) . המסקנה:

"Annual mammography in women aged 40-59 does not reduce mortality from breast cancer beyond that of physical examination or usual care when adjuvant therapy for breast cancer is freely available"

יחס הסיכון (Hazard Ratio) הוא 0.99, עם רווח סמך של 0.88-1.12. יחס סיכון קטן מ-1 פירושו כי בפועל נצפו יותר מקרי מוות מסרטן השד אצל נשים שעברו ממוגרפיה, אבל זה רעש סטטיסטי. ובמילים פשוטות בעברית: אם יש טיפול זמין לסרטן השד, ונעשות בדיקות פיזיות רגילות לגילוי גושים חשודים בשד, לממוגרפיה אין ערך מוסף להורדת התמותה מסרטן השד. בצורה יותר בוטה: לפי המחקר הזה, הממוגרפיות לא מצילות חיים.

משפט מפתח שני אותו חיפשתי הוא:

"If we assume that screening reduces breast cancer mortality by 15% after 13 years of follow-up and that overdiagnosis and overtreatment is at 30%, it means that for every 2000 women invited for screening throughout 10 years, one will avoid dying of breast cancer and 10 healthy women, who would not have been diagnosed if there had not been screening, will be treated unnecessarily. Furthermore, more than 200 women will experience important psychological distress including anxiety and uncertainty for years because of false positive findings."

מה המשפט הזה אומר? אפילו אם מניחים כי ממוגרפיה שנעשית אחת לשנה במשך 13 שנה מקטינה את התמותה מסרטן השד ב-15% ((וספק אם זה אכן כך)), ואף מניחים כי אבחון היתר וטיפול היתר (( הנובעים מטעויות חיוביות שליליות )) הם ברמה של 30% ((ושוב, יש ספק גם לגבי הנתון הזה)), אזי אם 2000 נשים יעברו ממוגרפיה שנתית במשך 10 שנים, יינצלו חייה של אישה אחת. המחיר? 10 נשים יקבלו טיפול בלתי נחוץ לסרטן השד – כי הן לא חולות בסרטן השד – הן אבחנות חיוביות שליליות. איזה טיפולים? לא נאמר, אבל אפשר להעלות ספקולציות: ביופסיה, כריתה, כימותרפיה, הקרנות.

וזה לא הכל: עוד 200 נשים יחוו לחץ פסיכולוגי משמעותי כולל חרדה וחוסר וודאות במשך שנים רבות, וזאת בשל אבחנה חיובית שלילית. מדובר על נשים שקיבלו אבחנה חיובית שלילית, אך בבדיקה נוספת התבררה הטעות. למי שטוען כי לכאורה הכל בסדר אם הטעות התגלתה – המחקר הזה אומר: לא. לטעות יש נזק גם אם נמנע טיפול מיותר לסרטן.

מאיפה בא הציטוט הזה? לא מאתר פרסום ל-"טיפולים הוליסטיים וטבעיים". אלא מסקירה שיטתית של מחקרים שבוצעה במכון קוקריין שפורסמה ב-2013: Screening for breast cancer with mammography.

החיפוש אחר הציטוט האחרון הוביל אותי גם למאמר שהתפרסם בכתב העת New England Journal of Medicine, בשנת 2015, שכותרתו: "Benefits and harms of mammography screening". כבר מהכותרת אתם יכולים ללמוד שיש גם harm: בבדיקות הממוגרפיה יש לא רק תועלת, אלא גם נזק. המאמר סוקר מחקרים שנעשו להערכת שיעור הטעויות החיוביות שליליות של ממוגרפיות, שיעור הטיפולים המיותרים שנערכים עקב טעויות חיוביות שגויות ((הפתעה: השיעורים האלה גבוהים במיוחד בארצות הברית)), וגם של שיעור הטעויות השליליות השגויות (כלומר: לא אובחן סרטן, למרות שיש). המסקנה של החוקרים חד משמעית: הנזק של בדיקות הממוגרפיה גדול בהרבה מהתועלת. אם אלף נשים מתחילות לעבור ממוגרפיה דו שנתית החל בגיל 50, ימנעו שני מקרי מוות כתוצאה מסרטן השד. המחיר: ל-200 נשים מתוך 1000 יהיה אבחון חיובי שגוי. 30 נשים יעברו ביופסיה ללא צורך. 15 נשים יקבלו טיפול מיותר לסרטן שהן לא חולות בו. החוקרים לא דנים בנזקים הפסיכולוגיים האפשריים שייגרמו ל-185 נשים שקיבלו אבחנה חיובית שגויה אך איכשהו ניצלו מטיפול מיותר ומזיק.

לעשות ממוגרפיה או לא לעשות?

למרות כל מה שנכתב כאן, אין תשובות חד משמעיות. יש גם מחקרים שטוענים כי התועלת בממוגרפיה עולה על הנזק. אין מחלוקת בקרב הקהילה הרפואית כי ממוגרפיה טומנת בחובה גם נזקים. גם אין מחלוקת כי ממוגרפיה שנעשית מתחת לגיל 50 אינה יעילה אצל נשים שלא נמצאות בקבוצות סיכון ספציפיות. בהחלט יש מחלוקת בדבר היעילות של הממוגרפיות לאחר גיל 50. ההמלצה של רשויות הבריאות כיום היא לבצע ממוגרפיה דו שנתית החל מגיל 50. עם זאת, ישנם ארגונים ועמותות הממליצים על בדיקות ממוגרפיה בגילאים צעירים יותר ובתדירות גבוהה יותר (( לא ברור לי על סמך מה )).

הדבר הנכון שכל אשה צריכה לעשות זה להחליט בעצמה מה לעשות, רצוי מאוד בהתייעצות עם רופאה (או רופא), ותוך כדי בחינה של הנתונים, והערכת התועלת האישית שלה מול הנזק האישי שלה. על הרופאות, לעומת זאת, מוטלת חובה לתקשר את מאזן התועלת והנזק, כפי שתואר במאמר של הניו-אינגלנד שסקרתי זה עתה. האם הרופאות מודעות למחקר הזה ולמחקרים דומים, ויודעות לתקשר את הסיכונים? אני לא בטוח. באתר של עמותת "אחת מתשע" לא מצאתי אזהרות או אזכורים של הסיכונים האפשריים של בדיקות הממוגרפיה.

מה אפשר ללמוד מכל זה?

הנטייה לפסול אמירות שמקורן בקבוצות ופורומים של מתנגדי חיסונים, רפואה הוליסטית וכיוצא בזה היא מסוכנת. מי שמצוי בסוגיית החיסונים, וניזון ממקורות מידע אמינים, למשל מהאתר של עמותת מדעת, יכול לדחות טענות של התנגדות לחיסונים על הסף. אבל זה לא אומר שכל דבר צריך להיפסל על הסף, אפילו אם הוא נכתב על ידי מתנגד סיכונים.

גם הזלזול בכתבות מאתרים כמו healthy-holistic-living נקודה קום עלול להתגלות כבעייתי. נכון שבהרבה מאוד מקרים נכתבות שם שטויות, ואף נכתבים דברים מסוכנים: הומיאופתיה, התנגדות לחיסונים, ועוד. עם זאת, יש לנקוט גישה ספקנית וביקורתית: לקרוא בצורה ביקורתית, לברר האם יש אסמכתאות לטענות, ואז להעריך את מידת האמון שיש לתת בדברים. נכון, זה קשה, ולא לכל אחד יש את הרצון והיכולת. הבעיה היא שלפעמים אנשים שאין להם רצון או יכולת מסתמכים על הרגש כמו שקרה בתגובות לפוסט הזה. ואנשים שמסתמכים על הרגש ולא על הנתונים יש לנו מספיק בקבוצות כמו "חיסונים בחירה מושכלת".

הבהרה

למרות שבפוסט זה תמכתי בהודעה שהופיעה בקבוצת "חיסונים בחירה מושכלת", אין להסיק מכך שאני מתנגד לחיסונים מכל סוג שהוא. אדרבא.

נשלח: 23 בספטמבר, 2018 נושאים: בריאות, מדע, ניהול סיכונים, ספקנות.
תגובות: 6 | טראקבק

מה יקרה אם יורידו את אחוז החסימה?

מהו אחוז החסימה?

בבחירות לכנסת נהוג "". רשימה ששיעור הקולות שהיא קיבלה מתוך סך הקולות הכשרים נמוך מאחוז החסימה לא משתתפת בחלוקת המנדטים בכנסת.

לאחוז החסימה יש היסטוריה ארוכה. בבחירות לאסיפה המכוננת שהייתה לכנסת הראשונה אחוז החסימה לא נקבע במפורש, אם כי אחוז החסימה בפועל היה 1/121 כלומר כ-0.83%. החל מהכנסת השנייה ועד הכנסת ה-12 היה נהוג אחוז חסימה של 1%, למרות שבמשך השנים נעשו ניסיונות שלא צלחו להגדילן. בסופו של דבר הועלה אחוז החסימה במשך השנים ל-1.5%, לאחר מכן ל-2%, ולבסוף ל-3.25%.

למה רוצים לשנות את אחוז החסימה?

לפני כשבוע הודיע ראש הממשלה נתניהו כי הוא יוזם הורדה של אחוז החסימה בחצי אחוז, במטרה לעזור למפלגות הבינוניות והיותר קטנות להיכנס לכנסת. יש הטוענים כי היוזמה באה בעקבות סקרים שבהן שתי מפלגות המשתתפות כעת בקואליציה (ש"ס וישראל ביתנו) עלולות לא לעבור את אחוז החסימה בבחירות הבאות.

בנוסף, יש הטוענים כי אילו אחוז החסימה שנערכו ב-2015 היה 2%, אזי מפלגת הימין של אלי ישי, שקיבלה 2.97% מהקולות, הייתה נכנסת לכנסת עם 3 מנדטים, דבר שהיה מחזק את גוש הימין. כך, גוש הימין שמונה היום 67 מנדטים (כולל המנדט של אורלי לוי שפרשה מסיעת ישראל ביתנו, אך אני עדיין סופר אותה כימין), היה עשוי למנות 70 מנדטים, אילו התווספו לו 3 המנדטים האבודים של אלי ישי.

האם הורדת אחוז החסימה תחזיר לימין את שלושת המנדטים האבודים?

הקוראים הוותיקים של הבלוג הזה יודעים שהטענה הזו לא מדוייקת. כפי שההצבעה האסטרטגית או היעדרה בבחירות של שנת 2009 לא גרמו לגוש המרכז שמאל לאבד 3 מנדטים עקב 88000 קולות שניתנו למפלגות "מרכז שמאל" שלא עברו את אחוז החסימה, כך 125158 הקולות האבודים שקיבלה מפלגתו של אלי ישי לא גרמו לגוש הימין לאבד 3 מנדטים.

ההסבר הוא פשוט: לו מפלגתו של אלי ישי הייתה עוברת את אחוז החסימה, היו נדרשים יותר קולות עבור כל מנדט. בבחירות האחרונות, המפלגות שעברו את אחוז החסימה צברו בסך הכל 4021367 קולות. חלקו מספר זה ל-120, ותקבלו כי יש צורך ב-33511 קולות כדי לקבל מנדט אחד. הליכוד קיבל 985408 קולות, ואם נחלק מספר זה ב-33511 נקבל 29 מנדטים. (( הליכוד קיבל מנדט נוסף בזכות עודפי הקולות על פי חוק בדר-עופר. ))

אם מפלגתו של אלי ישי הייתה עוברת את אחוז החסימה, סך הקולות היה 4146525 קולות, ולכן עבור כל מנדט יש צורך ב-34554 קולות, ואז 985408 הקולות של הליכוד היו מספיקים ל-28 מנדטים בלבד.

מה באמת היה קורה אם אחוז החסימה היה יותר נמוך?

אפשר כמובן לערוך את חישובי המנדטים עבור כל המפלגות, ועבור מגוון של אחוזי חסימה אפשריים: 3.25%, 2%, 1%, וגם האחוז החדש המוצע על ידי ראש הממשלה – 2.75%. מעניין גם לראות מה היה קורה אילו לא היה קיים אחוז חסימה, כלומר אחוז החסימה היה 0%. זה לא אומר שכל רשימה שהתמודדה בבחירות הייתה זוכה לייצוג בכנסת. כדי לקבל מנדט צריך 30 ומשהו אלפי קולות, כך שמפלגת ברית עולם שקיבלה בבחירות האחרונות 761 קולות לא הייתה מקבלת ייצוג בכנסת גם אילולא היה קיים אחוז חסימה.

לשמחתכם, שלפתי את תוצאות הבחירות (קישור לקובץ הנתונים) ערכתי את החישובים, כולל התחשבות בהסכמי העודפים ובפרטי (קישור לתכנית R). הנה התוצאות:

			מנדטים על פי אחוזי חסימה שונים
מפלגה	קולות	אחוז מהקולות	3.25%	2.75%	2%	1%	0%
ליכוד	985408	23.4	30	29	29	29	29
מחנ"ץ	786313	18. 3	24	23	23	23	23
הרשימה המשותפת	446583	10.6	13	13	13	13	13
יש עתיד	371602	8.8	11	11	11	10	10
כולנו	315360	7.5	10	9	9	9	9
הבית היהודי	283910	6.7	8	8	8	8	8
ש"ס	241613	5.7	7	7	7	7	7
ישראל ביתנו	214906	5.1	6	6	6	6	6
יהדות התורה	210143	5.0	6	6	6	6	6
מרץ	165529	3.9	5	5	5	5	5
אלי ישי	125158	3.0	0	3	3	3	3
עלה ירוק	47180	1.1	0	0	0	1	1
גוש הימין			67	68	68	68	68

איזה מסקנות אפשר להסיק כאן?

המסקנה הלא מפתיעה היא שאחוז חסימה נמוך מיטיב עם המפלגות הקטנות, וזה בא כמובן על חשבון הגדולות. לו אלי ישי היה נכנס לכנסת עם שלושה מנדטים, הם היו נלקחים מהליכוד, מהמחנ"ץ, וממפלגת כולנו. אורן חזן לא היה נכנס לכנסת (( לפחות לא מייד )), וגם לא אייל בן ראובן ומירב בן ארי. גוש הימין אכן היה מתחזק, אבל לא בשלושה מנדטים אלא במנדט אחד בלבד. אילו אחוז החסימה היה נמוך דיו כדי לאפשר לעלה ירוק להיכנס לכנסת עם מנדט אחד, המנדט שלהם היה נלקח מיש עתיד. מיקי לוי היה נשאר בחוץ.

המסקנה השנייה, המעניינת לא פחות, היא שההשפעה של אחוז החסימה על הרכב הכנסת, ועל אותה ה-"משילות" שיש כאלה הנכספים אליה כל כך, היא שולית. ההבדל בין אחוז חסימה של 3.25% לאחוז חסימה נמוך יותר הוא שינוי של מנדט אחד לטובת גוש הימין, אבל בתמורה יש עוד מפלגה שצריך לנהל איתה משא ומתן קואליציוני

מה יקרה אם אחוז החסימה דווקא יועלה?

מה המניעים הפוליטיים של נתניהו לפעול להורדת אחוז החסימה? אין לדעת בוודאות. מבחינה רציונלית, כראש המפלגה הגדולה ביותר, הוא צריך לפעול דווקא להעלאת אחוז החסימה. מה היה קורה אילו אחוז החסימה היה 5% ולא 3.25%? כאן צריך לבדוק שני תרחישים.

התרחיש הלא סביר הוא לבדוק איך המנדטים היו מתחלקים על סמך התוצאות שהיו ואחוז החסימה המוגדל. בתרחיש כזה יהדות התורה ומרץ לא היו נכנסות לכנסת, בכנסת היו 8 מפלגות במקום 10, ולגוש הימין היו 67 מנדטים, בדיוק כמו שיש לו עכשיו.

התרחיש הסביר הוא תרחיש איחוד המפלגות. כשם ששלוש מבין המפלגות הערביות התאחדו והיו לרשימה המשותפת, כך היו נוצרים מן הסתם איחודים נוספים. לצורך התרגיל הנחתי את התרחיש הבא של רשימות משותפות הנוצרות על פי הסכמי העודפים שהיו בבחירות האחרונות לכנסת: (( אפשר כמובן להציג תרחישים אחרים. האם אלי ישי היה מתעקש לרוץ ברשימה עצמאית? ואם לא, האם היה פשוט מוותר או שמצטרף לרשימה אחרת? אתם מוזמנים לבדוק בעצמכם. ))

הליכוד + הבית היהודי
המחנ"ץ + מרץ
כולנו + ישראל ביתנו
ש"ס + יהדות התורה

חישוב המנדטים מניב "הפתעה גדולה": בכנסת יהיו אמנם 6 מפלגות במקום 1, אבל לרשימות של כל המפלגות המרכיבות את הקואליציה הנוכחית, כלומר לגוש הימין, יהיו 67 מנדטים. שוב, בדיוק כמו עכשיו.

אם לעומת זאת, אלי ישי ומצביעיו היו מצטרפים בתרחיש הזה לרשימה המשותפת של ש"ס ויהדות התורה, השפעת הקולות האלה גדולה מעט יותר. במקרה כזה, גוש הימין ימנה 69 מנדטים.

משחקי אחוז החסימה לא יגרמו שינוי מהותי

מכל התרגילים האלה ניתן להסיק כי תרגילי אחוז החסימה לא ישנו באופן משמעותי את המפה הפוליטית. בהנחה שלא תהיה תזוזה משמעותית של הציבור ימינה או שמאלה (( הנחה סבירה מאוד לדעתי )) – מה שהיה הוא מה שיהיה.

דיעה אישית

אני חצוי בדעתי בעניין אחוז החסימה. שינוי אחוז החסימה הוא שינוי בחוק יסוד הכנסת, כלומר שינוי חוקתי. אני סבור ששינוי חוקתי לפי צרכים פוליטיים הוא פסול. מהנימוק הזה התנגדתי להעלאת אחוז החסימה מ-2% ל-3.25% לפני מספר שנים, ועכשיו אני מתנגד ליוזמה להוריד אותו לרמה יותר נמוכה של 2.75% כפי שמציע ראש הממשלה. ומי שחושב שהשינוי המוצע לא נובע ממניעים פוליטיים אלא ממניעים אחרים, יואיל נא להסביר לי מה מיוחד כל כך ב-2.75%.

מצד שני, אני חושב שמצב בו 125 אלף איש לא זוכים לייצוג בכנסת הוא בלתי נסבל, וגם לא מצב שבו 47 אלף איש לא זוכים לייצוג בכנסת. בישראל יש קרוב ל-6 מיליון בעלי זכות בחירה. נחלק מספר זה ל-120 ונקבל 50 אלף. בבחירות האחרונות הצביעו כ-4.2 מיליון איש. חלוקת מספר זה ב-120 תיתן 35 אלף. אני מתנגד בתוקף לעמדות מפלגתו של אלי ישי ומפלגת עלה ירוק, כמו שאני מתנגד לא פחות בתוקף לעמדות של עוד מפלגות (( רובן, למעשה, כמו כמעט כל אחד )) . אבל למפלגות האלה יש תומכים, וכל עוד הן אינן נפסלות לפי תיקון מספר 9 ל, הן ראויות לייצוג (( שוב, אפשר להתווכח האם יש לפסול מפלגה או לא לפסול אותה על פי חוק יסוד הכנסת. שתי המפלגות האלה לא נפסלו מלהשתתף בבחירות האחרונות )).

ההצעה שלי היא לכן לבטל את אחוז החסימה, או לקבוע רף נמוך מאוד של אחוז אחד לכל היותר, ולשריין את הסעיף הזה בחוק היסוד. זה יאפשר ייצוג נכון יותר של ציבור הבוחרים.

אני דוחה מכל וכל את כל טענות ה-"משילות" למיניהן שבוודאי יעלו. אמנם באחוז חסימה בגובה 5% רק כ-6 רשימות יקבלו ייצוג בכנסת, אבל זה לא אומר שיהיו רק 6 מפלגות. מי ימנע מהרשימה המשותפת של ש"ס ויהדות התורה למשל מלהתפצל לשתי מפלגות מיד לאחר הבחירות? גם ללא פיצול, אפשר לראות כבר היום איך רשימות משותפות מתנהלות. למפלגת בל"ד, שהיא חלק מהרשימה המשותפת, יש סדר יום משלה, שלא תואם את סדרי היום של חד"ש ושל רע"ם-תע"ל (( שגם היא שידוך של שתי מפלגות )). אפשר לראות את זה גם במפלגת הבית היהודי, שהיא רשימה משותפת למפלגות המפד"ל (( זוכרים אותה? )) ותקומה, ובמידה פחותה גם במחנ"ץ, שהוא רשימה משותפת למפלגת העבודה ולתנועה של ציפי לבני. גם יהדות התורה היא תוצר של אינטרסים ומאבקי כוח בפוליטיקה החרדית, ולא מפלגה אורגנית. ראש הממשלה יצטרך להמשיך ולהתמודד עם כל אותן בעיות שיש לו היום. הוא בקושי מצליח להסתדר עם אורן חזן, ומפלגות גדולות יביאו לכנסת עוד אורן חזנים. (( ואעיר שעם כל הסלידה שיש לי מהאיש, מהתנהגותו ובעיקר מדעותיו, אני מעריך את העובדה שהוא מציג לעיתים את עמדותיו העצמאיות, ולא אומר הן על כל מה שמוכתב מלמעלה. ))

נכון שלפעמים היתוך של כמה מפלגות מצליח בצורה כזו או אחרת. כך למשל היה תהליך מתמשך שעברו המפלגות הסוציאליסטיות של פעם, שהתמזגו לבסוף והיו למפלגת העבודה, וההיתוך של שלוש המפלגות שמהן הורכבה מרץ. לפעמים מפלגה אחת בולעת את השותפות שלה, כמו שהמפלגה הליברלית, המרכז החופשי והרשימה הממלכתית (( זוכרים אותן? )) נבלעו בתוך תנועת החירות תחת השם "ליכוד". יש עוד דוגמאות. הנקודה היא שתהליכים כאלה לוקחים זמן, והם נובעים כמעט תמיד מהסכמות פוליטיות, ולא מאילוצים מלאכותיים של אחוז חסימה.

נשלח: 20 בספטמבר, 2018 נושאים: על סדר היום.
תגובות: 1 | טראקבק

איך לגרום לילדים לאכול יותר ירקות

נתחיל מהסוף: אני לא יודע איך לגרום לילדים לאכול ירקות. לפחות עם הילדים שלי, ההצלחה היא מועטה. אבל לשני חוקרים מאוניברסיטת קולורדו היה רעיון: נגיש להם את הירקות בצלחות עם ציורים של ירקות. כדי לבדוק האם הרעיון עובד הם ערכו ניסוי שתוצאותיו פורסמו בכתב העת היוקרתי JAMA Pediatrics. מכיוון שהתוצאות פורסמו אתם יכולים לנחש כי התוצאה של הניסוי הייתה חיובית. אבל, האם הם באמת הוכיחו כי הרעיון שלהם עובד? לדעתי לא, וזו תוצאה ישירה של התכנון הלקוי של הניסוי.

תכנון הניסוי ותוצאותיו

נבחרו 18 כיתות גן ובית ספר (ילדים בגיל 3-8) באחד מפרוורי דנוור. בתחילה הוצעו לילדים פירות וירקות כאשר סופקו להם צלחות לבנות. בכל כיתה הונחו קערת פירות וקערת ירקות, וכל ילד לקח לעצמו פירות וירקות, ואכל מהם כרצונו. המשקלים של הירקות והפירות נרשמו לפני שהוגשו לילדים, ולאר שהילדים סיימו את ארוחתם החוקרים שקלו את הפירות והירקות שנותרו. ההפרש בין המשקלים (לפני הארוחה ואחריה) חולק במספר הילדים, וכך התקבלה הכמות הממוצעת של פירות וירקות שכל ילד אכל. נעשו גם חישובים לפירות לחוד ולירקות לחוד. החוקרים חזרו על המדידות האלה שלוש פעמים בכל כיתה.

לאחר זמן מה חזרו על המדידות באותו אופן, כאשר הפעם סופקו לילדים צלחות שעליהן ציורים של ירקות ופירות. התוצאה: חלה עליה ממוצעת של 13.82 גרם בצריכת הירקות, ותוצאה זו מובהקת סטטיסטית. באחוזים, כמו ביידיש, זה נשמע הרבה יותר טוב: זו עליה של כמעט 47%.

אז מה הבעיה? יש מספר בעיות.

בעיה ראשונה – דיוק יתר

אתחיל במה שהוא לכאורה לא בעיה, אבל מהווה אות אזהרה: דיוק יתר. כאשר מתפרסמות תוצאות מדוייקות במיוחד, צריך להתחיל לדאוג. בעברית יש בעיה עם הבעיה הזו: יש רק מילה אחת לתיאור דיוק. באנגלית יש שתיים: precision ו-accuracy. הבדל הוא מהותי. precision מתייחס לרמת הדיוק המדווחת של המדידות. accuracy מתייחס למרחק בין הערך הנמדד והערך האמיתי, הבלתי נצפה, ונמדד בדרך כלל על ידי סטיית תקן או רווח סמך. התוצאות מדווחות ברמה של שתי ספרות אחרי הנקודה: הן מאוד precise. אני לא אומר שזה לא חשוב, אבל מהניסיון שלי, כשמגזימים צריך לבדוק בצורה יותר יסודית מה קורה. דיוק של שתי ספרות אחרי הנקודה העשרונית כשמדובר בגרמים נראה לי מוגזם. אתם כמובן יכולים לחשוב אחרת, אבל זה אות האזהרה שגרם לי לקרוא את המאמר עד סופו ולחשוב על מה שתואר בו .

בעיה שניה – על מי הניסוי נערך?

הבעיה השנייה היא הרבה יותר מהותית: הבחירה של יחידת הניסוי, מה שמכונה ה-experimental unit או unit of observation. יחידות הניסוי כאן הן הכיתות. התצפיות נעשו ברמת הכיתה. החוקרים מדדו כמה ירקות ופירות נאכלו ברמת הכיתה, לא ברמת הילד. הם אמנם חישבו ממוצע לילד, אבל אני מניח שכולם יודעים שהממוצע לבדו הוא מדד בעייתי: הוא מתעלם מהשונות בין הילדים. לפני ההתערבות הניסויית, כל ילד אכל בממוצע כ-30 גרם ירקות בארוחה, אבל אני לא חושב שיהיה מי שיחלוק על האמירה כי כל ילד אכל כמות שונה של ירקות. מהי סטיית התקן? אנחנו לא יודעים, והחוקרים לא יודעים, וזה מהותי, כי השונות שבין הילדים משפיעה על המסקנה הסופית. מכיוון שהחוקרים התעלמו (ולא משנה מה הסיבה) מהשונות בין הילדים, הם הניחו למעשה כי השונות היא נמוכה מאוד, למעשה אפס. אם השונות הזו הייתה נלקחת בחשבון המסקנות של הניסוי היו אחרות: רווחי הסמך בוודאי היו שונים, ויותר רחבים מרווחי הסמך שחישבו החוקרים.

עוד סוג של שונות שלא נלקח בחשבון היא השונות בתוך ילדים. אסביר: גם אם צפינו בילד אחד וראינו כי בממוצע הוא אוכל 30 גרם ירקות בכל ארוחה, בארוחות שונות הוא אוכל כמות שונה של ירקות. ושוב נשאלת השאלה: מה סטיית התקן? גם לסטיית תקן זו יש השפעה על המסקנה הסופית של הניסוי. כמובן, לכל ילד יש סטיית תקן שונה, וגם את השונות הזאת צריך לקחת בחשבון.

סוג שלישי של שונות שלא נלקח בחשבון הוא השונות שבין ילדים בגילאים שונים: סביר להניח שילד בן 8 יגיב בצורה שונה לצלחת מצויירת מאשר ילד בן 3. בוודאי ילד בן 8 יאכל יותר ירקות מאשר ילד בן 3. החוקרים התעלמו גם מהשונות הזו.

אני סבור כי החוקרים לא נתנו דעתם על כל השונויות האלה. המילים variation, adjust או covariate לא מופיעות במאמר. מכיוון שהחוקרים התעלמו מהשונויות רווחי הסמך שלהם צרים מדי ולא משקפים את ההבדלים האמיתיים בין הילדים ובין סוגי הצלחות.

ולבסוף, למרות שהיחידה הניסויית הייתה הכיתה, התוצאות דווחו כאילו המדידות נעשו ברמת הילד. זו לדעתי עדות נוספת לכך שהחוקקים לא היו מודעים לשונויות שבין ובתוך הילדים. לדידם, כיתה וילד הם היינו הך.

בעיה שלישית – מה עם הביקורת?

בניסוי הזה אין קבוצת ביקורת. לכאורה אין בעיה: על פי תכנון הניסוי, כל כיתה מהווה את קבוצת הביקורת של עצמה. הרי הילדים קיבלו את הירקות גם בצלחות לבנות וגם בצלחות עם ציורי ירקות ופירות. אבל לדעתי זה לא מספיק.

יש המון סוגים של צלחות לילדים, עם ציורים של בוב הבנאי, דמויות דיסני, מפרץ ההרפתקאות, תומס הקטר, והרשימה עוד ארוכה. האם יכול להיות שהשינוי שנצפה הוא בגלל עצם הציורים עצמם ולא בגלל שמדובר בציורים של ירקות ופירות? אולי ילד שארוחתו מוגשת בצלחת עם ציורים של גיבור העל החביב עליו יאכל גם הוא יותר ירקות? זו שאלה שצריכה להישאל, והניסוי שנערך לא עונה על השאלה הזו. קבוצת ביקורת יכולה לענות על השאלות הלאה. לדעתי דרושות בניסוי כזה שתי קבוצות ביקורת. באחת מהן הילדים מקבלים בתחילה צלחות לבנות, ולאחר מכן צלחות של תומס הקטר, דיסני או גיבורי על, בהתאם לגילם. בקבוצת הביקורת השנייה יהיו ילדים שבתחילה יקבלו צלחות מצויירות "רגילות" (( שוב: דיסני, תומס הקטר וכדומה )) ולאחר מכן צלחות עם ציורים של ירקות ופירות.

בעיה רביעית – מה המשמעות של כל זה?

קודם כל, מתברר כי נצפה שינוי מובהק סטטיסטית לגבי צריכת הירקות, אך לא נצפה שינוי מובהק סטטיסטית לגבי הפירות. החוקרים התייחסו לכך במשפט קצר: הסבר אפשרי, הם אמרו, הוא ceiling effect. באופן פורמלי הם צודקים. ceiling effect הוא מונח סטטיסטי, וזה מה שקרה כאן. לשאלה החשובה באמת הם לא ענו: מדוע נגרם האפקט הזה?

והשאלה הכי חשובה: האם השינוי המובהק הוא גם משמעותי? מה המשמעות של הבדל של 14 גרם (סליחה, 13.82 גרם?) החוקרים לא התייחסו לשאלה הזו. אני אתן לכם קצת חומר למחשבה. הלכתי לסופרמרקט ושקלתי שם מלפפון אחד ועגבנייה אחת (כן, זה מדגם קטן, אני יודע). משקלו של המלפפון היה 126 גרם, ומשקל העגבנייה היה 124 גרם (( למרבה הצער, למאזניים של שופרסל יש דיוק/precision מוגבל )). זאת אומרת, כל ילד אכל בממוצע עוד חצי ביס של עגבנייה או מלפפון. יכול להיות שזה אכן משמעותי מבחינה בריאותית ו/או תזונתית. החוקרים לא התייחסו לשאלה הזאת וגם לא העורכים של כתב העת.

סיכום

יכול להיות שצלחות עם ציורי ירקות ופירות גורמות לילדים לאכול יותר ירקות ופירות. זו אכן השערה מעניינת. המחקר שתואר כאן לא נותן תשובה לשאלה הזו. האופן שבו הוא תוכנן ובוצע כלל לא מאפשר לקבל אפילו תשובה חלקית לשאלה הזו, וזאת ככל הנראה בשל העדר חשיבה סטטיסטית בסיסית.

Levy J. Comments Regarding Nutrition Study Among Preschool Children. JAMA Pediatr. 2019;173(3):293. doi:10.1001/jamapediatrics.2018.5038

נשלח: 1 בספטמבר, 2018 נושאים: בריאות, סטטיסטיקה רעה, ספקנות.
תגובות: 2 | טראקבק

נסיכת המדעים בפייסבוק

ברצוני להזמין אתכם לעקוב אחרי הדף של נסיכת המדעים בפייסבוק.

לעיתים קרובות אני נתקל בידיעה או קישור מעניין שמשיקים באופן כלשהו לסטטיסטיקה, אבל לא מצדיקים כתיבת רשימה כאן. במקרים האלה אני מפרסם פוסט קצר בדף הפייסבוק של נסיכת המדעים. כמו כן יש קבוצה המקושרת לדף בשם "מדברים על סטטיסטיקה" בה אתם מוזמנים להעלות נושאים משלכם לדיון.

אם אתם בפייסבוק, חפשו שם את נסיכת המדעים.

נשלח: 30 באוגוסט, 2018 נושאים: כללי.
תגובות: אין | טראקבק

גרפים בעייתיים במחקר פערים דיגיטליים

בתאריך 17.8.2018 הופיעה במוסף של העיתון כלכליסט כתבה על מחקר שעסק בפערים הדיגיטליים בישראל. בכתבה הוצגו מספר גרפים שהם עיבודים של גרפים שהופיעו בדו"ח המחקר המקורי (קישור לקובץ pdf). ברשימה זו אתייחס לגרפים בלבד ולא לממצאי המחקר עצמו. מטעמי נוחות אציג את הגרפים שפורסמו בכתבה עם הפניה לגרפים המקוריים בדו"ח המחקר.

הגרף הראשון מתאר את ההבדלים בצריכת התוכן בהתאם להבדל בהכנסה ((הגרף המקורי הוא גרף מספר 10 בדו"ח, עמוד 59. יש בדו"ח עוד גרפים דומים)).

ציר ה-Y בגרף מציין את אינדקס ריכוזיות התוכן ((אין לי מושג מה זה אומר וכיצד האינדקס מחושב)). בציר X מופיעות כל מיני קטגוריות: זכויות חברתיות, הימורים, רשתות חברתיות, יוטיוב, שירותים, ספורט ועוד. אלה הן למעשה קטגוריות של משתנה המתאר סוגי תוכן. זהו משתנה בסולם מדידה קטגוריאלי/שמי. אין סדר בין הקטגוריות. למרות זאת, עורכי הגרף סידרו את הקטגוריות בסדר מסויים, וכך הגרף יותר אשליה של סדר. די ברור כי הסדר של הקטגוריות נקבע על פי ההפרשים בין האינדקסים לשתי קבוצות האוכלוסייה – מהגבוה ביותר לנמוך ביותר – ראו הסבר מפורט יותר בתגובות (( למי שלא השתכנע מומלץ לעיין בגרפים הדומים שמופיעים בדו"ח המקורי )) . המטה של יוצרי הגרף הייתה להראות כי לבעלי שכר ממוצע ומטה יש ריכוזיות תוכן גבוהה יותר בקטגוריות מסויימות בעוד שלבעלי שכר גבוה יש ריכוזיות תוכן בקטגוריות אחרות. עד כאן זה בסדר, אבל מה המשמעות של זה? מה אנחנו יכולים ללמוד מהגרף? העורך של הכתבה נתן פרשנות אפשרית: "העשירים מחפשים דירה, העניים מחפשים זוגיות", אבל אני מקווה שברור לכולם שזו פרשנות פשטנית, שלא לומר דמגוגית. מה המשותף לכל הקטגוריות שבהן נמוך יותר כשמדובר בבעלי שכר גבוה? אני לא רואה שום דבר משותף בין יוטיוב וחיפוש עבודה. ברור לחלוטין שהסדר בין הקטגוריות נקבע על פי הפערים בין שתי שכבות ההכנסה. לראיה: בגרפים דומים אחרים בדו"ח הסדר בין הקטגוריות הוא ששונה, אבל התמונה נשארת דומה: קו אחד עולה מימין לשמאל, השני יורד.

מה המשמעות של קו עולה לאורך הקטגוריות? ככל שקטגוריית הגלישה היא יותר "משהו" כך האינדקס גבוה יותר. אבל מהו המשהו הזה? לא ברור.

בעיה שניה בגרף: ציר ה-X מציין קטגוריות בדידות, אבל הקווים הם רציפים. המשמעות בעייתית. לדוגמה: האינדקס עבור זכויות חברתיות לבעלי שכר גבוה הוא 0.25, ובקטגוריית ההיכרויות הוא בסביבות 0.4. הקו הרציף בים 0.25 ל-0.4 עובר דרך 0.33 (( זה בערך הממוצע של 0.25 ו-0.4)). מה מציין האינדקס של 0.33? אם הקו רציף, אז האינדקס הזה צריך להתייחס לאיזשהו ערך בציר-X שנמצא בין הזכויות החברתיות וההיכרויות. אבל אין קטגוריה כזו.

הדרך העדיפה להצגת נתונים כאלה היא על ידי דיאגרמת עמודות. ניתן גם לקבץ קטגוריות דומות יחד ולהציג את האינדקס לכל אחת מהקבוצות בקטגוריה המאוחדת. כך, למשל, אפשר אולי לאחד קטגוריות כמו יוטיוב, בידור, תוכן למבוגרים והימורים לקטגוריית על של "פעילות פנאי". (( אל תיתפסו לדוגמה, זו רק דוגמה ואפשר לעשות את זה אחרת)) , ואילו קטגוריות כמו פיננסים, נדל"ן וחיפשו עבודה יכולות להיות מאוחדות אולי לקטגוריית כלכלה. כך אפשר להציג גרף עמודות, שבו בציר ה-X יוצגו הקטגוריות המקובצות לפי סדר קבוע (למשל סדר אלפביתי), וערכי האינדקס עבור שתי קבוצות ההכנסה יוצגו זה לצד זה, לדוגמה: ((אפשר כאמור להציג את כל הקטגוריות המקוריות, אך כך ייווצר גרף עמוס יותר ויותר קשה להבנה))

לגרף השני שהוצג בכתבה יש בעיה דומה (( הגרף המקורי הוא גרף מספר 4 בדו"ח, עמוד 46 )) :

כאן אמנם הקטגוריות לא מוצגות כמשתנה רציף כמו בגרף הקודם, אך הסדר ביניהן עדיין נקבע על פי הפערים (המקרה זה בין גברים ונשים). (( זה קורה גם בגרפים דומים אחרים בדו"ח)) הפרשנות שנתן העורך לנתונים שוב פשטנית, אבל זו לא הנקודה. האם ניתן למצוא מכנה משותף בין הקטגוריות שבהן צריכת התוכן של נשים גבוהה יותר מזו של גברים, למשל בריאות ועסקים ותעשייה? אולי כן, אני לא רואה איך. בדו"ח לא ניתן הסבר.

שוב, הדרך הנכונה להציג את הנתונים היא על ידי גרף דומה לה שהראיתי למעלה, עמודות המוצגות זו לצד זו, ללא הנחת סדר בין הקטגוריות.

אני רוצה להודות לידידי גיל גרינגרוז שהפנה את תשומת ליבי לכתבה.

פניתי לפרופסור רפאלי וביקשתי את התייחסותו. אשמח לפרסם אותה כאשר תתקבל.

נשלח: 26 באוגוסט, 2018 נושאים: ויזואליזציה, סטטיסטיקה רעה.
תגובות: 7 | טראקבק

ניתוח השפעה של אירוע על נתונים לאורך זמן – Interrupted Time Series

בפוסט קודם ניתחתי מה קרה לשיעורי תאונות הדרכים בישראל בתקופת כהונתו של ישראל כץ כשר התחבורה.

כדי לענות על שאלות גון אלה – מה קורה לתופעה כזו או אחרת לאורך זמן – מומלץ להשתמש בשיטות סטטיסטיות לניתוח סדרות עיתיות (Time Series). סדרה עיתית היא סדרה של נתונים שנאספים לאורך זמן: שבועות, חודשים ואפילו שנים. ניתן גם לבדוק את השפעתו של שינוי מסויים שחל במהלך הזמן (המהווה הפרעה למגמת הסדרה), כמו שינוי קיצוני במזג האוויר, כניסת מתחרה חדש לשוק, או מינוי של שר, בעזרת טכניקה הנקראת "ניתוח סדרות עיתיות מופרעות", או באנגלית Interrupted Time Series או פשוט ITS.

ברשימה זו אסביר את הרעיונות המרכזיים של שיטת ה-ITS שבעזרתה ניתחתי את נתוני תאונות הדרכים בישראל.

דוגמה: החזרי הוצאות עבור רכישת תרופות אנטי פסיכוטיות למבוטחי מדיקייד במערב וירג'יניה

תכנית מדיקייד היא תכנית ביטוח ממשלתית לבעלי הכנסות נמוכות בארצות הברית, ובין היתר משתתפת בהוצאות לרכישת תרופות של המבוטחים. בתחילת שנות ה-2000, כאשר נכנסו לשוק תרופות אנטי פסיכוטיות מהדור השני, שהן גם יקרות יותר, חלה עלייה משמעותית בהחזרי התשלומים עבור התרופות האנטי פסיכוטיות, כיוון שכ-50% מהמרשמים היו לתרופות מהדור השני. רשויות המדינה אינן יכולות, כמובן, לאסור על הרופאים לרשום לחולים תרופות מסויימות. במדינת מערב וירג'יניה החליטו להתחכם ולהוסיף ביורוקרטיה. החל מאפריל 2003, רופא במדינה שרצה לרשום לחולה שמבוטח במדיקייד תרופת דור שני, היה צריך למלא טופס. הנה גרף המראה את אחוז המרשמים של תרופות דור שני מתוך סך המרשמים לתרופות אנטי פסיכוטיות לאורך זמן, כאשר הקו האנכי המקווקו מסמן את המועד בו הונהגה חובת מילוי הטופס: (( מקור: Law , Ross-Degnan and Soumerai SB, Effect of prior authorization of second-generation antipsychotic agents on pharmacy utilization and reimbursements, Psychiatr Serv. 2008 May;59(5):540-6. ))

ברור לחלוטין שמשהו קרה, אבל הסטטיסטיקה יכולה לתת לנו מבט יותר מעמיק.

הרעיון הוא מאוד פשוט – נעביר שני קווי רגרסיה: קו אחד יותאם לנתונים שלפני השינוי, וקו אחר לנתונים לאחריו (( היישום קצת פחות פשוט, ומייד אפרט למי שמעוניין )). הנה הגרף עם קווי הרגרסיה:

כעת ניתן לראות כמה דברים. ראשית, אחרי ההתלהבות הראשונית נראית מגמה של ירידה, אמנם איטית מאוד, באחוז המרשמים לתרופות דור שני. כמובן שיש לבדוק האם ירידה זו היא מובהקת סטטיסטית (היא לא) ולקבוע האם היא משמעותית (כנראה שלא, אחרת לא היה צריך להפעיל את מדיניות הטופסולוגיה).

שנית, אנו רואים מין ירידת מדרגה קטנה בין הרבעון האחרון שלפני הנהגת המדיניות החדשה והרבעון הראשון לאחר הנהגתה. שוב, ניתן וצריך לבדוק האם זוהי ירידה מובהקת (היא כן) ומשמעותית (לא ברור).

שלישית, ברור לחלוטין שהנהגת המדיניות הביאה לירידה משמעותית ומובהקת באחוז המרשמים לתרופות דור שני.

הקו הירוק מראה את ה-counterfactual, תרחיש ה-"מה היה קורה אילו" לא הונהגה מדיניות מילוי הטפסים. את הצלחת המדיניות מודדים על ידי ההבדל (המוחלט או היחסי) בין מה שקרה בפועל ובין ה-counterfactual.

המודל הסטטיסטי

הדבר הראשון שיש לשים אליו לב הוא שבניגוד למודל רגרסיה רגיל, הנתונים כאן אינם בלתי תלויים אחד בשני. בנתונים של סדרות עיתיות יש בדרך כלל קשר סטטיסטי בין הנתון של נקודת זמן מסויימת והנתון של נקודת הזמן הבאה, ואולי אפילו לנתונים של נקודות זמן רחוקות יותר.התופעה הזאת נקראת אוטוקורלציה. לכן, לפני שמריצים מודלים של רגרסיה, צריך לחקור את הקשרים בין הנתונים לאורך זמן. ברשותכם לא אכנס לפרטים, אך אציין כי קשרים אלה נלקחים בחשבון בהמשך הניתוח.

כמון כן, ציינתי קודם שמעבירים שני קווי רגרסיה, אך אומדים אותם במודל אחד, בן ארבעה פרמטרים: הפרמטר הראשון הוא הגובה בו מתחילה סדרת הנתונים ("החותך"). הפרמטר השני הוא השיפוע, כלומר המגמה, של הנתונים לפני נקודת השינוי. הפרמטר השלישי הוא הקפיצה או הפער בין הנקודה אליה הגיעה הסדרה ממש לפני השינוי ובין הנקודה הראשונה אחרי השינוי. הפרמטר האחרון הוא הרבה פחות אינטואיטיבי: זהו ההפרש בין המגמה של הנתונים לפני השינוי והמגמה שלאחר השינוי. השרטוט הבא מנסה להבהיר את המשמעות של ארבעת הפרמטרים ((השרטוט נלקח מהשקפים של הקורס Policy Analysis using Interrupted Time Series שזמין ברשת באתר edX))

לאחר שאומדים את הפרמטרים של המודל אפשר לבדוק בעזרת שיטות סטנדרטיות האם השינויים הם מובהקים, וכן להעריך האם הם גם משמעותיים.

נשלח: 27 ביולי, 2018 נושאים: מה אומרת הסטטיסטיקה.
תגובות: 1 | טראקבק

איך חוזים תוצאה של מונדיאל?

עכשיו, כשנאלמה תרועת הפסטיבלים והמונדיאל הסתיים, זה זמן טוב לדבר על כל המודלים שסיפקו תחזיות מונדיאל ועל מודלים של תחזיות בכלל.

ברשימה זו אסקור את הבסיס למודלים שניסו לחזות את תוצאות המונדיאל, ומשם אעבור לדיון בחלק מהתכונות של מודלים לחיזוי, במשמעות של החיזוי ובמגבלות של המודלים האלה.

איך חוזים תוצאה של מונדיאל?

הסקירה הזו מתבססת בחלקה על המאמר הזה שפורסם באקונומיסט לפני פתיחת המונדיאל של 2018 ((תודה לצליל אברהם שהפנתה את תשומת ליבי אליו)).

כדי לחזות את התוצאה של המונדיאל (או כל טורניר ספורט אחר) יש צורך במספר שלבים. ראשית, צריך לדרג באופן כלשהו את הנבחרות/קבוצות המשתתפות בטורניר ואת הבדלי הרמות ביניהן. בשלב השני צריך לספק הערכה/חיזוי לתוצאות של משחקים ספציפיים ((גרמניה מול מקסיקו, מישהו? תיכף נדבר על זה)), ובשלב השלישי לנסות לחזות על סמך החיזויים של תוצאות המשחקים את המנצחת הסופית. המאמר שפורסם באקונומיסט מתעמק בעיקר בשלב הראשון.

שלב ראשון: דירוג הנבחרות

יש שתי דרכים לדרג את האיכות של נבחרת או קבוצת ספורט: על ידי הערכת ביצועי הקבוצה, או על ידי הערכת ביצועי השחקנים.

להערכת ביצועי הקבוצה משתמשים בעיקר במודלים מסוג Elo , מודל שפותח במקור עבור משחק השחמט. הרעיון הוא שכל קבוצה מקבלת ניקוד על כל משחק שהיא שיחקה, אבל בניגוד לליגה או לטורנירים שבהם מקבלים 3 נקודות על כל ניצחון, לא משנה באיזה משחק, ב- Elo הניקוד משתנה בהתאם ליריבה, מיקום המשחק, חשיבותו, וכדומה. אם למשל גרמניה מנצחת את סעודיה במשחק ידידות שנערך בלוורקוזן, הניצחון הזה לא שווה הרבה נקודות, כי היריבה נחותה, המשחק לא ממש חשוב, וגרמניה שיחקה במגרש הביתי. לעומת זאת, ניצחון על ברזיל, במשחק שנערך בברזיל, במסגרת חצי הגמר של המונדיאל, שווה הרבה מאוד נקודות. יש כל מיני וריאציות למודל, מה שמסביר חלק מההבדלים בניבויים השונים. למודלים שונים יש מפתח נקודות שונה, ויש גם מודל שנותן ניקוד לא על פי תוצאת המשחק אלא על פי מספר השערים שהובקעו, וכך ניצחון בתוצאה 7:1 שווה הרבה יותר מניצחון 1:0. כמו כן, צריך להחליט על איזה אופק זמן מסתכלים. יכול להיות משחק ששוחק במונדיאל מקסיקו 70 או אפילו בדרום אפריקה ב-2010 כבר לא ממש משמעותי. עם זאת, באחת הכתבות תואר מודל שלקח בחשבון את כל התוצאות מאז המונדיאל הראשון שנערך ב-1930. אני מניח שהמודלים משקללים את המשמעות של כל משחק בהתחשב בזמן שעבר.

הדרך השנייה היא להעריך כל שחקן לחוד, ואז לקבל הערכה של הקבוצה כסך כל שחקניה. יש כל מיני דרכים לעשות את זה. אפשר למדוד את הביצועים של כל שחקן בכל משחק (כמה מסירות טובות הוא מסר, כמה תיקולים מוצלחים וכדומה). לדעתי צריך לקחת בחשבון גם פעולות שהשחקן לא עשה ואולי היה צריך לעשות (לא ברור לי אם יש בכלל נתונים כאלה). כמו כן, יש דברים ששחקנים תורמים לקבוצה ולא ניתנים למדידה – מנהיגות למשל.

דרך אחרת היא לבדוק מה היו ביצועי הקבוצה כשהשחקן שיחק בהרכב ומה הם היו כשהוא לא שיחק. בכדורגל זה פחות יעיל כי יש יחסית מעט משחקים, יש מעט חילופים, ובדרך כלל אין הרבה שינויים בהרכבים. עם זאת, זו שיטה מאוד מקובלת ויעילה בענפים כמו כדורסל ובייסבול.

ראיתי באחת הכתבות גם מודל שהכניס לשקלול את משכורות השחקנים. המודל הזה חזה שצרפת תזכה בטורניר, ואנחנו כבר יודעים שהוא צדק. זה לא בהכרח אומר שהוא מודל טוב. אם יש הרבה מודלים, אז הסיכוי שאיזשהו מודל יצדק הוא לא נמוך. זה כמו בלוטו. הסיכוי שאתה תזכה בפרס הגדול הוא קטן, אבל הסיכוי שמישהו יזכה הוא מאוד גבוה. עם זאת, אין להבין מדבריי כי אני חושב שזה מודל לא טוב. האמת היא שאי אפשר לקבוע.

אפשר גם לשקלל את את הערכת הנבחרת עם הערכת השחקנים, ויש כל מיני שקלולים: 50-50, 75-25 וכולי. זה כנראה לא כל כך משנה. לפחות לפי הנתונים שהובאו באקונומיסט, יש מתאם גבוה בין שתי שיטות ההערכה:

שלב שני: חיזוי תוצאות של משחקים

אחרי שיש לנו מדד שמעריך את האיכות של כל נבחרת, אפשר להתחיל לדבר על חיזוי תוצאות של משחקים. שוב, יש כל מיני דרכים לעשות את זה, אבל העיקרון דומה. לוקחים נתונים של המון משחקים שרלוונטיים בעינכם. אתם יכולים לקחת את הנתונים של המשחק בן גרמניה וסעודיה שנערך בלוורקוזן ביוני 2018 (גרמניה ניצחה 2:1), וגם את המשחק בין גרמניה והולנד בגמר מונדיאל 1974 (מצטער שאני משבית שמחות). לכל משחק הנתונים יכולים לכלול כל מיני פרטים שנראים חשובים למי שבונה את המודל – כגון הערכת הנבחרות לפי מודל Elo כזה או אחר, מקום משחק, חשיבותו, מסורת ניצחונות, מזג האוויר, המשכורת של השחקנים, או מספר הנעליים של השוער. אלה הם המשתנים המסבירים. לכל משחק יש גם תוצאה – זה המשתנה המוסבר, ויש שלוש תוצאות אפשריות. אפשר לשפוך את כל הנתונים לתוך אלגוריתם שמיישם מודל – רגרסיה לוגיסטית, random forest, דיפ לרנינג, מה שבא לכם.

לאחר שאמדתם את הפרמטרים של המודל (( או כמו שאנשי המשין לרנינג אוהבים להגיד – "אימנתם אותו")) ווידאתם שהוא פועל היטב גם על נתונים ששמרתם בצד ולא נכנסו למודל, אתם יכולים לקחת את הנתונים של נבחרת גרמניה ושל נבחרת מקסיקו, להפעיל עליהם את המודל שלכם, ולקבל תוצאה. התוצאה תהיה בעצם שלוש הסתברויות: ההסתברות שגרמניה תנצח במשחק, ההסתברות שמקסיקו תנצח, וכמובן גם את ההסתברות שהמשחק יסתיים בתיקו. חשוב לזכור שאלה לא הסתברויות "אמיתיות". אלה הם אומדנים להסתברויות, שקיבלתם מהמודל שלכם, והם מתבססים על כל ההנחות שהנחתם בדרך.

שלב שלישי: חיזוי מהלך הטורניר

עכשיו מתחיל הכיף האמיתי. אני מניח שכל מודל שהוא שניסה לחזות את תוצאת המשחק בין מקסיקו לגרמניה נתן הסתברות גבוהה לניצחון של גרמניה, הסתברות יותר נמוכה לתיקו, ולניצחון של מקסיקו ניתנה ההסתברות הנמוכה ביותר. אבל דברים יכולים לקרות (ואכן קרו). מה עושים? סימולציה.

נניח לצורך הדוגמה שההסתברויות שהפיק המודל היו 70% לניצחון גרמניה, 20% לתיקו, ו-10% לניצחון מקסיקו. שמים בתוך שק 10 כדורים: 7 לבנים, 2 ירוקים, וכדור שחור אחד. מערבבים טוב טוב את הכדורים ומוציאים כדור אחד. אם הוא לבן, נגיד שגרמניה "ניצחה", אם הוא ירוק נגיד שהמשחק "הסתיים בתיקו", ואם הכדור שהוצאנו הוא שחור נגיד שזה היה יום שחור לגרמניה. אפשר לעשות את זה גם בעזרת מחשב כמובן.

צריך לזכור שבבית שבו שיחקו גרמניה ומקסיקו היו עוד שתי נבחרות ובסך הכל שוחקו בו שישה משחקים. אז עושים את התרגיל הזה לכל אחד מששת המשחקים, וכשיש לנו את כל תוצאות המשחקים שהתקבלו בסימולציה, מקבלים את טבלת הבית, ואת שתי הנבחרות שעלו לשלב הבא.

את התרגיל הזה עושים לכל הבתים בשלב המוקדם, ובסיומו "נדע" מי הן 16 הנבחרות שעלו לשמינית הגמר, ואיזה נבחרת תשחק מול איזה נבחרת. את התוצאות של המשחקים אנחנו יכולים לחזות באותו אופן, ומשם "נדע" מה יהיו משחקי רבע הגמר וכך הלאה. בסופו של כל התהליך נקבל את הזוכה.

כל התוצאות שקיבלנו מתבססות של הגרלות ושליפה וירטואלית של כדורים מתוך שקים. אם נבצע שוב את התהליך מההתחלה, סביר להניח שנקבל תרחיש אחר ותוצאה שונה. נו פרובלם. נחזור על התרגיל הזה המון פעמים, 10000 נניח, או מיליון, ונחשב איזשהו ממוצע של כל התרחישים שהגרלנו. למשל, אם ב-900 מתוך 10000 תרחישים קיבלנו שגרמניה זכתה בסופו של דבר, נאמוד את הסיכוי שגרמניה תזכה במונדיאל ב-900 חלקי 10000 שהם 9%. החיזוי האולטימטיבי של הזוכה במונדיאל הוא הנבחרת שניצחה ברוב התרחישים מבין ה-10000.

אם המודל שממנו התחלנו הוא מודל טוב, והנתונים שבהם השתמשנו כדי לאמוד את הפרמטרים של המודל הם נתונים טובים, אז גם התחזיות יהיו טובות. אבל…

נקודת תורפה: הנחת אי-תלות

אבל יש כאן בעיה גדולה: כל מה שתואר עד כאן מניח שהמשחקים בלתי תלויים, והם לא. תוצאה של משחק אחד בהחלט יכולה להשפיע על תוצאה של משחק אחר. אם למשל, נבחרת הבטיחה את עלייתה לשמינית הגמר אחרי שני משחקים, ייתכן כי השחקנים החשובים, הכוכבים, יקבלו מנוחה, כי אין טעם להשקיע מאמצים במשחק שלא משנה כלום. אירוע כמו פציעה של שחקן במשחק בהחלט יכול להשפיע על המשחק הבא. קבוצה שהשקיעה הרבה מאוד מאמץ כדי לנצח בשמינית הגמר (הארכה, יריבה קשה במיוחד) תגיע מותשת יותר למשחק הבא, ויד עוד הרבה דוגמאות. כל המודלים לטווח ארוך (שמנסים לחזות מי תזכה בטורניר לפני שהוא התחיל) לא יכולים לקחת את כל הפרמטרים האלה בחשבון. כאן יש יתרון ברור לסוכנויות ההימורים, שיכולות לעדכן את אמדני הסיכויים ושערי ההימורים ממשחק למשחק.

למה בכלל צריך סימולציה?

בדף של הבלוג בפייסבוק, Mickey Ktv שאל את השאלה הזו: "מה המשמעות של ביצוע הסימולציה? הרי אם יש לנו הסתברות מסויימת לכל משחק, אנחנו יכולים לפי זה לחשב את ההסתברות של כל קבוצה לנצח. בגלל חוק המספרים הגדולים, תוחלת הסימולציה צריכה לצאת קרובה מאוד להסתברות שמחושבת 'ידנית'. האם זה בגלל שיותר פשוט להריץ סימולציה במחשב מאשר לחשב את ההסתברות? (למרות שבמידה שקולה ניתן לבנות מודל שמחשב את ההסתברות עצמה)"

בתיאוריה אין שום בעיה לקחת נייר ועיפרון ולחשב את כל ההסתברויות וההסתברויות המותנות. אבל הנה ההבדל בין התיאוריה והמציאות. בכל בית יש ארבע נבחרות, ולכן יש 24 אפשרויות שונות לתוצאה הסופית של טבלת הבית. אבל בואו ניתן הנחה – מה שמעניין זה מיהן שתי הנבחרות שמסיימות במקום הראשון והשני, ולכך יש רק 12 תוצאות אפשריות. פרט למקרים מאוד נדירים, לכל התוצאות האלה יש הסתברות חיובית. יש 8 בתים מוקדמים, ולכן מפר התרחישים האפשריים לשמינית הגמר הוא 12 בחזקת 8. זה יוצא קצת פחות מ-430 מיליון (429981696). אז קצת קשה לעשות את זה עם נייר ועיפרון. גם אם נכתוב תכנית מחשב שתבצע את כל החישובים, לא סביר שהיא תסיים לרוץ לפני סיום המונדיאל הבא… במקרה כזה הדרך המעשית היחידה לאמוד את ההסתברויות באופן יעיל היא בעזרת סימולציה.

מה עשו המודלים?

בטבלה שפורסמה באקונומיסט יש תחזיות של כמה מודלים. הסיכויים של ברזיל נעו בין 13 ל-32%, של גרמניה בין 5 ל-16%, של צרפת בין 5 ל-11%, ושל קרואטיה בין 1 ל-3%. שימו לב שהאחוזים בטורים לא מסתכמים ל-100%. מכאן שהמודלים האלה נתנו הסתברויות חיוביות לזכייה של נבחרות "פחות נחשבות" – אולי מצרים או קמרון.

האם המודלים האלה הצליחו או נכשלו? זה תלוי כמובן איך מגדירים הצלחה או כישלון. המודל של Goldman Sachs, למשל, נתן לצרפת הסתברות של 11% לזכות. הוא לא אמר שצרפת לא תזכה. גם מאורעות שהסתברותם 11% מתרחשים לפעמים. הוא גם נתן לברזיל הסתברות של 19% לזכות, או במילים אחרות, אמר כי יש הסתברות של 81% שברזיל לא תזכה. צדק או לא צדק? (( יש הרבה דרכים להעריך את האיכות של מודלים האופן כמותי. לא אכנס לפרטים))

על המשמעות של המודלים

הבעיה של כל המודלים לתחזיות, מכל סוג שהוא, ולכל מה שאתם רוצים לחזות, היא שהם מנסים לחזות משהו שעוד לא קרה, כלומר את העתיד. ולחזות את העתיד, כפי שציין בצדק נילס בוהר, זה קשה מאוד. ואין הבדל עקרוני בין תחזית למשחק כדורגל בודד, לתוצאה הסופית של מונדיאל שלם, למזג האוויר של מחר ((אם אתם לא בישראל, כמובן)), או לשאלה החשובה מאוד האם אני אקנה באמזון ספר שיציע לי האלגוריתם כאשר אכנס לאתר הזה בפעם הבאה. כל המאורעות האלה הם מאורעות חד פעמיים. תסלחו לי על האמירה הבוטה, אבל התחזית של המודל היא בסך הכל ניחוש אינטליגנטי (( זו לא תובנה מקורית שלי, שמעתי אותה ממורי ורבי פרופ' צבי גילולה)).

בעולם שלנו יש שונות אינהרנטית, או כמו שכתבתי למעלה, דברים קורים. מה קרה במשחק של גרמניה מול מקסיקו? קרו המון דברים, ואת רובם אנחנו אפילו לא יודעים. אולי לאחד השחקנים של גרמניה כאב הראש, ושחקן אחר סתם בא במצב רוח לא טוב, ואילו השוער של מקסיקו מאוד נהנה בארוחת הבוקר ועקב כך חש אנרגיות חיוביות. לך תדע. מצד שני, בעשרים השנים האחרונות גרמניה מנצחת באופן עקבי ולאורך זמן ב-75% מהמשחקים שלה, ולכן אני מוכן להתערב שאם גרמניה ומקסיקו יישחקו 100 משחקים, גרמניה תנצח לפחות ב-75 מהמשחקים האלה (( על איזה סכום להתערב? צריך כמובן לחשב את ההסתברות שגרמניה תנצח ב-75 משחקים לפחות אם הסיכוי שלה לנצח במשחק בודד הוא 75%)).

וזו הפרשנות שאני נותן לחיזוי – פרשנות שכיחותנית (( סטטיסטיקאים אחרים ייתנו אולי פרשנויות אחרות, ואני לא אכנס כאן לפרטים)).

לפי הפרשנות הזאת, אם אומרים לכם שמחר יש 30% סיכוי לגשם ((כמובן בהנחה שאתם לא בתל אביב אלא בלונדון )), המשמעות היא שבשלושים אחוז מהימים שדומים ליום שיהיה מחר ירד גשם. שימו לב שהפרשנות לפיה ב-30% ממשך היום יורד גשם אינה נכונה – זה כמו להגיד שברזיל תזכה ב-19% מהגביע. ואם המודל של אמזון חוזה שיש סיכוי של 20% שאקנה את הספר שהאלגוריתם מציע לי – פירוש הדבר הוא ש-20% מהאנשים שדומים לי יקנו את הספר.

ומכאן נובעת המגבלה העיקרית של כל המודלים: טיב החיזוי מוגבל על ידי כמות המאורעות. לחזות תוצאה של אירוע חד פעמי כמו המונדיאל זה קשה מאוד. אם נתחיל מחר את כל המונדיאל מחדש עם אותן הנבחרות, אף אחד לא יכול להבטיח לנו שתתקבל אותה התוצאה.

אם לעומת זאת, אנחנו מנסים לחזות תוצאות של הרבה מאורעות דומים ו/או נשנים, התחזיות הופכות להיות יותר אמינות, או כפי שאני מעדיף לומר, יותר סבירות. היו בלונדון הרבה ימים כמו מחר, וב-30% מהם ירד גשם, ולכן התחזית כי מחר יש סיכוי של 30% לגשם היא סבירה. ולאמזון יש מיליון לקוחות כמוני ((רק שלא קוראים להם יוסי לוי, ואם יש ביניהם יוסי לוי אחר, אז הוא חיקוי זול)), ואם המודל שמציע את הספר הוא מודל טוב, אז 20% מהאנשים האלה יקנו אותו, ובעלי המניות של אמזון מרוצים.

נשלח: 15 ביולי, 2018 נושאים: דטה סיינס, מה אומרת הסטטיסטיקה, ספורט.
תגובות: 2 | טראקבק

תאונות הדרכים בישראל – לפני ואחרי מינוי של ישראל כץ לשר התחבורה

מה קורה עם תאונות הדרכים בישראל?

בתחילת יולי 2018 שר התחבורה ישראל כץ צייץ בשמחה בטוויטר (יש גם צילום מסך למקרה שהציוץ יימחק בדרך פלא) ובישר על "ירידה דרמטית של 22% (!!!) במספר ההרוגים בתאונות הדרכים, במחצית הראשונה של 2018" ((תוך כדי השתלחות בעמותת "אור ירוק", אבל זה סיפור אחר )). הירידה באמת משמחת, ללא ציניות. אבל האם זו ירידה חד פעמית, תחילה של מגמה, או תוצאה של מגמה? ומה חלקו של השר בירידה המבורכת הזאת? את חלקו של השר במה שקורה בחצי שנה אכן קשה להעריך, אולם ניתן לראות מה קורה לאורך זמן.

לשם כך שלפתי ממאגר הנתונים של הלשכה המרכזית לסטטיסטיקה את נתוני תאונות הדרכים עם נפגעים משנת 2003 ועד שנת 2017 שהתרחשו בתחומי הקו הירוק.

כאן עלי להסביר כי הנתונים של הלמ"ס מתייחסים רק לתאונות דרכים עם נפגעים בהן לפחות אחד מהמעורבים בתאונה נהרג או אושפז. חומרת התאונה נקבעת לפי חומרת הפגיעה של הנפגע החמור ביותר. אם יש הרוג אחד לפחות, התאונה מסווגת כקטלנית. אם הפגיעה החמורה ביותר היא לאדם שנפצע קשה ואושפז, התאונה מסווגת כתאונה קשה. במקרהtraffic_accidents שהפגיעה החמורה ביותר היא לאדם שנפצע פציעה בינונית או קלה, התאונה מסווגת כתאונה קלה. אם לא היו נפגעים, או שהיו נפגעים אך אף אחד מהם לא אושפז, התאונה לא נכנסת לסטטיסטיקה.

עכשיו אפשר להעיף מבט בנתונים, ולראות, למשל, כי ב-2003 היו בישראל 413 תאונות דרכים קטלניות, ובמשך השנים המספר ירד ל-295 תאונות קטלניות בשנת 2017. אי אפשר להכחיש כי אכן היה שיפור במצב.

השיפור אפילו יותר משמעותי ממה שהוא נראה במבט ראשון: ב-2017 היו הרבה יותר מכוניות מאשר ב-2003, והן נסעו הרבה יותר קילומטרים. אפשר לראות זאת בעזרת נתוני הנסועה. הנסועה היא סך כל הקילומטרים שנסעו כל כלי הרכב במשך השנה. הרכב שלי עובר כ-15 אלף ק"מ בשנה, וזו תרומתו לנסועה. מישהו אחר אולי נוסע 50 אלף ק"מ בשנה, ויש כאלה שאף נוסעים מרחקים יותר ארוכים. אם מחברים את סך הקילומטראז של כל כלי הרכב בשנה מסויימת מקבלים את סך הנסועה לאותה השנה. שלפתי מאתר הלמ"ס ((מתוך השנתונים הסטטיסטיים)) גם את אומדני הנסועות ((שמבוססים על מדגמים)) לשנים 2003 עד 2016. הנתון של 2017 אינו זמין עדיין ואמדתי אותו בעזרת מגמת העלייה לאורך השנים. ב-2003 הנסועה בישראל הייתה שווה ל-38.9 מיליארד ק"מ, וב-2017 היא נאמדה ב-57.7 מיליארד ק"מ. מכאן שב-2013 היו כ-10.6 תאונות דרכים קטלניות לכל מיליארד ק"מ, וב-2017 היו רק 5.1 תאונות דרכים קטלניות לכל מיליארד ק"מ. זו ירידה מבורכת של מעל 50%.

שאלה מעניינת היא איך זה קרה ולמה, אולם כדי לענות על שאלות אלה יש צורך בנתונים נוספים ובניתוח נרחב. יש כאן פוטנציאל לעבודת מאסטר.

אני אנסה לתאר בעזרת מודל ITS מה קרה לאחר שישראל כץ נכנס לתפקידו כשר התחבורה במרץ 2009. לא סביר לדרוש משר שינוי מיידי בתחומי אחריותו עם כניסתו לתפקיד, ולכן קבעתי את נקודה השינוי בתחילת 2010. הנתונים עד 2009 (כולל) נזקפים לזכותם (או לחובתם) של שרי התחבורה הקודמים ((אביגדור ליברמן – 2003 עד 2004, מאיר שטרית – 2004 עד 2006, ושאול מופז – 2006 עד 2009)).

נתבונן תחילה בנתוני סך תאונות הדרכים. ניתן לראות כי בשנים 2003 עד 2009 הייתה מגמת ירידה בשיעור הכולל של תאונות דרכים עם נפגעים. .

אנו רואים כי מגמת הירידה שהייתה בין 2003 ל-2009 נמשכת גם בשנים 2010-2017, אך המגמה הואטה במקצת וקצב הירידה נמוך יותר. השינוי מובהק סטטיסטית. מה המשמעות של השינוי? אילו מגמת הירידה הייתה נמשכת לפי הקו הירוק, הוא ה-counterfactual, היו לנו ב-2017 154.6 תאונות למיליארד ק"מ, ובסך הכל קצת יותר מ-8900 תאונות עם נפגעים. בפועל היו 12700 תאונות עם נפגעים ב-2017, כלומר 42% יותר, ובמספרים מוחלטים מדובר בעוד 3800 תאונות עם נפגעים שהיו יכולות להימנע לו מגמת הירידה הייתה ממשיכה ולא מואטת.

כעת נבחן לחוד את סוגי התאונות השונים. נתחיל בתאונות הדרכים ה-"קלות", שבהן היה לכל היותר פצוע בינוי או קל שאושפז: (( ויקיפדיה: " הוא מי שנשקפת סכנה לחייו אם לא יקבל טיפול רפואי. כלומר, מי שכעת יש להשקיע מאמץ קטן כדי להציל את חייו, אך אם יוזנח, יידרש מאמץ גדול כדי להציל את חייו. פצוע בינוני יכול להיות גם מי שאין נשקפת סכנה ממשית לחייו, אך קיים חשש כבד לנכות משמעותית או איבוד איבר (גפיים, לרוב)." ))

מאחר ורוב תאונות הדרכים עם נפגעים מסווגות כקלות (85-90%, תלוי בשנה), אנו רואים כאן תמונה דומה לזו שראינו כשהסתכלנו על הסך הכולל של תאונות הדרכים. יש בלימה במגמת הירידה של שיעור תאונות הדרכים הקלות החל מ-2010. גם כאן השינוי בקצב מגמת הירידה מובהק סטטיסטית. אילו התקיים תרחיש ה-counterfactual, היינו צפויים לראות ב-2017 כ-8730 תאונות "קלות", בעוד שבפועל היו 10579 תאונות כאלה, 21% יותר.

נמשיך אל תאונות הדרכים הקשות. רוב הירידה בכמות תאונות הדרכים הקשות הייתה בין השנים 2003 ל-2009. מגמת הירידה שהייתה הזו נבלמה, ואף גרוע מכך: מספר התאונות הקשות החל מ-2010 נמצא במגמת עליה (כל השינויים מובהקים סטטיסטית ומשמעותיים):

שימו לב כי אילו מגמת הירידה בשיעור תאונות הדרכים הקשות הייתה נמשכת באותו קצב גם אחרי 2009, אז ב-2017 לא היו אמורות להתרחש תאונות דרכים קשות בכלל. זה כמובן לא ריאלי, יכול להיות שהגענו כבר לקו התחתון של שיעור התאונות הקשות שמתחתיו אי אפשר לרדת או שאנחנו מאוד קרובים אליו. מה מידת האחריות של שר התחבורה כאן? לדעתי אי אפשר להטיל במקרה הזה את כל האחריות על שר התחבורה הנוכחי. עם זאת, אין להסיק מכך שאין לו אחריות כלל. יש לו אחריות מיניסטריאלית, ורצוי וצריך לבדוק את מידת האחריות שלו על ידי בחינת נתונים נוספים.

לבסוף נתבונן בנתוני תאונות הדרכים הקטלניות:

רוב הירידה של ה-50% שציינתי קודם בשיעור תאונות הדרכים הקטלניות שציינתי קודם הייתה בין השנים 2003 ל-2009 (בשנים האלה הייתה ירידה של כ-45% בשיעור התאונות הקטלניות). מגמת הירידה בשיעור תאונות הדרכים הקטלניות נבלמה. אמנם עדיין יש ירידה בשיעור תאונות הדרכים הקטלניות גם אחרי 2009, אך קצב הירידה נמוך באופן משמעותי (ומובהק סטטיסטית). שוב שימו לב כי אילו מגמת הירידה הייתה נמשכת באותו קצב גם אחרי 2009, אז ב-2017 לא היו אמורות להתרחש תאונות דרכים קטלניות בכלל. גם כאן, אי אפשר להטיל את כל האחריות על שר התחבורה הנוכחי. האם הגענו כבר לקו התחתון של שיעור התאונות הקטלניות שמתחתיו אי אפשר לרדת? דעתי האישית היא שניתן לעשות עוד. בשוודיה חושבים שהמטרה של אפס תאונות דרכים קטלניות היא ריאלית.

ניתן לטעון כי רואים כאן סוג של "טרייד אוף" בשנים 2010 והלאה: לאחר שמוצתה הירידה החדה של תאונות קטלניות וקשות בשנים 2003 עד 2009, יש עליה מסויימת במספר התאונות הקשות, כיוון שחלק מתאונות עם פוטנציאל להיות קטלניות הסתיימו "רק" בפציעות קשות. עם זאת, יש לזכור כי שיעור התאונות הקשות גבוה פי 5 עד 6 משיעור התאונות הקטלניות. בין 2010 ל-2017 חלה בסך הכל ירידה כוללת של כתאונת דרכים קטלנית אחת למיליארד ק"מ, אך עליה של כחמש תאונות דרכים קשות למיליארד ק"מ. גם אילו כל הירידה בתאונות הדרכים הקטלניות הייתה הופכת לעליה בכמות תאונות הדרכים הקשות, עדיין צריך להסביר מאין באה העלייה של עוד ארבע תאונות דרכים קשות למיליארד ק"מ.

לסיכום: בתקופת כהונתו של ישראל כץ כשר התחבורה, עד סוף 2017, הואטה מגמת הירידה החדה בשיעורי תאונות הדרכים עם נפגעים שהתרחשה בין 2003 ל-2009. הירידות בשיעורי תאונות הדרכים הקשות והקטלניות נבלמו כמעט לחלוטין, ואף יש מגמת עליה בכמות תאונות הדרכים הקשות. ניתן להסביר רק חלק קטן (כ-20%) מכמות העלייה במספר התאונות הקשות על ידי ההשערה כי חלק מהתאונות עם פוטנציאל קטלני הסתיימו בפגיעות קשות בלבד. יש צורך לבדוק מה היו הסיבות לשינויי המגמות, ומה חלקו של שר התחבורה ומדיניות בכך, ולשם כך יש צורך בנתונים נוספים ובניתוח סטטיסטי יותר מקיף מהניתוח הבסיסי שהוצג כאן. ייתכן כי לא כל השינויים נבעו מפעילות השר ומדיניותו, אך עדיין יש לו אחריות מיניסטריאלית מלאה למצב תאונות הדרכים בשנות כהונתו.

נשלח: 6 ביולי, 2018 נושאים: מה אומרת הסטטיסטיקה, על סדר היום.
תגובות: 15 | טראקבק