חיפוש באתר

קישורים

עמודים

קטגוריות

ארכיב עבור תגית מה אומרת הסטטיסטיקה

ניתוח השפעה של אירוע על נתונים לאורך זמן – Interrupted Time Series

בפוסט קודם ניתחתי מה קרה לשיעורי תאונות הדרכים בישראל בתקופת כהונתו של ישראל כץ כשר התחבורה.

כדי לענות על שאלות גון אלה – מה קורה לתופעה כזו או אחרת לאורך זמן – מומלץ להשתמש בשיטות סטטיסטיות לניתוח סדרות עיתיות (Time Series). סדרה עיתית היא סדרה של נתונים שנאספים לאורך זמן: שבועות, חודשים ואפילו שנים. ניתן גם לבדוק  את השפעתו של שינוי מסויים שחל במהלך הזמן (המהווה הפרעה למגמת הסדרה), כמו שינוי קיצוני במזג האוויר, כניסת מתחרה חדש לשוק, או מינוי של שר, בעזרת טכניקה הנקראת "ניתוח סדרות עיתיות מופרעות", או באנגלית Interrupted Time Series או פשוט ITS.

ברשימה זו אסביר את הרעיונות המרכזיים של שיטת ה-ITS שבעזרתה ניתחתי את נתוני תאונות הדרכים בישראל.

דוגמה: החזרי הוצאות עבור רכישת תרופות אנטי פסיכוטיות למבוטחי מדיקייד במערב וירג'יניה

תכנית מדיקייד היא תכנית ביטוח ממשלתית לבעלי הכנסות נמוכות בארצות הברית, ובין היתר משתתפת בהוצאות לרכישת תרופות של המבוטחים. בתחילת שנות ה-2000, כאשר נכנסו לשוק תרופות אנטי פסיכוטיות מהדור השני, שהן גם יקרות יותר, חלה עלייה משמעותית בהחזרי התשלומים עבור התרופות האנטי פסיכוטיות, כיוון שכ-50% מהמרשמים היו לתרופות מהדור השני. רשויות המדינה אינן יכולות, כמובן, לאסור על הרופאים לרשום לחולים תרופות מסויימות. במדינת מערב וירג'יניה החליטו להתחכם ולהוסיף ביורוקרטיה. החל מאפריל 2003, רופא במדינה שרצה לרשום לחולה שמבוטח במדיקייד תרופת דור שני, היה צריך למלא טופס. הנה גרף המראה את אחוז המרשמים של תרופות דור שני מתוך סך המרשמים לתרופות אנטי פסיכוטיות לאורך זמן, כאשר הקו האנכי המקווקו מסמן את המועד בו הונהגה חובת מילוי הטופס:[1]

ברור לחלוטין שמשהו קרה, אבל הסטטיסטיקה יכולה לתת לנו מבט יותר מעמיק.

הרעיון הוא מאוד פשוט – נעביר שני קווי רגרסיה: קו אחד יותאם לנתונים שלפני השינוי, וקו אחר לנתונים לאחריו[2]. הנה הגרף עם קווי הרגרסיה:

כעת ניתן לראות כמה דברים. ראשית, אחרי ההתלהבות הראשונית נראית מגמה של ירידה, אמנם איטית מאוד, באחוז המרשמים לתרופות דור שני. כמובן שיש לבדוק האם ירידה זו היא מובהקת סטטיסטית (היא לא) ולקבוע האם היא משמעותית (כנראה שלא, אחרת לא היה צריך להפעיל את מדיניות הטופסולוגיה).

שנית, אנו רואים מין ירידת מדרגה קטנה בין הרבעון האחרון שלפני הנהגת המדיניות החדשה והרבעון הראשון לאחר הנהגתה. שוב, ניתן וצריך לבדוק האם זוהי ירידה מובהקת (היא כן) ומשמעותית (לא ברור).

שלישית, ברור לחלוטין שהנהגת המדיניות הביאה לירידה משמעותית ומובהקת באחוז המרשמים לתרופות דור שני.

הקו הירוק מראה את ה-counterfactual, תרחיש ה-"מה היה קורה אילו" לא הונהגה מדיניות מילוי הטפסים. את הצלחת המדיניות מודדים על ידי ההבדל (המוחלט או היחסי) בין מה שקרה בפועל ובין ה-counterfactual.

המודל הסטטיסטי

הדבר הראשון שיש לשים אליו לב הוא שבניגוד למודל רגרסיה רגיל, הנתונים כאן אינם בלתי תלויים אחד בשני. בנתונים של סדרות עיתיות יש בדרך כלל קשר סטטיסטי בין הנתון של נקודת זמן מסויימת והנתון של נקודת הזמן הבאה, ואולי אפילו לנתונים של נקודות זמן רחוקות יותר.התופעה הזאת נקראת אוטוקורלציה. לכן, לפני שמריצים מודלים של רגרסיה, צריך לחקור את הקשרים בין הנתונים לאורך זמן. ברשותכם לא אכנס לפרטים, אך אציין כי קשרים אלה נלקחים בחשבון בהמשך הניתוח.

כמון כן, ציינתי קודם שמעבירים שני קווי רגרסיה, אך אומדים אותם במודל אחד, בן ארבעה פרמטרים: הפרמטר הראשון הוא הגובה בו מתחילה סדרת הנתונים ("החותך"). הפרמטר השני הוא השיפוע, כלומר המגמה, של הנתונים לפני נקודת השינוי. הפרמטר השלישי הוא הקפיצה או הפער בין הנקודה אליה הגיעה הסדרה ממש לפני השינוי ובין הנקודה הראשונה אחרי השינוי. הפרמטר האחרון הוא הרבה פחות אינטואיטיבי: זהו ההפרש בין המגמה של הנתונים לפני השינוי והמגמה שלאחר השינוי. השרטוט הבא מנסה להבהיר את המשמעות של ארבעת הפרמטרים[3]

לאחר שאומדים את הפרמטרים של המודל אפשר לבדוק בעזרת שיטות סטנדרטיות האם השינויים הם מובהקים, וכן להעריך האם הם גם משמעותיים.


הערות
  1. מקור:  Law , Ross-Degnan and Soumerai SB, Effect of prior authorization of second-generation antipsychotic agents on pharmacy utilization and reimbursements, Psychiatr Serv. 2008 May;59(5):540-6.   []
  2. היישום קצת פחות פשוט, ומייד אפרט למי שמעוניין []
  3. השרטוט נלקח מהשקפים של הקורס Policy Analysis using Interrupted Time Series שזמין ברשת באתר edX []

איך חוזים תוצאה של מונדיאל?

עכשיו, כשנאלמה תרועת הפסטיבלים והמונדיאל הסתיים, זה זמן טוב לדבר על כל המודלים שסיפקו תחזיות מונדיאל ועל מודלים של תחזיות בכלל.

ברשימה זו אסקור את הבסיס למודלים שניסו לחזות את תוצאות המונדיאל, ומשם אעבור לדיון בחלק מהתכונות של מודלים לחיזוי, במשמעות של החיזוי ובמגבלות של המודלים האלה.

איך חוזים תוצאה של מונדיאל?

הסקירה הזו מתבססת בחלקה על המאמר הזה שפורסם באקונומיסט לפני פתיחת המונדיאל של 2018[1].

כדי לחזות את התוצאה של המונדיאל (או כל טורניר ספורט אחר) יש צורך במספר שלבים. ראשית, צריך לדרג באופן כלשהו את הנבחרות/קבוצות המשתתפות בטורניר ואת הבדלי הרמות ביניהן. בשלב השני צריך לספק הערכה/חיזוי לתוצאות של משחקים ספציפיים[2], ובשלב השלישי לנסות לחזות על סמך החיזויים של תוצאות המשחקים את המנצחת הסופית. המאמר שפורסם באקונומיסט מתעמק בעיקר בשלב הראשון.

שלב ראשון: דירוג הנבחרות

יש שתי דרכים לדרג את האיכות של נבחרת או קבוצת ספורט: על ידי הערכת ביצועי הקבוצה, או על ידי הערכת ביצועי השחקנים.

להערכת ביצועי הקבוצה משתמשים בעיקר במודלים מסוג Elo , מודל שפותח במקור עבור משחק השחמט. הרעיון הוא שכל קבוצה מקבלת ניקוד על כל משחק שהיא שיחקה, אבל בניגוד לליגה או לטורנירים שבהם מקבלים 3 נקודות על כל ניצחון, לא משנה באיזה משחק, ב- Elo הניקוד משתנה בהתאם ליריבה, מיקום המשחק, חשיבותו, וכדומה. אם למשל גרמניה מנצחת את סעודיה במשחק ידידות שנערך בלוורקוזן, הניצחון הזה לא שווה הרבה נקודות, כי היריבה נחותה, המשחק לא ממש חשוב, וגרמניה שיחקה במגרש הביתי. לעומת זאת, ניצחון על ברזיל, במשחק שנערך בברזיל, במסגרת חצי הגמר של המונדיאל, שווה הרבה מאוד נקודות. יש כל מיני וריאציות למודל, מה שמסביר חלק מההבדלים בניבויים השונים. למודלים שונים יש מפתח נקודות שונה, ויש גם מודל שנותן ניקוד לא על פי תוצאת המשחק אלא על פי מספר השערים שהובקעו, וכך ניצחון בתוצאה 7:1 שווה הרבה יותר מניצחון 1:0. כמו כן, צריך להחליט על איזה אופק זמן מסתכלים. יכול להיות משחק ששוחק במונדיאל מקסיקו 70 או אפילו בדרום אפריקה ב-2010 כבר לא ממש משמעותי. עם זאת, באחת הכתבות תואר מודל שלקח בחשבון את כל התוצאות מאז המונדיאל הראשון שנערך ב-1930. אני מניח שהמודלים משקללים את המשמעות של כל משחק בהתחשב בזמן שעבר.

הדרך השנייה היא להעריך כל שחקן לחוד, ואז לקבל הערכה של הקבוצה כסך כל שחקניה. יש כל מיני דרכים לעשות את זה. אפשר למדוד את הביצועים של כל שחקן בכל משחק (כמה מסירות טובות הוא מסר, כמה תיקולים מוצלחים וכדומה). לדעתי צריך לקחת בחשבון גם פעולות שהשחקן לא עשה ואולי היה צריך לעשות (לא ברור לי אם יש בכלל נתונים כאלה). כמו כן, יש דברים ששחקנים תורמים לקבוצה ולא ניתנים למדידה – מנהיגות למשל.

דרך אחרת היא לבדוק מה היו ביצועי הקבוצה כשהשחקן שיחק בהרכב ומה הם היו כשהוא לא שיחק. בכדורגל זה פחות יעיל כי יש יחסית מעט משחקים, יש מעט חילופים, ובדרך כלל אין הרבה שינויים בהרכבים. עם זאת, זו שיטה מאוד מקובלת ויעילה בענפים כמו כדורסל ובייסבול.

ראיתי באחת הכתבות גם מודל שהכניס לשקלול את משכורות השחקנים. המודל הזה חזה שצרפת תזכה בטורניר, ואנחנו כבר יודעים שהוא צדק. זה לא בהכרח אומר שהוא מודל טוב. אם יש הרבה מודלים, אז הסיכוי שאיזשהו מודל יצדק הוא לא נמוך. זה כמו בלוטו. הסיכוי שאתה תזכה בפרס הגדול הוא קטן, אבל הסיכוי שמישהו יזכה הוא מאוד גבוה. עם זאת, אין להבין מדבריי כי אני חושב שזה מודל לא טוב. האמת היא שאי אפשר לקבוע.

אפשר גם לשקלל את את הערכת הנבחרת עם הערכת השחקנים, ויש כל מיני שקלולים: 50-50, 75-25 וכולי. זה כנראה לא כל כך משנה. לפחות לפי הנתונים שהובאו באקונומיסט, יש מתאם גבוה בין שתי שיטות ההערכה:

 

שלב שני: חיזוי תוצאות של משחקים

אחרי שיש לנו מדד שמעריך את האיכות של כל נבחרת, אפשר להתחיל לדבר על חיזוי תוצאות של משחקים. שוב, יש כל מיני דרכים לעשות את זה, אבל העיקרון דומה. לוקחים נתונים של המון משחקים שרלוונטיים בעינכם. אתם יכולים לקחת את הנתונים של המשחק בן גרמניה וסעודיה שנערך בלוורקוזן ביוני 2018 (גרמניה ניצחה 2:1), וגם את המשחק בין גרמניה והולנד בגמר מונדיאל 1974 (מצטער שאני משבית שמחות). לכל משחק הנתונים יכולים לכלול כל מיני פרטים שנראים חשובים למי שבונה את המודל – כגון הערכת הנבחרות לפי מודל Elo כזה או אחר, מקום משחק, חשיבותו, מסורת ניצחונות, מזג האוויר, המשכורת של השחקנים, או מספר הנעליים של השוער. אלה הם המשתנים המסבירים. לכל משחק יש גם תוצאה – זה המשתנה המוסבר, ויש שלוש תוצאות אפשריות. אפשר לשפוך את כל הנתונים לתוך אלגוריתם שמיישם מודלרגרסיה לוגיסטית, random forest, דיפ לרנינג, מה שבא לכם.

לאחר שאמדתם את הפרמטרים של המודל[3] ווידאתם שהוא פועל היטב גם על נתונים ששמרתם בצד ולא נכנסו למודל, אתם יכולים לקחת את הנתונים של נבחרת גרמניה ושל נבחרת מקסיקו, להפעיל עליהם את המודל שלכם, ולקבל תוצאה. התוצאה תהיה בעצם שלוש הסתברויות: ההסתברות שגרמניה תנצח במשחק, ההסתברות שמקסיקו תנצח, וכמובן גם את ההסתברות שהמשחק יסתיים בתיקו. חשוב לזכור שאלה לא הסתברויות "אמיתיות". אלה הם אומדנים להסתברויות, שקיבלתם מהמודל שלכם, והם מתבססים על כל ההנחות שהנחתם בדרך.

שלב שלישי: חיזוי מהלך הטורניר

עכשיו מתחיל הכיף האמיתי. אני מניח שכל מודל שהוא שניסה לחזות את תוצאת המשחק בין מקסיקו לגרמניה נתן הסתברות גבוהה לניצחון של גרמניה, הסתברות יותר נמוכה לתיקו, ולניצחון של מקסיקו ניתנה ההסתברות הנמוכה ביותר. אבל דברים יכולים לקרות (ואכן קרו). מה עושים? סימולציה.

נניח לצורך הדוגמה שההסתברויות שהפיק המודל היו 70% לניצחון גרמניה, 20% לתיקו, ו-10% לניצחון מקסיקו. שמים בתוך שק 10 כדורים: 7 לבנים, 2 ירוקים, וכדור שחור אחד. מערבבים טוב טוב את הכדורים ומוציאים כדור אחד. אם הוא לבן, נגיד שגרמניה "ניצחה", אם הוא ירוק נגיד שהמשחק "הסתיים בתיקו", ואם הכדור שהוצאנו הוא שחור נגיד שזה היה יום שחור לגרמניה. אפשר לעשות את זה גם בעזרת מחשב כמובן.

צריך לזכור שבבית שבו שיחקו גרמניה ומקסיקו היו עוד שתי נבחרות ובסך הכל שוחקו בו שישה משחקים. אז עושים את התרגיל הזה לכל אחד מששת המשחקים, וכשיש לנו את כל תוצאות המשחקים שהתקבלו בסימולציה, מקבלים את טבלת הבית, ואת שתי הנבחרות שעלו לשלב הבא.

את התרגיל הזה עושים לכל הבתים בשלב המוקדם, ובסיומו "נדע" מי הן 16 הנבחרות שעלו לשמינית הגמר, ואיזה נבחרת תשחק מול איזה נבחרת. את התוצאות של המשחקים אנחנו יכולים לחזות באותו אופן, ומשם "נדע" מה יהיו משחקי רבע הגמר וכך הלאה. בסופו של כל התהליך נקבל את הזוכה.

כל התוצאות שקיבלנו מתבססות של הגרלות ושליפה וירטואלית של כדורים מתוך שקים. אם נבצע שוב את התהליך מההתחלה, סביר להניח שנקבל תרחיש אחר ותוצאה שונה. נו פרובלם. נחזור על התרגיל הזה המון פעמים, 10000 נניח, או מיליון, ונחשב איזשהו ממוצע של כל התרחישים שהגרלנו. למשל, אם ב-900 מתוך 10000 תרחישים קיבלנו שגרמניה זכתה בסופו של דבר, נאמוד את הסיכוי שגרמניה תזכה במונדיאל ב-900 חלקי 10000 שהם 9%. החיזוי האולטימטיבי  של הזוכה במונדיאל הוא הנבחרת שניצחה ברוב התרחישים מבין ה-10000.

אם המודל שממנו התחלנו הוא מודל טוב, והנתונים שבהם השתמשנו כדי לאמוד את הפרמטרים של המודל הם נתונים טובים, אז גם התחזיות יהיו טובות. אבל…

נקודת תורפה: הנחת אי-תלות

אבל יש כאן בעיה גדולה: כל מה שתואר עד כאן מניח שהמשחקים בלתי תלויים, והם לא. תוצאה של משחק אחד בהחלט יכולה להשפיע על תוצאה של משחק אחר. אם למשל, נבחרת הבטיחה את עלייתה לשמינית הגמר אחרי שני משחקים, ייתכן כי השחקנים החשובים, הכוכבים, יקבלו מנוחה, כי אין טעם להשקיע מאמצים במשחק שלא משנה כלום. אירוע כמו פציעה של שחקן במשחק בהחלט יכול להשפיע על המשחק הבא. קבוצה שהשקיעה הרבה מאוד מאמץ כדי לנצח בשמינית הגמר (הארכה, יריבה קשה במיוחד) תגיע מותשת יותר למשחק הבא, ויד עוד הרבה דוגמאות. כל המודלים לטווח ארוך (שמנסים לחזות מי תזכה בטורניר לפני שהוא התחיל) לא יכולים לקחת את כל הפרמטרים האלה בחשבון. כאן יש יתרון ברור לסוכנויות ההימורים, שיכולות לעדכן את אמדני הסיכויים ושערי ההימורים ממשחק למשחק.

למה בכלל צריך סימולציה?

בדף של הבלוג בפייסבוק, Mickey Ktv שאל את השאלה הזו: "מה המשמעות של ביצוע הסימולציה? הרי אם יש לנו הסתברות מסויימת לכל משחק, אנחנו יכולים לפי זה לחשב את ההסתברות של כל קבוצה לנצח. בגלל חוק המספרים הגדולים, תוחלת הסימולציה צריכה לצאת קרובה מאוד להסתברות שמחושבת 'ידנית'. האם זה בגלל שיותר פשוט להריץ סימולציה במחשב מאשר לחשב את ההסתברות? (למרות שבמידה שקולה ניתן לבנות מודל שמחשב את ההסתברות עצמה)"

בתיאוריה אין שום בעיה לקחת נייר ועיפרון ולחשב את כל ההסתברויות וההסתברויות המותנות. אבל הנה ההבדל בין התיאוריה והמציאות. בכל בית יש ארבע נבחרות, ולכן יש 24 אפשרויות שונות לתוצאה הסופית של טבלת הבית. אבל בואו ניתן הנחה – מה שמעניין זה מיהן שתי הנבחרות שמסיימות במקום הראשון והשני, ולכך יש רק 12 תוצאות אפשריות. פרט למקרים מאוד נדירים, לכל התוצאות האלה יש הסתברות חיובית. יש 8 בתים מוקדמים, ולכן מפר התרחישים האפשריים לשמינית הגמר הוא 12 בחזקת 8. זה יוצא קצת פחות מ-430 מיליון (429981696). אז קצת קשה לעשות את זה עם נייר ועיפרון. גם אם נכתוב תכנית מחשב שתבצע את כל החישובים, לא סביר שהיא תסיים לרוץ לפני סיום המונדיאל הבא… במקרה כזה הדרך ובכן, בתיאוריה אין שום בעיה לקחת נייר ועיפרון ולחשב את כל ההסתברויות וההסתברויות המותנות. אבל הנה ההבדל בין התיאוריה והמציאות. בכל בית יש ארבע נבחרות, ולכן יש 24 אפשרויות שונות לתוצאה הסופית של טבלת הבית. אבל בוא ניתן הנחה – מה שמעניין זה מיהן שתי הנבחרות שמסיימות במקום הראשון והשני, ולכך יש רק 12 תוצאות אפשריות. פרט למקרים מאוד נדירים, לכל התוצאות האלה יש הסתברות חיובית. יש 8 בתים מוקדמים, ולכן מפר התרחישים האפשריים לשמינית הגמר הוא 12 בחזקת 8. זה יוצא קצת פחות מ-430 מיליון (429981696). אז קצת קשה לעשות את זה עם נייר ועיפרון. גם אם תכתוב תכנית מחשב שתבצע את כל החישובים, לא סביר שהיא תסיים לרוץ לפני סיום המונדיאל הבא.. היחידה לאמוד את ההסתברויות באופן יעיל היא בעזרת סימולציה.

מה עשו המודלים?

בטבלה שפורסמה באקונומיסט יש תחזיות של כמה מודלים. הסיכויים של ברזיל נעו בין 13 ל-32%, של גרמניה בין 5 ל-16%, של צרפת בין 5 ל-11%, ושל קרואטיה בין 1 ל-3%. שימו לב שהאחוזים בטורים לא מסתכמים ל-100%. מכאן שהמודלים האלה נתנו הסתברויות חיוביות לזכייה של נבחרות "פחות נחשבות" – אולי מצרים או קמרון.

האם המודלים האלה הצליחו או נכשלו? זה תלוי כמובן איך מגדירים הצלחה או כישלון. המודל של Goldman Sachs, למשל, נתן לצרפת הסתברות של 11% לזכות. הוא לא אמר שצרפת לא תזכה. גם מאורעות שהסתברותם 11% מתרחשים לפעמים. הוא גם נתן לברזיל הסתברות של 19% לזכות, או במילים אחרות, אמר כי יש הסתברות של 81% שברזיל לא תזכה. צדק או לא צדק?[4]

על המשמעות של המודלים

הבעיה של כל המודלים לתחזיות, מכל סוג שהוא, ולכל מה שאתם רוצים לחזות, היא שהם מנסים לחזות משהו שעוד לא קרה, כלומר את העתיד. ולחזות את העתיד, כפי שציין בצדק נילס בוהר, זה קשה מאוד. ואין הבדל עקרוני בין תחזית למשחק כדורגל בודד, לתוצאה הסופית של מונדיאל שלם, למזג האוויר של מחר[5], או לשאלה החשובה מאוד האם אני אקנה באמזון ספר שיציע לי האלגוריתם כאשר אכנס לאתר הזה בפעם הבאה. כל המאורעות האלה הם מאורעות חד פעמיים. תסלחו לי על האמירה הבוטה, אבל התחזית של המודל היא בסך הכל ניחוש אינטליגנטי[6].

בעולם שלנו יש שונות אינהרנטית, או כמו שכתבתי למעלה, דברים קורים. מה קרה במשחק של גרמניה מול מקסיקו? קרו המון דברים, ואת רובם אנחנו אפילו לא יודעים. אולי לאחד השחקנים של גרמניה כאב הראש, ושחקן אחר סתם בא במצב רוח לא טוב, ואילו השוער של מקסיקו מאוד נהנה בארוחת הבוקר ועקב כך חש אנרגיות חיוביות. לך תדע. מצד שני, בעשרים השנים האחרונות גרמניה מנצחת באופן עקבי ולאורך זמן ב-75% מהמשחקים שלה, ולכן אני מוכן להתערב שאם גרמניה ומקסיקו יישחקו 100 משחקים, גרמניה תנצח לפחות ב-75 מהמשחקים האלה[7].

וזו הפרשנות שאני נותן לחיזוי – פרשנות שכיחותנית[8].

לפי הפרשנות הזאת, אם אומרים לכם שמחר יש 30% סיכוי לגשם[9], המשמעות היא שבשלושים אחוז מהימים שדומים ליום שיהיה מחר ירד גשם. שימו לב שהפרשנות לפיה ב-30% ממשך היום יורד גשם אינה נכונה – זה כמו להגיד שברזיל תזכה ב-19% מהגביע. ואם המודל של אמזון חוזה שיש סיכוי של 20% שאקנה את הספר שהאלגוריתם מציע לי – פירוש הדבר הוא ש-20% מהאנשים שדומים לי יקנו את הספר.

ומכאן נובעת המגבלה העיקרית של כל המודלים: טיב החיזוי מוגבל על ידי כמות המאורעות. לחזות תוצאה של אירוע חד פעמי כמו המונדיאל זה קשה מאוד. אם נתחיל מחר את כל המונדיאל מחדש עם אותן הנבחרות, אף אחד לא יכול להבטיח לנו שתתקבל אותה התוצאה.

אם לעומת זאת, אנחנו מנסים לחזות תוצאות של הרבה מאורעות דומים ו/או נשנים, התחזיות הופכות להיות יותר אמינות, או כפי שאני מעדיף לומר, יותר סבירות. היו בלונדון הרבה ימים כמו מחר, וב-30% מהם ירד גשם, ולכן התחזית כי מחר יש סיכוי של 30% לגשם היא סבירה. ולאמזון יש מיליון לקוחות כמוני[10], ואם המודל שמציע את הספר הוא מודל טוב, אז 20% מהאנשים האלה יקנו אותו, ובעלי המניות של אמזון מרוצים.


הערות
  1. תודה לצליל אברהם שהפנתה את תשומת ליבי אליו []
  2. גרמניה מול מקסיקו, מישהו? תיכף נדבר על זה []
  3. או כמו שאנשי המשין לרנינג אוהבים להגיד – "אימנתם אותו" []
  4. יש הרבה דרכים להעריך את האיכות של מודלים האופן כמותי. לא אכנס לפרטים []
  5. אם אתם לא בישראל, כמובן []
  6. זו לא תובנה מקורית שלי, שמעתי אותה ממורי ורבי פרופ' צבי גילולה []
  7. על איזה סכום להתערב? צריך כמובן לחשב את ההסתברות שגרמניה תנצח ב-75 משחקים לפחות אם הסיכוי שלה לנצח במשחק בודד הוא 75% []
  8. סטטיסטיקאים אחרים ייתנו אולי פרשנויות אחרות, ואני לא אכנס כאן לפרטים []
  9. כמובן בהנחה שאתם לא בתל אביב אלא בלונדון []
  10. רק שלא קוראים להם יוסי לוי, ואם יש ביניהם יוסי לוי אחר, אז הוא חיקוי זול []

תאונות הדרכים בישראל – לפני ואחרי מינוי של ישראל כץ לשר התחבורה

מה קורה עם תאונות הדרכים בישראל?

בתחילת יולי 2018 שר התחבורה ישראל כץ צייץ בשמחה בטוויטר (יש גם צילום מסך למקרה שהציוץ יימחק בדרך פלא) ובישר על "ירידה דרמטית של 22% (!!!) במספר ההרוגים בתאונות הדרכים, במחצית הראשונה של 2018"[1]. הירידה באמת משמחת, ללא ציניות. אבל האם זו ירידה חד פעמית, תחילה של מגמה, או תוצאה של מגמה? ומה חלקו של השר בירידה המבורכת הזאת? את חלקו של השר במה שקורה בחצי שנה אכן קשה להעריך, אולם ניתן לראות מה קורה לאורך זמן.

לשם כך שלפתי ממאגר הנתונים של הלשכה המרכזית לסטטיסטיקה את נתוני תאונות הדרכים עם נפגעים משנת 2003 ועד שנת 2017 שהתרחשו בתחומי הקו הירוק.

כאן עלי להסביר כי הנתונים של הלמ"ס מתייחסים רק לתאונות דרכים עם נפגעים בהן לפחות אחד מהמעורבים בתאונה נהרג או אושפז. חומרת התאונה נקבעת לפי חומרת הפגיעה של הנפגע החמור ביותר. אם יש הרוג אחד לפחות, התאונה מסווגת כקטלנית. אם הפגיעה החמורה ביותר היא לאדם שנפצע קשה ואושפז, התאונה מסווגת כתאונה קשה. במקרה שהפגיעה החמורה ביותר היא לאדם שנפצע פציעה בינונית או קלה, התאונה מסווגת כתאונה קלה. אם לא היו נפגעים, או שהיו נפגעים אך אף אחד מהם לא אושפז, התאונה לא נכנסת לסטטיסטיקה.

עכשיו אפשר להעיף מבט בנתונים, ולראות, למשל, כי ב-2003 היו בישראל 413 תאונות דרכים קטלניות, ובמשך השנים המספר ירד ל-295 תאונות קטלניות בשנת 2017. אי אפשר להכחיש כי אכן היה שיפור במצב.

השיפור אפילו יותר משמעותי ממה שהוא נראה במבט ראשון: ב-2017 היו הרבה יותר מכוניות מאשר ב-2003, והן נסעו הרבה יותר קילומטרים. אפשר לראות זאת בעזרת נתוני הנסועה. הנסועה היא סך כל הקילומטרים שנסעו כל כלי הרכב במשך השנה. הרכב שלי עובר כ-15 אלף ק"מ בשנה, וזו תרומתו לנסועה. מישהו אחר אולי נוסע 50 אלף ק"מ בשנה, ויש כאלה שאף נוסעים מרחקים יותר ארוכים. אם מחברים את סך הקילומטראז של כל כלי הרכב בשנה מסויימת מקבלים את סך הנסועה לאותה השנה. שלפתי מאתר הלמ"ס[2] גם את אומדני הנסועות[3] לשנים 2003 עד 2016. הנתון של 2017 אינו זמין עדיין ואמדתי אותו בעזרת מגמת העלייה לאורך השנים. ב-2003 הנסועה בישראל הייתה שווה ל-38.9 מיליארד ק"מ, וב-2017 היא נאמדה ב-57.7 מיליארד ק"מ. מכאן שב-2013 היו כ-10.6 תאונות דרכים קטלניות לכל מיליארד ק"מ, וב-2017 היו רק 5.1 תאונות דרכים קטלניות לכל מיליארד ק"מ. זו ירידה מבורכת של מעל 50%.

שאלה מעניינת היא איך זה קרה ולמה, אולם כדי לענות על שאלות אלה יש צורך בנתונים נוספים ובניתוח נרחב. יש כאן פוטנציאל לעבודת מאסטר.

אני אנסה לתאר בעזרת מודל ITS מה קרה לאחר שישראל כץ נכנס לתפקידו כשר התחבורה במרץ 2009. לא סביר לדרוש משר שינוי מיידי בתחומי אחריותו עם כניסתו לתפקיד, ולכן קבעתי את נקודה השינוי בתחילת 2010. הנתונים עד 2009 (כולל) נזקפים לזכותם (או לחובתם) של שרי התחבורה הקודמים[4].

נתבונן תחילה בנתוני סך תאונות הדרכים. ניתן לראות כי בשנים 2003 עד 2009 הייתה מגמת ירידה בשיעור הכולל של תאונות דרכים עם נפגעים. .

אנו רואים כי מגמת הירידה שהייתה בין 2003 ל-2009 נמשכת גם בשנים 2010-2017, אך המגמה הואטה במקצת וקצב הירידה נמוך יותר. השינוי מובהק סטטיסטית. מה המשמעות של השינוי? אילו מגמת הירידה הייתה נמשכת לפי הקו הירוק, הוא ה-counterfactual, היו לנו ב-2017  154.6 תאונות למיליארד ק"מ, ובסך הכל קצת יותר מ-8900 תאונות עם נפגעים. בפועל היו 12700 תאונות עם נפגעים ב-2017, כלומר 42% יותר, ובמספרים מוחלטים מדובר בעוד 3800 תאונות עם נפגעים שהיו יכולות להימנע לו מגמת הירידה הייתה ממשיכה ולא מואטת.

כעת נבחן לחוד את סוגי התאונות השונים. נתחיל בתאונות הדרכים ה-"קלות", שבהן היה לכל היותר פצוע בינוי או קל שאושפז:[5]

מאחר ורוב תאונות הדרכים עם נפגעים מסווגות כקלות (85-90%, תלוי בשנה), אנו רואים כאן תמונה דומה לזו שראינו כשהסתכלנו על הסך הכולל של תאונות הדרכים. יש בלימה במגמת הירידה של שיעור תאונות הדרכים הקלות החל מ-2010. גם כאן השינוי בקצב מגמת הירידה מובהק סטטיסטית. אילו התקיים תרחיש ה-counterfactual, היינו צפויים לראות ב-2017 כ-8730 תאונות "קלות", בעוד שבפועל היו 10579 תאונות כאלה, 21% יותר.

נמשיך אל תאונות הדרכים הקשות. רוב הירידה בכמות תאונות הדרכים הקשות הייתה בין השנים 2003 ל-2009. מגמת הירידה שהייתה הזו נבלמה, ואף גרוע מכך: מספר התאונות הקשות החל מ-2010 נמצא במגמת עליה (כל השינויים מובהקים סטטיסטית ומשמעותיים):

שימו לב כי אילו מגמת הירידה בשיעור תאונות הדרכים הקשות הייתה נמשכת באותו קצב גם אחרי 2009, אז ב-2017 לא היו אמורות להתרחש תאונות דרכים קשות בכלל. זה כמובן לא ריאלי, יכול להיות שהגענו כבר לקו התחתון של שיעור התאונות הקשות שמתחתיו אי אפשר לרדת או שאנחנו מאוד קרובים אליו. מה מידת האחריות של שר התחבורה כאן? לדעתי אי אפשר להטיל במקרה הזה את כל האחריות על שר התחבורה הנוכחי. עם זאת, אין להסיק מכך שאין לו אחריות כלל. יש לו אחריות מיניסטריאלית, ורצוי וצריך לבדוק את מידת האחריות שלו על ידי בחינת נתונים נוספים.

לבסוף נתבונן בנתוני תאונות הדרכים הקטלניות:

רוב הירידה של ה-50% שציינתי קודם בשיעור תאונות הדרכים הקטלניות שציינתי קודם הייתה בין השנים 2003 ל-2009 (בשנים האלה הייתה ירידה של כ-45% בשיעור התאונות הקטלניות). מגמת הירידה בשיעור תאונות הדרכים הקטלניות נבלמה. אמנם עדיין יש ירידה בשיעור תאונות הדרכים הקטלניות גם אחרי 2009, אך קצב הירידה נמוך באופן משמעותי (ומובהק סטטיסטית). שוב שימו לב כי אילו מגמת הירידה הייתה נמשכת באותו קצב גם אחרי 2009, אז ב-2017 לא היו אמורות להתרחש תאונות דרכים קטלניות בכלל. גם כאן, אי אפשר להטיל את כל האחריות על שר התחבורה הנוכחי. האם הגענו כבר לקו התחתון של שיעור התאונות הקטלניות שמתחתיו אי אפשר לרדת? דעתי האישית היא שניתן לעשות עוד. בשוודיה חושבים שהמטרה של אפס תאונות דרכים קטלניות היא ריאלית.

ניתן לטעון כי רואים כאן סוג של "טרייד אוף" בשנים 2010 והלאה: לאחר שמוצתה הירידה החדה של תאונות קטלניות וקשות בשנים 2003 עד 2009, יש עליה מסויימת במספר התאונות הקשות, כיוון שחלק מתאונות עם פוטנציאל להיות קטלניות הסתיימו "רק" בפציעות קשות.  עם זאת, יש לזכור כי שיעור התאונות הקשות גבוה פי 5 עד 6 משיעור התאונות הקטלניות. בין 2010 ל-2017 חלה בסך הכל ירידה כוללת של כתאונת דרכים קטלנית אחת למיליארד ק"מ, אך עליה של כחמש תאונות דרכים קשות למיליארד ק"מ. גם אילו כל הירידה בתאונות הדרכים הקטלניות הייתה הופכת לעליה בכמות תאונות הדרכים הקשות, עדיין צריך להסביר מאין באה העלייה של עוד ארבע תאונות דרכים קשות למיליארד ק"מ.

לסיכום: בתקופת כהונתו של ישראל כץ כשר התחבורה, עד סוף 2017, הואטה מגמת הירידה החדה בשיעורי תאונות הדרכים עם נפגעים שהתרחשה בין 2003 ל-2009. הירידות בשיעורי תאונות הדרכים הקשות והקטלניות נבלמו כמעט לחלוטין, ואף יש מגמת עליה בכמות תאונות הדרכים הקשות. ניתן להסביר רק חלק קטן (כ-20%) מכמות העלייה במספר התאונות הקשות על ידי ההשערה כי חלק מהתאונות עם פוטנציאל קטלני הסתיימו בפגיעות קשות בלבד. יש צורך לבדוק מה היו הסיבות לשינויי המגמות, ומה חלקו של שר התחבורה ומדיניות בכך, ולשם כך יש צורך בנתונים נוספים ובניתוח סטטיסטי יותר מקיף מהניתוח הבסיסי שהוצג כאן. ייתכן כי לא כל השינויים נבעו מפעילות השר ומדיניותו, אך עדיין יש לו אחריות מיניסטריאלית מלאה למצב תאונות הדרכים בשנות כהונתו.


הערות
  1. תוך כדי השתלחות בעמותת "אור ירוק", אבל זה סיפור אחר []
  2. מתוך השנתונים הסטטיסטיים []
  3. שמבוססים על מדגמים []
  4. אביגדור ליברמן – 2003 עד 2004, מאיר שטרית – 2004 עד 2006, ושאול מופז – 2006 עד 2009 []
  5.  ויקיפדיה: "פצוע בינוני הוא מי שנשקפת סכנה לחייו אם לא יקבל טיפול רפואי. כלומר, מי שכעת יש להשקיע מאמץ קטן כדי להציל את חייו, אך אם יוזנח, יידרש מאמץ גדול כדי להציל את חייו. פצוע בינוני יכול להיות גם מי שאין נשקפת סכנה ממשית לחייו, אך קיים חשש כבד לנכות משמעותית או איבוד איבר (גפיים, לרוב)." []

איך אפשר לדעת מי תזכה במונדיאל?

לכאורה, אין דבר יותר פשוט מזה. חפשו בגוגל "מי תזכה במונדיאל", ותקבלו המון תחזיות: תוכלו לדעת מה הייתה התוצאה של סימולציה שאיזה סטארט-אפ עשה, מה קבעו המומחים הפיננסיים, מה החליטו הקוראים של הארץ, והכי חשוב, מה חושבים נהגי המוניות:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

הבעיה העיקרית היא שהדרך הכי טובה לדעת מה יקרה במונדיאל כבר לא קיימת. פול התמנון, עליו השלום, כבר לא איתנו. אני מקווה שנשמתו צרורה בצרור החיים.

אבל יש מי שמנסה למצוא יורש לפול. האתר psychic-pets.com קורא לעזרתם של בעלי חיות מחמד מכל העולם ומבקש מהם לנסות לברר מה יקרה. נכון למועד כתיבת שורות אלו, קרוב לאלף חיות מחמד נרתמו למשימה, מתוכן 85 חיות מחמד מגרמניה ושתיים מאירן. גם חיית המחמד שלי נמצאת שם. זהו ברווז, כמובן. לא סתם ברווז אלא ברווז פלא, העונה לשם Coin.

אז מה הסיכוי שהחיות האלה, או אפילו רק אחת מהן, יחזו את תוצאות המונדיאל? בואו נשתעשע במספרים.[1]

קודם כל, למען הפשטות אני מוציא (בינתיים) מהמשחק את שלב הבתים, ומתרכז בשלב שאחריו, בו 16 נבחרות מתחרות בשיטת הנוק אאוט. יש בשלב הזה 15 משחקים משמעותיים (ועוד משחק אחד על המקום השלישי שהוא פחות מעניין). דרך אגב, כמה משחקים היו נערכים בשיטת הנוק אאוט אם לשלב הזה היו מגיעות לא 16 אלא 53 נבחרות? תחשבו על זה.

אז החיות שלנו צריכות לחזות את התוצאות של 15 משחקים. אני אשחק כאן את תפקיד פרקליטו של השטן ואטען שהחיות לא חוזות את התוצאות אלא מנחשות. אם כך, מה הסיכוי שחיה אחת תחזה את כל התוצאות של כל 15 המשחקים? לכל משחק יש שתי תוצאות אפשריות (אין תיקו). הסיכוי לניחוש נכון הוא לכן 50% או חצי. יש 15 משחקים, והם לא תלויים זה בזה (בדרך כלל): התוצאה של משחק קודם בדרך כלל לא משפיעה על התוצאה של המשחק הבא. אני יודע שההנחה הזו לא נכונה ב-100%. יכול להיות שנבחרת שהתאמצה מאוד במשחק מסויים תגיע יותר עייפה ומוחלשת לשלב הבא, יכול להיות ששחקן מפתח הורחק או נפצע, ועוד. אבל אם חיות המחמד מנחשות, הן לא לוקחות את כל הדברים האלה בחשבון, והניחושים שלהן לא תלויים זה בזה. לכן, ההסתברות לניחוש התוצאות של 15 משחקים היא ההסתברות לניחוש נכון של משחק אחד מוכפלת בעצמה 15 פעמים. זה יוצא 1 ל-32768, או 0.003%. סיכוי נמוך? בהחלט, אבל בכל זאת גדול מאפס.

אבל יש לנו קרוב ל-1000 חיות שמנסות לבצע את אותו התרגיל.  אולי אחת מהן תצליח? כאן אפשר להשתמש בהתפלגות פואסון כדי לחשב את ההסתברות שאף חיה לא תצליח לחזות את כל התוצאות של כל המשחקים, שחיה אחת תצליח, ששתיים יצליחו וכולי. ובכן, ההסתברות שאף חיה מתוך האלף לא תצליח לחזות את התוצאות של כל 15 המשחקים היא 96.99%, ויש הסתברות של 2.96% שחיה אחת מבין האלף תצליח במשימה (אבל לא ניתן לדעת מראש איזה).

מצד שני, אני מטיל על החיות משימה לא הוגנת. בנדיק החתול מאיסלנד לא מתעניין בתוצאת המשחק שבין הונגריה ומיקרונזיה (אם יש בכלל משחק כזה). גם פול התמנון התמחה בנבחרת שלו, גרמניה. אז בואו נתרכז במשחקים של גרמניה.

אני מניח שגרמניה תשחק בסך הכל 7 משחקים – 3 בשלב המוקדם, ועוד ארבעה בשלב הנוק אאוט (כלומר, אני מניח שתגיע לחצי הגמר). לכן המשימה של מוקמוק הארנב ושאר חבריו מגרמניה אמורה יותר קלה – בואו נראה עד כמה היא יותר קלה.

שוב, לכל משחק יש שתי תוצאות: או שגרמניה מנצחת, וזה מה שחשוב, או שלא (ואני אתעלם כאן באלגנטיות ממה שלגארי לינקר היה לומר בעניין).

הסיכוי לניחוש נכון הוא חצי, ולכן הסיכוי לסדרה של שבעה ניחושים נכונים הוא חצי מוכפל בעצמו שבע פעמים. זה יוצא 1 ל-128, או 0.78%. עדיין נמוך, ועם זאת אפשרי.

אבל רגע. יש לנו 85 חיות מחמד מגרמניה. מה הסיכוי שלפחות אחת מהן תצליח? אנו נגייס שוב את התפלגות פואסון לעזרתנו. החישוב מראה לנו כי ההסתברות שאף אחת מבין 85 חיות המחמד לא תנחש את התוצאות של כל שבעת המשחקים היא כמעט 51.5%, ומכאן שיש הסתברות של 48.5% שלפחות אחת מהן תצליח במשימה. תיראו מופתעים.

אפשר כמובן לרדת לפרטים יותר קטנים: מה ההסתברות שלפחות חיה אחת תצליח לחזות תוצאה של שישה משחקים לפחות משבעת המשחקים של גרמניה (יותר מ-48.5%) או שלפחות חיה אחת תצליח לחזות את כל התוצאות של המשחקים של גרמניה בשלב הנוק אאוט בלבד (הרבה יותר מ-48.5%). לא ערכתי את החישובים האלה. אתם מוזמנים לנסות.

ועכשיו ברצינות. משחקי הניחושים האלה הם משעשעים ובדרך כל לא מזיקים. אולם יש אנשים שמהמרים על תוצאות המשחקים האלה. במקרה כזה לשאול את דג הזהב שלך מה תהיה התוצאה לדעתו זו לא אסטרטגיה טובה. אני מחזיר אתכם לחישובי הסטארט-אפ שהוזכר בפיסקה הראשונה ולאמירתו הבלתי נשכחת של גארי לינקר: "כדורגל משחקים תשעים דקות ובסוף גרמניה מנצחת".  ב-2014, למשל, גרמניה ניצחה ב-6 משחקים מתוך השבעה ששיחקה (משחק אחד הסתיים בתיקו). הסטארט-אפ הנ"ל הכניס למודל שלו את תוצאות כל המשחקים שנערכו מאז 1930. אני אמנע מלהביע את דעתי כי אני לא מכיר את כל פרטי המודל.

אני הסתכלתי על התוצאות של נבחרת גרמניה בארבעת הטורנירים האחרונים: מ-2002 עד 2014. בתקופה הזו גרמניה ניצחה ב-9 משחקים מתוך 12 בשלב הבתים – 75% הצלחה. בשלבי הנוק אאוט גרמניה ניצחה ב-13 משחקים מתוך 16 (כולל שני משחקים על המקום השלישי) – 81% הצלחה.

לכן, בשלב הבתים ברווז הפלא שלי יטיל מטבע שנופל על עץ בהסתברות 75% ועל פלי בהסתברות 25%.  יש לו סיכוי של קצת יותר מ-42% לנחש את התוצאות של שלושת המשחקים, פי 3.4 מסיכויי הניחוש של חיית מחמד אחרת שלא יודעת סטטיסטיקה. בשלב הבתים הברווז שלי יטיל מטבע שנופלת על עץ בהסתברות של 80%, ויהיה לו סיכוי של כמעט 41% לחזות את התוצאות של כל המשחקים, סיכוי גבוה פי 6.6 מהסיכוי של מוקמוק הארנב. הברווז שלי יכול לעשות הרבה יותר טוב מזה: הוא יכול "לנחש" תמיד שגרמניה תנצח: כך הסיכוי שלו לנחש נכונה את תוצאות כל המשחקים יהיה מעל ל-75%.

לפני שאתם רצים להמר אל תשכחו שסוכנויות ההימורים מכירות אל כל החישובים האלה (וגם חישובים יותר מסובכים) ולכן קובעות את שערי ההימורים כך שבסופו של דבר הן ירוויחו.

אני, אגב, לא צופה במשחקים, אבל מאחל שעות של הנאה למי שכן.


הערות
  1. את החישובים ביצעתי בערת תוכנת R []

איך יודעים כמה אנשים מתים מנזקי העישון

מחדליו של סגן שר הבריאות בנושא המלחמה בעישון, תוארו בדו"ח של מבקר המדינה מחודש מאי 2018. בין היתר נאמר כי בכל שנה מתים בישראל כ-8,000 בני אדם כתוצאה ממחלות הנגרמות מעישון. יש לי הרבה מה לומר על אוזלת היד וחוסר המעש של מקבלי ההחלטות בנושא, אבל כאן אני מדבר בעיקר על סטטיסטיקה, והנושא שיעלה היום לדיון הוא הנתון בדבר המוות של 8000 בני אדם בשנה כתוצאה מעישון. איך יודעים את זה?

זהו כמובן אומדן שמתבסס על איסוף נתונים ויישום של שיטות סטטיסטיות. גם זה, כמו הרבה דברים אחרים, מתחלק לשלושה חלקים. החלק הקשה הוא החלק שבו אוספים את הנתונים. החלק הקל הוא החלק שבו מחשבים את החישובים (מזינים את הנתונים למחשב ולוחצים על הכפתור). וביניהם יש את החלק בו צריכים להבין מה עושים, ובאופן עקרוני זה לא מסובך.

כמה אנשים מתים?

נתחיל באיסוף הנתונים. נתון אחד שצריך לדעת הוא כמה אנשים מתים בכל שנה. זה לא קשה, לפחות במדינה מסודרת שבה נאספים נתונים כאלה באופן מסודר וקבוע. נתוני תמותה נאספים בדרך כלל במשך שנים רבות. הלשכה המרכזית לסטטיסטיקה מפרסמת בכל חמש שנים לוחות תמותה המבוססים על הנתונים שנאספו בחמש השנים שקדמו לשנת הפרסום. מייד נעיין באחד הלוחות (קישור לקובץ pdf). הנה קטע מלוחות התמותה של הלשכה המרכזית לסטטיסטיקה, המתייחס לגברים יהודים ואחרים (כלומר – לא ערבים), בין השנים 2011 ל-2015:

 

 

 

 

 

 

 

אני יודע שהסיכוי שלי למות בסופו של דבר הוא 100%. אבל אני בעזרת לוח התמותה יכול לדעת יותר מזה. אני גבר יהודי בן 55, ומהשורה האחרונה של לוח התמותה שבתמונה אני יכול ללמוד כי בהיעדר כל מידע נוסף, הסיכוי כי אמות בשנה הקרובה הוא 0.00425. לחילופין, על פי נתוני הלשכה, מתוך כל 100000 גברים יהודים, 95506 יגיעו לגיל 56, ו-4494 לא יזכו לכך. אני יודע שיש חוסר תיאום בין שני המספרים האלה, וזה נובע מתוך דקויות סטטיסטיות שלא אכנס אליהן כאן[1]. אני גם יכול ללמוד מהלוח כי תוחלת החיים שלי, בהינתן שכבר הגעתי לגילי המופלג, היא 27.6 שנים פלוס מינוס סטיית תקן ואירועים לא צפויים. יש גם סיכוי שאגיע לגיל 100, אך הוא קטן למדי.

לעומת זאת, לגבר ערבי בגיל 55 במדינת ישראל, הסיכוי למות לפני גיל 56 יותר גבוה: 0.00595, ותוחלת החיים שלו נמוכה יותר: נותרו לו, בממוצע, רק עוד 24.9 שנים לחיות.

איזה נתונים צריך כדי לאמוד את סיכוני העישון?

הנתון השני צריך לאפשר לנו לאמוד כמה אנשים מתו מנזקי עישון. זה כבר יותר מסובך. כולם מתים בסוף, גם אלה שמעשנים וגם אלה שלא. אדם יכול לעשן ולמות מסיבה שלא קשורה לעישון (אולי ממחלה זיהומית, אולי מתאונה, ואולי אפילו מסרטן שעישון אינו גורם סיכון שלו – יש סרטנים כאלה). אדם יכול לא לעשן ובכל זאת למות מסרטן הריאות או מחלת לב – כאשר עישון הוא גורם סיכון ידוע לשני המצבים הבריאותיים האלה.[2] ובכל זאת, הנתונים שיש לאסוף הם כמה אנשים מתים, כמה מהם מעשנים, וכמה לא.

במקומות רבים בעולם נערכים מחקרים תצפיתיים ארוכי טווח העוקבים אחרי מהלך החיים של אוכלוסיות, ואוספים נתונים על התנהגויות העשויות להשפיע על מצב הבריאות של הפרטים באוכלוסייה, כגון הרגלי אכילה ועישון. המחקר הידוע ביותר נערך בעיר פראמינגהם במדינת מסצ'וסטס בארצות הברית. החל משנת 1948 נאספים נתונים כאלה על אלפים מתושבי העיר שהסכימו להשתתף במחקר, והוא עוקב כעת אחרי הדור השלישי של התושבים. באתר המחקר תוכלו למצוא מחשבונים שבעזרתם תוכלו לדעת מה הסיכון שלכם ללקות במחלת לב. המחקר הזה הראה כי עישון הוא גורם סיכון משמעותי לסיכוי לחלות במחלת לב.

מחקר אחר, קצת ישן (משנת 1999) שערכו יעקובס ועמיתיו, עקב אחרי אוכלוסייה של כ-12000 איש בשבע מדינות במשך 25 שנים. המחקר אסף נתוני תמותה מכל סיבה שהיא, וכמובן נתונים נוספים. אחת המסקנות של המחקר הזה הייתה כי הסיכון למות של מעשנים המעשנים עד 10 סיגריות ביום גבוה פי 1.3 מהסיכון של לא מעשנים, והסיכון למות של אלה המעשנים יותר מ-10 סיגריות ליום גבוה פי 1.8 מאלה של הלא מעשנים. ללא הסבר המספרים האלה נראים תמוהים. מה זאת אומרת שהסיכון למות גבוה פי 1.8? כולם מתים בסוף. הסיכון למות הוא 100% לכולם. לא? לא. הסיכוי שאדם ימות בסופו של דבר הוא אכן 100%. הסיכון הוא לא סיכוי. אז בואו נעשה סדר.

איך מודדים את הסיכון

הסיכון נגזר מהסיכוי למות (או לחוות אירוע אחר כלשהו, כמו התקף לב למשל) במשך יחידת זמן מוגדרת, ומתייחס לנקודה ספציפית בזמן (או לתקופת זמן קצרה מאוד). אל תיבהלו, אבל אני אומר לכם שהסיכון הוא הנגזרת של ההסתברות המותנה למות (אתם יכולים לעבור הלאה בלי חשש). הסיכוי, לעומת זאת, מתייחס לתקופות זמן ארוכות יותר.

אני לא אכנס כאן להגדרה המתמטית המדוייקת של הסיכון. אומר רק שאם יודעים את הסיכוי למות במשך תקופת מסויימת, נניח שנה, אפשר לחשב מכך את הסיכון למות במשך אותה תקופת זמן. גם ההיפך נכון: אם יודעים את הסיכון אז יודעים את הסיכוי. כמו כן, באופן לא מפתיע, אם הסיכוי שלך למות בשנה הקרובה גבוה יותר, אז גם הסיכון שלך גבוה יותר.

ואם אפשר לעשות את האבחנה הזו בין יהודים וערבים, ובין גברים לנשים, בוודאי שאפשר לחשב את הסיכון של המעשנים ולהשוות אותו לסיכון של הלא מעשנים.

הכלי הסטטיסטי שמאפשר לבצע את התרגילים האלה הוא מודל הסיכונים הפרופורציונליים שפותח בשנת 1972 על ידי הסטטיסטיקאי הבריטי סיר דויד קוקס, וידוע גם בשם מודל קוקס. קשה להמעיט בחשיבות של המודל הזה. המאמר שבו הוצג המודל נמנה עם 100 המאמרים המדעיים המצוטטים ביותר בכל הזמנים – לא מאמרים בסטטיסטיקה, אלא כל המאמרים המדעיים.  המודל מאפשר לזהות גורמי סיכון  להתרחשות אירועים כגון מוות, ולמדוד מה פוטנציאל הסכנה בכל גורם סיכון כזה. בנוסף לכך, קוקס הציג במאמר שלו חידושים סטטיסטיים נוספים שהשפיעו רבות גם על תחומים אחרים בסטטיסטיקה. אילו היה פרס נובל לסטטיסטיקה, סיר דויד קוקס היה זוכה בו ללא צל של ספק. סיר קוקס אכן זכה כמעט בכל פרס אפשרי בתחום הסטטיסטיקה. המודל שלו בפירוש מאפשר הצלת חיים. לדעתי סיר קוקס ראוי לזכייה בפרס נובל לרפואה.

להלן נוסחת המודל. מייד אסביר הכל. ניתן לראות כי זהו למעשה מודל רגרסיה.

 

 

נתחיל בצד שמאל. שם מופיע הסיכון כפי שהוא מושפע מגורמי הסיכון – אותו אנחנו רוצים לאמוד. הוא מסומן באות למבדה – האות היוונית שדומה לאות ג. בצד ימין יש מכפלה של שני חלקים. חלק אחד מתאר את הסיכון הבסיסי – כאשר אין שום אינפורמציה. הוא מסומן בלמבדה אפס טי. הסיכון הבסיסי נקבע רק על פי נתוני התמותה. לכל אדם במדגם נתון האם הוא מת, אם כן, מתי, ואם לא, כמה שנים הוא חי עד למועד שבו הוחלט להפסיק את המעקב ולהזין את הנתונים למודל. החלק השני מכיל את גורמי הסיכון האפשריים, כגון גיל, מין, הרגלי אכילה, וגם כמובן משתנה המציין האם האדם שבמדגם מעשן או לא. גורמי הסיכון מסומנים באיקסים. לכל X יש מקדם שמסומן באות ביתא. אם ביתא שונה באופן משמעותי מאפס זה אומר שלמשתנה X יש השפעה משמעותית על הסיכון. אם ביתא חיובי זה אומר שהסיכון גדל ככל ש-X גדל, ואם ביתא שלילי זה אומר של-X יש דווקא השפעה חיובית. רמת הסיכון עולה (או יורדת) באופן פרופורציוני לערכו של .X[3] מכאן נובע שם המודל – מודל הסיכונים הפרופורציוניים. לאחר שאומדים את הפרמטרים של המודל אפשר, באופן תיאורטי, לחשב את הסיכון לאדם מעשן ולאדם לא מעשן.[4] בפועל, המודל מספק ישירות אומדן ליחס שבין הסיכונים, ה-hazard ratio. היחס הזה מתבטא במקדם הביתא של משתנה העישון.

למודל יש כמובן גם הנחות. החשובה שביניהן היא ההנחה כי יחס הסיכונים נשאר קבוע לאורך כל תקופת המעקב. זו הנחה חזקה, ובדרך כלל היא נכונה, וגם אם יש סטייה לא גדולה מההנחה הזו המודל מספיק עמיד (robust) כדי לספק אומדן טוב של הסיכון. יש הרחבות למודל שבהן מחליפים את ההנחה הזו בהנחה יותר גמישה אם יש צורך. אחד המודלים הידועים שמרחיבים את מודל קוקס פותח על יד שילה בירד.

איך מתרגמים את הנתונים למספרים

עכשיו נוכל לעשות את החישובים.

יש לנו את ההסתברויות למות בכל גיל מלוחות התמותה. יש לנו את גם יחס הסיכונים שהוא כזכור היחס בין הסיכון למות של אנשים המעשנים יותר מ-10 סיגריות ביום ובין הסיכון של לא מעשנים. זכרו כי זהו יחס הסיכונים לנקודה ספציפית בזמן. מתוך יחס הסיכונים אפשר לחשב את  יחס הסיכויים: היחס בין ההסתברויות למות במשך תקופת זמן מוגדרת, שנה למשל. בשביל זה יש נוסחה. אני אחסוך לכם אותה. יש בה אינטגרלים ואקספוננטים, וזה בדרך כלל לא טוב לבריאות. אם אתם ממש רוצים  אז אתם יכולים לקרוא כאן, למשל, אבל זה על אחריותכם (קישור לקובץ  pdf). אני חוסך את זה גם לעצמי, ואשתמש בנתון מתוך מאמר אחר מאת מהטה ופרסטון משנת 2012. לפי הנתונים במאמר הזה, יחס הסיכויים למוות בתקופת זמן של שנה, בין גברים מעשנים וגברים לא מעשנים הוא בערך 2.3 (לקחתי את הגבול התחתון של רווח הסמך, כדי לקבל הערכה שמרנית), לאחר תקנון לגיל, וזאת בארצות הברית, בשנים 1987 עד 2006.

אנחנו צריכים עוד נתון אחד והוא שיעור המעשנים באוכלוסייה. לצורך הדוגמה אשתמש בנתונים של משרד הבריאות משנת 2017, לפיהם כ-30% מהגברים מעל גיל 21 הינם מעשנים..

כשיש לנו את כל הנתונים מה שנשאר זה קצת אלגברה של בית ספר תיכון.[5]

נניח שהסיכוי של מעשן בן 55 למות לפני גיל 56 הוא X, והסיכוי של לא מעשן הוא Y. לפני הנתון של מהטה ופרסטון, X גדול פי 2.3 מ-Y, כלומר X=2.3Y. זה נותן לנו משוואה אחת המקשרת בין X ל-Y.

את המשוואה השנייה נגזור מתוך מה שידוע בשם נוסחת ההסתברות השלמה.  ניתן להציג את החישוב בצורת עץ הסתברויות:

 

 

 

 

 

 

 

 

 

מהי ההסתברות של גבר בן 55 למות? ההסתברות הזו שווה להסתברות שלו למות אם הוא מעשן שהיא כאמור X כפול ההסתברות שהוא מעשן, שהיא 30%, ולכך יש להוסיף את ההסתברות שלו למות אם הוא לא מעשן, Y, כפול ההסתברות שהוא לא מעשן, שהיא 70%.  כל זה צריך להיות שווה ל-0.00425, כלומר 0.3x+0.7y=0.00425.

עכשיו יש לנו שתי משוואות בשני נעלמים ואפשר לפתור אותן. הפתרון הוא ש-X, ההסתברות שגבר יהודי מעשן בן 55 ימות לפני שיגיע לגיל 56 – שווה ל-0.00703237, ואילו Y, ההסתברות שגבר יהודי בן 55 שאינו מעשן ימות לפני שיגיע לגיל 56 היא הרבה יותר נמוכה: 0.00305755.

כזכור, על פי לוח התמותה, ההסתברות שגבר בן 55 ימות לפני שיגיע לגיל 56 היא 0.00425. זה אומר שאם יש לנו 100000 גברים כאלה, אז בממוצע ימותו במהלך השנה 425 מהם. אם לעישון אין השפעה על ההסתברות למות, אז 30% מהמתים יהיו מעשנים: בערך 128 איש.

אבל אנחנו יודעים שההסתברות למות שונה למעשנים ולא מעשנים.

בין 100000 הגברים יש 30000 מעשנים, ולכל אחד מהם הסתברות למות השווה כאמור ל- 0.00703237. זה אומר שמתוכם ימותו 210 איש – 82 איש יותר ממה שהיה צריך להיות אילו לעישון לא הייתה השפעה. 82 האנשים האלה מתו לכן בגלל שהיו מעשנים.

כך אפשר לערוך את החישוב לכל מין, לכל גיל, ולכל קבוצת אוכלוסייה למעשה. אם עושים את החשבון עם כל הנתונים המדוייקים (שלא היו בידיי), אז מגיעים ל-8000 מחברים את תוצאות כל החישובים ומגיעים למספר הכולל.

מה בקשר לעישון פאסיבי

העקרון הוא אותו עיקרון, אם כי היישום יותר מסובך. אני חייב להודות שאני לא יודע באיזה שיטה משתמשים כדי לאמוד את מספר הנפגעים מעישון פאסיבי.

בגדול יש שתי אפשרויות: להגדיר באופן כלשהו משתנה המציין אם אדם נחשף לעישון פאסיבי או לא נחשף, ואז החישוב הוא כפי שנעשה קודם. אפשרות שניה היא להגדיר את רמת החשיפה לעישון פאסיבי כמשתנה כמותי ואז יחס הסיכונים פרופורציונאלי לרמת החשיפה. ברמה העקרונית החישוב נשאר אותו חישוב, אלא שכאן מדובר במשתנה רציף ולכן הפירוק להסתברויות לפי רמת החשיפה מסובך יותר.

כמה מילים בנימה אישית

וכאן אני רוצה לומר כמה מילים אישיות.

אני חושב שהנתון כי בכל שנה מתים בישראל 8000 איש מנזקי עישון הוא מזעזע. אם מחר תפרוץ חלילה מלחמה וימותו בה 8000 איש העם יצא לרחובות. אם השנה ייהרגו 8000 איש בתאונות דרכים, שר התחבורה והשר לביטחון פנים לא יוכלו להתחמק מאחריות. 8000 מתים בשנה פירושם יותר מ-20 מתים כל יום. אם חלילה יתרחש פיגוע וייהרגו בו 20 איש, אף אחד לא יחכה שהמספר יצטבר ל-8000 לפני שיידרשו לעשות משהו, ובצדק.

כמו שאמר סטאלין, מוות אחד הוא טרגדיה אבל 8000 מתים הם כנראה רק סטטיסטיקה. לסטטיסטיקה הזו אחראים המנהיגים שלנו ומקבלי ההחלטות. בשנת 2011 הוכרזה תכנית לאומית למלחמה בעישון ובנזקיו. בפועל לא קרה כמעט כלום. הגיע הזמן לתכנית חדשה, והפעם זו צריכה להיות תכנית חירום לאומית למלחמה בעישון. עכשיו.

 

 

 


הערות
  1. אתם מוזמנים לקרוא את דברי ההסבר בקובץ לוחות התמותה []
  2. נשאלת כמובן השאלה איך יודעים שאלה גורמי סיכון, והתשובה תתברר מייד []
  3. באופן יותר מדוייק: ההשפעה היא פרופורציונית לגבי הלוג של יחס הסיכונים []
  4. את זה עושים על ידי כך שקובעים ש-X הוא משתנה שמקבל שני ערכים: 0 אם האדם לא מעשן, 1 אם הוא כן מעשן. כאשר X שווה ל-1 נוסף הערך ביתא לסכום המשוקלל של גורמי הסיכון []
  5.  אני יודע שאני עושה פה סלט: נתונים מארצות הברית מסוף המאה העשרים ותחילת המאה העשרים ואחת, ונתונים מישראל. הכל נעשה לצורך הדגמה. אל תסיקו מסקנות מהמספרים שתראו בהמשך. []