חיפוש באתר

קישורים

עמודים

קטגוריות

ארכיב עבור 'מה אומרת הסטטיסטיקה'

רחובות הסרטן והאנטנות הסלולריות

ב-25.2.2019 התפרסמה בעיתון ידיעות אחרונות כתבה תחת הכותרת "רחובות הסרטן". הנה ציטוט כותרות המשנה:

מקום לדאגה: ברדיוס של 500 מטרים במרכז ראש־העין התגלו בשנים האחרונות עשרות מקרים של סרטן • כארבעים בני אדם כבר נפטרו מהמחלה • התושבים בטוחים שהגורם לתחלואה הוא אנטנות סלולריות שניצבות על גג בניין השייך לעירייה • "שנים שאנחנו זועקים ואף אחד לא מקשיב", הם טוענים, "אנשים מתים פה אחד אחרי השני".

הכתבה הזו ללא ספק מעודדת פניקה. עוד באותו יום הופיע פוסט בפייסבוק בקבוצה של תושבי העיר שלי, המזהיר מפני שתי אנטנות סלולריות שניצבות על גג התחנה המרכזית בעיר. "אנשים ימותו!" נכתב בפוסט שזכה לעשרות לייקים ותגובות נסערות.

אני לא מזלזל בכאבם של תושבי ראש העין, להפך. אני גם לא מתכוון לדון במספרים שהוזכרו בכתבה. אני מקבל אותם כפי שהם. אני רק רוצה להתייחס רק לטענה כי הגורם לתחלואה הוא אנטנות סלולריות. קל (לי לפחות) להסביר למה הטענה הזו לכל הפחות מוטלת בספק: יש עוד הרבה אנטנות סלולריות בהרבה מקומות, וסביבן אין שיעורי תחלואה גבוהים בסרטן. אם האנטנות מסרטנות, אז הן צריכות לסרטן בכל מקום, לא רק בראש העין.

אז למה דווקא בראש העין יש מקבץ[1] כל כך גדול של תחלואה בסרטן? תשובה אפשרית אחת היא שיש שם גורם סביבתי בעייתי אחר שאינו קיים במקומות אחרים. תשובה אפשרית אחרת היא שייתכן שיש גורם אחר לא סביבתי שאינו קיים במקומות אחרים, אולי גורם גנטי. אפשרות שלישית ועצובה במיוחד היא שהתושבים במקום סובלים מביש מזל.

והנה העניין: אם אין גורמים מקומיים (סביבתיים או אחרים) שגורמים לסרטן (או למחלה אחרת), והתחלואה מתפזרת באופן מקרי על פני כל הארץ, אז נוצרים מקבצים. חוקי הסטטיסטיקה עשויים להיות אכזריים.

אסביר בקצרה: אם פיזור מקרי התחלואה על פני הארץ הוא אקראי, ומחלקים את הארץ ליחידות שטח שוות בגודלן, אז התפלגות מספר המקרים ביחידת שטח מסויימת היא התפלגות פואסונית. ואז יש הסתברות, אמנם קטנה, שבאחת מהיחידות האלה יהיה מקבץ גדול של מקרי תחלואה. הבעיה היא שאין אפשרות לדעת מראש איפה זה יקרה.

גם ההפך נכון: אם התפלגות מספר המקרים ביחידת שטח מסויימת היא התפלגות פואסונית, אז ניתן להסיק כי הפיזור על פני השטח הוא אקראי.

הפעם אדגים את התופעה בעזרת סימולציה. (להלן קישור לתכנית R שבעזרתה ביצעתי את הסימולציה)

נניח כי קיימת מדינה שצורתה ריבוע מושלם, בגודל 100×100 קילומטר. פיזרתי באופן אקראי 400 מקרי תחלואה על פני הארץ בכל פעם הגרלתי שני מספרים מקריים בין אפס ל-100 שקבעו את הקואורדינטות של המקרה. הנה המפה שקיבלתי. יש בה ארבע מאות נקודות.

חילקתי את המפה ל-100 ריבועים, כל אחד בגודל 10×10 קילומטר.

ספרתי כמה נקודות/מקרים יש בכל אחד ממאה הריבועים. הנה טבלה עם תוצאות הספירה:

מספר המקרים 0 1 2 3 4 5 6 7 8 9
מספר האיזורים 1 5 19 19 18 16 13 3 5 1

 

מסתבר שיש איזור אומלל אחד שבו התגלו 9 מקרי תחלואה, 5 איזורים עם 8 מקרי תחלואה, ו-3 עם 7 מקרי תחלואה. לעומת זאת יש איזור אחד בר מזל שבו כולם בריאים, ועוד 5 איזורים שבהם היה רק מקרה אחד. סימנתי את האיזורים האלה במפה. האיזורים שבהם התחלואה נמוכה מוקפים במסגרת סגולה (קצת קשה לראות):

אני לא רואה שום תבנית בפיזור של איזורי התחלואה הגבוהה על המפה, וגם לא בפיזור של איזורי התחלואה הנמוכה[2] . זה לא אומר שלא צריך לבדוק מה קורה שם. אבל הבדיקה צריכה להיות רצינית ולא להסתמך על פניקה שמפיצה כתבה בעיתון.

ראו גם רשימות נוספות שכתבתי על ההתפלגות הפואסונית ושימושיה:


הערות
  1. cluster []
  2. ניתן גם לבדוק את טיב ההתאמה של מודל ההתפלגות הפואסונית לנתונים []

מלחמת המינים

באיים המטריארכליים שבאוקיינוס השקט יש העדפה ברורה לבנות, ולכן כל משפחה מביאה ילדים לעולם עד שנולדת להם בת (לאחר שנולדת בת המשפחה מפסיקה להביא ילדים לעולם).

מהו יחס המינים באיים?

מתוך 47 איש שענו על שאלה זו בטוויטר, 36 ידעו את התשובה הנכונה: למרות שלכאורה יש משפחות עם הרבה בנים ורק בת אחת, עדיין יהיה מספר שווה בערך של גברים ונשים.

 

למה זה נכון?

כמקובל, יש צורך להניח מספר הנחות. ההנחות המקובלות הן:

  • בכל לידה נולד רק ילד אחד
  • כל ילד הוא בהכרח בן או בת
  • הסיכוי ללידת בן שווה לסיכוי ללידת בת
  • אין קשר בין המינים של הילדים השונים באותה המשפחה

ארבע ההנחות האלה יוצרות מודל: תיאור של המציאות, שייתכן שאינו מדוייק לגמרי, אבל הוא מספיק טוב כדי לתת תשובה אמינה לשאלה שלנו.

על ההנחות אפשר להתווכח. 3 ההנחות הראשונות יקלו עלינו את החישובים. 2 ההנחות הראשונות מתעלמות ממקרים של לידות תאומים, וממקרים נדירים בהם נולדים תינוקות שאינם זכר או נקבה ביולוגיים.[1] גם ההנחה השלישית אינה נכונה בטבע: ידוע כי נולדים יותר בנים מאשר בנות, והטבע "מאזן את עצמו" בכך ששיעור התמותה של תינוקות זכרים גבוה יותר. אפשר לבנות מודל יותר מורכב שייקח בחשבון הנחות יותר מורכבות, אבל זה רק יסבך את החישובים.

ההנחה הרביעית היא קריטית. אם היא לא נכונה, אז כל הניתוח שיוצג כאן אינו נכון. שוב, אפשר להחליף את ההנחה הזו בהנחה יותר מורכבת, אבל אין לנו שום סיבה לחשוד בכך שההנחה הזו לא נכונה.

עכשיו, כשיש לנו מודל, בואו ננסה לראות מה קורה. נסתכל על דור היפותטי באיים, שבו יש 1024 משפחות חדשות בתחילת דרכן. נניח גם כי בכל שנה יש לידה (במשפחות שאין בהן בת).

בשנה הראשונה, ל-512 משפחות תיוולד בת, ול-512 משפחות ייוולד בן[2]. בסוף השנה יש 512 בנות ו-512 בנים.

בשנה השניה, 512 המשפחות שלהן יש בן יביאו עוד ילד לעולם. ל-256 מהמשפחות האלה תיוולד בת, ול-256 משפחות ייוולד בן. כעת יש 768 בנים (512+256) וגם 768 בנות. יש 256 משפחות עם שני בנים ו-256 משפחות עם בן ובת.

בשנה השלישית, 256 המשפחות שלהן יש שני בנים יביאו עוד ילד לעולם. ל-128 מהמשפחות תיוולד בת, ול-128 מהמשפחות ייוולד בן. כעת יש 896 בנים (768+128) וגם 896 בנות. יש 512 משפחות עם בת אחת, 256 משפחות עם בן ובת, 128 משפחות עם שני בנים ובת, ו-128 משפחות עם שלושה בנים.

בשנה הרביעית, 128 המשפחות שלהן יש שלושה בנים יביאו עוד ילד לעולם. ל-64 מהמשפחות תיוולד בת, ול-64 מהמשפחות ייוולד בן. כעת יש 960 בנים (896+64) וגם 960 בנות. יש 512 משפחות עם בת אחת, 256 משפחות עם בן ובת, 128 משפחות עם שני בנים ובת, 64 משפחות עם שלושה בנים ובת, ו-64 משפחות עם ארבעה בנים.

וכן הלאה. אני אעצור את החישוב הזה כאן, כי ההמשך ברור.

ומכיוון שמשספר הבנים בסופו של דבר שווה למספר הבנות, במשפחה ממוצעת יש מספר שווה של בנים ובנות.

אפשר גם לחשב את גודלה של משפחה ממוצעת: יש לנו 512 משפחות עם ילד אחד (בת), 256 משפחות עם 2 ילדים, 128 משפחות עם שלושה ילדים, וכן הלאה. ולכן (בהנחה שאם יש 10 בנים מוותרים וזהו):

אז במשפחה ממוצעת יש למעשה שני ילדים, ילד אחד הוא בהכרח בת (פרט למשפחה חסרת המזל שבה יש 10 בנים) ובכל משפחה יש רק בת אחת, ולכן הילד הנוסף במשפחה הממוצעת הוא בהכרח בן. במילים אחרות, במשפחה ממוצעת יש בת אחת ובן אחד, ולכן כמובן מספר הבנים שנולדו ל-1024 המשפחות ההיפותטיות שלו שווה למספר הבנות.

אפשר ורצוי לערוך גם חישוב הסתברותי: ההסתברות שבמשפחה יש ילד אחד היא חצי, ההסתברות שבמשפחה יש שני ילדים היא רבע, ההסתברות שבמשפחה יש שלושה ילדים היא רבע, וכן הלאה. לכן אפשר לחשב התוחלת של מספר הילדים במשפחה ולמצוא כי היא שווה ל-2:

 

את החישוב האחרון מבצעים בעזרת כמה תעלולים אלגבריים שכוללים בין השאר את הנוסחה לחישוב סכום של טור גיאומטרי/הנדסי שכנראה שמעתם עליה כשלמדתם מתמטיקה בבית הספר. זה לא מפתיע: סדרת ההסתברויות היא סדרה גיאומטרית: חצי, רבע, שמינית… כל הסתברות קטנה פי 2 מההסתברות הקודמת. לכן הסטטיסטיקאים מכנים את ההתפלגות שתוארה כאן בשם התפלגות גיאומטרית. מספר הילדים במשפחה הוא, בפי הסטטיסטיקאים, משתנה מקרי גיאומטרי. ושוב, מכיוון שעל פי תנאי השאלה תוחלת מספר הבנות במשפחה שווה ל-1, תוחלת מספר הבנים במשפחה חייבת גם היא להיות שווה ל-1, כלומר תוחלת מספר הבנים שווה לתוחלת מספר הבנות.

חישוב התוחלת הוא אולי מפחיד אבל התוצאה מאוד אינטואיטיבית. תחשבו על קוביה. אתם מטילים אותה ורוצים להוציא 5[3]. כמה הטלות בממוצע צריך להטיל עד שתקבלו 5? ההסתברות להטלת חמש היא שישית, ולכן האינטואיציה אומרת שצריך בממוצע 6 הטלות. 6 זה אחד חלקי שישית. גם במקרה הלידות אותה האינטואיציה עובדת. ההסתברות ללידת בת היא חצי, ולכן מספר הלידות הממוצע על לידת בת הוא אחד חלקי חצי, כלומר 2.

להתפלגות הגיאומטרית יש שימוש בכל מקום שבו רוצים לדעת כמה ניסיונות צריך לנסות עד להצלחה, זאת בתנאי שאין תלות בין הניסיונות וההסתברות להצלחה קבועה. איש מכירות, למשל, מעוניין לדעת כמה ניסיונות מכירה הוא צריך בממוצע לבצע עד שתתקיים מכירה. חולה הממתין לתרומת איבר להשתלה מעוניין לדעת כמה תורמים "יצטרך לחכות" עד שיימצא תורם מתאים. במקרה הזה, בהנחה שהסיכוי להתאמה של 10%, ושאין קשר בין התורמים (הנחה סבירה), יצטרכו בממוצע למצוא 10 תורמים פוטנציאליים עד שתימצא התאמה. אם בכל חודש מאותר תורם פוטנציאלי אחד, אז זמן ההמתנה הממוצע עד להשתלה הוא 10 חודשים.


הערות
  1. ואני מערבב כאן בין המין הביולוגי ובין המגדר לצורך נוחות הדיון, אבקש את סליחתכם []
  2. באופן תיאורטי כמובן, הכל באופן תיאורטי []
  3. נניח שהימרתם על 5, סתם []

חיסוני חצבת ואלימות נגד נשים

בשבוע שעבר תלו הורים באחד מגני הילדים (בגבעתיים נדמה לי) שלטים על שער הגן בו הזהירו כי בגן יש ילדה לא מחוסנת והתריעו על סכנת הדבקות בחצבת. אפשר להתווכח על השלט, תוכנו, וגם על הסגנון. בדיון בפייסבוק נטען כי זו "פעולה אלימה מאוד". לעומת זאת נטען באותו דיון גם כי " זו התנהגות סבירה לחלוטין… בירושלים בה יש התפרצות חצבת כרגע, יש שלטים בכניסה לקופות החולים שמזהירים הורים שילדיהם חשודים בהידבקות בחצבת מפני כניסה למרפאה ומבקשים להישאר בחוץ ולקרוא לאיש צוות שייצא אליהם, ובצדק גמור". אני באופן אישי חושב שצריך להזהיר את הציבור ובפרט הורים לילדים בגן על המצאות ילדה שלא חוסנה ביודעין, בייחוד כשבארץ יש כעת התפרצות חמורה של מחלת החצבת, ונכון למועד כתיבת שורות אלה למעלה מ-2000 איש אובחנו כחולים, ורבים עוד יותר נחשפו למחלה בבתי ספר, קופות חולים ובתי חולים, בתחבורה הציבורית ובמקומות נוספים.

בכל מקרה, אני לא חושב שהצבת שלטי אזהרה מפני ילדה לא מחוסנת שקולה לליל הבדולח (או למעשים אחרים שנעשו בגרמניה הנאצית), אבל אבישי מתיה חושב שכן ומזהיר כי "זה ייגמר בדם":

אבל בוא נעזוב את אבישי מתיה ונדון בסטטיסטיקה.

בואו נראה קודם מה יכול לקרות בגן. לכאורה אין בעיה. הילדה לא מחוסנת, ולכן הדבר הגרוע ביותר שיכול לקרות הוא שהיא תידבק בחצבת, וזו עיקר הבעיה שלה. היא עלולה להדביק אנשים אחרים שלא מחוסנים, ובגן כל הילדים האחרים מחוסנים, אז הם לא יידבקו.

זהו, שלא.

בואו נניח כי בגן הספציפי הזה יש 30 ילדים, ואף אחד מהם אינו במצב בריאותי שלא איפשר לו לקבל חיסון. כולם קיבלו חיסון. האם כולם מחוסנים? לא בהכרח. היעילות של החיסון, לאחר קבלת מנה אחת של חיסון, היא בערך 95%. אחרי קבלת המנה השנייה היעילות עולה ל-99%, אבל המנה השנייה ניתנת רק בכיתה א, והילדים האלה עדיין בגן. הסיכוי שילד אחד שקיבל חיסון אכן מחוסן הוא לכן 0.95. הסיכוי ששני ילדים אחד שקיבל חיסון הינם אכן מחוסנים הוא 0.95 כפול 0.95. הסיכוי כי כל 30 הילדים בגן שקיבלו חיסון אכן מחוסנים הוא 0.95 מוכפל בעצמו 30 פעמים, וזה יוצא 0.215. מכאן שהסיכוי כי בגן הזה יש לפחות ילד אחד שאינו מחוסן למרות שקיבל חיסון הוא כמעט 80%. הסיכוי שבקרב כל האנשים שנמצאים בסביבתה של הילדה הלא מחוסנת יש לפחות אדם אחד לא מחוסן הוא הרבה יותר גבוה. אם הילדה הזאת תחלה, כמעט בטוח שהיא תדביק אדם נוסף אחד לפחות. ככה המגיפות מתפשטות.

חצבת היא אחת המחלות המדבקות ביותר שיש, ויש אומרים כי זו המחלה המידבקת ביותר. באוכלוסייה שאיננה מחוסנת, אדם חולה ידביק בממוצע 18 אנשים נוספים. הסיכוי כי אדם לא מחוסן שנחשף לחצבת יחלה במחלה עולה על 90%. חשיפה למחלה כוללת המצאות במקום שבו היה אדם חולה חצבת אפילו שעתיים לאחר שהחולה עזב את המקום. לדעתי האישית, זה השיקול היחיד שצריך לקבוע. כמו שאף אדם מוסרי לא ידחוף דחיפה קטנה מישהו שעומד על הרציף ויש סיכון, קטן אך חיובי, שהנדחף ייפול אל מתחת לגלגלי הרכבת, אני חושב שאף אדם מוסרי לא צריך לאפשר אפילו סיכון קטן של הדבקת אדם אחר בחצבת. המעשה המוסרי הוא לצמצם את הסיכון. לכן, לא לחסן ילדים מתוך אידאולוגיה זה מעשה לא מוסרי, כי זה מסכן גם את הילד שלא מחסנים וגם אחרים, וחיסון מקטין מאוד את הסיכון הזה. להזהיר אנשים מפני סיכון של הדבקות בחצבת, גם אם הסיכון קטן, זה לדעתי המעשה הנכון והמוסרי.[1]

בשלב זה נטען כי ההסתברות שציינתי (מעל 90%) היא הסתברות מותנה, וזה נכון. זו אכן ההסתברות המותנה להדבקות בהינתן חשיפה לאדם חולה. ניתן כנגדי כי ההסתברות הרלוונטית היא "הסיכוי במצב נתון, בחיים נורמליים ורגילים בחברה הישראלית, להידבק". אני לא אחזור כאן על כל הטיעונים שנטענו[2] ,אבל השורה התחתונה של הטיעון היא כי הסיכון להדבקות בחצבת הוא הוא "נמוך. מאד. קטנטנן."

אולם אני חושב בכל זאת שההסתברות הרלוונטית היא ההסתברות המותנה. כאן עשיתי אנלוגיה לרצח נשים. אני רוצה להבהיר כי אין בכוונתי לרמוז כי הנושא הזה אינו מטריד את האדם שהתדיין מולי, ובוודאי שאיני שם מילים בפיו. אני כן טוען כי ההסתברות הלא מותנה אינה רלוונטית כאשר דנים בסיכונים מהסוג שלי.

הטיעון שלי הוא כזה: השנה נרצחו יותר מ-20 נשים. הבה נעגל את המספר ל-30. בישראל יש קרוב ל-9 מיליון תושבים, כמחציתם, כלומר כ-4.5 מיליון הן נשים. הבה נעגל את המספר הזה ל-4 מיליון. כעת נבצע פעולת חילוק, ונקבל כי הסיכוי של אישה להירצח, עם עוד עיגול נדיב כלפי מעלה, הוא כ-1 ל-130 אלף. סיכוי הרבה יותר קטן מהסיכוי להידבק בחצבת[3]. אז לא צריך לעשות כלום בנושא???

אחת המשתתפות בדיון לקחה את הטיעון הזה עוד יותר רחוק ואמרה כי "הסתברות להיפגע בפיגוע טרור היא נמוכה מאוד מאוד…השנה נרצחו בפיגועי טרור 15 איש… אז אולי בכלל אין צורך לנקוט בפעולות כאלה חריפות למלחמה בטרור, ממילא מההסתברות לפגיעה היא נורא נמוכה".

אני חושב שהנקודה ברורה. בסיכונים צריך לדון בהקשר של גורמי סיכון, וההסתברות הרלוונטית היא לכן ההסתברות המותנה בגורמי הסיכון. כדי לנהל את הסיכונים צריך לטפל בגורמי הסיכון. במקרה של מגיפת החצבת, גורם הסיכון היחיד שניתן לטפל בו כרגע אופן ההתפשטות המהיר של המחלה. הדרך היחידה האפשרית להאט את קצב התפשטות המחלה היא לחסן את האוכלוסייה.

ויש עוד נקודה שצריך לשים לב אליה. אף אחד לא מטיף לרצח נשים, אבל יש עשרות אלפי אנשים שמקדמים אג'נדה אנטי חיסונית, והתנועה הזו צוברת תאוצה ועלולה להגיע למסה קריטית מסוכנת (והסיכוי שזה יקרה הוא לדעתי מאוד לא זניח). לצערי, לא קיימות כרגע סנקציות שאפשר לנקוט נגד אנשים שאינם מחסנים את ילדיהם ואנשים המעודדים אנשים אחרים לא לחסן. מה שניתן לעשות זה להזהיר מפני הסכנות, גם אם זה פוגע ברגשותיו של אבישי מתיה.


הערות
  1. הערה: בפיסקה זו יש בעיקר דיון מוסרי, והדברים שכתבתי בפיסקה זו היו בדיון המקורי תשובה לשאלה סטטיסטית על סיכויי ההדבקות המחלה. ניתן לטעון נגד ההיסחפות שלי לדיון מוסרי, אולם אני חושב שאי אפשר לדון בשאלה הסטטיסטית בלי להידרש למשמעות המוסרית שלה. []
  2. תוכלו לקרוא זאת בדיון בפייסבוק []
  3. שהוא כ-1 ל-4500, על פי הנתון הנוכחי של כ-2000 חולים באוכלוסייה של כ-9 מיליון איש []

שגעון הפווארבול

שגעון הפאוורבול בארצות הברית הגיע השבוע לשיאים חדשים, לאחר שבהגרלות שנערכו ב-20.10.2018 איש לא ניחש נכונה את המספרים שעלו בגורל. הפרס הגדול, נכון לעכשיו, הוא 2.22 מיליארד דולר. אני בטוח שאתם רוצים לזכות בפרס הזה. אני רוצה לזכות בפרס הזה.

מה הסיכויים לזכות בפרס הגדול בפווארבול?

למעשה מדובר בשתי הגרלות שונות. בהגרלת המגה-מיליון הפרס הגדול הוא 1.6 מיליארד דולר, וההסתברות לזכייה בו היא בערך 1 ל-302 מיליון. בהגרלה השנייה, היא הגרלת הפווארבול, הפרס הגדול הוא "רק" 620 מיליון דולר, וההסתברות לזכייה בו היא קצת יותר גבוהה – 1 ל-292 מיליון.

כדי לזכות ב-2.2 מיליארד דולר, צריך לזכות בפרס הגדול של שתי ההגרלות, שהינן כמובן בלתי תלויות זו בזו. הסיכוי לכך הוא מכפלת הסיכויים לזכייה בשתי ההגרלות בנפרד, והוא בערך שווה ל-1 ל-88000000000000000.
צריך לזכור כי למרות שההסתברות לזכייה בפרס הגדול, בייחוד אם קונים רק כרטיס אחד, היא נמוכה מאוד, היא עדיין חיובית, כלומר יש סיכוי לזכות. מי שלא קנה כרטיס, לא יוכל לזכות. לכן, הצעד הראשון בדרך לזכייה הוא לקנות כרטיס.

האם קניית כרטיס הגרלה היא השקעה טובה?

זה תלוי כמובן בשאלה איך מגדירים האם השקעה היא טובה. אפשרות אחת היא להעריך את ההחזר הצפוי על ההשקעה. בואו לא נהיה חמדניים, ונתרכז רק בהגרלת המגה-מיליון ובפרס של 1.6 מיליארד דולר. מחיר כל כרטיס הוא שני דולר. בממוצע, מי שקונה כרטיס זוכה ב-1.6 מיליארד דולר בהסתברות של 1 ל-302 מיליון, או מפסיד 2 דולר בהסתברות כמעט קרובה ל-1. לכן ההחזר הממוצע על הכרטיס הוא בערך 1.6 מיליארד כפול 1 חלקי 302 מיליון פחות 2. זה יוצא בערך 3.30 דולר. למעשה חישבתי כאן את תוחלת הזכייה של כרטיס הגרלה. שימו לב כי התוחלת חיובית. בממוצע, מפעל ההגרלות מפסיד בהגרלה הזו 3.30 דולר על כל כרטיס שנמכר. בדרך כלל, במשחקי הימורים תוחלת הזכייה היא שלילית. למשל, אם אתם מהמרים ברולטה על ניחוש שחור/אדום, תוחלת הזכייה שלכם על כל דולר הימור היא בערך מינוס 5.2 סנט, כלומר בממוצע אתם מפסידים 5.2 סנט בכל פעם שאתם מהמרים על דולר. זה מספיק לקזינו כדי להרוויח מיליונים.

ראיתי במספר פורומים (בדיונים על הגרלות אחרות עם פרסים גדולים במיוחד) אנשים שטענו כי תוחלת הזכייה חיובית ולכן כדאי לקנות כרטיס השתתפות בהגרלה. למרבה הצער הטענה הזו לא נכונה. אותם 3.30 דולר שחישבתי למעלה הם תוחלת של כסף, ותוחלת של כסף זה לא כסף. אתם לא יכולים לקחת כרטיס להגרלה שתיערך מחרתיים ולשלם איתו במכולת, גם אם תוחלת הזכייה חיובית[1]. מה שיקרה זה שמועד ההגרלה יגיע, ואז תזכו, או שאולי לא. כמובן, אם תוכלו להשתתף בהגרלות כאלה כמה פעמים שתרצו, משתלם לגמרי לקנות כרטיס ועוד כרטיס ועוד כרטיס. חוק המספרים הגדולים יהיה לצידכם. אבל זה לא יקרה כמובן. ההזדמנות להשתתף בהגרלה היא חד פעמית

אבל הסיכוי לזכות כל כך קטן – ברור שאין זוכה

אמנם הסיכוי שאתם תזכו בהגרלה הוא מאוד נמוך, אך הסיכוי שמישהו יזכה בפרס הגדול הוא גבוה למדי.[2]. הנה הסבר אינטואיטיבי. תחשבו על קובייה. אם תטילו אותה הסיכוי שתוצאת ההטלה תהיה 6 היא 1 ל-6. אם שני אנשים יטילו כל אחד קובייה, הסיכוי שלפחות באחת ההטלות התוצאה תהיה 6 הוא גבוה יותר – בערך 1 ל-3.3. אם שלושה אנשים יטילו כל אחד קובייה, הסיכוי שלפחות באחת ההטלות התוצאה תהיה 6 הוא אפילו גבוה יותר – בערך 1 ל-2.37. וכן הלאה. אפשר לחשוב על כרטיס הגרלה כמין קובייה מטאפורית, כזו שהסיכוי לתוצאת 6 אם תטילו אותה הוא 1 ל-302 מיליון. אם יותר אנשים יטילו יותר קוביות, כלומר אם יותר כרטיסי הגרלה יימכרו, הסיכוי שתתקבל תוצאת 6, כלומר שמישהו יזכה בפרס, הולך וגדל.

כמה כרטיסים צריכים להימכר כדי שהסיכוי שלפחות כרטיס אחד יזכה יהיה 5%? 10%? 50%? מה הסיכוי ששני זוכים יחלקו את הפרס הגדול? אם אתם יודעים את מספר הכרטיסים שנמכרו, אתם יכולים לחשב את הסיכויים האלה בעזרת התפלגות פואסון. אדלג ברשותכם על הפרטים הטכניים. אפשר גם לעשות חישוב הפוך, ולחשב כמה כרטיסים צריכים להימכר כדי שההסתברות שמישהו יזכה בפרס הגדול תהיה שווה ל-50%. המספר הזה הוא בערך 210 מיליון. זה לא מספר מופרך. לפי הדיווח הזה, כ-226 מיליון כרטיסים צפויים להימכר לקראת ההגרלה הקרובה.

מה אם קונים את כל הכרטיסים?

הנה עוד רעיון שבוודאי עבר במוחו של מישהו: יש 302 מיליון צירופי מספרים אפשריים. אם נקנה 302 מיליון כרטיסים, ובכל כרטיס יופיע צירוף מספרים אחר, אז הכרטיס הזוכה חייב להיות בין הכרטיסים שקנינו. כל כרטיס עולה שני דולר, אז 302 מיליון כרטיסים יעלו 604 מיליון דולר. הפרס הגדול הוא 1600 מיליון דולר, ולכן מובטח רווח של כמעט מיליארד דולר. האם אפשר לעשות את זה?

התשובה הקצרה היא "כן". התשובה הארוכה היא "כנראה שלא".

מבחינה חוקית זה אפשרי, וזה כבר נעשה לפחות פעם אחת. בשנת 1992 הפרס הגדול בהגרלת הלוטו של מדינת וירג'יניה היה 27 מיליון דולר, והסיכוי לזכייה היה בערך 1 ל-7 מיליון. כל מה שצריך היה לעשות זה לקנות 7 מיליון כרטיסים ב-7 מיליון דולר ולגרוף רווח של 20 מיליון דולר. קבוצה של כ-2500 משקיעים התארגנה לגייס את הכסף ולרכוש את הכרטיסים. למרבה צערם הם הספיקו לקנות רק כ-5 מיליון כרטיסים עד מועד ההגרלה. לאחר קצת כסיסת ציפורניים התברר שהם אכן הצליחו לרכוש את הכרטיס הזוכה, מדינת וירג'יניה ניסתה להערים קשיים משפטיים כדי להימנע מתשלום, אך בסופו של דבר סכום הפרס הגדול שולם (וגם עוד כמה עשרות אלפי פרסים יותר קטנים).[3]

בהגרלת המגה מיליון זה סיפור בסדר גודל אחר לגמרי. קודם כל, כדי לקנות 302 מיליון כרטיסים צריך 604 מיליון דולר, במזומן. שנית, יש לכם רק ארבעה ימים עד ההגרלה הבאה. בארבעה ימים יש 345600 שניות, כלומר תצטרכו לקנות כמעט 900 כרטיסים בכל שניה. וכמובן, אתם צריכים לוודא איכשהו שקניתם 302 מיליון כרטיסים שונים.

נניח שעשיתם את כל זה וזכיתם. הפרס משולם לזוכה ב-30 תשלומים שנתיים. מי שרוצה כסף עכשיו ומייד, יקבל רק 57% מהסכום. צריך גם לשלם מס בסך 25%. מ-1.6 מיליארדי הדולרים יישארו רק 684 מיליון. עדיין רווח נקי של 80 מיליון דולר תוך ארבעה ימים. לא רע.

אבל… כל זאת, כמובן, אם לא יהיה זוכה נוסף בפרס הגדול.

וההסתברות שיהיה זוכה נוסף או אפילו יותר אינה זניחה. כבר ראינו כי אם נמכרים עוד כ-200 מיליון כרטיסים מלבד 302 מיליון הכרטיסים שלכם, ההסתברות כי יהיה זוכה אחד נוסף לפחות היא כ-50%. אם יהיה זוכה אחד נוסף, החלק שלכם בפרס יהיה רק 800 מיליון דולר, שלאחר ההיוון ותשלום המס יתכווצו ל- 342 מיליון, וזה כבר הפסד נקי של 262 מיליון דולר. אם הפרס יתחלק בין שלושה זוכים ההפסד יהיה גבוה יותר. לא טוב. אם היו לכם 604 מיליון דולר, האם הייתם מוכנים לקחת את הסיכון?

האם כדאי לקנות כרטיס?

אני חושב שכן. אם הייתי תושב ארצות הברית הייתי קונה כרטיס. אחד. זה שעשוע נחמד ויש סיכוי כלשהו לזכות. היכן עוד תוכלו לקנות תקווה תמורת שני דולר בלבד?[4]


הערות
  1. נסו ותיווכחו []
  2. זו למעשה בעיית ימי ההולדת []
  3. לפרטים נוספים ראו את ספרו של דייויד הנד The improbability Principle  []
  4. פראפרזה על דברים שאמרו פרופ' צבי גילולה ופרופ' ישראל אומן []

ניתוח השפעה של אירוע על נתונים לאורך זמן – Interrupted Time Series

בפוסט קודם ניתחתי מה קרה לשיעורי תאונות הדרכים בישראל בתקופת כהונתו של ישראל כץ כשר התחבורה.

כדי לענות על שאלות גון אלה – מה קורה לתופעה כזו או אחרת לאורך זמן – מומלץ להשתמש בשיטות סטטיסטיות לניתוח סדרות עיתיות (Time Series). סדרה עיתית היא סדרה של נתונים שנאספים לאורך זמן: שבועות, חודשים ואפילו שנים. ניתן גם לבדוק  את השפעתו של שינוי מסויים שחל במהלך הזמן (המהווה הפרעה למגמת הסדרה), כמו שינוי קיצוני במזג האוויר, כניסת מתחרה חדש לשוק, או מינוי של שר, בעזרת טכניקה הנקראת "ניתוח סדרות עיתיות מופרעות", או באנגלית Interrupted Time Series או פשוט ITS.

ברשימה זו אסביר את הרעיונות המרכזיים של שיטת ה-ITS שבעזרתה ניתחתי את נתוני תאונות הדרכים בישראל.

דוגמה: החזרי הוצאות עבור רכישת תרופות אנטי פסיכוטיות למבוטחי מדיקייד במערב וירג'יניה

תכנית מדיקייד היא תכנית ביטוח ממשלתית לבעלי הכנסות נמוכות בארצות הברית, ובין היתר משתתפת בהוצאות לרכישת תרופות של המבוטחים. בתחילת שנות ה-2000, כאשר נכנסו לשוק תרופות אנטי פסיכוטיות מהדור השני, שהן גם יקרות יותר, חלה עלייה משמעותית בהחזרי התשלומים עבור התרופות האנטי פסיכוטיות, כיוון שכ-50% מהמרשמים היו לתרופות מהדור השני. רשויות המדינה אינן יכולות, כמובן, לאסור על הרופאים לרשום לחולים תרופות מסויימות. במדינת מערב וירג'יניה החליטו להתחכם ולהוסיף ביורוקרטיה. החל מאפריל 2003, רופא במדינה שרצה לרשום לחולה שמבוטח במדיקייד תרופת דור שני, היה צריך למלא טופס. הנה גרף המראה את אחוז המרשמים של תרופות דור שני מתוך סך המרשמים לתרופות אנטי פסיכוטיות לאורך זמן, כאשר הקו האנכי המקווקו מסמן את המועד בו הונהגה חובת מילוי הטופס:[1]

ברור לחלוטין שמשהו קרה, אבל הסטטיסטיקה יכולה לתת לנו מבט יותר מעמיק.

הרעיון הוא מאוד פשוט – נעביר שני קווי רגרסיה: קו אחד יותאם לנתונים שלפני השינוי, וקו אחר לנתונים לאחריו[2]. הנה הגרף עם קווי הרגרסיה:

כעת ניתן לראות כמה דברים. ראשית, אחרי ההתלהבות הראשונית נראית מגמה של ירידה, אמנם איטית מאוד, באחוז המרשמים לתרופות דור שני. כמובן שיש לבדוק האם ירידה זו היא מובהקת סטטיסטית (היא לא) ולקבוע האם היא משמעותית (כנראה שלא, אחרת לא היה צריך להפעיל את מדיניות הטופסולוגיה).

שנית, אנו רואים מין ירידת מדרגה קטנה בין הרבעון האחרון שלפני הנהגת המדיניות החדשה והרבעון הראשון לאחר הנהגתה. שוב, ניתן וצריך לבדוק האם זוהי ירידה מובהקת (היא כן) ומשמעותית (לא ברור).

שלישית, ברור לחלוטין שהנהגת המדיניות הביאה לירידה משמעותית ומובהקת באחוז המרשמים לתרופות דור שני.

הקו הירוק מראה את ה-counterfactual, תרחיש ה-"מה היה קורה אילו" לא הונהגה מדיניות מילוי הטפסים. את הצלחת המדיניות מודדים על ידי ההבדל (המוחלט או היחסי) בין מה שקרה בפועל ובין ה-counterfactual.

המודל הסטטיסטי

הדבר הראשון שיש לשים אליו לב הוא שבניגוד למודל רגרסיה רגיל, הנתונים כאן אינם בלתי תלויים אחד בשני. בנתונים של סדרות עיתיות יש בדרך כלל קשר סטטיסטי בין הנתון של נקודת זמן מסויימת והנתון של נקודת הזמן הבאה, ואולי אפילו לנתונים של נקודות זמן רחוקות יותר.התופעה הזאת נקראת אוטוקורלציה. לכן, לפני שמריצים מודלים של רגרסיה, צריך לחקור את הקשרים בין הנתונים לאורך זמן. ברשותכם לא אכנס לפרטים, אך אציין כי קשרים אלה נלקחים בחשבון בהמשך הניתוח.

כמון כן, ציינתי קודם שמעבירים שני קווי רגרסיה, אך אומדים אותם במודל אחד, בן ארבעה פרמטרים: הפרמטר הראשון הוא הגובה בו מתחילה סדרת הנתונים ("החותך"). הפרמטר השני הוא השיפוע, כלומר המגמה, של הנתונים לפני נקודת השינוי. הפרמטר השלישי הוא הקפיצה או הפער בין הנקודה אליה הגיעה הסדרה ממש לפני השינוי ובין הנקודה הראשונה אחרי השינוי. הפרמטר האחרון הוא הרבה פחות אינטואיטיבי: זהו ההפרש בין המגמה של הנתונים לפני השינוי והמגמה שלאחר השינוי. השרטוט הבא מנסה להבהיר את המשמעות של ארבעת הפרמטרים[3]

לאחר שאומדים את הפרמטרים של המודל אפשר לבדוק בעזרת שיטות סטנדרטיות האם השינויים הם מובהקים, וכן להעריך האם הם גם משמעותיים.


הערות
  1. מקור:  Law , Ross-Degnan and Soumerai SB, Effect of prior authorization of second-generation antipsychotic agents on pharmacy utilization and reimbursements, Psychiatr Serv. 2008 May;59(5):540-6.   []
  2. היישום קצת פחות פשוט, ומייד אפרט למי שמעוניין []
  3. השרטוט נלקח מהשקפים של הקורס Policy Analysis using Interrupted Time Series שזמין ברשת באתר edX []