חיפוש באתר

קישורים

עמודים

קטגוריות

110 שנים להולדתו של ויליאם קוקריין

היום, 15.7.2019, מציינים את יום הולדתו ה-110 של הסטטיסטיקאי ויליאם ג. קוקריין.

קוקריין נולד למשפחה מהמעמד הבינוני הנמוך בעיירה ראתרגלן בסקוטלנד. בבית הספר הצטיין בלימודים, וכך זכה במילגות ללימודים  באוניברסיטת גלזגו, תחילה לתואר ראשון, ולאחר מכן למד לתואר שני במתמטיקה בהדרכת ג'ון וישארט.

למרות שלא השיג תואר דוקטור, התקבל לעבודה בתחנת המחקר החקלאי ברותהאמסטד, בהמלצתו של פרנק ייטס. במהלך שהותו בתחנת המחקר בין השנים 1934 ל-1939 למד אצל רונלד פישר שנתן הרצאות בסטטיסטיקה לחוקרים, ועסק במחקר יישומי, עם דגש על תכנון ניסויים.

ב-1939 עבר לארצות הברית, שם עסק בהוראה ומחקר במספר אוניברסיטאות: איובה סטייט, פרינסטון, המכון לסטטיסטיקה של צפון קרוליינה ואוניברסיטת ג'ונס הופקינס. ב-1957 עבר לאוניברסיטת הרווארד, שם התבקש להקים מחלקה חדשה לסטטיסטיקה. הוא נשאר שם עד פרישתו לגימלאות בשנת 1976.

במהלך הקריירה שלו שיתף פעולה עם סטטיסטיקאים רבים, וביניהם פרנק ייטס, פרדריק מוסטלר, סם וילקס, וגרטרוד מרי קוקס. קוקריין וקוקס כתבו יחד ספר רב השפעה על תכנון ניסויים. ספר רב השפעה נוסף שכתב קוקריין עוסק בשיטות דגימה. בין היתר, הוא היה מעורב במחקרים אודות ההתנהגות המינית האנושית בצוותא עם אלפרד קינסי, השפעת הקרינה על ניצולי הירושימה, חיפוש החיסון למחלת הפוליו, ניתוחים לטיפול באולקוס. ביחד עם חוקרים נוספים עסק בהשפעת העישון על בריאות הציבור.  מחקרים אלה הובילו להכרה כי עישון הוא גורם סיכון משמעותי למחלת סרטן הריאות. למרות שלא היה דוקטור, הוא היה מדריך הדוקטורט של יותר מ-40 סטטיסטיקאים, הידוע שבהם הוא דון רובין.

קוקריין פיתח מספר שיטות סטטיסטיות הנקראות על שמו. הידועה  שבהן היא מבחן קוקראן-מאנטל-האנזל.

קוקריין זכה להכרה רבה בזכות תרומתו למדע הסטטיסטיקה. הוא נבחר לחבר כבוד באגודה המלכותית לסטטיסטיקה, וב-1967 זכה במדליה על שם וילקס. הוא היה נשיא המכון לסטטיסטיקה מתמטית, נשיא האיגוד האמריקני לסטטיסטיקה ונשיא האגודה הבינלאומית לביומטריקה.

קוקריין נפטר ב-1980, מספר חודשים לפני יום הולדתו ה-70.

 

לקריאה נוספת:

האם קנאביס רפואי יכול לסייע במלחמה במגיפת האופיואידים?

מחקר שפורסם ב-25 באוגוסט 2014 בכתב העת היוקרתי JAMA עורר מהומה רבה, ובצדק. המחקר גילה קשר סטטיסטי[1] בין חוקים שמסדירים את השימוש בקנאביס לצרכים רפואיים (להלן: "קנאביס רפואי") שחוקקו במדינות שונות בארה"ב ובין שיעורי התמותה במדינות אלה עקב מינון יתר של אופיואידים: נצפתה ירידה של כ-25% בשיעורי התמותה במדינות אלה, בהשוואה למדינות שבהן לא קיימים חוקים כאלה. מחקר נוסף שפורסם כחמש שנים מאוחר יותר, ב-10 ביוני 2019, טוען לכאורה כי הקשר הוא הפוך. מה קורה כאן? ברשימה זו אסקור את שני המאמרים ואחווה את דעתי בנושא.

נתוני רקע

עד 1999, חוקים שהסדירו את השימוש בקנאביס לצרכים רפואיים היו קיימים רק בשלוש מדינות בארצות הברית. במהלך 11 השנים הבאות (1999-2010) נחקקו חוקים דומים בעוד 10 מדינות. 9 מדינות נוספות חוקקו חוקים דומים בין 2010 ל-2014. נכון למועד כתיבת שורות אלה, לקנאביס רפואי יש מעמד חוקי ב-33 מדינות. קהל היעד של הקנאביס הרפואי כולל שתי קבוצות אוכלוסייה עיקריות: חולי סרטן, וחולים הסובלים מכאבים כרוניים שאינם קשורים למחלת הסרטן.

טיפול נפוץ לקבוצת האוכלוסייה השנייה הוא מתן משככי כאבים, ולאורך השנים חלה עליה במתן מרשמים לתרופות משככות כאבים המבוססות על שימוש באופיואידים – קבוצת תרכובות הנקשרות לקולטני האופיואיד במערכת העצבים ובמקומות אחרים בגוף. לשימוש באופיואידים יש מחיר כבד: התמכרויות, ומקרי מוות רבים עקב מינון יתר. ברשימה זו לא אדון בגורמים ל-"מגיפת האופיואידים" ובדרכים בהם מנסים להילחם בה.

מחקר ראשון – JAMA 2014

המחקר, שנערך על ידי קבוצת חוקרים שרובם מאוניברסיטת פנסילבניה, שאל שאלה פשוטה: האם יש קשר בין התרחבות השימוש בקנאביס רפואי ובין שיעורי התמותה עקב מינון יתר של אופיואידים.

החוקרים תיארו שני תרחישים אפשריים. בתרחיש הראשון, הנישות לקנאביס רפואי תביא למעבר של חולים משימוש באופיואידים לשימוש בקנאביס, ומעבר זה יגרום להפחתת השימוש באופיואידים ולירידה במקרי המוות עקב מינון יתר. בתרחיש השני, השימוש בקנאביס יוביל לשימוש באופיואידים, כיוון שכעת ניתן לטפל בחולים שלא היו מעוניינים באופיואידים בעזרת קנאביס רפואי, והשיפור ישכנע אותם להיות פתוחים לשימוש בחומרים פסיכו-אקטיביים חזקים יותר, כלומר אופיואידים.

לאחר שאספו את הנתונים הרלוונטיים וניתחו אותם, בישרו החוקרים כי התשובה לשאלת המחקר היא כן. במדינות עם חוקי הקנאביס נצפתה ירידה ממוצעת של 25% במספר מקרי המוות עקב מינון יתר של אופיואידים לאורך השנים מ-1999 עד 2010.

ניתוח הנתונים שביצעו[2] עבור השנים 1999 עד 2010 הראה שקיים קשר, והוא חיובי. אני מצטט: "במדינות עם חוקי קנאביס רפואי, הממוצע השנתי של שיעורי התמותה עקב מינון יתר של אופיואידים היה נמוך ב-ב-24.8% בהשוואה למדינות שבהן לא היו חוקים כאלה". החוקרים אמדו כי מספר מקרי המוות עקב מינון יתר של אופיואידים היה נמוך ב-1729 ממה שהיה צפוי אילו חוקי הקנאביס לא היו קיימים. החוקרים ביצעו ניתוחים נוספים שאוששו את המסקנה שעלתה מניתוח המודל הראשי, וניתוחים אלה אף הציגו תוצאות מעודדות יותר (אם כי תחת יותר הנחות). לדעתי המקצועית אין כל פגם בניתוחים הסטטיסטיים שבוצעו, לפחות על פי הסקירה שהובאה במאמר.

מעניין לציין כי לאורך כל השנים האלה הייתה עליה בשיעור מקרי המוות עקב מינון יתר, גם במדינות שבהן היו חוקי מקנאביס רפואי וגם באלה שלא: ב-1999 שיעור מקרי המוות היה כ-2 חולים למאה אלף, וב-2010 השיעור כבר היה כ-6 מקרים למאה אלף[3]. במדינות הקנאביס הרפואי הייתה ירידה נומינלית קטנה בשיעור מקרי המוות בין 2009 ל-2010 (כחצי מקרה מוות למאה אלף). אני לא מזלזל בירידה הזו: מדובר במאות חיים שניצלו, אבל אין לירידה הזו משמעות סטטיסטית.

כמו כן, לאורך כל תקופת המחקר שיעורי המוות עקב מינון יתר של אופיואידים דווקא היו יותר גבוהים במדינות עם חוקי הקנאביס הרפואי – הפער היה כ-1 עד 2 מקרים לכל מאה אלף איש. אם כך, מה המשמעות של ירידה של 25%? הירידה היא בהשוואה למספר המקרי המוות שהיו אמורים להתרחש במדינות אלה אילו לא היו קיימים בהן חוקי קנאביס רפואי.

אבל הדברים לא כל כך פשוטים[4]. הדיון בתוצאות, שנמשך על פני כמעט עמוד שלם משופע במילים may, if, ו-although: יתכן, אם, אמנם. החוקרים מדגישים כי התוצאות שהוצגו אינן מבססות קשר סיבתי, וכי יש צורך במחקרים נוספים.

החקרים מציינים גם את המגבלות של המחקר: ראשית, מדובר בנתונים מקובצים. כלומר, הנתונים מתייחסים לסך מקרי המוות בכל מדינה בכל שנה, ולא על נתונים ברמת החולה. שנית, ייתכן ויש הטיה בנתונים, כיוון שמדינות שונות מדווחות את נתוני התמותה באופן שונה, וייתכן כי מקרה מוות שנחשב כתוצאה של מינון יתר של אופיואידים במדינה אחת לא ייחשב לכזה במדינה אחרת. שלישת, ייתכן ויש משתנים נוספים המשפיעים על שיעורי התמותה שהמחקר לא לקח בחשבון. החוקרים מודעים לכך שייתכן והנתונים של השנים הבאות יראו תמונה שונה. ולבסוף הם מדגישים שוב כי ההשערות לגבי התהליך בו הרחבת השימוש בקנאביס רפואי משפיעה על שיעורי התמותה עקב מינון יתר הינם ספקולטיביים, ומתבססים על עדויות עקיפות.

אבל, אחרי כל ההסתייגויות, אני חושב שתוצאות מחקר זה הינן אופטימיות, והן פתחו תקווה למיגור, לפחות חלקי, של מגיפת האופיואידים.

מחקר שני – PNAS 2019

המחקר הראשון התמקד כמובן בנתונים שהו זמינים כאשר הוא נערך, כלומר בשנים 1999 עד 2010. בינתיים עברו חמש שנים, והצטבר נתונים נוספים. כדאי לכן לבדוק מה קרה בינתיים. קבוצת חוקרים מאוניברסיטת סטנפורד, אוניברסיטת ניו יורק ומכון מחקר בפאלו אלטו חברה לקחת על עצמה את המשימה. הם אספו את הנתונים באותן שיטות שבהן השתמשו החוקרים במחקר הראשון, וניתחו אותם באותן שיטות סטטיסטיות. התוצאות פורסמו בכתב העת הלא פחות יוקרתי PNAS.

למחקר החדש יש שתי תוצאות עיקריות. ראשית, הוא מאשר את תוצאות המחקר הראשון. הניתוח החוזר העלה כי הירידה במספר מקרי המוות עקב מינון יתר של אופיואידים לאורך השנים 1999עד 2010 הייתה 21.1%, ולדברי החוקרים ההבדל בין שתי התוצאות אינו משמעותי מבחינה סטטיסטית[5] . אבל, וזה אבל גדול, מה שקרה בין 2010 ל-2017 שונה לגמרי. בשנים האלה המגמה התהפכה,  והייתה עליה של 23% בשיעור מקרי המוות.

החוקרים מתייחסים ל-"תיאוריית ההחלפה" שהוצגה במאמר הראשון כהסבר אפשרי לקשר סיבתי בין הרחבת השימוש בקנאביס רפואי וירידת שיעור מקרי המוות מאופיואידים. הטענה היא כי חולים המשתמשים באופיואידים יעברו לשימוש בקנאביס שיחליף את האופיואידים כמשכך כאבים. אם תיאוריה זו נכונה, אומרים החוקרים, אנחנו אמורים לראות אפקטים שונים בין המדינות, הנובעים מהשוני שבין חוקי הקנאביס, בעיקר ברמת ה-THC (החומר הפעיל בקנאביס) המותרת. במדינות המרשות שיעור THC  נמוך הקשר בין השימוש בקנאביס רפואי ושיעור מקרי המוות אמור להיות חלש יותר. במדינות בהן יש לגליזציה מלאה של קנאביס, ולכן שיעורי ה-THC בקנאביס המשווק במדינות אלה גבוהים יותר, אנחנו אמורים למצוא קשר יותר חזק. אבל, הנתונים מראים שלא כך הוא.

החוקרים מציינים כי יש אמנם עוד מחקרים שהראו תוצאות דומות למחקר מ-2014, אך יש בעייתיות בקביעת מדיניות המרחיבה את השימוש בקנאביס של סמך מחקרים אלו[6]. מדיניות כזו מבוססת על שתי הנחות. ההנחה הראשונה היא כי מסקנות שהסתמכו על מנתונים מקובצים ברמת האוכלוסייה תקפות גם ברמה האישית. לעיתים קרובות ההנחה הזו אינה נכונה, כפי שעולה ממחקרים רבים דומים בתחומים אחרים. כשל זה ידוע בשם the ecological fallacy והוא למעשה וריאציה של פרדוקס סימפסון. ההנחה השנייה היא כי הקשר הנצפה הוא סיבתי, וכאמור הנתונים לא עולים בקנה אחד עם ההנחה הזו. ראוי לציין כי גם החוקרים של המחקר הראשון ב-2014 התריעו על כשלים אלה.

החוקרים אומרים כי לדעתם אין קשר (חיובי או שלילי) בין הרחבת השימוש בקנאביס רפואי ובין שיעורי מקרי המוות עקב מינון יתר של אופיואידים. לדעתם, גם הקשר החיובי בשנים 1999 עד 2010 וגם הקשר השלילי בשנים 2010 עד 2017 הם קשרים אקראיים.

סיכום

אני נוטה יותר לתמוך בעמדה של קבוצת החוקרים שביצעה את המחקר השני. אין זה אומר שאני מזלזל במחקר הראשון. להיפך, הם עשו עבודה חשובה וטובה. הם היו מודעים למשמעות המוגבלת של התוצאות שלהם, הדגישו כי לא ניתן להסיק מסקנות סיבתיות על סמך התוצאות, ועם זאת הם לא שללו את האפשרות של קיום קשר סיבתי, אך גם כאן, הטענה כי ייתכן קשר סיבתי לא הייתה מופרכת, על פי הנתונים שהיו בידיהם. הם פירטו היטב את מגבלות המחקר שלהם, כולל אזהרה מפני הכשל האקולוגי.

המחקר השני שחזר את תוצאות המחקר הראשון, אך גם הציג תוצאות מנוגדות. בכך לדעתי נסתם לעת עתה הגולל על ההשערה כי לקנאביס הרפואי יהיה חלק, אפילו קטן, במיגור מגיפת האופיואידים, אם וכאשר. זה מאוד מצער אותי. בהחלט הייתי שמח אילו תיאוריית ההחלפה הייתה נכונה, וזאת למרות ההסתייגויות שיש לי מהנטייה  הרומנטית לייחס לקנאביס סגולות רפואיות לטיפול בכל דבר כמעט, וההתנגדות שלי ללגליזציה של קנאביס (אם כי אני כן תומך בדה-קרמינילזציה על פי המודל של פורטוגל ונורווגיה).

מעבר לחשיבות של הנושא, שני המחקרים האלה מהווים דוגמה מצויינת על ההבדלים בין מתאם וסיבתיות. אי אבחנה בין מתאם לסיבתיות היא כשל נפוץ, ששתי קבוצות החוקרים האלו לא נפלו בו. גם הטענה "מתאם אינו מעיד על סיבתיות" מועלה שוב ושוב, אבל היא בעיקר מעידה על חוסר הבנה של המושגים. הטענה הנכונה היא כי מתאם אינו מהווה עדות מספקת לסיבתיות, אבל כפי שכתבתי בעבר, אם יש מתאם, צריך בהחלט לבחון את האפשרות שיש גם סיבתיות. המחקר הראשון הראה מתאם והציג מנגנון סיבתי אפשרי, וכך היה ראוי לעשות. למראה הצער, ללא ציניות, המחקר השני הראה כי לא ניתן לטעון לסיבתיות על סמך הידע העכשווי. עם זאת, ייתכן ומחקרים בעתיד שיבדקו מה קורה ברמת החולה ולא ברמת האוכלוסייה יפתחו מחדש את הדלת להשערת הסיבתיות. ימים יגידו.

מקורות

 


הערות
  1. association []
  2. בעזרת מודלים של סדרות עיתיות, לא אכנס לפרטים []
  3. על פי הנתונים שהובאו במאמר []
  4. תיראו מופתעים []
  5. הם השתמשו בביטוי המעניין לכשעצמו "statistically indistiguishable " []
  6. אחד החוקרים הוא מהמחלקה למדעי המדינה באוניברסיטת ניו יורק, וחוקרת נוספת היא המרכז ליישום חדשנות בפאלו אלטו, קליפורניה []

100 שנה להולדתו של דויד בלאקוול

היום, 24.4.2019, מלאו 100 שנה להולדתו של הסטטיסטיקאי ממוצא אפריקאי-אמריקני דויד בלאקוול. בנוסף לסטטיסטיקה, בלאקוול התעניין גם בתורת המשחקים ותורת האינפורמציה.

בלאקוול נולד למשפחת פועלים בדרום מדינת אילינוי בארצות הברית, והיה הבן הבכור מבין ארבעת הילדים במשפחה. למרות שאז עדיין הייתה נהוגה הפרדה גזעית בארצות הברית, בקהילה בה גדל היה בית ספר "מעורב" בו למדו לבנים ושחורים יחד. בלקוול בלט כתלמיד מצטיין בתחום המתמטיקה, קפץ כיתה פעמיים, וסיים את לימודיו בבית הספר התיכון בגיל 16. לאחר מכן החל ללמוד באוניברסיטה של מדינת אילינוי באורבנה-שמפיין בכוונה לקבל תעודת הוראה ולהיות למורה למתמטיקה. בגיל 19 הוענק לו תואר ראשון במתמטיקה, תואר שני שנה לאחר מכן, ותואר דוקטור למתמטיקה ב-1941, כאשר היה בן 22. הוא קיבל מילגה לפוסט-דוקטורט במכון ללימודים מתקדמים באוניברסיטת פרינסטון, אך נאלץ לעזוב כעבור שנה עקב מדיניות ההפרדה הגזעית שהייתה נהוגה שם.

לאחר שעזב את פרינסטון ניסה לקבל משרה והציג את מועמדותו ל-105 אוניברסיטאות ומכללות. ג'רזי ניימן תמך במועמדותו למשרה באוניברסיטת ברקלי, אך הוא לא קיבל את המשרה, שוב עקב  מדיניות הפרדה גזעית. הוא לימד בשורה במספר מכללות ואוניברסיטאות "שחורות" עד 1954, ולבסוף קיבל באוניברסיטת ברקלי משרת מרצה אורח, שוב בתמיכתו של ניימן. כעבור שנה היה לפרופסור מן המניין במחלקה לסטטיסטיקה של אוניברסיטת ברקלי, האדם האפריקאי-אמריקני הראשון שהגיע לדרגה זו באוניברסיטת ברקלי. בלאקוול נשאר בברקלי עד פרישתו ב-1988.

תרומתו הנודעת ביותר לסטטיסטיקה היא משפט ראו-בלאקוול, בתורת האמידה, המציע דרך קונסטרוקטיבית לשיפור אמד חסר הטיה כלשהו לאמד אופטימלי. המשפט שפורסם ב-1947, מבוסס על תוצאה תיאורטית שפירסם ק. ר. ראו שנתיים קודם לכן. מאוחר יתר היה לסטטיסטיקאי בייסיאני תחת השפעתו של ג'ימי סאבייג'.

תרומות חשובות נוספות של בלאקוול למדע כוללות את פיתוח מודל לערוצי תקשורת הנקרא על שמו (תורת האינפורמציה), תרומות לתיאוריה של משחקים עם אינפורמציה לא מלאה (תורת המשחקים), מחקר התפלגות דיריכלה ותהליכי דיריכלה (תורת ההסתברות), ותרומות לתחום הכלכלה המתמטית שהוא היה בין מייסדי התחום, וכמובן תרומות רבות בתחום הסטטיסטיקה הבייסיאנית.

בלאקוול זכה בחייו, וגם אחרי מותו, בפרסים ואותו כבוד רבים. בין היתר הוענקו לו 15 תארי דוקטור לשם כבוד, הוא היה חבר כבוד בחברה המלכותית לסטטיסטיקה, וחבר באקדמיה הלאומית למדעים של ארצות הברית. הוא היה נשיא המכון לסטטיסטיקה מתמטית, נשיא אגודת ברנולי וסגן נשיא האיגוד האמריקני לסטטיסטיקה. ב-1979 זכה בפרס על שם ג'ון פון ניומן. ב-2012 הוענקה לו, לאחר מותו, המדליה הלאומית למדעים על ידי הנשיא ברק אובמה.

בלאקוול נפטר בשנת 2010, בגיל 91.

 

רחובות הסרטן והאנטנות הסלולריות

ב-25.2.2019 התפרסמה בעיתון ידיעות אחרונות כתבה תחת הכותרת "רחובות הסרטן". הנה ציטוט כותרות המשנה:

מקום לדאגה: ברדיוס של 500 מטרים במרכז ראש־העין התגלו בשנים האחרונות עשרות מקרים של סרטן • כארבעים בני אדם כבר נפטרו מהמחלה • התושבים בטוחים שהגורם לתחלואה הוא אנטנות סלולריות שניצבות על גג בניין השייך לעירייה • "שנים שאנחנו זועקים ואף אחד לא מקשיב", הם טוענים, "אנשים מתים פה אחד אחרי השני".

הכתבה הזו ללא ספק מעודדת פניקה. עוד באותו יום הופיע פוסט בפייסבוק בקבוצה של תושבי העיר שלי, המזהיר מפני שתי אנטנות סלולריות שניצבות על גג התחנה המרכזית בעיר. "אנשים ימותו!" נכתב בפוסט שזכה לעשרות לייקים ותגובות נסערות.

אני לא מזלזל בכאבם של תושבי ראש העין, להפך. אני גם לא מתכוון לדון במספרים שהוזכרו בכתבה. אני מקבל אותם כפי שהם. אני רק רוצה להתייחס רק לטענה כי הגורם לתחלואה הוא אנטנות סלולריות. קל (לי לפחות) להסביר למה הטענה הזו לכל הפחות מוטלת בספק: יש עוד הרבה אנטנות סלולריות בהרבה מקומות, וסביבן אין שיעורי תחלואה גבוהים בסרטן. אם האנטנות מסרטנות, אז הן צריכות לסרטן בכל מקום, לא רק בראש העין.

אז למה דווקא בראש העין יש מקבץ[1] כל כך גדול של תחלואה בסרטן? תשובה אפשרית אחת היא שיש שם גורם סביבתי בעייתי אחר שאינו קיים במקומות אחרים. תשובה אפשרית אחרת היא שייתכן שיש גורם אחר לא סביבתי שאינו קיים במקומות אחרים, אולי גורם גנטי. אפשרות שלישית ועצובה במיוחד היא שהתושבים במקום סובלים מביש מזל.

והנה העניין: אם אין גורמים מקומיים (סביבתיים או אחרים) שגורמים לסרטן (או למחלה אחרת), והתחלואה מתפזרת באופן מקרי על פני כל הארץ, אז נוצרים מקבצים. חוקי הסטטיסטיקה עשויים להיות אכזריים.

אסביר בקצרה: אם פיזור מקרי התחלואה על פני הארץ הוא אקראי, ומחלקים את הארץ ליחידות שטח שוות בגודלן, אז התפלגות מספר המקרים ביחידת שטח מסויימת היא התפלגות פואסונית. ואז יש הסתברות, אמנם קטנה, שבאחת מהיחידות האלה יהיה מקבץ גדול של מקרי תחלואה. הבעיה היא שאין אפשרות לדעת מראש איפה זה יקרה.

גם ההפך נכון: אם התפלגות מספר המקרים ביחידת שטח מסויימת היא התפלגות פואסונית, אז ניתן להסיק כי הפיזור על פני השטח הוא אקראי.

הפעם אדגים את התופעה בעזרת סימולציה. (להלן קישור לתכנית R שבעזרתה ביצעתי את הסימולציה)

נניח כי קיימת מדינה שצורתה ריבוע מושלם, בגודל 100×100 קילומטר. פיזרתי באופן אקראי 400 מקרי תחלואה על פני הארץ בכל פעם הגרלתי שני מספרים מקריים בין אפס ל-100 שקבעו את הקואורדינטות של המקרה. הנה המפה שקיבלתי. יש בה ארבע מאות נקודות.

חילקתי את המפה ל-100 ריבועים, כל אחד בגודל 10×10 קילומטר.

ספרתי כמה נקודות/מקרים יש בכל אחד ממאה הריבועים. הנה טבלה עם תוצאות הספירה:

מספר המקרים 0 1 2 3 4 5 6 7 8 9
מספר האיזורים 1 5 19 19 18 16 13 3 5 1

 

מסתבר שיש איזור אומלל אחד שבו התגלו 9 מקרי תחלואה, 5 איזורים עם 8 מקרי תחלואה, ו-3 עם 7 מקרי תחלואה. לעומת זאת יש איזור אחד בר מזל שבו כולם בריאים, ועוד 5 איזורים שבהם היה רק מקרה אחד. סימנתי את האיזורים האלה במפה. האיזורים שבהם התחלואה נמוכה מוקפים במסגרת סגולה (קצת קשה לראות):

אני לא רואה שום תבנית בפיזור של איזורי התחלואה הגבוהה על המפה, וגם לא בפיזור של איזורי התחלואה הנמוכה[2] . זה לא אומר שלא צריך לבדוק מה קורה שם. אבל הבדיקה צריכה להיות רצינית ולא להסתמך על פניקה שמפיצה כתבה בעיתון.

ראו גם רשימות נוספות שכתבתי על ההתפלגות הפואסונית ושימושיה:


הערות
  1. cluster []
  2. ניתן גם לבדוק את טיב ההתאמה של מודל ההתפלגות הפואסונית לנתונים []

מלחמת המינים

באיים המטריארכליים שבאוקיינוס השקט יש העדפה ברורה לבנות, ולכן כל משפחה מביאה ילדים לעולם עד שנולדת להם בת (לאחר שנולדת בת המשפחה מפסיקה להביא ילדים לעולם).

מהו יחס המינים באיים?

מתוך 47 איש שענו על שאלה זו בטוויטר, 36 ידעו את התשובה הנכונה: למרות שלכאורה יש משפחות עם הרבה בנים ורק בת אחת, עדיין יהיה מספר שווה בערך של גברים ונשים.

 

למה זה נכון?

כמקובל, יש צורך להניח מספר הנחות. ההנחות המקובלות הן:

  • בכל לידה נולד רק ילד אחד
  • כל ילד הוא בהכרח בן או בת
  • הסיכוי ללידת בן שווה לסיכוי ללידת בת
  • אין קשר בין המינים של הילדים השונים באותה המשפחה

ארבע ההנחות האלה יוצרות מודל: תיאור של המציאות, שייתכן שאינו מדוייק לגמרי, אבל הוא מספיק טוב כדי לתת תשובה אמינה לשאלה שלנו.

על ההנחות אפשר להתווכח. 3 ההנחות הראשונות יקלו עלינו את החישובים. 2 ההנחות הראשונות מתעלמות ממקרים של לידות תאומים, וממקרים נדירים בהם נולדים תינוקות שאינם זכר או נקבה ביולוגיים.[1] גם ההנחה השלישית אינה נכונה בטבע: ידוע כי נולדים יותר בנים מאשר בנות, והטבע "מאזן את עצמו" בכך ששיעור התמותה של תינוקות זכרים גבוה יותר. אפשר לבנות מודל יותר מורכב שייקח בחשבון הנחות יותר מורכבות, אבל זה רק יסבך את החישובים.

ההנחה הרביעית היא קריטית. אם היא לא נכונה, אז כל הניתוח שיוצג כאן אינו נכון. שוב, אפשר להחליף את ההנחה הזו בהנחה יותר מורכבת, אבל אין לנו שום סיבה לחשוד בכך שההנחה הזו לא נכונה.

עכשיו, כשיש לנו מודל, בואו ננסה לראות מה קורה. נסתכל על דור היפותטי באיים, שבו יש 1024 משפחות חדשות בתחילת דרכן. נניח גם כי בכל שנה יש לידה (במשפחות שאין בהן בת).

בשנה הראשונה, ל-512 משפחות תיוולד בת, ול-512 משפחות ייוולד בן[2]. בסוף השנה יש 512 בנות ו-512 בנים.

בשנה השניה, 512 המשפחות שלהן יש בן יביאו עוד ילד לעולם. ל-256 מהמשפחות האלה תיוולד בת, ול-256 משפחות ייוולד בן. כעת יש 768 בנים (512+256) וגם 768 בנות. יש 256 משפחות עם שני בנים ו-256 משפחות עם בן ובת.

בשנה השלישית, 256 המשפחות שלהן יש שני בנים יביאו עוד ילד לעולם. ל-128 מהמשפחות תיוולד בת, ול-128 מהמשפחות ייוולד בן. כעת יש 896 בנים (768+128) וגם 896 בנות. יש 512 משפחות עם בת אחת, 256 משפחות עם בן ובת, 128 משפחות עם שני בנים ובת, ו-128 משפחות עם שלושה בנים.

בשנה הרביעית, 128 המשפחות שלהן יש שלושה בנים יביאו עוד ילד לעולם. ל-64 מהמשפחות תיוולד בת, ול-64 מהמשפחות ייוולד בן. כעת יש 960 בנים (896+64) וגם 960 בנות. יש 512 משפחות עם בת אחת, 256 משפחות עם בן ובת, 128 משפחות עם שני בנים ובת, 64 משפחות עם שלושה בנים ובת, ו-64 משפחות עם ארבעה בנים.

וכן הלאה. אני אעצור את החישוב הזה כאן, כי ההמשך ברור.

ומכיוון שמשספר הבנים בסופו של דבר שווה למספר הבנות, במשפחה ממוצעת יש מספר שווה של בנים ובנות.

אפשר גם לחשב את גודלה של משפחה ממוצעת: יש לנו 512 משפחות עם ילד אחד (בת), 256 משפחות עם 2 ילדים, 128 משפחות עם שלושה ילדים, וכן הלאה. ולכן (בהנחה שאם יש 10 בנים מוותרים וזהו):

אז במשפחה ממוצעת יש למעשה שני ילדים, ילד אחד הוא בהכרח בת (פרט למשפחה חסרת המזל שבה יש 10 בנים) ובכל משפחה יש רק בת אחת, ולכן הילד הנוסף במשפחה הממוצעת הוא בהכרח בן. במילים אחרות, במשפחה ממוצעת יש בת אחת ובן אחד, ולכן כמובן מספר הבנים שנולדו ל-1024 המשפחות ההיפותטיות שלו שווה למספר הבנות.

אפשר ורצוי לערוך גם חישוב הסתברותי: ההסתברות שבמשפחה יש ילד אחד היא חצי, ההסתברות שבמשפחה יש שני ילדים היא רבע, ההסתברות שבמשפחה יש שלושה ילדים היא רבע, וכן הלאה. לכן אפשר לחשב התוחלת של מספר הילדים במשפחה ולמצוא כי היא שווה ל-2:

 

את החישוב האחרון מבצעים בעזרת כמה תעלולים אלגבריים שכוללים בין השאר את הנוסחה לחישוב סכום של טור גיאומטרי/הנדסי שכנראה שמעתם עליה כשלמדתם מתמטיקה בבית הספר. זה לא מפתיע: סדרת ההסתברויות היא סדרה גיאומטרית: חצי, רבע, שמינית… כל הסתברות קטנה פי 2 מההסתברות הקודמת. לכן הסטטיסטיקאים מכנים את ההתפלגות שתוארה כאן בשם התפלגות גיאומטרית. מספר הילדים במשפחה הוא, בפי הסטטיסטיקאים, משתנה מקרי גיאומטרי. ושוב, מכיוון שעל פי תנאי השאלה תוחלת מספר הבנות במשפחה שווה ל-1, תוחלת מספר הבנים במשפחה חייבת גם היא להיות שווה ל-1, כלומר תוחלת מספר הבנים שווה לתוחלת מספר הבנות.

חישוב התוחלת הוא אולי מפחיד אבל התוצאה מאוד אינטואיטיבית. תחשבו על קוביה. אתם מטילים אותה ורוצים להוציא 5[3]. כמה הטלות בממוצע צריך להטיל עד שתקבלו 5? ההסתברות להטלת חמש היא שישית, ולכן האינטואיציה אומרת שצריך בממוצע 6 הטלות. 6 זה אחד חלקי שישית. גם במקרה הלידות אותה האינטואיציה עובדת. ההסתברות ללידת בת היא חצי, ולכן מספר הלידות הממוצע על לידת בת הוא אחד חלקי חצי, כלומר 2.

להתפלגות הגיאומטרית יש שימוש בכל מקום שבו רוצים לדעת כמה ניסיונות צריך לנסות עד להצלחה, זאת בתנאי שאין תלות בין הניסיונות וההסתברות להצלחה קבועה. איש מכירות, למשל, מעוניין לדעת כמה ניסיונות מכירה הוא צריך בממוצע לבצע עד שתתקיים מכירה. חולה הממתין לתרומת איבר להשתלה מעוניין לדעת כמה תורמים "יצטרך לחכות" עד שיימצא תורם מתאים. במקרה הזה, בהנחה שהסיכוי להתאמה של 10%, ושאין קשר בין התורמים (הנחה סבירה), יצטרכו בממוצע למצוא 10 תורמים פוטנציאליים עד שתימצא התאמה. אם בכל חודש מאותר תורם פוטנציאלי אחד, אז זמן ההמתנה הממוצע עד להשתלה הוא 10 חודשים.


הערות
  1. ואני מערבב כאן בין המין הביולוגי ובין המגדר לצורך נוחות הדיון, אבקש את סליחתכם []
  2. באופן תיאורטי כמובן, הכל באופן תיאורטי []
  3. נניח שהימרתם על 5, סתם []