חיפוש באתר

קישורים

עמודים

קטגוריות

ארכיב עבור 'האנשים שמאחורי הסטטיסטיקה'

10 שנים למותו של אריק להמן

היום, 12 בספטמבר 2019, מלאו 10 שנים למותו של הסטטיסטיקאי אריק לאו להמן. כאשר מלאו שלושים לפטירתו כתבתי כאן פוסט אישי אודותיו. כעת ברצוני לכתוב גם על חייו ופועלו.

אריק לאו להמן (1917-2009)להמן נולד ב-1917 בעיר שטרסבורג בחבל אלזס לוריין, וגדל בפרנקפורט שבגרמניה. ב-1933, כאשר היטלר מונה לקאנצלר גרמניה, נמלטה משפחתו לשוויץ. לאחר שסיים את לימודיו בתיכון למד מתמטיקה במשך שנתיים בקולג’ טריניטי שבאוניברסיטת קיימברידג’. ב-1940 היגר לארצות הברית, וב-1941 התקבל ללימודי דוקטורט באוניברסיטת ברקלי בקליפורניה, למרות שפורמלית לא החזיק באף תואר אקדמי. הוא קיבל תואר שני במתמטיקה בשנת 1942, ותואר הדוקטור הוענק לו ב-1946. מדריך עבודת הדוקטורט שלו, שעסקה במבחנים אופטימליים על ערכו של מקדם המתאם, היה ג’רזי ניימן. במהלך מלחמת העולם השניה עסק בחקר ביצועים בבסיס חיל האוויר האמריקני בגואם.

לאחר שסיים את לימודי הדוקטורט המשיך להמן בתפקידו כמרצה לסטטיסטיקה באוניברסיטת ברקלי. בשנים 1950-1951 היה מרצה באוניברסיטאות קולומביה ופריסטון, וב-1952 היה פרופסור חבר באוניברסיטת סטנפורד. לאחר מכן חזר לאוניברסיטת ברקלי, שם כיהן כפרופסור למתמטיקה ולסטטיסטיקה עד לפרישתו ב-1988, אך המשיך בעבודתו המדעית גם לאחר מכן. בין השנים 1950 עד 1984 להמן היה מדריך עבודה הדוקטורט של 46 סטודנטים. ב-1977 נישא להמן לסטטיסטיקאית ג’ולי שייפר. הוא נפטר בשיבה טובה ב-12 בספטמבר 2009.

להמן תרם תרומות משמעותיות לתורת האמידה ולתיאוריה של בדיקת השערות אי פרמטרית. הוא נודע גם בזכות משפט להמן-שפה ואמד הודג’ס-להמן לחציון של אוכלוסייה. כמו כן עסק במחקר אודות ההיסטוריה והפילוסופיה של הסטטיסטיקה. בין שותפיו למחקר נמנו הנרי שפה, צ’ארלס סטיין, גו’זף הודג’ס, אוולין פיקס, פרסי דיאקוניס, וויליאם קראסקל, ג’ולייט פופר שייפר, ג’ודית טאנור, וחתן פרס נובל לכלכלה קנת’ ארו. בסך הכל פירסם להמן 123 מאמרים מדעיים.

בנוסף לכך, להמן ידוע גם בזכות הספרים שכתב. הוא כתב שבעה ספרי לימוד שעסקו בעיקר בנושאים מתקדמים בסטטיסטיקה. הספר “מושגים בסיסיים בהסתברות וסטטיסטיקה” שכתב יחד עם ג’וזף הודג’ס, תורגם לחמש שפות, כולל תרגום לעברית. בסך הכל תורגמו ספריו לתשע שפות שונות.

ב-2007 פרסם להמן ספר אוטוביוגרפי בו תיאר את זכרונותיו מעבודות משותפות, קשרי ידידות ומפגשים עם סטטיסטיקאים, כולל פגישה קצרה ולא נעימה עם רונלד פישר. ב-2011  פרסם ספר שעסק בעבודות המוקדמות של פישר וניימן, בו הבהיר את חילוקי הדיעות העקרוניים שהיו בין השניים לגבי הכיוון אליו צריך מדע הסטטיסטיקה להתפתח.

להמן נבחר לחבר כבוד של האיגוד האמריקני לסטטיסטיקה, המכון לסטטיסטיקה מתמטית, והחברה המלכותית לסטטיסטיקה. כן נבחר להיות חבר במכון הבינלאומי לסטטיסטיקה, באקדמיה האמריקנית לאמנויות ומדעים, ובאקדמיה הלאומית למדעים של ארצות הברית. להמן כיהן כנשיא המכון לסטטיסטיקה מתמטית בשנים 1960-1961 . הוא זכה במספר מענקי מחקר יוקרתיים, כולל מענק מקרן גוגנהיים, והוזמן לשאת את ההרצאות על שם רונלד פישר, סם וילקס ואברהם ולד. הוענקו לו שני תוארי דוקטור לשם כבוד מטעם אוניברסיטת ליידן ואוניברסיטת שיקגו. לכבוד יום הולדתו ה-80 ב-1997, אוניברסיטת ברקלי הקימה קרן מילגות על שמו. בשנת 2000 היה לזוכה הראשון בפרס על שם גוטפריד נתר.

לקריאה נוספת

 

110 שנים להולדתו של ויליאם קוקריין

היום, 15.7.2019, מציינים את יום הולדתו ה-110 של הסטטיסטיקאי ויליאם ג. קוקריין.

קוקריין נולד למשפחה מהמעמד הבינוני הנמוך בעיירה ראתרגלן בסקוטלנד. בבית הספר הצטיין בלימודים, וכך זכה במילגות ללימודים  באוניברסיטת גלזגו, תחילה לתואר ראשון, ולאחר מכן למד לתואר שני במתמטיקה בהדרכת ג’ון וישארט.

למרות שלא השיג תואר דוקטור, התקבל לעבודה בתחנת המחקר החקלאי ברותהאמסטד, בהמלצתו של פרנק ייטס. במהלך שהותו בתחנת המחקר בין השנים 1934 ל-1939 למד אצל רונלד פישר שנתן הרצאות בסטטיסטיקה לחוקרים, ועסק במחקר יישומי, עם דגש על תכנון ניסויים.

ב-1939 עבר לארצות הברית, שם עסק בהוראה ומחקר במספר אוניברסיטאות: איובה סטייט, פרינסטון, המכון לסטטיסטיקה של צפון קרוליינה ואוניברסיטת ג’ונס הופקינס. ב-1957 עבר לאוניברסיטת הרווארד, שם התבקש להקים מחלקה חדשה לסטטיסטיקה. הוא נשאר שם עד פרישתו לגימלאות בשנת 1976.

במהלך הקריירה שלו שיתף פעולה עם סטטיסטיקאים רבים, וביניהם פרנק ייטס, פרדריק מוסטלר, סם וילקס, וגרטרוד מרי קוקס. קוקריין וקוקס כתבו יחד ספר רב השפעה על תכנון ניסויים. ספר רב השפעה נוסף שכתב קוקריין עוסק בשיטות דגימה. בין היתר, הוא היה מעורב במחקרים אודות ההתנהגות המינית האנושית בצוותא עם אלפרד קינסי, השפעת הקרינה על ניצולי הירושימה, חיפוש החיסון למחלת הפוליו, ניתוחים לטיפול באולקוס. ביחד עם חוקרים נוספים עסק בהשפעת העישון על בריאות הציבור.  מחקרים אלה הובילו להכרה כי עישון הוא גורם סיכון משמעותי למחלת סרטן הריאות. למרות שלא היה דוקטור, הוא היה מדריך הדוקטורט של יותר מ-40 סטטיסטיקאים, הידוע שבהם הוא דון רובין.

קוקריין פיתח מספר שיטות סטטיסטיות הנקראות על שמו. הידועה  שבהן היא מבחן קוקראן-מאנטל-האנזל.

קוקריין זכה להכרה רבה בזכות תרומתו למדע הסטטיסטיקה. הוא נבחר לחבר כבוד באגודה המלכותית לסטטיסטיקה, וב-1967 זכה במדליה על שם וילקס. הוא היה נשיא המכון לסטטיסטיקה מתמטית, נשיא האיגוד האמריקני לסטטיסטיקה ונשיא האגודה הבינלאומית לביומטריקה.

קוקריין נפטר ב-1980, מספר חודשים לפני יום הולדתו ה-70.

 

לקריאה נוספת:

100 שנה להולדתו של דויד בלאקוול

היום, 24.4.2019, מלאו 100 שנה להולדתו של הסטטיסטיקאי ממוצא אפריקאי-אמריקני דויד בלאקוול. בנוסף לסטטיסטיקה, בלאקוול התעניין גם בתורת המשחקים ותורת האינפורמציה.

בלאקוול נולד למשפחת פועלים בדרום מדינת אילינוי בארצות הברית, והיה הבן הבכור מבין ארבעת הילדים במשפחה. למרות שאז עדיין הייתה נהוגה הפרדה גזעית בארצות הברית, בקהילה בה גדל היה בית ספר “מעורב” בו למדו לבנים ושחורים יחד. בלקוול בלט כתלמיד מצטיין בתחום המתמטיקה, קפץ כיתה פעמיים, וסיים את לימודיו בבית הספר התיכון בגיל 16. לאחר מכן החל ללמוד באוניברסיטה של מדינת אילינוי באורבנה-שמפיין בכוונה לקבל תעודת הוראה ולהיות למורה למתמטיקה. בגיל 19 הוענק לו תואר ראשון במתמטיקה, תואר שני שנה לאחר מכן, ותואר דוקטור למתמטיקה ב-1941, כאשר היה בן 22. הוא קיבל מילגה לפוסט-דוקטורט במכון ללימודים מתקדמים באוניברסיטת פרינסטון, אך נאלץ לעזוב כעבור שנה עקב מדיניות ההפרדה הגזעית שהייתה נהוגה שם.

לאחר שעזב את פרינסטון ניסה לקבל משרה והציג את מועמדותו ל-105 אוניברסיטאות ומכללות. ג’רזי ניימן תמך במועמדותו למשרה באוניברסיטת ברקלי, אך הוא לא קיבל את המשרה, שוב עקב  מדיניות הפרדה גזעית. הוא לימד בשורה במספר מכללות ואוניברסיטאות “שחורות” עד 1954, ולבסוף קיבל באוניברסיטת ברקלי משרת מרצה אורח, שוב בתמיכתו של ניימן. כעבור שנה היה לפרופסור מן המניין במחלקה לסטטיסטיקה של אוניברסיטת ברקלי, האדם האפריקאי-אמריקני הראשון שהגיע לדרגה זו באוניברסיטת ברקלי. בלאקוול נשאר בברקלי עד פרישתו ב-1988.

תרומתו הנודעת ביותר לסטטיסטיקה היא משפט ראו-בלאקוול, בתורת האמידה, המציע דרך קונסטרוקטיבית לשיפור אמד חסר הטיה כלשהו לאמד אופטימלי. המשפט שפורסם ב-1947, מבוסס על תוצאה תיאורטית שפירסם ק. ר. ראו שנתיים קודם לכן. מאוחר יתר היה לסטטיסטיקאי בייסיאני תחת השפעתו של ג’ימי סאבייג’.

תרומות חשובות נוספות של בלאקוול למדע כוללות את פיתוח מודל לערוצי תקשורת הנקרא על שמו (תורת האינפורמציה), תרומות לתיאוריה של משחקים עם אינפורמציה לא מלאה (תורת המשחקים), מחקר התפלגות דיריכלה ותהליכי דיריכלה (תורת ההסתברות), ותרומות לתחום הכלכלה המתמטית שהוא היה בין מייסדי התחום, וכמובן תרומות רבות בתחום הסטטיסטיקה הבייסיאנית.

בלאקוול זכה בחייו, וגם אחרי מותו, בפרסים ואותו כבוד רבים. בין היתר הוענקו לו 15 תארי דוקטור לשם כבוד, הוא היה חבר כבוד בחברה המלכותית לסטטיסטיקה, וחבר באקדמיה הלאומית למדעים של ארצות הברית. הוא היה נשיא המכון לסטטיסטיקה מתמטית, נשיא אגודת ברנולי וסגן נשיא האיגוד האמריקני לסטטיסטיקה. ב-1979 זכה בפרס על שם ג’ון פון ניומן. ב-2012 הוענקה לו, לאחר מותו, המדליה הלאומית למדעים על ידי הנשיא ברק אובמה.

בלאקוול נפטר בשנת 2010, בגיל 91.

 

איך יודעים כמה אנשים מתים מנזקי העישון

מחדליו של סגן שר הבריאות בנושא המלחמה בעישון, תוארו בדו”ח של מבקר המדינה מחודש מאי 2018. בין היתר נאמר כי בכל שנה מתים בישראל כ-8,000 בני אדם כתוצאה ממחלות הנגרמות מעישון. יש לי הרבה מה לומר על אוזלת היד וחוסר המעש של מקבלי ההחלטות בנושא, אבל כאן אני מדבר בעיקר על סטטיסטיקה, והנושא שיעלה היום לדיון הוא הנתון בדבר המוות של 8000 בני אדם בשנה כתוצאה מעישון. איך יודעים את זה?

זהו כמובן אומדן שמתבסס על איסוף נתונים ויישום של שיטות סטטיסטיות. גם זה, כמו הרבה דברים אחרים, מתחלק לשלושה חלקים. החלק הקשה הוא החלק שבו אוספים את הנתונים. החלק הקל הוא החלק שבו מחשבים את החישובים (מזינים את הנתונים למחשב ולוחצים על הכפתור). וביניהם יש את החלק בו צריכים להבין מה עושים, ובאופן עקרוני זה לא מסובך.

כמה אנשים מתים?

נתחיל באיסוף הנתונים. נתון אחד שצריך לדעת הוא כמה אנשים מתים בכל שנה. זה לא קשה, לפחות במדינה מסודרת שבה נאספים נתונים כאלה באופן מסודר וקבוע. נתוני תמותה נאספים בדרך כלל במשך שנים רבות. הלשכה המרכזית לסטטיסטיקה מפרסמת בכל חמש שנים לוחות תמותה המבוססים על הנתונים שנאספו בחמש השנים שקדמו לשנת הפרסום. מייד נעיין באחד הלוחות (קישור לקובץ pdf). הנה קטע מלוחות התמותה של הלשכה המרכזית לסטטיסטיקה, המתייחס לגברים יהודים ואחרים (כלומר – לא ערבים), בין השנים 2011 ל-2015:

 

 

 

 

 

 

 

אני יודע שהסיכוי שלי למות בסופו של דבר הוא 100%. אבל אני בעזרת לוח התמותה יכול לדעת יותר מזה. אני גבר יהודי בן 55, ומהשורה האחרונה של לוח התמותה שבתמונה אני יכול ללמוד כי בהיעדר כל מידע נוסף, הסיכוי כי אמות בשנה הקרובה הוא 0.00425. לחילופין, על פי נתוני הלשכה, מתוך כל 100000 גברים יהודים, 95506 יגיעו לגיל 56, ו-4494 לא יזכו לכך. אני יודע שיש חוסר תיאום בין שני המספרים האלה, וזה נובע מתוך דקויות סטטיסטיות שלא אכנס אליהן כאן[1]. אני גם יכול ללמוד מהלוח כי תוחלת החיים שלי, בהינתן שכבר הגעתי לגילי המופלג, היא 27.6 שנים פלוס מינוס סטיית תקן ואירועים לא צפויים. יש גם סיכוי שאגיע לגיל 100, אך הוא קטן למדי.

לעומת זאת, לגבר ערבי בגיל 55 במדינת ישראל, הסיכוי למות לפני גיל 56 יותר גבוה: 0.00595, ותוחלת החיים שלו נמוכה יותר: נותרו לו, בממוצע, רק עוד 24.9 שנים לחיות.

איזה נתונים צריך כדי לאמוד את סיכוני העישון?

הנתון השני צריך לאפשר לנו לאמוד כמה אנשים מתו מנזקי עישון. זה כבר יותר מסובך. כולם מתים בסוף, גם אלה שמעשנים וגם אלה שלא. אדם יכול לעשן ולמות מסיבה שלא קשורה לעישון (אולי ממחלה זיהומית, אולי מתאונה, ואולי אפילו מסרטן שעישון אינו גורם סיכון שלו – יש סרטנים כאלה). אדם יכול לא לעשן ובכל זאת למות מסרטן הריאות או מחלת לב – כאשר עישון הוא גורם סיכון ידוע לשני המצבים הבריאותיים האלה.[2] ובכל זאת, הנתונים שיש לאסוף הם כמה אנשים מתים, כמה מהם מעשנים, וכמה לא.

במקומות רבים בעולם נערכים מחקרים תצפיתיים ארוכי טווח העוקבים אחרי מהלך החיים של אוכלוסיות, ואוספים נתונים על התנהגויות העשויות להשפיע על מצב הבריאות של הפרטים באוכלוסייה, כגון הרגלי אכילה ועישון. המחקר הידוע ביותר נערך בעיר פראמינגהם במדינת מסצ’וסטס בארצות הברית. החל משנת 1948 נאספים נתונים כאלה על אלפים מתושבי העיר שהסכימו להשתתף במחקר, והוא עוקב כעת אחרי הדור השלישי של התושבים. באתר המחקר תוכלו למצוא מחשבונים שבעזרתם תוכלו לדעת מה הסיכון שלכם ללקות במחלת לב. המחקר הזה הראה כי עישון הוא גורם סיכון משמעותי לסיכוי לחלות במחלת לב.

מחקר אחר, קצת ישן (משנת 1999) שערכו יעקובס ועמיתיו, עקב אחרי אוכלוסייה של כ-12000 איש בשבע מדינות במשך 25 שנים. המחקר אסף נתוני תמותה מכל סיבה שהיא, וכמובן נתונים נוספים. אחת המסקנות של המחקר הזה הייתה כי הסיכון למות של מעשנים המעשנים עד 10 סיגריות ביום גבוה פי 1.3 מהסיכון של לא מעשנים, והסיכון למות של אלה המעשנים יותר מ-10 סיגריות ליום גבוה פי 1.8 מאלה של הלא מעשנים. ללא הסבר המספרים האלה נראים תמוהים. מה זאת אומרת שהסיכון למות גבוה פי 1.8? כולם מתים בסוף. הסיכון למות הוא 100% לכולם. לא? לא. הסיכוי שאדם ימות בסופו של דבר הוא אכן 100%. הסיכון הוא לא סיכוי. אז בואו נעשה סדר.

איך מודדים את הסיכון

הסיכון נגזר מהסיכוי למות (או לחוות אירוע אחר כלשהו, כמו התקף לב למשל) במשך יחידת זמן מוגדרת, ומתייחס לנקודה ספציפית בזמן (או לתקופת זמן קצרה מאוד). אל תיבהלו, אבל אני אומר לכם שהסיכון הוא הנגזרת של ההסתברות המותנה למות (אתם יכולים לעבור הלאה בלי חשש). הסיכוי, לעומת זאת, מתייחס לתקופות זמן ארוכות יותר.

אני לא אכנס כאן להגדרה המתמטית המדוייקת של הסיכון. אומר רק שאם יודעים את הסיכוי למות במשך תקופת מסויימת, נניח שנה, אפשר לחשב מכך את הסיכון למות במשך אותה תקופת זמן. גם ההיפך נכון: אם יודעים את הסיכון אז יודעים את הסיכוי. כמו כן, באופן לא מפתיע, אם הסיכוי שלך למות בשנה הקרובה גבוה יותר, אז גם הסיכון שלך גבוה יותר.

ואם אפשר לעשות את האבחנה הזו בין יהודים וערבים, ובין גברים לנשים, בוודאי שאפשר לחשב את הסיכון של המעשנים ולהשוות אותו לסיכון של הלא מעשנים.

הכלי הסטטיסטי שמאפשר לבצע את התרגילים האלה הוא מודל הסיכונים הפרופורציונליים שפותח בשנת 1972 על ידי הסטטיסטיקאי הבריטי סיר דויד קוקס, וידוע גם בשם מודל קוקס. קשה להמעיט בחשיבות של המודל הזה. המאמר שבו הוצג המודל נמנה עם 100 המאמרים המדעיים המצוטטים ביותר בכל הזמנים – לא מאמרים בסטטיסטיקה, אלא כל המאמרים המדעיים.  המודל מאפשר לזהות גורמי סיכון  להתרחשות אירועים כגון מוות, ולמדוד מה פוטנציאל הסכנה בכל גורם סיכון כזה. בנוסף לכך, קוקס הציג במאמר שלו חידושים סטטיסטיים נוספים שהשפיעו רבות גם על תחומים אחרים בסטטיסטיקה. אילו היה פרס נובל לסטטיסטיקה, סיר דויד קוקס היה זוכה בו ללא צל של ספק. סיר קוקס אכן זכה כמעט בכל פרס אפשרי בתחום הסטטיסטיקה. המודל שלו בפירוש מאפשר הצלת חיים. לדעתי סיר קוקס ראוי לזכייה בפרס נובל לרפואה.

להלן נוסחת המודל. מייד אסביר הכל. ניתן לראות כי זהו למעשה מודל רגרסיה.

 

 

נתחיל בצד שמאל. שם מופיע הסיכון כפי שהוא מושפע מגורמי הסיכון – אותו אנחנו רוצים לאמוד. הוא מסומן באות למבדה – האות היוונית שדומה לאות ג. בצד ימין יש מכפלה של שני חלקים. חלק אחד מתאר את הסיכון הבסיסי – כאשר אין שום אינפורמציה. הוא מסומן בלמבדה אפס טי. הסיכון הבסיסי נקבע רק על פי נתוני התמותה. לכל אדם במדגם נתון האם הוא מת, אם כן, מתי, ואם לא, כמה שנים הוא חי עד למועד שבו הוחלט להפסיק את המעקב ולהזין את הנתונים למודל. החלק השני מכיל את גורמי הסיכון האפשריים, כגון גיל, מין, הרגלי אכילה, וגם כמובן משתנה המציין האם האדם שבמדגם מעשן או לא. גורמי הסיכון מסומנים באיקסים. לכל X יש מקדם שמסומן באות ביתא. אם ביתא שונה באופן משמעותי מאפס זה אומר שלמשתנה X יש השפעה משמעותית על הסיכון. אם ביתא חיובי זה אומר שהסיכון גדל ככל ש-X גדל, ואם ביתא שלילי זה אומר של-X יש דווקא השפעה חיובית. רמת הסיכון עולה (או יורדת) באופן פרופורציוני לערכו של .X[3] מכאן נובע שם המודל – מודל הסיכונים הפרופורציוניים. לאחר שאומדים את הפרמטרים של המודל אפשר, באופן תיאורטי, לחשב את הסיכון לאדם מעשן ולאדם לא מעשן.[4] בפועל, המודל מספק ישירות אומדן ליחס שבין הסיכונים, ה-hazard ratio. היחס הזה מתבטא במקדם הביתא של משתנה העישון.

למודל יש כמובן גם הנחות. החשובה שביניהן היא ההנחה כי יחס הסיכונים נשאר קבוע לאורך כל תקופת המעקב. זו הנחה חזקה, ובדרך כלל היא נכונה, וגם אם יש סטייה לא גדולה מההנחה הזו המודל מספיק עמיד (robust) כדי לספק אומדן טוב של הסיכון. יש הרחבות למודל שבהן מחליפים את ההנחה הזו בהנחה יותר גמישה אם יש צורך. אחד המודלים הידועים שמרחיבים את מודל קוקס פותח על יד שילה בירד.

איך מתרגמים את הנתונים למספרים

עכשיו נוכל לעשות את החישובים.

יש לנו את ההסתברויות למות בכל גיל מלוחות התמותה. יש לנו את גם יחס הסיכונים שהוא כזכור היחס בין הסיכון למות של אנשים המעשנים יותר מ-10 סיגריות ביום ובין הסיכון של לא מעשנים. זכרו כי זהו יחס הסיכונים לנקודה ספציפית בזמן. מתוך יחס הסיכונים אפשר לחשב את  יחס הסיכויים: היחס בין ההסתברויות למות במשך תקופת זמן מוגדרת, שנה למשל. בשביל זה יש נוסחה. אני אחסוך לכם אותה. יש בה אינטגרלים ואקספוננטים, וזה בדרך כלל לא טוב לבריאות. אם אתם ממש רוצים  אז אתם יכולים לקרוא כאן, למשל, אבל זה על אחריותכם (קישור לקובץ  pdf). אני חוסך את זה גם לעצמי, ואשתמש בנתון מתוך מאמר אחר מאת מהטה ופרסטון משנת 2012. לפי הנתונים במאמר הזה, יחס הסיכויים למוות בתקופת זמן של שנה, בין גברים מעשנים וגברים לא מעשנים הוא בערך 2.3 (לקחתי את הגבול התחתון של רווח הסמך, כדי לקבל הערכה שמרנית), לאחר תקנון לגיל, וזאת בארצות הברית, בשנים 1987 עד 2006.

אנחנו צריכים עוד נתון אחד והוא שיעור המעשנים באוכלוסייה. לצורך הדוגמה אשתמש בנתונים של משרד הבריאות משנת 2017, לפיהם כ-30% מהגברים מעל גיל 21 הינם מעשנים..

כשיש לנו את כל הנתונים מה שנשאר זה קצת אלגברה של בית ספר תיכון.[5]

נניח שהסיכוי של מעשן בן 55 למות לפני גיל 56 הוא X, והסיכוי של לא מעשן הוא Y. לפני הנתון של מהטה ופרסטון, X גדול פי 2.3 מ-Y, כלומר X=2.3Y. זה נותן לנו משוואה אחת המקשרת בין X ל-Y.

את המשוואה השנייה נגזור מתוך מה שידוע בשם נוסחת ההסתברות השלמה.  ניתן להציג את החישוב בצורת עץ הסתברויות:

 

 

 

 

 

 

 

 

 

מהי ההסתברות של גבר בן 55 למות? ההסתברות הזו שווה להסתברות שלו למות אם הוא מעשן שהיא כאמור X כפול ההסתברות שהוא מעשן, שהיא 30%, ולכך יש להוסיף את ההסתברות שלו למות אם הוא לא מעשן, Y, כפול ההסתברות שהוא לא מעשן, שהיא 70%.  כל זה צריך להיות שווה ל-0.00425, כלומר 0.3x+0.7y=0.00425.

עכשיו יש לנו שתי משוואות בשני נעלמים ואפשר לפתור אותן. הפתרון הוא ש-X, ההסתברות שגבר יהודי מעשן בן 55 ימות לפני שיגיע לגיל 56 – שווה ל-0.00703237, ואילו Y, ההסתברות שגבר יהודי בן 55 שאינו מעשן ימות לפני שיגיע לגיל 56 היא הרבה יותר נמוכה: 0.00305755.

כזכור, על פי לוח התמותה, ההסתברות שגבר בן 55 ימות לפני שיגיע לגיל 56 היא 0.00425. זה אומר שאם יש לנו 100000 גברים כאלה, אז בממוצע ימותו במהלך השנה 425 מהם. אם לעישון אין השפעה על ההסתברות למות, אז 30% מהמתים יהיו מעשנים: בערך 128 איש.

אבל אנחנו יודעים שההסתברות למות שונה למעשנים ולא מעשנים.

בין 100000 הגברים יש 30000 מעשנים, ולכל אחד מהם הסתברות למות השווה כאמור ל- 0.00703237. זה אומר שמתוכם ימותו 210 איש – 82 איש יותר ממה שהיה צריך להיות אילו לעישון לא הייתה השפעה. 82 האנשים האלה מתו לכן בגלל שהיו מעשנים.

כך אפשר לערוך את החישוב לכל מין, לכל גיל, ולכל קבוצת אוכלוסייה למעשה. אם עושים את החשבון עם כל הנתונים המדוייקים (שלא היו בידיי), אז מגיעים ל-8000 מחברים את תוצאות כל החישובים ומגיעים למספר הכולל.

מה בקשר לעישון פאסיבי

העקרון הוא אותו עיקרון, אם כי היישום יותר מסובך. אני חייב להודות שאני לא יודע באיזה שיטה משתמשים כדי לאמוד את מספר הנפגעים מעישון פאסיבי.

בגדול יש שתי אפשרויות: להגדיר באופן כלשהו משתנה המציין אם אדם נחשף לעישון פאסיבי או לא נחשף, ואז החישוב הוא כפי שנעשה קודם. אפשרות שניה היא להגדיר את רמת החשיפה לעישון פאסיבי כמשתנה כמותי ואז יחס הסיכונים פרופורציונאלי לרמת החשיפה. ברמה העקרונית החישוב נשאר אותו חישוב, אלא שכאן מדובר במשתנה רציף ולכן הפירוק להסתברויות לפי רמת החשיפה מסובך יותר.

כמה מילים בנימה אישית

וכאן אני רוצה לומר כמה מילים אישיות.

אני חושב שהנתון כי בכל שנה מתים בישראל 8000 איש מנזקי עישון הוא מזעזע. אם מחר תפרוץ חלילה מלחמה וימותו בה 8000 איש העם יצא לרחובות. אם השנה ייהרגו 8000 איש בתאונות דרכים, שר התחבורה והשר לביטחון פנים לא יוכלו להתחמק מאחריות. 8000 מתים בשנה פירושם יותר מ-20 מתים כל יום. אם חלילה יתרחש פיגוע וייהרגו בו 20 איש, אף אחד לא יחכה שהמספר יצטבר ל-8000 לפני שיידרשו לעשות משהו, ובצדק.

כמו שאמר סטאלין, מוות אחד הוא טרגדיה אבל 8000 מתים הם כנראה רק סטטיסטיקה. לסטטיסטיקה הזו אחראים המנהיגים שלנו ומקבלי ההחלטות. בשנת 2011 הוכרזה תכנית לאומית למלחמה בעישון ובנזקיו. בפועל לא קרה כמעט כלום. הגיע הזמן לתכנית חדשה, והפעם זו צריכה להיות תכנית חירום לאומית למלחמה בעישון. עכשיו.

 

 

 


הערות
  1. אתם מוזמנים לקרוא את דברי ההסבר בקובץ לוחות התמותה []
  2. נשאלת כמובן השאלה איך יודעים שאלה גורמי סיכון, והתשובה תתברר מייד []
  3. באופן יותר מדוייק: ההשפעה היא פרופורציונית לגבי הלוג של יחס הסיכונים []
  4. את זה עושים על ידי כך שקובעים ש-X הוא משתנה שמקבל שני ערכים: 0 אם האדם לא מעשן, 1 אם הוא כן מעשן. כאשר X שווה ל-1 נוסף הערך ביתא לסכום המשוקלל של גורמי הסיכון []
  5.  אני יודע שאני עושה פה סלט: נתונים מארצות הברית מסוף המאה העשרים ותחילת המאה העשרים ואחת, ונתונים מישראל. הכל נעשה לצורך הדגמה. אל תסיקו מסקנות מהמספרים שתראו בהמשך. []

שילה בירד

שילה בירד (נולדה בשם שילה מקדונלד גור, ב-1952) היא ביוסטטיסטיקאית סקוטית. היא ידועה בזכות תרומתה לפיתוח תהליכי חשיבה סטטיסטית במחקרים העוסקים בבריאות הציבור.

שילה בירד

שילה בירד

בירד למדה באוניברסיטת אברדין וסיימה בהצטיינות את לימודי המוסמך במתמטיקה וסטטיסטיקה. בין 1974 ל-1976 הייתה עוזרת מחקר ביחידה לסטטיסטיקה רפואית של אוניברסיטת אדינבורו. במקביל ביצעה מחקר לעבודת דוקטורט בהדרכתו של סטיוארט פוקוק. בין 1976 ל-1980 עבדה כמרצה לסטטיסטיקה במשרה חלקית באוניברסיטת אדינבורו, וב-1980 הצטרפה ליחידה לביוסטטיסטיקה של המועצה למחקר רפואי (MRC) באוניברסיטת קיימברידג’,

ב-1999 נישאה לאימונולוג חוקר מחלת האיידס גרהם בירד עימו עבדה בשיתוף פעולה. שישה שבועות לאחר שנישאו, אובחן אצל גרהם בירד גידול סרטני במוח מסוג גליובלסטומה מולטיפורמה, והוא נפטר לאחר כשלושה חודשים. בירד, שפירסמה עד מות בעלה את עבודתה תחת שם נעוריה, גור, החליטה לפרסם מאז והלאה את עבודתה בשם בירד, לזכרו של בעלה המנוח.

עבודתה המדעית של בירד עסקה התחומים רפואיים רבים. עבודת הדוקטורט שלה עסקה בניתוח סיכונים לא פרופורציונליים במחלת סרטן השד. עבודתה בראשית שנות ה-80, בשיתוף פעולה עם גילק ובראדלי, שעסקה בסטטיסטיקה של השתלת האיברים היוותה את הבסיס להתאמה אופטימלית בין תורמי כליות ובין הנזקקים להשתלה. היא הייתה מעורבת במספר מחקרים שעסקו באפידמיולוגיה של מחלת האיידס (כאמור, בשיתוף פעולה עם בעלה לעתיד, גרהם בירד). וכן במחקרים שעסקו במחלת ספגת המוח  (“מחלת הפרה המשוגעת”) ובמחלת קרויצפלד-יעקב, ובקשר בין שתי המחלות, ובסיבוכים של מחלת הצהבת מסוג C, בהתמכרות ובתמותה כתוצאה משימוש באופיואידים, ניסוי קליני שתכננה בשיתוף פעולה עם רופא הילדים ד”ר קולין מורלי הוכיח כי ניתן להפחית ב-35% את תמותת התינוקות עקב מצוקה נשימתית על ידי טיפול בתרופה ALEC. כמו כן פירסמה 20 מאמרים שעסקו בשפעת החזירים.

בנוסף לעבודתה המדעית בירד פעלה לקידום השימוש המושכל בסטטיסטיקה במחקר הרפואי. במאמר שפירסמה ביחד עם ג’ונס וריטר ב-1977 חשפה כי ב-52% מהמאמרים בכתב העת BMJ יש טעויות סטטיסטיות. בתחילת שמנות ה-80 פירסמה כ-BMG סידרה של 23 מאמרים שתיארו טעויות נפוצות בשימוש בסטטיסטיקה. בעקבות סדרת המאמרים גובשו הנחיות לחוקרים בדבר אופן השימוש בסטטיסטיקה ודיווח התוצאות, כאשר עמידה בהנחיות אלה מהווה תנאי לפרסום המחקרים במספר רב של כתבי עת מדעיים. היא הייתה חברה במספר ועדות של החברה המלכותית לסטטיסטיקה שעסקו בגיבוש המלצות סטטיסטיות לתחומים שונים, ובהם רגולציה של תרופות ודיווחים עיתונאיים.

עבור הישגיה המדעיים צורפה בירד למסדר האימפריה הבריטית (OBE) בשנת 2011. החברה המלכותית לסטטיסטיקה העניקה לה את מדליית הארד על שם גאי, מדליית הכסף על שם אוסטין ברדפורד היל, ומדליית הזהב על שם צ’יימברס. היא האישה הראשונה שהוענקו לה שלוש מדליות מטעם החברה.

לקריאה נוספת

קראו על עוד נשים בסטטיסטיקה