ארכיב עבור 'מה אומרת הסטטיסטיקה'
מהי טעות הדגימה האמיתית בסקרי הבחירות
בסקרי בחירות ודעת קהל נהוג לפרסם את "טעות הדגימה", ולפעמים אפילו את "טעות הדגימה המירבית". (( אני שם את הביטויים האלה במרכאות מכיוון שאינם מדוייקים ואף מטעים. אתייחס לכך בפוסט נפרד בעתיד. )) אבל כאשר מדובר בסקרי מנדטים, הנתון הזה בעייתי.
נניח כי פורסם סקר לפיו מפלגה מסויימת מקבלת 30 מנדטים, וכי מצויין כי טעות הדגימה היא 4.5%. מה משמעות הדבר? 4.5% מ-30 הם 1.35. מה זה אומר? שמספר המנדטים יהיה בין 28.65 ל-31.35? אף אחר לא ידווח בסקר כי הוא חוזה למפלגה הזו 30.68 מנדטים. ומה המשמעות של טעות הדגימה הזו לגבי מפלגה שעל סף אחוז החסימה?
מה יכול להשתבש?
בסקרי מנדטים יש שלוש טעויות שמעניינות אותנו:
סוג הטעות הראשון מתייחס אל ההפרשים בין מספר המנדטים שמפלגה מקבלת בפועל ובין מספר המנדטים שהסקר חוזה כי יקבלו, או באופן יותר מדוייק – ההפרש המקסימלי שמתקבל. כמובן שאם נסתכל על כל ההפרשים של כל המפלגות הם יקזזו זה את זה וסכומם יהיה תמיד 0 ((מדוע?)), הנתונים המעניינים הם הערכים המוחלטים של ההפרשים האלה. לדוגמא, אם מפלגה מסויימת מקבל בפועל 10 מנדטים, סקר אחד חוזה לה 12 מנדטים וסקר אחר חוזה לה 8 מנדטים, בשני הסקרים הטעות שווה ל-2.
מה הטעות המירבית האפשרית כאן? התשובה היא 120. ייתכן בהחלט כי על פי סקר מסויים מפלגה מסויימת תקבל 120 מנדטים אך בפועל היא לא תעבור את אחוז החסימה. הסיכוי לכך אפסי, אך עדיין גדול מאפס. זו הסיבה לכך ששמתי קודם את הביטוי "טעות הדגימה המירבית" במרכאות כפולות. אבל מייד נראה כמה מדדים מעניינים שכן יכולים לתת לנו מבט אל רמת הדיוק של הסקר.
סוג הטעות המעניין השני הוא הסיכוי שהסקר יראה כי מפלגה מסויימת עברה את אחוז החסימה למרות שלא עברה אותו בפועל. זה כמובן תלוי במרחק של המפלגה מאחוד החסימה. אחוז החסימה הוא כיום כ-134 אלף קולות. הסיכוי שהסקר יטעה ביחס למפלגה שבפועל קיבלה רק 70 אלף קולות בוודאי נמוך מהרבה מהסיכוי הדומה למפלגה שקיבלה 133 אלף קולות.
סוג הטעות המעניין השלישי הוא הסיכוי שהסקר יראה כי מפלגה מסויימת לא עברה את אחוז החסימה למרות שעברה אותו בפועל. זוהי תמונת המראה של הטעות השניה.
הכל טוב ויפה, אבל איך מחשבים את כל הדברים האלה?
איך אפשר להעריך את גדולי הטעויות?
דרך אפשרית לקבל הערכות לגדלי הטעויות האלה היא לבצע סימולציה. הרעיון מאוד פשוט והוסבר כבר בעבר. מניחים הנחה על התוצאה האמיתית הבחירות. אחר כך לוקחים מדגם ורואים מה קורה. חוזרים על כך הרבה פעמים, ולבסוף ממצעים הכל.
הסימולציה שלי מתייחסת לתוצאות ההיפותטיות הבאות לגבי הבחירות לכנסת ה-22. המספרים כמובן לא אמיתיים. הם מתבססים על תוצאות הבחירות לכנסת ה-21 בתוספת כמה שינויים שהכנסתי כדי להתאים אותם למה שאני רוצה להדגים. הנה טבלת "תוצאות האמת" שלי:
| מפלגה | מספר הקולות | מספר המנדטים |
| הליכוד | 1140370 | 36 |
| כחול לבן | 1125881 | 35 |
| הרשימה המשותפת | 337108 | 10 |
| ש"ס | 258275 | 8 |
| יהדות התורה | 249209 | 8 |
| ימינה | 283910 | 8 |
| העבודה | 190870 | 6 |
| ישראל ביתנו | 173004 | 5 |
| המחנה הדמוקרטי | 135529 | 4 |
| עוצמה לישראל | 133211 | 0 |
| נועם | 75223 | 0 |
| כל השאר | 33333 | 0 |
| סך הכל | 4102590 | 120 |
בישלתי את המספרים כך שאחוז החסימה עומד על 134417 קולות. עוצמה לישראל נמצאת קצת מתחת לאחוז החסימה, המחנה הדמוקרטי קצת מעליו. המרחק של נועם מאחוז החסימה הוא כ-59 אלף קולות, בדומה למרחק של מפלגת העבודה (54 אלף). המרחק של ישראל ביתנו מאחוז החסימה הוא כ-39 אלף קולות.
עכשיו אני יכול לקחת מדגם, של 500 איש נניח, מתוך האוכלוסייה שמונה כ-4.1 מיליון מצביעים. אני פשוט אבחר באופן מקרי 500 איש מתוכם. המדגם שלי יהיה מושלם: אין הטיה כי לכל האנשים מהאוכלוסייה יש את אותו הסיכוי להיכלל במדגם, ואף אחד לא ישקר לי כאן.
הנה מדגם לדוגמה, וחלוקת המנדטים כפי שחישבתי על פי תוצאותיו:
| מפלגה | מספר הקולות | מספר המנדטים |
| הליכוד | 130 | 34 |
| כחול לבן | 132 | 34 |
| הרשימה המשותפת | 37 | 9 |
| ש"ס | 28 | 7 |
| יהדות התורה | 31 | 8 |
| ימינה | 38 | 10 |
| העבודה | 32 | 8 |
| ישראל ביתנו | 23 | 6 |
| המחנה הדמוקרטי | 17 | 4 |
| עוצמה לישראל | 0 | 0 |
| נועם | 0 | 0 |
| כל השאר | 0 | 0 |
| סך הכל | 500 | 120 |
אנחנו יכולים לראות למשל שהסקר העניק לליכוד ולכחול לבן 34 מנדטים כל אחת, בעוד שלפי "תוצאות האמת" הן קיבלו 36 מנדטים ו-35 מנדטים בהתאמה. לכן הטעויות לגבי שתי המפלגות האלה שוות ל-1 ו-2. תוכלו לוודא כי הטעות המקסימלית שנצפתה בסקר הזה היא 2, הטעות החציונית היא 1 והטעות הממוצעת היא 0.91. הסקר הזה לא העלה את עוצמה לישראל ונועם אל מעל אחוז החסימה, ולא הוריד אף מפלגה שעברה בפועל את אחוז החסימה אל מתחת לו.
את התרגיל הזה ביצעתי 2000 פעם עבור מדגם בגודל 500, וגם עבור מדגמים בגדלי 1000, 2000, 4000, ו-8000.
תוצאות הסימולציה
תוצאות גדלי הטעות שחושבו בסימולציה מופיעות בטבלה הבאה:
| גודל המדגם | טעות ממוצעת | טעות מקסימלית | טעות חציונית |
| 500 | 1.52 | 4.58 | 1.12 |
| 1000 | 1.13 | 3.82 | 0.80 |
| 2000 | 0.92 | 3.42 | 0.60 |
| 4000 | 0.77 | 3.18 | 0.39 |
| 8000 | 0.67 | 3.06 | 0.23 |
אנו רואים כי הטעות הממוצעת בסקר בגודל 500 היא כמנדט וחצי, והיא כמובן קטנה ככל שגודל המדגם עולה. הטעות החציונית בסקר כזה היא קצת יותר ממנדט, אבל הטעות המקסימלית היא יותר מ-4.5 מנדטים. זה קורה בגלל המפלגות שקרובות לאחוז החסימה. כשמפלגה שלא עוברת את אחוז החסימה בפועל אבל עוברת אותו במדגם הטעות היא 4 מנדטים, וכך גם במקרה ההפוך.
עד כמה נפוצים המקרים האלה? בדוגמא הזאת זה קורה די הרבה, מכיוון שיש בו שתי מפלגות שקרובות מאוד לאחוז החסימה:
| גודל המדגם | הועברו בטעות | לא עברו בטעות |
| 500 | 44.8 | 76.8 |
| 1000 | 44.9 | 56.2 |
| 2000 | 43.7 | 51.9 |
| 4000 | 44.5 | 46.9 |
| 8000 | 42.4 | 47.3 |
חוץ מהאנומליה של 76.8% למדגם בגודל 500, אנחנו רואים כי בדרך כלל הסיכויים קרובים ל-50%.
ניתן לערוך כמובן ניתוחים יותר מתוחכמים: לחשב סטיות תקן ורווחי סמך, לבדוק מה הסיכויים לטעות במעבר אחוז החסימה עבור גדלים שונים של מפלגות, ועוד. מי שמעוניין מוזמן להוריד את קוד הסימולציה שכתבתי בשפת R ולנסות לשחק עם הנתונים.
סיכום
- בסקרי מנדטים קטנים, כאשר גודל המדגם הוא 500, ייתכנו טעויות משמעותיות בחיזוי מספר המנדטים האמיתי. הטעות הממוצעת היא כמנדט וחצי, והטעות המקסימלית עaויה להיות גבוהה באופן משמעותי.
- עבור מפלגות המתנדנדות באיזור אחוז החסימה, גם מדגם גדול הרבה יותר אינו יכול לתת תשובה אמינה לגבי השאלה האם מפלגות אלה יעברו את אחוז החסימה.
נשלח: 13 בספטמבר, 2019. נושאים: מה אומרת הסטטיסטיקה, סקרים, על סדר היום.
תגובות: 2
| טראקבק
הקשר בין אכילת בשר ותחלואה בסרטן השד – יחסי סיכונים
דרך מקובלת לבטא אפקט של טיפול או התערבות רפואית היא מה שמכונה "יחס הסיכויים" ((ולפעמים – יחס הסיכונים – תלוי בהקשר)) או באנגלית odds ratio. המונח העברי מופיע במרכאות מכיוון, כפי שאסביר מייד, התרגום הוא לא מדוייק עד לא נכון, תלוי את מי שואלים.
השאלה שנשאלה בשאלון היא מאוד פשוטה. נתונה קובייה הוגנת, כלומר כאשר מטילים אותה לכל התוצאות יש סיכוי שווה להופיע. לכן, מהו ה-odds של הטלת המספר 6?
מי שעוסק בהימורים יבין מייד את התשובה. יש 6 תוצאות אפשריות, לכולן אותו סיכוי. חמש תוצאות אפשריות אינן שוות ל-6, יש רק תוצאה אחת השווה ל-6, לכן ה- odds, היחס בין מספר התוצאות הרצויות לבין מספר התוצאות הלא רצויות הוא 1:5. יחס זה מכונה לעיתים בשם "יחס ההימורים".
שימו לב ש-1:5 אינו אומר כי ההסתברות להטלת 6 היא חמישית. ההסתברות להטלת 6 היא שישית. המשמעות של היחס 1:5 היא שההסתברות להטלת 6 קטנה פי 5 מההסתברות לא להטיל 6. בנוסף לכך, אם נחלק 1 ל-5 נקבל חמישית. נקבל חמישית גם את נחלק את הסיכוי לקבל 6, שהוא שישית, בסיכוי לא לקבל שש, שהוא חמש שישיות. זה תמיד נכון, ולכן יחס זה הוא יחס בין שני סיכויים.
ה-odds ratio, כפי ששמו מעיד עליו, הוא יחס בין שני odds, ומכיוון שה-odds הוא יחס, הרי שה-odds ratio הוא יחס בין שני יחסים, שכל אחד מהם הוא יחס בין שני סיכויים. לכן הביטוי "יחס הסיכויים" בעייתי בעיניי. לעיתים מכנים אותו בשם "יחס צולב", ואסביר מדוע בהמשך הפוסט.
הנה דוגמה שתסביר מהו ה-odds ratio, ואת הקשר בינו ובין הסיכון היחסי והסיכון המוחלט.
הדוגמה לקוחה מידיעה שפורסמה באתר Medical News Today, בה נאמר כי הסיכון לחלות אצל נשים הניזונות מתפריט מוטה בשר אדום גבוה ב-23% מהסיכון של נשים הניזונות מתפריט מוטה בשר עוף.
מדובר במחקר תצפיתי בו התבצע מעקב אחרי 42016 אלף נשים הנמצאות בקבוצת סיכון לתחלואה בסרטן השד – לכל אחת מנשים אלו יש אחות שחלתה כבר בסרטן השד. המחקר עקב אחרי הרגלי האכילה שלהן, כולל אכילת סוגי בשר שונים ובשר מעובד. במשך תקופת המעקב, כשבע וחצי שנים, 1536 נשים אובחנו כחולות בסרטן השד. מדובר באשה אחת מתוך כל 27 בערך (( למי שישאל איך קיבלו 1 ל-27 כאשר הנתון שכולם מכירים הוא 1 מתוך 9: הנתון של 1 מתוך 9 מתייחס לסיכון של אישה לחלות בסרטן השד במהלך חייה. תוחלת החיים של אישה ברוב העולם המערבי היא כשמונים שנה. הנתון של 1 מתוך 27 מתייחס אמנם לנשים בסיכון, אך במשך תקופת זמן קצרה בהרבה – רק כשבע וחצי שנים.)), סיכון לא מבוטל של כ-3.7%. מהו יחס הסיכונים לתחלואה בסרטן השד שנצפה באוכלוסייה זו במשך תקופת המעקב? 1536 נשים אובחנו כחולות בסרטן השד, 40480 נשים לא אובחנו. יחס הסיכונים הוא לכן 1536 ל-40480, או כ-1 ל-26. שימו לב כי הסיכון שונה מיחס הסיכונים.
החוקרים דיווחו כי הסיכון לתחלואה בקרב נשים שאוכלות בעיקר בשר עוף נמוך לעומת הסיכון בקרב נשים האוכלות בעיקר בשר אדום ב-28%.
למעשה הם ביצעו ניתוח הישרדות ודיווחו כי יחס הסיכונים במובן של Hazard Ratio בין אוכלות העוף ואוכלות הבשר האדום הוא 0.72 (( ראו את הרשימה "איך יודעים כמה אנשים מתים מנזקי העישון" להסבר קצת יותר רחב על המושג של ה- Hazard)). נתון זה מתקבל מחישוב המתקנן בתוכו משתנים נוספים, כגון גיל, BMI, עישון ומוצא אתני, וכמובן משך הזמן שעבר מתחילת המעקב ועד האבחון.
אבל (על פי החישובים שאפרט בהמשך):
יחס הסיכונים הוא 0.8 לומר הסיכון לחלות בסרטן השד עבור נשים הניזונות מתפריט מוטה בשר עוף נמוך רק ב-20% מהסיכון עבור נשים הניזונות מתפריט מוטה בשר אדום.
הפרש הסיכונים הוא 0.6% בלבד. הסיכון לחלות בסרטן השד עבור נשים הניזונות מתפריט מוטה בשר אדום הוא 3.1% ועבור אלה הניזונות מתפריט מוטה בשר עוף הוא 2.5%. (( שאלה מעניינת: אם אחוז התחלואה הכולל הוא 3.7%, אך התחלואה בעל אחת משתי הקבוצות האלה לחוד נמוכה מ-3.7%? ))
התובנה שלי: נתוני ה-odds ratio הם בעייתיים, ואין להם פירוש משמעותי ברור. הנתונים של הסיכון היחסי והפרש הסיכונים נותנים תובנה הרבה יותר טובה באשר לגורמי הסיכון.
למי שמעוניין בכל החישובים: עיון יותר מעמיק בנתונים מעלה כי הנתון המתוקנן של 0.72 נגזר מהנתונים הבאים (קישור לקובץ וורד).
מתוך כ-10500 נשים (כרבע מהאוכלוסייה) שאכלו בעיקר בשר אדום, היו 329 מקרי סרטן, ומתוך כ-10500 נשים שאכלו בעיקר בשר עוף היו 258 מקרים.
נסדר את כל הנתונים בטבלה יפה:
| תחלואה בסרטן השד | |||
| הטיית התפריט | כן | לא | סך הכל |
| בשר עוף | 258 | 10242 | 10500 |
| בשר אדום | 329 | 10171 | 10500 |
| סך הכל | 587 | 20413 | 21000 |
מה אנחנו יכולים ללמוד מהמספרים האלה?
ה-odds, יחס הסיכונים לחלות בסרטן השד עבור נשים שאוכלות בעיקר בשר עוף הוא 258 ל-10242. עבור נשים שאוכלות בעיקר בשר בקר יחס הסיכונים הוא 329 ל-10171. נחלק את היחסים ונקבל כי היחס בין היחסים הוא 0.78:

תוצאה זו שונה מעט מהתוצאה שדווחה מכיוון שכאמור החוקרים ביצעו תקנונים שאנחנו לא ביצענו.
אבל שימו לב לחישוב: למעשה הכפלנו את שני המספרים שבאלכסון הראשי של הטבלה וחילקנו אותם במכפלת המספרים שבאלכסון המשני של הטבלה. ציירנו מין צלב כזה על הטבלה, ולכן יחס הסיכונים, ה-odds ratio נקרא לפעמים בשם יחס צולב.
.רשימה זו היא הרשימה החמישית בסדרת רשימות העוסקות בהערכת נתונים סטטיסטיים רפואיים, ומסתמכת על של מרכז וינטון לתקשורת סיכונים ועדויות כמותיות באוניברסיטת קיימברידג'.
ראו גם:
- היכן הטיפול בסרטן הערמונית טוב יותר?
- כמה חיים מצילה הבדיקה לגילוי מוקדם של סרטן הערמונית?
- הגלולה למניעת הריון והסיכון למוות עקב פקקת ורידים
- הקשר בין טיפול הורמוני חליפי והתפתחות קרישי דם.
- מה הסיכון באכילת בשר מעובד?
- יעילות טיפול חדש לאוסטאורופוזיס
- ערך הניבוי החיובי של בדיקת ממוגרפיה לגילוי מוקדם של סרטן השד
נשלח: 10 בספטמבר, 2019. נושאים: ביוסטטיסטיקה, בריאות, מה אומרת הסטטיסטיקה.
תגובות: אין
| טראקבק
הקשר בין טיפול הורמוני חליפי והתפתחות קרישי דם
בתחילת 2019, פורסמה ידיעה בעיתון דיילי מייל לפיה כי טיפול הורמונלי חליפי (Hormone Replacement Therapy) בזמן המנאופוזה מכפיל את הסיכון לקרישי דם מסוכנים, כלשון הכותרת..
בניגוד למה שקורה בדרך כלל, הידיעה ציטטה גם את הנתון הבאשמסרו החוקרים מאוניבריטת נוטינגהאם: "על כל 10000 נשים המקבלות טיפול החלפת הורמונים, יש רק 9 מקרים נוספים של קרישי דם מדי שנה". זוהי פיסת מידע חשובה. מהו בעצם הנתון הזה?
אני אתעלם מהתשובות הלא נכונות שהוצעו (שינוי באחוזים, מספר החולים שיש לטפל בהם, (( במדד זה אדון בהמשך הסדרה )) וקצב קפלן-מאייר) ואעבור מייד להסבר.
הנתון שדווח הוא הגידול המוחלט בסיכון.
לפני שנגיע לדיון, קצת פרופורציות: לפי הכותרת, הסיכון להתפתחות קרישי דם בקרב נשים המקבלות טיפול הורמונלי גבוה פי שניים מהסיכון אצל נשים שלא מקבלות טיפול כזה. זה לא ממש מדוייק. קריאה זהירה במאמר שפורסם ב-BMJ מעלה כי הנתונים שמדווחים אינם סיכונים יחסיים אלא יחסי סיכונים (odds ratios). אני אדון ביחסי הסיכונים בהמשך הסדרה. כמו כן, יחסי הסיכונים משתנים על פי סוג הטיפול ודרך המתן. מדווחות תוצאות שונות לגבי סוגים שונים של טיפולים הורמונליים, ואכן עבור אחד מהם יחס הסיכונים נאמד כ-2.1, ולטיפולים אחרים היו יחסי סיכונים נמוכים יותר. עבור אחד הטיפולים המקובלים יחס הסיכונים היה נמוך באופן משמעותי מ-1, כלומר לטיפול הספציפי הזה היה אפקט מונע נגד הופעת קרישי דם. יחס הסיכונים המשוקלל על פני כל סוגי הטיפולים היה 1.6 בערך. עד כאן בנוגע לפערים בין כותרות זורעות בהלה ובין המציאות.
מה המשמעות של הגידול המוחלט בסיכון? נניח שאצל כל 10000 נשים שאינן מקבלות טיפול הורמונלי, יש מקרה אחד של היווצרות קרישי דם בכל שנה. הסיכון המוחלט הוא לכן 1 מתוך 10000, (או 0.01%, למי שאוהב אחוזים). לפי דברי החוקרים, עקב הטיפול ההורמונלי יש 9 מקרים נופים בשנה. כלומר, עוד 9 נשים מתוך 10000 יפתחו קרישי דם עקב הטיפול. באחוזים, ובסך הכל יהיו 10 נשים מתוך 10000 שיפתחו קרשי דם.
מה אם ההנחה הראשונה שלנו לא נכונה, ולמעשה מבין במקום אישה אחת, מבין כל 10000 נשים שאינן מקבלות טיפול הורמונלי, קרישי דם מתפתחים אצל 9 נשים? זה לא משנה – הנתון שנמסר עדיין אומרי כי יהיו 9 מקרים נוספים, ובסך הכל 18 במקום 9.
למעשה, אם נפרש את הכותרת של הדיילי מייל כמדווחת על סיכון יחסי, ונניח כי הנתון של תוספת 9 מקרים הוא נתון המשקלל את כל סוגי הטיפולים, נוכל לעשות חישוב לאחור. תוספת של 9 מקרים פירושה הכפלת הסיכון (( וזה כאמור לא נכון )), כלומר ללא טיפול יש 9 מקרים ועם טיפול יש 18 מקרים מתוך 10000. אם נבטא את הסיכון באחוזים, נקבל כי הסיכון עלה מ-0.09% ל-0.18%. הפרש הסיכונים הוא רק 0.09%.
רשימה זו היא הרשימה הרביעית בסדרת רשימות העוסקות בהערכת נתונים סטטיסטיים רפואיים, ומסתמכת על של מרכז וינטון לתקשורת סיכונים ועדויות כמותיות באוניברסיטת קיימברידג'.
ראו גם:
- היכן הטיפול בסרטן הערמונית טוב יותר?
- כמה חיים מצילה הבדיקה לגילוי מוקדם של סרטן הערמונית?
- הגלולה למניעת הריון והסיכון למוות עקב פקקת ורידים
- הקשר בין אכילת בשר ותחלואה בסרטן השד – יחסי סיכונים
- מה הסיכון באכילת בשר מעובד?
- יעילות טיפול חדש לאוסטאורופוזיס
- ערך הניבוי החיובי של בדיקת ממוגרפיה לגילוי מוקדם של סרטן השד
נשלח: 6 בספטמבר, 2019. נושאים: ביוסטטיסטיקה, בריאות, מה אומרת הסטטיסטיקה.
תגובות: אין
| טראקבק
הגלולה למניעת הריון והסיכון למוות עקב פקקת ורידים
מחקר משנת 1995 דיווח כי שימוש הכפיל את הסיכון למוות עקב . איזה נתון סטטיסטי דווח כאן?
השאלון מציע ארבע תשובות אפשריות: המצאות (prevalence), סיכון מוחלט (Absolute risk), מדד g של כהן למדידת גודל האפקט ((אין דבר כזה: יש Cohen's d וגם Hedegs' g)), וגם את התשובה הנכונה שהיא הסיכון היחסי (relative risk) המכונה לעיתים בשם יחס הסיכונים (risk ratio).
אסביר תחילה את נושא הסיכונים באמצעות דוגמה (( לא אתייחס כאן לנושאי ההמצאות וגודל האפקט )), ואחר כך אתייחס לנושא הקשר בין הגלולה למניעת הריון לפקקת הורידים.
כשאנחנו מדברים על סיכונים, יש שני מושגי יסוד: הראשון הוא גורם הסיכון: למשל עישון, שימוש בגלולה למניעת הריון או השתתפות בקורס מבוא לסטטיסטיקה. המושג השני הוא התוצא הבריאותי, כגון תחלואה בסרטן, פקקת ורידים או היהפכות לזומבי.
הסיכון המוחלט הוא ההסתברות שהתוצא הבריאותי יארע. בדרך כלל אומדים אותו כפרופורציה באוכלוסייה. נניח לדוגמה כי באוכלוסייה של 10000 אנשים בריאים 20 אנשים הפכו לזומבים. אם נחלק 20 ב-10000 ואחר כך נכפיל במאה נקבל כי הסיכון המוחלט להפיכה לזומבי הוא 0.2%.
לעומת זאת, בקבוצה של 10000 סטודנטים שנחשפו לקורס מבוא לסטטיסטיקה, 40 סטודנטים הפכו לזומבים, וזה סיכון של 0.4%. החשיפה לקורס הכפילה את הסיכון פי 2, מ-0.2% ל-0.4%. אנו אומרים לכן כי הסיכון היחסי הוא 2.
אבל צריך להיזהר מסיכונים יחסיים, כי הם לא משקפים את העלייה בסיכון. בדוגמת הזומבים, הסיכון הוכפל אבל עלה רק ב-0.2%. לא צריך לזלזל, אבל צריך גם לשמור על פרופורציות. לטעמי, דיווח של הפרש הסיכונים מועיל יותר להערכת סיכונים מאשר דיווח על הסיכון היחסי.
מה בקשר לפקקת הורידים?
אזהיר תחילה כי אין להסתמך על הנתונים שאביא כאן כדי לקבל החלטה כזו או אחרת או כדי להמליץ המלצות. יש כאן הערכות שרמת הדיוק שלהן לא ידועה, והנחות שרירותיות שאניח לצורך ההדגמה.
על פי ויקיפדיה, הסיכון המוחלט לפקקת ורידים אצל נשים המשתמשות בגלולה למניעת הריון הוא 60 מקרים ל-100000 שנות חיים, לעומת 30 אצל נשים שלא משתמשות בגלולה. ((הנתון של 60 מקרים הוא למעשה ממוצע, כיוון שהסיכון משתנה בהתאם לסוג הגלולה והרכבה)) כלומר, הסיכון אכן מוכפל, והסיכון היחסי לתחלואה הוא 2. הסיכון היחסי למוות כנראה דומה, אך לא ברור האם יש הבדל בשיעורי התמותה בין נשים המשתמשות בגלולה ונשים שאינן משתמשות בגלולה. שיעורי התמותה תוך שנה מאירוע הפקקת נעים בין 50% ל-90%, תלוי במקרה הספציפי. על פי מכון קוקריין, יחס הסיכונים גבוה יותר ומגיע במקרים מסויימים עד ל-3.5 – תלוי בהרכב הגלולה ומשך השימוש. בהחלט אין להקל ראש בסיכון הזה, אבל כפי שציינתי קודם, חשוב יותר לדעת את הפרש הסיכונים. אני אשתמש בנתוני ויקיפדיה כדי להדגים זאת.
מה הכוונה ב-100000 שנות חיים? הסיכון משתנה עם רמת החשיפה. אין דין אישה שהשתמשה בגלולה במשך שנתיים כדין אישה שהשתמשה בגלולה 15 שנה. לכן יש לשקלל את נתוני התחלואה במשך השימוש בגלולה. בואו נניח, לצורך הדוגמה בלבד, כי אישה ממוצעת משתמשת בגלולה במשך 20 שנים. לכן מאה אלף שנות חיים שקולות ל-5000 נשים (( 5000×20=100000 )). 30 מקרים מתוך 5000 הם 6 מתוך 1000, כלומר ניתן, תחת ההנחה הנ"ל, (( שימוש ממוצע של 20 שנה בגלולה )) כי בקרב נשים שלא משתמשות בגלולה, 6 מתוך כל 1000 יחלו בפקקת העורקים, ובקרב הנשים המשתמשות בגלולה 12 מתוך כל 1000 יחלו. בדוגמה זו, השימוש בגלולה יוסיף עוד 6 נשים חולות לכל 1000. זהו נתון שממחיש את רמת הסיכון: עוד 6 נשים מכל 1000 יחלו, ובסיכוי גבוה גם ימותו, אם ישתמשו בגלולה למניעת הריון במשך 20 שנה. לדעתי מידע זה מאפשר החלטה מושכלת יותר לגבי נטילת הסיכון.
רשימה זו היא הרשימה השלישית בסדרת רשימות העוסקות בהערכת נתונים סטטיסטיים רפואיים, ומסתמכת על של מרכז וינטון לתקשורת סיכונים ועדויות כמותיות באוניברסיטת קיימברידג'.
ראו גם:
- היכן הטיפול בסרטן הערמונית טוב יותר?
- כמה חיים מצילה הבדיקה לגילוי מוקדם של סרטן הערמונית?
- הקשר בין טיפול הורמוני חליפי והתפתחות קרישי דם.
- הקשר בין אכילת בשר ותחלואה בסרטן השד – יחסי סיכונים
- מה הסיכון באכילת בשר מעובד?
- יעילות טיפול חדש לאוסטאורופוזיס
- ערך הניבוי החיובי של בדיקת ממוגרפיה לגילוי מוקדם של סרטן השד
נשלח: 2 בספטמבר, 2019. נושאים: ביוסטטיסטיקה, בריאות, מה אומרת הסטטיסטיקה.
תגובות: 2
| טראקבק
כמה חיים מצילה הבדיקה לגילוי מוקדם של סרטן הערמונית?
פציינט שואל את הרופא שלו האם כדאי לו לעבור בדיקת PSA לגילוי מוקדם של . מהו הנתון שהרופא צריך להציג לחולה כדי שיוכל לקבל החלטה מושכלת?
מוצעות ארבע תשובות אפשרויות.
התשובה האפשרית הראשונה היא כי על הרופא להציג את מספר מקרי הסרטן באוכלוסיית חולים שעברו בדיקה לגילוי מוקדם, ומספר מקרי הסרטן באוכלוסיית של חולים שלא עברו בדיקה לגילוי מוקדם. יש שתי סיבות לכך שההצעה הזו לא נכונה. ראשית, אני מקווה שמובן מאליו כי יש להציג מספרים מתוקננים לגודל האוכלוסייה. הסיבה השנייה גם היא ברורה מאליה, לדעתי: מספר מקרי הסרטן אינו מושפע מעצם קיום או אי קיום בדיקות לגילוי מוקדם.
תשובה אפשרית נוספת מוצעת היא כי על הרופא להציג את שיעור/אחוז השורדים כעבור חמש שנים מעת גילוי המחלה עבור חולים שעברו בדיקה לגילוי מוקדם ועבור אלה שלא עברו בדיקה כזו. ההסבר המפורט לכך שהשוואה זו הינה חסרת משמעות הופיע בפוסט קודם. בקצרה: אצל חולים שלא עברו בדיקה לגילוי מוקדם עבר זמן רב יותר מאז הופעת המחלה בהשוואה לאלה שכן עברו בדיקה לגילוי מוקדם, ולכן בסיס ההשוואה אינו זהה בין שתי הקבוצות.
הצעה נוספת היא להציג בפני הפציינט את ההסתברות כי הנבדק אכן חולה בסרטן הערמונית בהינתן כי תוצאת הבדיקה חיובית. (( נתון זה נקרא של הבדיקה ונדון בו ביתר פירוט בהמשך הסדרה )) בהצעה זו יש שתי בעיות. ראשית, האומדנים להסתברויות מסוג זה הינם מאוד לא מדוייקים. יש צורך לדעת כמה מבין התוצאות החיוביות הינן חיוביות אמיתיות (כלומר, הבדיקה זיהתה מחלה והנבדק אכן חולה) וכמה הן חיוביות שגויות (כלומר, הבדיקה זיהתה מחלה והנבדק אינו חולה). בפועל, ברוב מוחלט של המקרים בהם תוצאת הבדיקה חיובית מבוצעת פרוצדורה רפואית, ולכן אי אפשר לדעת אם התוצאה שגויה או לא – כדי לדעת זאת צריך לא לטפל בנבדק ולראות מה יקרה לו, וזה כמובן לא קביל.
שנית: ההסתברות הזאת לא אומרת דבר על סיכויי ההישרדות/החלמה אם הפציינט אכן חולה. היא רק מעידה על רמת הדיוק של הבדיקה.
הנתון שיאפשר לחולה לקבל החלטה הוא שיעורי התמותה בקרב חולים שעברו בדיקה לגילוי מוקדם ובקרב אלה שלא עברו בדיקה כזו, כאשר שתי האוכלוסיות הן בנות השוואה (comparable), למשל: גברים שעברו בדיקה לגילוי מוקדם בגיל 50 לעומת גברים בני 50 שלא עברו בדיקה כזו. אם הבדיקה אכן מצילה חיים, נצפה לפחות מקרי מוות עקב סרטן הערמונית בקבוצה הראשונה.
רשימה זו היא הרשימה השניה בסדרת רשימות העוסקות בהערכת נתונים סטטיסטיים רפואיים, ומסתמכת על של מרכז וינטון לתקשורת סיכונים ועדויות כמותיות באוניברסיטת קיימברידג'.
ראו גם:
- היכן הטיפול בסרטן הערמונית טוב יותר?
- הגלולה למניעת הריון והסיכון למוות עקב פקקת ורידים
- הקשר בין טיפול הורמוני חליפי והתפתחות קרישי דם.
- הקשר בין אכילת בשר ותחלואה בסרטן השד – יחסי סיכונים
- מה הסיכון באכילת בשר מעובד?
- יעילות טיפול חדש לאוסטאורופוזיס
- ערך הניבוי החיובי של בדיקת ממוגרפיה לגילוי מוקדם של סרטן השד
נשלח: 27 באוגוסט, 2019. נושאים: בריאות, מה אומרת הסטטיסטיקה.
תגובות: 5
| טראקבק
היכן הטיפול בסרטן הערמונית טוב יותר?
כאשר רודי ג'וליאני (ראש עיריית ניו יורק לשעבר) ביקר בלונדון, הוא התייחס לשירותי הבריאות הלאומיים של בריטניה (NHS) ואמר:
"אובחנתי כחולה לפני 7 שנים. הסיכוי שלי להישרדות בארצות הברית הוא 82%, ובאנגליה הסיכוי הוא פחות מ-50%". לכן הסיק ג'וליאני כי הטיפול בסרטן הערמונית בארצות הברית טוב יותר מהטיפול בבריטניה.
מאוחר יותר התברר כי הנתונים שג'וליאני ציטט הם נתוני הישרדות בחיים לאחר 5 שנים מתאריך האבחון. מהי הבעיה בהסקת מסקנות על סמך נתונים אלה בלבד?
עורכי השאלון הציעו ארבע תשובות אפשריות.
התשובה האפשרית הראשונה היא הטיית האישור – confirmation bias. זוהי הנטייה לחפש, לפרש, להעדיף, ולזכור מידע באופן שמאשר אמונות או השערות, תוך מתן תשומת לב פחותה במידה בלתי-פרופורציונלית למידע שתומך באפשרויות חלופיות. ג'וליאני לא לקה בהטייה זו. הוא הסתמך על נתונים נכונים ולא התעלם מהם . הוא אכן לא הסתמך על נתונים אחרים, לפחות באמירה הזו, אולם לא ניתן לקבוע בוודאות אם עשה זאת בכוונה.
תשובה אפשרית נוספת היא הטיית הבחירה (selection bias). הטייה זו היא עיוות בנתוני מחקר הנובע מהטיה בצורת איסוף המידע. ג'וליאני כמובן לא ביצע את המחקר בעצמו. הוא לא לקה בהטייה זו. ייתכן כי המחקרים עליהם התבסס לקו בהטייה זו, אבל זהו סיפור אחר.
עוד תשובה שהוצעה היא הטיית הביצוע (performance bias). הטייה זו מתבטאת בכך שבניסוי מבוקר קבוצת טיפול אחת מקבלת תשומת לב רבה יותר מהחוקרים מאשר הקבוצה השנייה. זה יכול לקרות למשל בניסוי בו משווים תרופה חדשה לתרופה קיימת, ואי אפשר לקיים סמיות – לפחות חלק מהחולים יודעים איזה טיפול הם מקבלים, וגם הרופאים יודעים זאת כמובן. זה יכול לקרות אם למשל תרופה אחת ניתנת בהזרקה והשנייה בבליעה (( ראו למשל את הידיעה על הניסוי הזה בו נערכה השוואה בין שתי תרופות לטיפול בטרשת נפוצה: ג'ילניה ניתנת בבליעה, קופקסון בהזרקה. )) במקרה שלנו זה לא המקרה: שני הנתונים שצוטטו הגיעו כל אחד ממחקר אחר.
ההבדל בין שני נתוני ההישרדות נובעים מהטיית lead-time bias . (( לא ברור לי איך לתרגם זאת לעברית. אשמח לשמוע הצעות )) הנתונים שג'וליאני ציטט התייחסו להישרדות מרגע האבחון. בארצות הברית נהוג לבצע בדיקות לאבחון מוקדם של סרטן הערמונית, וזאת בניגוד לנהוג בבריטניה. לכן משך הזמן העובר בין תחילת המחלה עד לאבחון קצר יותר בארצות הברית מאשר בבריטניה. מכיוון שסרטן זה מאובחן בשלב יותר מוקדם בארצות הברית, הסיכויים לשרוד במשך 5 שנים מזמן האבחון גבוהים יותר לעומת אבחון לאחר הופעת סימפטומים מחשידים הנהוג בבריטניה. בגלל ההטיה הזו, אוכלוסיות הגברים בארצות הברית ובבריטניה אינן בנות השוואה, ככל שהדבר נוגע לנתוני הישרדות של חולי סרטן הערמונית.
הנה דוגמה מספרית פשוטה. נניח לצורך הדוגמה כי אבחון מוקדם מזהה את המחלה כשנתיים לאחר תחילתה, בעוד שללא אבחון מוקדם המחלה מזוהה כחמש שנים לאחר תחילתה. כמו כן, לכן, בארצות הברית, אדם ששרד 5 שנים לאחר האבחון שרד למעשה 7 שנים לאחר הופעת המחלה, בעוד שבבריטניה אדם ששרד 5 שנים לאחר האבחון שרד למעשה 10 שנים מתחילת המחלה. בדוגמה זו, מצבו של החולה הבריטי יותר טוב כרגע מזה של האמריקני.
רשימה זו היא הרשימה הראשונה בסדרת רשימות העוסקות בהערכת נתונים סטטיסטיים רפואיים, ומסתמכת על של מרכז וינטון לתקשורת סיכונים ועדויות כמותיות באוניברסיטת קיימברידג'.
ראו גם:
- כמה חיים מצילה הבדיקה לגילוי מוקדם של סרטן הערמונית?
- הגלולה למניעת הריון והסיכון למוות עקב פקקת ורידים
- הקשר בין טיפול הורמוני חליפי והתפתחות קרישי דם.
- הקשר בין אכילת בשר ותחלואה בסרטן השד – יחסי סיכונים
- מה הסיכון באכילת בשר מעובד?
- יעילות טיפול חדש לאוסטאורופוזיס
- ערך הניבוי החיובי של בדיקת ממוגרפיה לגילוי מוקדם של סרטן השד
נשלח: 20 באוגוסט, 2019. נושאים: בריאות, מה אומרת הסטטיסטיקה.
תגובות: 7
| טראקבק
שאלון יכולת הערכת נתונים סטטיסטיים רפואיים – אוניברסיטת קיימברידג'
מרכז וינטון לתקשורת סיכונים ועדויות כמותיות באוניברסיטת קיימברידג' פירסם לאחרונה שנועד לעוסקים בתחומי הרפואה והבריאות להעריך את יכולתם בהבנת נתונים סטטיסטיים אודות התועלת והנזק של טיפולים רפואיים.
גם אם אינכם עוסקים בתחומים האלה, אני חושב שכדאי שתכירו חלק מהמושגים האלה. אתם יכולים כמובן לנסות לענות בכל מקרה, ולאחר שתסיימו לענות על כל השאלות, תוכלו לקרוא את התשובות הנכונות בתוספת הסבר קצר לכל תשובה.
הנכם מוזמנים לקרוא:
- היכן הטיפול בסרטן הערמונית טוב יותר?
- כמה חיים מצילה הבדיקה לגילוי מוקדם של סרטן הערמונית?
- הגלולה למניעת הריון והסיכון למוות עקב פקקת ורידים
- הקשר בין טיפול הורמוני חליפי והתפתחות קרישי דם.
- הקשר בין אכילת בשר ותחלואה בסרטן השד – יחסי סיכונים
- מה הסיכון באכילת בשר מעובד?
- יעילות טיפול חדש לאוסטאורופוזיס
- ערך הניבוי החיובי של בדיקת ממוגרפיה לגילוי מוקדם של סרטן השד
נשלח: 5 באוגוסט, 2019. נושאים: ביוסטטיסטיקה, בריאות, מה אומרת הסטטיסטיקה.
תגובות: 1
| טראקבק
רחובות הסרטן והאנטנות הסלולריות
ב-25.2.2019 התפרסמה בעיתון ידיעות אחרונות כתבה תחת הכותרת "רחובות הסרטן". הנה ציטוט כותרות המשנה:
מקום לדאגה: ברדיוס של 500 מטרים במרכז ראש־העין התגלו בשנים האחרונות עשרות מקרים של סרטן • כארבעים בני אדם כבר נפטרו מהמחלה • התושבים בטוחים שהגורם לתחלואה הוא אנטנות סלולריות שניצבות על גג בניין השייך לעירייה • "שנים שאנחנו זועקים ואף אחד לא מקשיב", הם טוענים, "אנשים מתים פה אחד אחרי השני".
הכתבה הזו ללא ספק מעודדת פניקה. עוד באותו יום הופיע פוסט בפייסבוק בקבוצה של תושבי העיר שלי, המזהיר מפני שתי אנטנות סלולריות שניצבות על גג התחנה המרכזית בעיר. "אנשים ימותו!" נכתב בפוסט שזכה לעשרות לייקים ותגובות נסערות.
אני לא מזלזל בכאבם של תושבי ראש העין, להפך. אני גם לא מתכוון לדון במספרים שהוזכרו בכתבה. אני מקבל אותם כפי שהם. אני רק רוצה להתייחס רק לטענה כי הגורם לתחלואה הוא אנטנות סלולריות. קל (לי לפחות) להסביר למה הטענה הזו לכל הפחות מוטלת בספק: יש עוד הרבה אנטנות סלולריות בהרבה מקומות, וסביבן אין שיעורי תחלואה גבוהים בסרטן. אם האנטנות מסרטנות, אז הן צריכות לסרטן בכל מקום, לא רק בראש העין.
אז למה דווקא בראש העין יש מקבץ ((cluster)) כל כך גדול של תחלואה בסרטן? תשובה אפשרית אחת היא שיש שם גורם סביבתי בעייתי אחר שאינו קיים במקומות אחרים. תשובה אפשרית אחרת היא שייתכן שיש גורם אחר לא סביבתי שאינו קיים במקומות אחרים, אולי גורם גנטי. אפשרות שלישית ועצובה במיוחד היא שהתושבים במקום סובלים מביש מזל.
והנה העניין: אם אין גורמים מקומיים (סביבתיים או אחרים) שגורמים לסרטן (או למחלה אחרת), והתחלואה מתפזרת באופן מקרי על פני כל הארץ, אז נוצרים מקבצים. חוקי הסטטיסטיקה עשויים להיות אכזריים.
אסביר בקצרה: אם פיזור מקרי התחלואה על פני הארץ הוא אקראי, ומחלקים את הארץ ליחידות שטח שוות בגודלן, אז התפלגות מספר המקרים ביחידת שטח מסויימת היא . ואז יש הסתברות, אמנם קטנה, שבאחת מהיחידות האלה יהיה מקבץ גדול של מקרי תחלואה. הבעיה היא שאין אפשרות לדעת מראש איפה זה יקרה.
גם ההפך נכון: אם התפלגות מספר המקרים ביחידת שטח מסויימת היא התפלגות פואסונית, אז ניתן להסיק כי הפיזור על פני השטח הוא אקראי.
הפעם אדגים את התופעה בעזרת סימולציה. (להלן קישור לתכנית R שבעזרתה ביצעתי את הסימולציה)
נניח כי קיימת מדינה שצורתה ריבוע מושלם, בגודל 100×100 קילומטר. פיזרתי באופן אקראי 400 מקרי תחלואה על פני הארץ בכל פעם הגרלתי שני מספרים מקריים בין אפס ל-100 שקבעו את הקואורדינטות של המקרה. הנה המפה שקיבלתי. יש בה ארבע מאות נקודות.
![]() |
חילקתי את המפה ל-100 ריבועים, כל אחד בגודל 10×10 קילומטר.
![]() |
ספרתי כמה נקודות/מקרים יש בכל אחד ממאה הריבועים. הנה טבלה עם תוצאות הספירה:
| מספר המקרים | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| מספר האיזורים | 1 | 5 | 19 | 19 | 18 | 16 | 13 | 3 | 5 | 1 |
מסתבר שיש איזור אומלל אחד שבו התגלו 9 מקרי תחלואה, 5 איזורים עם 8 מקרי תחלואה, ו-3 עם 7 מקרי תחלואה. לעומת זאת יש איזור אחד בר מזל שבו כולם בריאים, ועוד 5 איזורים שבהם היה רק מקרה אחד. סימנתי את האיזורים האלה במפה. האיזורים שבהם התחלואה נמוכה מוקפים במסגרת סגולה (קצת קשה לראות):
![]() |
אני לא רואה שום תבנית בפיזור של איזורי התחלואה הגבוהה על המפה, וגם לא בפיזור של איזורי התחלואה הנמוכה ((ניתן גם לבדוק את טיב ההתאמה של מודל ההתפלגות הפואסונית לנתונים)) . זה לא אומר שלא צריך לבדוק מה קורה שם. אבל הבדיקה צריכה להיות רצינית ולא להסתמך על פניקה שמפיצה כתבה בעיתון.
ראו גם רשימות נוספות שכתבתי על ההתפלגות הפואסונית ושימושיה:
נשלח: 27 בפברואר, 2019. נושאים: בריאות, מה אומרת הסטטיסטיקה, ספקנות.
תגובות: 8
| טראקבק
מלחמת המינים
באיים המטריארכליים שבאוקיינוס השקט יש העדפה ברורה לבנות, ולכן כל משפחה מביאה ילדים לעולם עד שנולדת להם בת (לאחר שנולדת בת המשפחה מפסיקה להביא ילדים לעולם).
מהו יחס המינים באיים?
מתוך 47 איש שענו על שאלה זו בטוויטר, 36 ידעו את התשובה הנכונה: למרות שלכאורה יש משפחות עם הרבה בנים ורק בת אחת, עדיין יהיה מספר שווה בערך של גברים ונשים.
![]() |
למה זה נכון?
כמקובל, יש צורך להניח מספר הנחות. ההנחות המקובלות הן:
- בכל לידה נולד רק ילד אחד
- כל ילד הוא בהכרח בן או בת
- הסיכוי ללידת בן שווה לסיכוי ללידת בת
- אין קשר בין המינים של הילדים השונים באותה המשפחה
ארבע ההנחות האלה יוצרות מודל: תיאור של המציאות, שייתכן שאינו מדוייק לגמרי, אבל הוא מספיק טוב כדי לתת תשובה אמינה לשאלה שלנו.
על ההנחות אפשר להתווכח. 3 ההנחות הראשונות יקלו עלינו את החישובים. 2 ההנחות הראשונות מתעלמות ממקרים של לידות תאומים, וממקרים נדירים בהם נולדים תינוקות שאינם זכר או נקבה ביולוגיים. ((ואני מערבב כאן בין המין הביולוגי ובין המגדר לצורך נוחות הדיון, אבקש את סליחתכם)) גם ההנחה השלישית אינה נכונה בטבע: ידוע כי נולדים יותר בנים מאשר בנות, והטבע "מאזן את עצמו" בכך ששיעור התמותה של תינוקות זכרים גבוה יותר. אפשר לבנות מודל יותר מורכב שייקח בחשבון הנחות יותר מורכבות, אבל זה רק יסבך את החישובים.
ההנחה הרביעית היא קריטית. אם היא לא נכונה, אז כל הניתוח שיוצג כאן אינו נכון. שוב, אפשר להחליף את ההנחה הזו בהנחה יותר מורכבת, אבל אין לנו שום סיבה לחשוד בכך שההנחה הזו לא נכונה.
עכשיו, כשיש לנו מודל, בואו ננסה לראות מה קורה. נסתכל על דור היפותטי באיים, שבו יש 1024 משפחות חדשות בתחילת דרכן. נניח גם כי בכל שנה יש לידה (במשפחות שאין בהן בת).
בשנה הראשונה, ל-512 משפחות תיוולד בת, ול-512 משפחות ייוולד בן ((באופן תיאורטי כמובן, הכל באופן תיאורטי)). בסוף השנה יש 512 בנות ו-512 בנים.
בשנה השניה, 512 המשפחות שלהן יש בן יביאו עוד ילד לעולם. ל-256 מהמשפחות האלה תיוולד בת, ול-256 משפחות ייוולד בן. כעת יש 768 בנים (512+256) וגם 768 בנות. יש 256 משפחות עם שני בנים ו-256 משפחות עם בן ובת.
בשנה השלישית, 256 המשפחות שלהן יש שני בנים יביאו עוד ילד לעולם. ל-128 מהמשפחות תיוולד בת, ול-128 מהמשפחות ייוולד בן. כעת יש 896 בנים (768+128) וגם 896 בנות. יש 512 משפחות עם בת אחת, 256 משפחות עם בן ובת, 128 משפחות עם שני בנים ובת, ו-128 משפחות עם שלושה בנים.
בשנה הרביעית, 128 המשפחות שלהן יש שלושה בנים יביאו עוד ילד לעולם. ל-64 מהמשפחות תיוולד בת, ול-64 מהמשפחות ייוולד בן. כעת יש 960 בנים (896+64) וגם 960 בנות. יש 512 משפחות עם בת אחת, 256 משפחות עם בן ובת, 128 משפחות עם שני בנים ובת, 64 משפחות עם שלושה בנים ובת, ו-64 משפחות עם ארבעה בנים.
וכן הלאה. אני אעצור את החישוב הזה כאן, כי ההמשך ברור.
ומכיוון שמשספר הבנים בסופו של דבר שווה למספר הבנות, במשפחה ממוצעת יש מספר שווה של בנים ובנות.
אפשר גם לחשב את גודלה של משפחה ממוצעת: יש לנו 512 משפחות עם ילד אחד (בת), 256 משפחות עם 2 ילדים, 128 משפחות עם שלושה ילדים, וכן הלאה. ולכן (בהנחה שאם יש 10 בנים מוותרים וזהו):
![]() |
אז במשפחה ממוצעת יש למעשה שני ילדים, ילד אחד הוא בהכרח בת (פרט למשפחה חסרת המזל שבה יש 10 בנים) ובכל משפחה יש רק בת אחת, ולכן הילד הנוסף במשפחה הממוצעת הוא בהכרח בן. במילים אחרות, במשפחה ממוצעת יש בת אחת ובן אחד, ולכן כמובן מספר הבנים שנולדו ל-1024 המשפחות ההיפותטיות שלו שווה למספר הבנות.
אפשר ורצוי לערוך גם חישוב הסתברותי: ההסתברות שבמשפחה יש ילד אחד היא חצי, ההסתברות שבמשפחה יש שני ילדים היא רבע, ההסתברות שבמשפחה יש שלושה ילדים היא שמינית, וכן הלאה. לכן אפשר לחשב התוחלת של מספר הילדים במשפחה ולמצוא כי היא שווה ל-2:
![]() |
את החישוב האחרון מבצעים בעזרת כמה תעלולים אלגבריים שכוללים בין השאר את הנוסחה לחישוב סכום של טור גיאומטרי/הנדסי שכנראה שמעתם עליה כשלמדתם מתמטיקה בבית הספר. זה לא מפתיע: סדרת ההסתברויות היא סדרה גיאומטרית: חצי, רבע, שמינית… כל הסתברות קטנה פי 2 מההסתברות הקודמת. לכן הסטטיסטיקאים מכנים את ההתפלגות שתוארה כאן בשם התפלגות גיאומטרית. מספר הילדים במשפחה הוא, בפי הסטטיסטיקאים, משתנה מקרי גיאומטרי. ושוב, מכיוון שעל פי תנאי השאלה תוחלת מספר הבנות במשפחה שווה ל-1, תוחלת מספר הבנים במשפחה חייבת גם היא להיות שווה ל-1, כלומר תוחלת מספר הבנים שווה לתוחלת מספר הבנות.
חישוב התוחלת הוא אולי מפחיד אבל התוצאה מאוד אינטואיטיבית. תחשבו על קוביה. אתם מטילים אותה ורוצים להוציא 5 ((נניח שהימרתם על 5, סתם)). כמה הטלות בממוצע צריך להטיל עד שתקבלו 5? ההסתברות להטלת חמש היא שישית, ולכן האינטואיציה אומרת שצריך בממוצע 6 הטלות. 6 זה אחד חלקי שישית. גם במקרה הלידות אותה האינטואיציה עובדת. ההסתברות ללידת בת היא חצי, ולכן מספר הלידות הממוצע על לידת בת הוא אחד חלקי חצי, כלומר 2.
להתפלגות הגיאומטרית יש שימוש בכל מקום שבו רוצים לדעת כמה ניסיונות צריך לנסות עד להצלחה, זאת בתנאי שאין תלות בין הניסיונות וההסתברות להצלחה קבועה. איש מכירות, למשל, מעוניין לדעת כמה ניסיונות מכירה הוא צריך בממוצע לבצע עד שתתקיים מכירה. חולה הממתין לתרומת איבר להשתלה מעוניין לדעת כמה תורמים "יצטרך לחכות" עד שיימצא תורם מתאים. במקרה הזה, בהנחה שהסיכוי להתאמה של 10%, ושאין קשר בין התורמים (הנחה סבירה), יצטרכו בממוצע למצוא 10 תורמים פוטנציאליים עד שתימצא התאמה. אם בכל חודש מאותר תורם פוטנציאלי אחד, אז זמן ההמתנה הממוצע עד להשתלה הוא 10 חודשים.
נשלח: 21 בינואר, 2019. נושאים: הממ... מעניין..., מה אומרת הסטטיסטיקה.
תגובות: 8
| טראקבק
חיסוני חצבת ואלימות נגד נשים
בשבוע שעבר תלו הורים באחד מגני הילדים (בגבעתיים נדמה לי) שלטים על שער הגן בו הזהירו כי בגן יש ילדה לא מחוסנת והתריעו על סכנת הדבקות . אפשר להתווכח על השלט, תוכנו, וגם על הסגנון. בדיון בפייסבוק נטען כי זו "פעולה אלימה מאוד". לעומת זאת נטען באותו דיון גם כי " זו התנהגות סבירה לחלוטין… בירושלים בה יש התפרצות חצבת כרגע, יש שלטים בכניסה לקופות החולים שמזהירים הורים שילדיהם חשודים בהידבקות בחצבת מפני כניסה למרפאה ומבקשים להישאר בחוץ ולקרוא לאיש צוות שייצא אליהם, ובצדק גמור". אני באופן אישי חושב שצריך להזהיר את הציבור ובפרט הורים לילדים בגן על המצאות ילדה שלא חוסנה ביודעין, בייחוד כשבארץ יש כעת , ונכון למועד כתיבת שורות אלה למעלה מ-2000 איש אובחנו כחולים, ורבים עוד יותר נחשפו למחלה בבתי ספר, קופות חולים ובתי חולים, בתחבורה הציבורית ובמקומות נוספים.
בכל מקרה, אני לא חושב שהצבת שלטי אזהרה מפני ילדה לא מחוסנת שקולה (או למעשים אחרים שנעשו ), אבל אבישי מתיה חושב שכן ומזהיר כי "זה ייגמר בדם":
![]() |
אבל בוא נעזוב את אבישי מתיה ונדון בסטטיסטיקה.
בואו נראה קודם מה יכול לקרות בגן. לכאורה אין בעיה. הילדה לא מחוסנת, ולכן הדבר הגרוע ביותר שיכול לקרות הוא שהיא תידבק בחצבת, וזו עיקר הבעיה שלה. היא עלולה להדביק אנשים אחרים שלא מחוסנים, ובגן כל הילדים האחרים מחוסנים, אז הם לא יידבקו.
זהו, שלא.
בואו נניח כי בגן הספציפי הזה יש 30 ילדים, ואף אחד מהם אינו במצב בריאותי שלא איפשר לו לקבל חיסון. כולם קיבלו חיסון. האם כולם מחוסנים? לא בהכרח. היעילות של החיסון, לאחר קבלת מנה אחת של חיסון, היא בערך 95%. אחרי קבלת המנה השנייה היעילות עולה ל-99%, אבל המנה השנייה ניתנת רק בכיתה א, והילדים האלה עדיין בגן. הסיכוי שילד אחד שקיבל חיסון אכן מחוסן הוא לכן 0.95. הסיכוי ששני ילדים אחד שקיבל חיסון הינם אכן מחוסנים הוא 0.95 כפול 0.95. הסיכוי כי כל 30 הילדים בגן שקיבלו חיסון אכן מחוסנים הוא 0.95 מוכפל בעצמו 30 פעמים, וזה יוצא 0.215. מכאן שהסיכוי כי בגן הזה יש לפחות ילד אחד שאינו מחוסן למרות שקיבל חיסון הוא כמעט 80%. הסיכוי שבקרב כל האנשים שנמצאים בסביבתה של הילדה הלא מחוסנת יש לפחות אדם אחד לא מחוסן הוא הרבה יותר גבוה. אם הילדה הזאת תחלה, כמעט בטוח שהיא תדביק אדם נוסף אחד לפחות. ככה המגיפות מתפשטות.
חצבת היא אחת המחלות המדבקות ביותר שיש, ויש אומרים כי זו המחלה המידבקת ביותר. באוכלוסייה שאיננה מחוסנת, אדם חולה ידביק בממוצע 18 אנשים נוספים. הסיכוי כי אדם לא מחוסן שנחשף לחצבת יחלה במחלה עולה על 90%. חשיפה למחלה כוללת המצאות במקום שבו היה אדם חולה חצבת אפילו שעתיים לאחר שהחולה עזב את המקום. לדעתי האישית, זה השיקול היחיד שצריך לקבוע. כמו שאף אדם מוסרי לא ידחוף דחיפה קטנה מישהו שעומד על הרציף ויש סיכון, קטן אך חיובי, שהנדחף ייפול אל מתחת לגלגלי הרכבת, אני חושב שאף אדם מוסרי לא צריך לאפשר אפילו סיכון קטן של הדבקת אדם אחר בחצבת. המעשה המוסרי הוא לצמצם את הסיכון. לכן, לא לחסן ילדים מתוך אידאולוגיה זה מעשה לא מוסרי, כי זה מסכן גם את הילד שלא מחסנים וגם אחרים, וחיסון מקטין מאוד את הסיכון הזה. להזהיר אנשים מפני סיכון של הדבקות בחצבת, גם אם הסיכון קטן, זה לדעתי המעשה הנכון והמוסרי. ((הערה: בפיסקה זו יש בעיקר דיון מוסרי, והדברים שכתבתי בפיסקה זו היו בדיון המקורי תשובה לשאלה סטטיסטית על סיכויי ההדבקות המחלה. ניתן לטעון נגד ההיסחפות שלי לדיון מוסרי, אולם אני חושב שאי אפשר לדון בשאלה הסטטיסטית בלי להידרש למשמעות המוסרית שלה.))
בשלב זה נטען כי ההסתברות שציינתי (מעל 90%) היא הסתברות מותנה, וזה נכון. זו אכן ההסתברות המותנה להדבקות בהינתן חשיפה לאדם חולה. ניתן כנגדי כי ההסתברות הרלוונטית היא "הסיכוי במצב נתון, בחיים נורמליים ורגילים בחברה הישראלית, להידבק". אני לא אחזור כאן על כל הטיעונים שנטענו ((תוכלו לקרוא זאת בדיון בפייסבוק)) ,אבל השורה התחתונה של הטיעון היא כי הסיכון להדבקות בחצבת הוא הוא "נמוך. מאד. קטנטנן."
אולם אני חושב בכל זאת שההסתברות הרלוונטית היא ההסתברות המותנה. כאן עשיתי אנלוגיה לרצח נשים. אני רוצה להבהיר כי אין בכוונתי לרמוז כי הנושא הזה אינו מטריד את האדם שהתדיין מולי, ובוודאי שאיני שם מילים בפיו. אני כן טוען כי ההסתברות הלא מותנה אינה רלוונטית כאשר דנים בסיכונים מהסוג שלי.
הטיעון שלי הוא כזה: השנה נרצחו יותר מ-20 נשים. הבה נעגל את המספר ל-30. בישראל יש קרוב ל-9 מיליון תושבים, כמחציתם, כלומר כ-4.5 מיליון הן נשים. הבה נעגל את המספר הזה ל-4 מיליון. כעת נבצע פעולת חילוק, ונקבל כי הסיכוי של אישה להירצח, עם עוד עיגול נדיב כלפי מעלה, הוא כ-1 ל-130 אלף. סיכוי הרבה יותר קטן מהסיכוי להידבק בחצבת ((שהוא כ-1 ל-4500, על פי הנתון הנוכחי של כ-2000 חולים באוכלוסייה של כ-9 מיליון איש)). אז לא צריך לעשות כלום בנושא???
אחת המשתתפות בדיון לקחה את הטיעון הזה עוד יותר רחוק ואמרה כי "הסתברות להיפגע בפיגוע טרור היא נמוכה מאוד מאוד…השנה נרצחו בפיגועי טרור 15 איש… אז אולי בכלל אין צורך לנקוט בפעולות כאלה חריפות למלחמה בטרור, ממילא מההסתברות לפגיעה היא נורא נמוכה".
אני חושב שהנקודה ברורה. בסיכונים צריך לדון בהקשר של גורמי סיכון, וההסתברות הרלוונטית היא לכן ההסתברות המותנה בגורמי הסיכון. כדי לנהל את הסיכונים צריך לטפל בגורמי הסיכון. במקרה של מגיפת החצבת, גורם הסיכון היחיד שניתן לטפל בו כרגע אופן ההתפשטות המהיר של המחלה. הדרך היחידה האפשרית להאט את קצב התפשטות המחלה היא לחסן את האוכלוסייה.
ויש עוד נקודה שצריך לשים לב אליה. אף אחד לא מטיף לרצח נשים, אבל יש עשרות אלפי אנשים שמקדמים אג'נדה אנטי חיסונית, והתנועה הזו צוברת תאוצה ועלולה להגיע למסה קריטית מסוכנת (והסיכוי שזה יקרה הוא לדעתי מאוד לא זניח). לצערי, לא קיימות כרגע סנקציות שאפשר לנקוט נגד אנשים שאינם מחסנים את ילדיהם ואנשים המעודדים אנשים אחרים לא לחסן. מה שניתן לעשות זה להזהיר מפני הסכנות, גם אם זה פוגע ברגשותיו של אבישי מתיה.
נשלח: 21 בדצמבר, 2018. נושאים: בריאות, מה אומרת הסטטיסטיקה, ניהול סיכונים, על סדר היום.
תגובות: 2
| טראקבק






