ארכיב עבור 'מה אומרת הסטטיסטיקה'
The Simpson
במשחק השביעי והמכריע בסדרת גמר אליפות הכדורסל הארצית, התמודדה קבוצת ספרינגפילד בולס מול יריבתה המושבעת, קבוצת יוטה סופרגז. כצפוי, המשחק הוכרע על פי היכולות האישיות של כוכבי שתי הקבוצות: בארט מספרינגפילד ויוחנן מיוטה. במחצית הראשונה היו לבארט 40% אחוזי קליעה מהשדה, בעוד שיוחנן צלף ב- 50% מנסיונות הקליעה שלו. במחצית השניה צפינו בהתעלות אישית של שני הכוכבים. בארט הדהים והכפיל את אחוז הקליעה שלו ל-80%, אך יוחנן שוב התעלה עליו, והשיג הישג בלתי יאמן של 90% קליעה. את סל הנצחון לזכות ספרינגפילד קלע בארט עם שריקת הסיום. הוא גם נבחר לשחקן המצטיין של המשחק המותח והשקול, לאחר שסיים אותו עם 67% קליעה, בעוד שאחוזי הקליעה של יוחנן במשחק היו בסופו של דבר נמוכים יותר: 63% בלבד.
לא, אין כאן טעות חישוב וגם לא טעות בסטטיסטיקה. למרות שיוחנן היה טוב יותר מבארט בכל אחת ממחציות המשחק, הרי בסיכום הכולל של המשחק בארט היה טוב יותר מיוחנן. זו תופעה סטטיסטית הידועה בשם "פרדוקס סימפסון".
הקוראים מוזמנים לעצור כאן, ולנסות למצוא מספרים ש-"יסתדרו" עם הדוגמא המלאכותית בה פתחתי. (המספרים שלי יובאו בהמשך הרשימה).
אולי הדוגמא המפורסמת ביותר לפרדוקס סימפסון היא פרשת ההפליה על רקע מגדרי בקבלה ללימודים מתקדמים באוניברסיטת ברקלי. בשנת 1973, נדהמו ראשי האוניברסיטה לגלות כי 44% מהגברים שנרשמו ללימודים מתקדמים (תואר שני ושלישי) באוניברסיטה התקבלו ללימודים, אך רק 35% מהנשים התקבלו. ראשי האוניברסיטה, שחששו מתביעה, הזעיקו לעזרה את הסטטיסטיקאי פיטר ביקל, וביקשו ממנו לבחון את נתוני הקבלה. ביקל ועמיתיו האמל ואו'קונל, פרסמו את ממצאיהם כעבור שנתיים בכתב העת היוקרתי Science. אביא כאן ניתוח של נתונים חלקיים אך מייצגים של נתוני הקבלה, כפי שהופיעו בספר הקלאסי של פרידמן ועמיתיו – Statistics.

לצורך הדגמת העקרון, נתרכז בששת החוגים הגדולים ביותר באוניברסיטה, אליהם נרשמו קצת יותר משליש מהמועמדים והמועמדות (באוניברסיטת ברקלי יש למעלה ממאה חוגים שהציעו תכניות ללימודים מתקדמים). נתוני ההרשמה והקבלה לחוגים אלה נתונים בטבלה הבאה:
|
גברים |
נשים |
סך הכל |
||||
|
חוג |
נרשמו |
אחוז קבלה |
נרשמו |
אחוז קבלה |
נרשמו |
אחוז קבלה |
|
A |
825 |
62 |
108 |
82 |
933 |
64 |
|
B |
560 |
63 |
25 |
68 |
585 |
63 |
|
C |
325 |
37 |
593 |
34 |
918 |
35 |
|
D |
417 |
33 |
375 |
35 |
792 |
34 |
|
E |
191 |
28 |
393 |
24 |
584 |
25 |
|
F |
373 |
6 |
341 |
7 |
714 |
6 |
|
סך הכל |
2691 |
45 |
1835 |
30 |
4526 |
39 |
התמונה הכללית המוצגת כאן דומה לתמונה שהתגלתה בנתונים המלאים: 45% מהגברים התקבלו ללימודים, רק 30% מהנשים. אבל שימו לב: ברוב החוגים אחוזי הקבלה של גברים ונשים דומים זה לזה, עם הבדלים של אחוזים בודדים לכאן או לכאן. רק בחוג A נראה שיש (אולי) אפליה על רקע מגדרי: לחוג זה התקבלו 82% מהנשים, אבל רק 62% מהגברים. הנשים משחקות כאן את תפקידו של יוחנן, הגברים את בארט. איך זה קרה?
שימו לב כי לחוגים A ו-B קל להתקבל – כשני שליש מהנרשמים מתקבלים. יותר ממחצית הנרשמים הגברים ביקשו להתקבל לחוגים אלה. לחוגים C עד F הרבה יותר קשה להתקבל. יותר מ-90% מהנרשמות ביקשו להתקבל לחוגים אלה. אופס.
תופעות כאלה אינן נדירות כלל וכלל, ויש שפע של דוגמאות נוספות (ראו למשל בערך של ויקיפדיה על הנושא). הוול סטריט ג'ורנל, למשל, העלה את השאלה הבאה: האם נתוני האבטלה במשבר הכלכלי הנוכחי גרועים יותר מאלה של המשבר של תחילת שנות ה-80 של המאה הקודמת? נראה שלא, או לפחות עדיין לא: בנובמבר 1982 עמד אחוז המובטלים בארה"ב על 10.8%, בעוד שבאוקטובר 2009 היה אחוז המובטלים 10.2%. אבל, בקרב העובדים בעלי תואר אקדמי אחוז האבטלה ב-2009 גבוה מזה של 1982, וכך הדבר גם בקרב בעלי השכלה אקדמית חלקית, בוגרי תיכון, ובעלי השכלה תיכונית חלקית. מה שקורה הוא שכיום יש יותר בעלי השכלה אקדמית, שבקרבם אחוז האבטלה נמוך יחסית לקבוצות האחרות, והרבה פחות בעלי השכלה תיכונית חלקית, שבקרבם תמיד אחוז האבטלה גבוה יותר. אחוז האבטלה הכולל הוא ממוצע משוקלל על פי גודל תת האוכלוסיה, וכאשר משקלם של האקדמאים גבוה יותר, הם מושכים את הממוצע המשוקלל כלפי מטה.
באותו אופן, כאשר יותר נשים נרשמות לחוגים עם אחוזי קבלה נמוכים, הן מושכות את הממוצע המשוקלל של נתוני הקבלה לנשים כלפי מטה, בעוד שהגברים שנרשמו ברובם לחוגים עם תנאי קבלה קלים מושכים את הממוצע המשוקלל של נתוני קבלת הגברים כלפי מעלה.
ואם נחזור לבארט ויוחנן, הנה נתוני הקליעות שלהם:
|
בארט |
יוחנן |
||
|
מחצית ראשונה |
נסיונות |
10 |
20 |
|
קליעות |
4 |
10 |
|
|
אחוז קליעה |
40% |
50% |
|
|
מחצית שניה |
נסיונות |
20 |
10 |
|
קליעות |
16 |
9 |
|
|
אחוז קליעה |
80% |
90% |
|
|
כל המשחק |
נסיונות |
30 |
30 |
|
קליעות |
20 |
19 |
|
|
אחוז קליעה |
67% |
63% |
כל שחקן זרק את הכדור לסל 30 פעם במהלך המשחק, ובסך הכל יוחנן החטיא פעם אחת יותר מבארט. אבל בארט לקח את רוב הזריקות שלו במחצית השניה בה שני השחקנים התעלו, בעוד יוחנן הרבה לזרוק לסל במחצת הראשונה, בה גם הוצגה יכולת טובה, אבל פחות טובה מהיכולת המופלאה של המחצית השניה.
מה שראינו בשתי הדוגמאות היא נוכחות של משתנה מתווך (confounding variable). בדוגמת הכדורסל המשתנה המתווך הוא מחצית המשחק. אני מניח שיתפתח ויכוח האם תואר השחקן המצטיין אכן מגיע לבארט, או שמא יוחנן היה טוב יותר. מי היה נבחר אילו יוטה ניצחה במשחק? האם החלוקה למחציות משנה משהו? מה היה קורה לו היינו מסתכלים על נתוני המשחק לפי רבעים? האם יש טעם להסתכל על נתונים חלקיים של המשחק ולא על המשחק כשלם?
משתנה מתווך הוא משתנה המסביר את מבנה הקשר בין שני משתנים אחרים. דנתי בנושא כבר ברשימה הראשונה שפורסמה אי פעם בבלוג הזה (האם החסידה מביאה ילדים לעולם?). הדוגמא הקלאסית היא הקשר בין מספר הנעליים לידע במתמטיקה: בכל בית ספר תמצאו כי לתלמידים שמספר הנעליים שלהם גדול יותר יש ידע רב יותר במתמטיקה (גילוי נאות: מספר הנעליים שלי הוא 46). מהו המשתנה המתווך בדוגמא זו?
בדוגמת נתוני האבטלה המשתנה המתווך הוא ההשכלה, ובדוגמא של אוניברסיטת ברקלי הדברים לדעתי קצת יותר ברורים. אין טעם, לדעתי, להסתכל על הנתונים הכוללים של האוניברסיטה, ויש לבחון מה המצב בכל חוג בנפרד. החוג (ומדיניות הקבלה שלו) הוא משתנה מתווך בין המגדר ובין אחוז הקבלה הכולל.
בזמנו פרסמתי כאן בבלוג רשימה שעסקה בנושא הממוצע המשוקלל תחת הכותרת "ממוצע משוקלל – איך ולמה" שזכתה לתגובות רבות ועוררה פולמוס עז בתגובות. הטענה שטענתי שם, ואני עדיין עומד מאחוריה, היא כי יש טעם בחישוב ממוצע משוקלל רק אם המשקלות מתאימים, ובמקרה של מיצוע יחסים, המשקל המתאים הוא המשתנה שבמכנה. כך, טענתי, יש למצע מהירויות תוך כדי שקלול בזמני התנועה, יחסי חוב-תוצר יש לשקלל בתוצר, וכן הלאה. שימו לב כי כל המדדים הכוללים שהובאו כאן הם ממוצעים משוקללים נכונים. בדוגמת הכדורסל אחוז הקליעות הכולל של כל שחקן הוא ממוצע משוקלל של אחוזי הקליעות בכל מחצית כשהמשקלות הם מספר הזריקות לסל בכל מחצית. בדוגמא של אוניברסיטת ברקלי, אחוז הקבלה הכולל של הנשים (גברים) הוא ממוצע משוקלל של אחוזי הקבלה של הנשים (גברים) בכל חוג, כשהמשקלות הם מספר הנשים (גברים) שניסו להתקבל לכל חוג. בדקו זאת!
את הרשימה על הממוצע המשוקלל כתבתי כהמשך לרשימה קודמת בנושא "ממוצע פוליטי" שם יצאתי נגד חישוב ממוצע כלשהו באחד ממסמכי משרד האוצר, וטענתי (או יותר נכון, תמכתי בסבר פלוצקר שטען) כי על האוצר היה להשתמש בממוצע משוקלל ולא בממוצע פשוט. אז הנה אשאל את השאלה לפני שתעלה בתגובות. אם הממוצע המשוקלל בברקלי הוא ממוצע משוקלל על פי המשקלות הנכונים, כפי שאני טוען, הרי שברקלי אכן הפלתה נשים לרעה בקבלה לאוניברסיטה. ורק לפני כמה פסקאות נכתב כאן כי אין לדון בממוצע המשוקלל אלא הנתונים הפרטניים???
גם כאן יש לי תשובה, אך היא אינה מתמטית. התשובה שלי היא שיש תמיד לזהות את המשתנה המתווך (אם ישנו כזה) ולהעריך את חשיבותו לטיב הקשר בין המשתנים (ראו את תגובתו המצויינת של דודי קינג לרשימה "ממוצע פוליטי") . סטטיסטיקאי טוב (כמו פיטר ביקל, למשל) יעשה את זה, ולא יסתפק רק בהצבת נתונים בנוסחאות. אין כל ספק שאחוז הקבלה הכולל של נשים באוניברסיטת ברקלי נמוך מזה של הגברים. כל מי שיודע לחשב ממוצע יכול לומר את זה. השאלה החשובה היא האם האחוז הנמוך נובע מאפליה מכוונת או מסיבות אחרות, ולשם כך צריך גם קצת חשיבה סטטיסטית, לא רק חישובים סטטיסטיים.
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 23 בפברואר, 2010. נושאים: מה אומרת הסטטיסטיקה.
תגובות: 6
| טראקבק
מה ה-P-value הוא לא?
ברשימה קודמת הסברתי מהו ה-p-value, אותו ערך מיסטי שאיש כמדומה אינו יכול לחיות חיים שלמים בלעדיו. אחזור ואומר, לטובת מי שלא זוכר, כי בניסוי מבוקר המלווה בבדיקת השערות סטטיסטיות, הp-value הוא ההסתברות כי בניסוי חוזר תתקבל עדות לדחיית השערת האפס שהינה משכנעת לפחות כמו העדות שהתקבלה בניסוי הנוכחי, וכל זאת תחת ההנחה כי השערת האפס נכונה.
לאחר שנערך הניסוי והתקבל ה-p-value, מה עושים איתו? בקורסים של מבוא לסטטיסטיקה למיניהם נהוג ללמד כי אם ה-p-value קטן מ-5% אז דוחים את השערת האפס לטובת ההשערה האלטרנטיבית, ואם הוא גדול מ-5% אז לא דוחים את השערת האפס (ההסתברות כי יהיה שווה בדיוק ל-5% היא, תיאורטית, 0). אפשר להראות כי הכלל הזה שקול לכלל ההחלטה המתקבל מהלמה של ניימן ופירסון (בין שתי טעויות), אם רמת המובהקות שנקבעה מראש לבדיקת ההשערות היא 5% (למה 5%? על כך בשיעור ההיסטוריה הקרוב). עם זאת, אני וחברי למקצוע נתקלים פעמים רבות בפרשנויות שגויות למושג ה-p-value ולערכיו. רשימה זו תסקור חלק מהפרשנויות האלה ותנסה להסביר מדוע הן שגויות. הרשימה מתבססת בחלקה על הערך של p-value בויקיפדיה (באנגלית), ועל מאמרם של שטרן וסמית: "Sifting the evidence—what's wrong with significance tests?".
ה-p-value אינו ההסתברות כי השערת האפס נכונה. אני שומע את הפרשנות הזו לעתים קרובות: "יצא p-value של 2%, ולכן יש רק 2% סיכוי שאין הבדל בין הקבוצות". אבל זה פשוט לא נכון. ה-p-value הוא פונקציה של תוצאות הניסוי שערכנו. בין הקבוצות יש הבדל או שאין הבדל, וקיומו או אי קיומו של ההבדל הזה, או במלים יותר פורמליות, נכונותה או אי נכונותה של השערת האפס, אינו תלוי בתוצאות הניסוי שערכנו. אם השערת האפס נכונה, אז ההסתברות שהיא נכונה היא 1, ואם לא, אז ההסתברות היא 0. ה-p-value רק מבטא את חוזקן של העדויות שאספנו נגד נכונותה של השערת האפס. באותו אופן, 1 פחות ה-p-value אינה ההסתברות כי ההשערה האלטרנטיבית נכונה. (לפני שתגיבו: הסטטיסטיקה הבייסיאנית מאפשרת השמת הסתברויות להשערות, אולם יש לכך מחיר כבד).
ה-p-value אינו ההסתברות כי תוצאות הניסוי התקבלו "במקרה". כבר התייחסתי לכך ברשימה הקודמת שהבהירה את הפרשנות הלא נכונה שנתן הוול-סטריט ג'ורנל ל-p-value של הניסוי לחיסון לוירוס HIV. הראיתי כי ניתן לחשב את ההסתברות לקבלת תוצאת הניסוי בהנחה שהשערת האפס נכונה, והסתברות זו שונה תמיד מה-p-value על פי עצם הגדרתו.
באופן דומה, ה-p-value אינה ההסתברות כי בחזרה על הניסוי תתקבל אותה תוצאה כמותית (לדוגמא, בניסוי הפרות שתיארתי ברשימה הקודמת, ה-p-value שחושב שם אינו ההסתברות כי בניסוי חוזר יהיו שוב 15 המלטות נקבה).
ערכים נמוכים של ה-p-value אינם "מוכיחים" כי השערת האפס נכונה. זכרו כי ה-p-value מחושב תחת ההנחה כי השערת האפס נכונה, אז איך בדיוק הוא יכול "להוכיח" את ההנחה שעליה הוא מתבסס?
ה-p-value אינו ההסתברות לדחיה מוטעית של השערת האפס. ההסתברות לדחיה מוטעית של השערת האפס אמורה להקבע מראש לפני עריכת הניסוי, וממנה נגזר כלל ההחלטה לדחיית השערת האפס על פי הלמה של ניימן ופירסון.
באופן דומה, ה-p-value אינו ההסתברות כי בחזרה על הניסוי תתקבל אותה תוצאה איכותית (השערת האפס תידחה שוב, או תתקבל שוב). ההסתברות לדחיה (או קבלה) חוזרת של השערת האפס בניסוי חוזר נגזרת מרמת המובהקות והעוצמה של המבחן הסטטיסטי, מהמצב האמיתי (כלומר מנכונותה של השערת האפס או ההשערה האלטרנטיבית), וכן מפרמטרים נוספים.
p-value הקרוב בערכו לרמת המובהקות (בדרך כלל 5%) אינו מעמיד בספק את ההחלטה המתקבלת. אם מקבלים p-value של 0.048 למשל, פירוש הדבר כי תוצאות הניסוי סיפקו עדות מספקת כדי לדחות את השערת האפס (אם רמת המובהקות הנדרשת היא אכן 5%), ולכן דינה להידחות, ובאותו אופן p-value של 0.052 פירושו כי תוצאות הניסוי אינן מהוות עדות מספקת לדחיית השערת האפס. טענה כמו "הערך של ה-p-value מובהק, אבל גבולי…" הינה בעייתית, כיוון שהיא למעשה נסיון לשנות את כלל ההחלטה בדיעבד, לאחר שהניסוי בוצע ותוצאותיו התקבלו. בדרך כלל טענות כאלה נשמעות כאשר התוצאות אינן מתיישבות עם האמונות של האדם שמנסה לפרש את תוצאת הניסוי ("התוצאות מראות שהטיפול שנתנו עוזר בדיוק כמו שתיית מים, אבל אני יודע שזה עוזר לרפא את המחלה הזו…").
באופן דומה, p-value שערכו נמוך במיוחד (או גבוה במיוחד) אינו מחזק יותר את ההחלטה המתקבלת, ובמלים אחרות – p-value נמוך יותר אינו "דוחה יותר" את השערת האפס. אמנם ערך נמוך יותר של p-value אומר כי ישנן עדויות רבות יותר לדחיית השערת האפס, ובכל זאת, זה לא משנה אם דוחים את השערת האפס עם p-value של 0.048 או 0.001. השורה התחתונה היא אותה שורה: או שדוחים או שלא. כדי לחדד את הנקודה, אביא כאן את הדוגמא ששמעתי פעם ממורי ורבי, פרופ' צבי גילולה. ברשימה הקודמת הבאתי אנלוגיה מעולם המשפט. תיארתי מצב בו אדם מואשם בשוד תחנת דלק, ומספר שופטים היפותטיים שלכל אחד מהם כלל החלטה אחר לפיו יקבע אם הנאשם אשם.שופט אחד יכול להחליט כי ירשיע את הנאשם אם יופיעו בפניו שני עדי ראיה שיעידו כי הנאשם הוא אכן השודד. שופט מחמיר יותר ידרוש שלושה עדים, וגם הוכחה כי הכסף נמצא בידי הנאשם, ושופט אחר אולי יסתפק בוידאו של מצלמת האבטחה. עכשיו תארו לכם שני שודדי תחנות דלק. אחד מהם שדד את תחנת הדלק בתל-מונד, ושני עדי ראיה הופיעו בבית המשפט והעידו כי אכן ביצע את השוד. השודד השני בחר לשדוד דווקא את תחנת הדלק שליד אצטדיון טדי בירושלים, במוצאי שבת, כאשר זה עתה מכבי חיפה ניצחה את בית"ר ירושלים שלוש אפס, ועשרים אלף איש יצאו מהאצטדיון, ראו את השוד, וכולם מוכנים לבוא לבית המשפט ולהעיד נגדו, כי השודד אוהד הפועל. האם השודד השני אשם יותר מהשודד הראשון?
ואחרון חביב: ערכו של ה-p-value אינו מעיד על גודל האפקט או חשיבותו. אפקט (הבדל בין הקבוצות) נמוך יכול להיות מובהק, ואפקט גבוה יכול להיות לא מובהק. אפקט מובהק יכול להיות בלתי משמעותי בהקשר בו נערך הניסוי (וחלק מקוראיי תהו ברשימה על הניסוי לחיסון נגד HIV האם האפקט המובהק שגילה הניסוי הוא גם משמעותי מבחינה קלינית). אפקט לא מובהק יכול להיות משמעותי – זה קורה הרבה בניסויים קליניים בשלב II. כל האפשרויות קיימות.
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 24 בנובמבר, 2009. נושאים: ביוסטטיסטיקה, מה אומרת הסטטיסטיקה.
תגובות: 2
| טראקבק
מהו p-value?
מדענים אובססיביים כלפיו. עורכי כתבי עת לא יפרסמו מאמרים אם הוא לא יופיע בהם. החלטות של מאות מיליוני דולרים מתקבלות על פיו. ובכל זאת, רק מתי מעט מבינים אותו. זהו ה-"p-value". אותו מספר קסם חורץ גורלות המתלווה כמעט לכל ניתוח סטטיסטי.
הזכרתי אותו ברשימה שכתבתי על הניסוי הקליני לחיסון נגד נגיף ה-HIV. ה-p-value, איך לא, היה הנתון העיקרי שפורסם בהודעה הראשונה על תוצאות אותו ניסוי. הוא הגיע עד לוול-סטריט גו'רנל. הוול סטריט ג'ורנל ציין, בכתבה על אותו הניסוי. כי ה-p-value הוא "ההסתברות כי התוצאה התקבלה במקרה" ("Probability that the result is due to chance ") . זה לא נכון. בהמשך אסביר כיצד לחשב את ההסתברות הזו, אבל לפני כן אנסה להסביר מהו באמת אותו p-value, ומהי משמעותו.
אתחיל בקצת רקע, לטובת מי שלא קרא את הרשימה "בין שתי טעויות" (או מי שלא זוכר מה כתוב שם). בבסיסה של כל בעיית החלטה סטטיסטית עומדות שתי השערות (hypotheses). ההשערה הבסיסית, המכונה גם "השערת האפס" מבטאת את האמונה (המדעית) המקובלת. בימי גלילאו, השערת אפס טיפוסית יכולה להיות "השמש מסתובבת סביב הארץ". בניסוי הקליני לחיסון נגד נגיף ה-HIV השערת האפס היא "החיסון הנסיוני לא מפחית את הסיכוי להדבק בנגיף". ואם נעבור לאנלוגיה של עולם המשפט, הרי שבמדינות מתוקנות מניחים כי אדם המואשם בפשע ועומד לדין הינו זכאי עד שתוכח אשמתו, כלומר השערת האפס של השופט אומרת כי "הנאשם זכאי".
מול השערת האפס ניצבת תמיד ההשערה האלטרנטיבית. בהקשר המדעי, השערה זו מבטאת תיאוריה חדשה שמועמדת לדחוק את התיאוריה הישנה. גלילאו הציע את ההשערה האלטרנטיבית "הארץ מסתובבת סביב השמש". עורכי הניסוי הקליני הנ"ל הציגו את ההשערה האלטרנטיבית כי "החיסון הנסיוני מפחית את הסיכוי להדבק בנגיף", והתובע מציג בפני השופט את ההשערה האלטרנטיבית כי "הנאשם אשם".
אלא אם אתה הומיאופת, עליך להציג טיעונים משכנעים בעד ההשערה האלטרנטיבית שלך. (גם הומיאופתים צריכים לעשות זאת, למעשה, אבל אף אחד כבר לא מצפה מהם). כדי להביא להרשעת הנאשם, התובע צריך להציג בפני השופט עדויות שישכנעו אותו, מעבר לספק סביר, כי הנאשם אכן ביצע את הפשע המיוחס לו. מה זה "מעבר לספק סביר"? כל אחד קובע את הרף שלו לעצמו, ואגיד על כך כמה מלים בהמשך. אם אדם מואשם בשוד תחנת דלק, למשל, יכול השופט להחליט כי ירשיע את הנאשם אם יופיעו בפניו שני עדי ראיה שיעידו כי הנאשם הוא אכן השודד. שופט מחמיר יותר אולי ידרוש שלושה עדים, וגם הוכחה כי הכסף נמצא בידי הנאשם, ושופט אחר אולי יסתפק בוידאו של מצלמת האבטחה. זה לא ממש משנה. העיקר הוא שיש השערות, עדויות, וכלל החלטה קבוע מראש.
כדי להביא את הדיון לפסים מדויקים יותר, אשתמש בדוגמא מלאכותית. כוכב הדוגמא שלנו הוא חקלאי שמגדל למחייתו עדר פרות חולבות. הפרות נכנסות מדי פעם להריון (אחסוך מכם את הפרטים). חלקן ממליטות עגלים וחלקן עגלות. החקלאי שלנו מעדיף כמובן כי פרותיו ימליטו עגלות נקבות, שיצטרפו בבוא הימים למערך ייצור החלב, והן לכן רווחיות יותר מעגלים זכרים. אולם מי ששולטת בהתפלגות המינים בהמלטות היא אמא טבע, הדואגת לכך שההסתברות להמלטת נקבה בכל הריון היא 0.5.
והנה, כיום בהיר אחד מגיע לחווה סוכן נוסע, המציע לחקלאי שלנו לרכוש שיקוי פלא, שיעלה את ההסתברות להמלטת נקבה מ-0.5 ל-0.9 אצל כל פרה שתלגום ממנו. כדי לשכנע את הרפתן הספקן, מציע הסוכן הצעה שאין לסרב לה: "קח נא בקבוק אחד, והשקה בו 20 פרות. לאחר מכן המתן וראה כמה המלטות נקבה יהיו בקרב 20 פרות אלה. אם לא תהיה מרוצה. כספך יוחזר לך". הדוד משה מסכים לבצע את הניסוי. יש לו השערת אפס: "ההסתברות להמלטת נקבה היא 0.5" והשערה אלטרנטיבית: "ההסתברות להמלטת נקבה היא 0.9". כיוון שהוא זוכר היטב את שיעורי המבוא לסטטיסטיקה שלמד בפקולטה לחקלאות (היי, אמרתי שזאת דוגמא מלאכותית!), הוא יודע לבנות כלל החלטה על פי הלמה של ניימן ופירסון, ומחליט לדחות את השערת האפס לטובת ההשערה האלטרנטיבית אם ב-20 ההמלטות יהיו 15 המלטות נקבה או יותר.
במלים אחרות, החקלאי החליט כי העדות הדרושה לדחיית השערת האפס לטובת האלטרנטיבה היא המלטת של 15 (או יותר) נקבות. אם יהיו 15 המלטות נקבה הוא ישתכנע ביעילותו של שיקוי הפלא. אם יהיו 16, או 17 או אף יותר, הוא בודאי ישתכנע.
החקלאי יכול לנסח את כלל ההחלטה שלו בצורה אחרת, אך שקולה. בהנתן עדות כלשהי (עדות כאן היא מספר המלטות הנקבה) הוא ישאל את עצמו: בהנחה שהשיקוי הוא תרמית, מה ההסתברות כי הייתה מתקבלת עדות זו שוב, או אף עדות משכנעת יותר? למשל, אם אכן צפה בהמלטת 15 נקבות מתוך 20, זו אולי עדות משכנעת, אך תוצאה של 16, 17, או יותר, היא עדות משכנעת יותר. אם השיקוי הוא תרמית, וההסתברות להמלטת נקבה נותרה 0.5, אז אפשר לחשב כי ההסתברות להמלטת 15 נקבות או יותר היא 0.0207. זוהי הסתברות קטנה למדי. אם ההסתברות לקבל תוצאה יותר משכנעת ממה שקיבלנו היא קטנה, הרי שהתוצאה שלנו היא משכנעת דיה.
ההסתברות לקבלת עדות דומה או חזקה יותר מהעדות שנצפתה, בהנחה שהשערת האפס נכונה, היא ה-p-value המפורסם.
ה-p-value, לעומת זאת, אינו ההסתברות כי התוצאה התקבלה במקרה, כאשר אני מניח כי הכוונה המבוטאת במילה "במקרה" היא "בהנחה שהשערת האפס נכונה". קל לראות מדוע זה כך. בדוגמא המלאכותית שלנו, ה-p-value הוא ההסתברות כי היו 15 או יותר המלטות נקבה מתוך 20. ההסתברות שהתוצאה של 15 המלטות נקבה תתקבל, אם ההסתברות להמלטת נקבה היא 0.5, היא לעומת זאת 0.0148.
ומה ההסתברות כי התוצאה שהתקבלה בניסוי הקליני לחיסון נגד איידס "is due to chance"?. כזכור השתתפו בניסוי הנ"ל 16395 מתנדבים, מתוכם ל-125 זוהו כנשאי נגיף HIV: 51 מבין 8197 נבדקים שקיבלו את החיסון הנסיוני, ו-74 מבין 8198 המתנדבים שקיבלו חיסון דמה. תארו לכם כד ובתוכו 16395 כדורים, מתוכם 8197 כדורים ירוקים, והשאר אדומים. אם תשלפו מהכד 125 כדורים, מה ההסתברות כי בדיוק 51 מתוכם יהיו ירוקים? זוהי בדיוק ההסתברות כי תוצאות הניסוי הנ"ל התקבלה במקרה, כלומר: אין לחיסון שנבדק אפקט חיסוני אמיתי. החישוב דומה לחישוב הסתברויות הזכיה בלוטו. זהו מודל הסתברותי היפר-גאומטרי. החשבון פשוט, ובזכות המחשבון הזה גם החישוב לא מסובך. ההסתברות היא 0.0085, שונה מה-p-value שפורסם, 0.039.
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 12 בנובמבר, 2009. נושאים: ביוסטטיסטיקה, מה אומרת הסטטיסטיקה.
תגובות: 26
| טראקבק
מה באמת קורה בלוטו הבולגרי?
האמת: שום דבר מיוחד.
בידיעה שפורסמה ב-Ynet לפני כחודש נמסר כי "אותם מספרים בדיוק יצאו בשתי הגרלות לוטו ברציפות". מדובר בלוטו הבולגרי, שם המספרים 4, 15, 23, 24, 35 ו-42 הוגרלו ב-6 בספטמבר ולאחר מכן שוב, ב-10 לחודש. עוד נמסר בידיעה כי "המתמטיקאי מיכאיל קונסטנטינוב חישב ומצא כי הסיכוי לכך הוא 1 ל-4.2 מיליון". כן נמסר כי שר הספורט של בולגריה הורה לפתוח חקירה מיוחדת בנושא.
המממ.
האם באמת מדובר באירוע כל כך נדיר שמצדיק חקירה, ולא סתם חקירה אלא חקירה "מיוחדת"? האם הסיכוי ל"כך" הוא באמת אחד ל-4.2 מליון, כמו שחישב מר קונסטנטינוב?
התשובה הרבה יותר מסובכת, ועם זאת לא קשה להבנה. כמו תמיד: התשובה המדויקת תלויה בניסוח מדויק של השאלה, כלומר למה מתכוונים כשאומרים "כך". אביא תחילה את התשובות כפי שפורסמו באתר ChanceWiki (אתם מוזמנים לגלוש ולעיין בחישובים המפורטים):
- הסיכוי כי המספרים 4, 15, 23, 24, 35 ו-42 יעלו בגורל בשתי הגרלות בתאריכים נתונים (6 בספטמבר ו-10 בספטמבר) הוא בערך אחד ל-27000 מיליארד.
- הסיכוי כי בשתי הגרלות בתאריכים נתונים יעלו אותם 6 מספרים (אך לא בהכרח הצירוף הנ"ל) הוא בערך אחד ל-5.2 מיליון.
- הסיכוי כי במשך שנה שלמה, בה נערכות 104 הגרלות, יעלו אותם 6 מספרים בשתי הגרלות רצופות, הוא בערך אחד ל-51000.
- הסיכוי כי במשך רצף של 5400 הגרלות (הלוטו הבולגרי קיים יותר מחמישים שנה, וזה בערך מספר ההגרלות שנערכו בו) יעלו אותם 6 מספרים בשתי הגרלות רצופות הוא בערך אחד ל-970.
- הסיכוי כי באיזה הגרלת לוטו, באיזה מקום בעולם, באיזושהי נקודת זמן בתקופה של חמישים שנה בה נערכות הגרלות דו שבועיות, יעלו אותם 6 מספרים בשתי הגרלות רצופות וזאת בהנחה שיש בעולם כ-100 הגרלות לוטו כאלה, הוא בערך 10%.
אז מתברר שדי צפוי שמתישהו, איפהשהו, יעלו אותם מספרים בשתי הגרלות לוטו רצופות. אני מקווה שהחקירה המיוחדת של שר הספורט הבולגרי תעלה על זה.
הנה הסבר אינטואיטיבי למה שקרה באמת.
תחשבו על קוביה. הרי הגרלת הלוטו היא תהליך שבו בוחרים אפשרות אחת מתוך 5245786 אפשרויות (זה מספר הצירופים האפשריים של 6 מספרים מתוך 42, כלומר מספר הצירופים האפשריים בלוטו הבולגרי). במלים אחרות, הגרלת הלוטו שקולה להטלת קוביה עם 5245786 צדדים, ולכן הדיון העקרוני לא צריך להיות שונה מדיון בהטלה קוביה "רגילה" הדומה לקוביות שמתנוססות בראש העמוד הזה.
לקוביה רגילה יש 6 צדדים, ובהחנה שהקוביה "הוגנת", יש סיכוי שווה של שישית לכל אחת מהתוצאות האפשריות של הטלת הקוביה (התוצאות הן הספרות 1-6).
אם נטיל את הקוביה פעמיים, יש סיכוי של אחד ל-36 כי בשתי ההטלות נקבל 6, אבל הסיכוי כי נקבל בשתי ההטלות את אותו הספר, לאו דווקא 6, הוא הרבה יותר גדול, ושווה לאחד ל-6. זאת כי לתוצאה של שתי הטלות יש 36 תוצאות אפשריות, ורק אחת מהן היא 6-6, אבל 6 מתוך ה-36 הן "דאבל" (1-1, 2-2, וכן הלאה עד 6-6).
אם תטילו את הקוביה מספר פעמים, אז הסיכוי כי באיזהו שלב בסדרת ההטלות יופיע אותו מספר בשתי הטלות רצופות עולה, כי יש לכם יותר הזדמנויות לקבל שתי הטלות רצופות. אתם מוזמנים לנסות ולכתוב את כל 216 התוצאות האפשריות של סדרה של 3 הטלות קוביה, ולספור בכמה תוצאות מתקבלת אותה תוצאה פעמיים ברציפות (תוצאת ההטלה הראשונה שווה לשניה, או השניה שווה לשלישית). ככל שסדרת ההטלות תתארך, כל הסיכוי יגדל.
ואם לא רק אתם עושים את התרגיל הזה, אלא גם כמה חברים, הסיכוי כי מישהו יקבל מתישהו שתי הטלות קוביה רצופות עם אותה תוצאה שוב עולה.
מתברר כי אירועים שנתפסים בעיננו כנדירים אינם נדירים כלל ועיקר. אם אתם חולמים בלילה כח מחר ירד גשם, או שתזכו בלוטו, ולמחרת הדבר אכן קורה, מה הסיכוי לכך? הסיכוי כי אתה או את תחלמו הלילה כי תזכו בפרס הגדול בלוטו וכן תזכו בו בהגרלה הגדולה נמוך למדי. הסיכוי כי מישהו איפהשהו יחלום משהו והמשו הזה יתקיים סביר למדי.
הסיכוי כי אתם תיכנסו למסעדה בבנגקוק ותפגשו שם את איציק שעבד ביחד איתכם לפני כמה שנים ולא ראיתם אותו המון זמן הוא קטן מאוד (זה קרה לי, למעשה). הסיכוי שמישהו יכנס לאיזשהו מקום בעולם ויפגוש שם מישהו שלא ראה כבר המון זמן הוא גבוה מאוד. הסיכוי שאתם תזכו בפרס הגדול בלוטו פעמיים הוא קטן מאוד. הסיכוי שמישהו איפהשהו מתישהו יזכה בפרס הדגול בלוטו פעמיים הוא סביר, וגם זה קרה, יותר מפעם אחת. אני ממליץ לכם לקרוא את המאמר הזה שפורסם בניו-יורק טיימס כבר ב-1990. בכתבה זו מרואיינים מספר סטטיסטיקאים נודעים, ובהם פרסי דיאקוניס, ברדלי אפרון (מספר 8 ברשימת הסטטיסטיקאים הגדולים) ואריק להמן. דיאקוניס ופרדריק מוסטלר גם נתנו שם לתופעה הזו: חוק המספרים הגדולים מאוד.
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 15 באוקטובר, 2009. נושאים: האנשים שמאחורי הסטטיסטיקה, הימורים, מה אומרת הסטטיסטיקה.
תגובות: 22
| טראקבק
הרהורים על תקציב התרבות
לא, אני לא באמת מהרהר על תקציב התרבות. אבל קראתי את תחילתו של טור הדיעה שפרסם רותם סלע היום בגלובס. תחת הכותרת "תקציב התרבות חונק את הפריפריה" כותב סלע כי "כ-40% מההקצבות (תקציב התרבות י.ל.) מופנות למוסדות בתל אביב שתושביה מהווים כ-5% בלבד מאוכלוסיית המדינה".
אני לא רוצה להכנס לכל המשנה הסדורה שסלע מנסח בהמשך מאמרו. בהחלט יכול להיות שהוא צודק. יש לי בעיה עם הטיעון הכמותי שלו. נכון שבתחומי העיר תל-אביב-יפו חיים כ-5% מאוכלוסיית המדינה, אבל תל-אביב היא קצת יותר מהתחום המוניציפלי. במטרופולין של תל אביב חיים כ-3.2 מיליון איש, שהם כ-45% מתושבי המדינה, לא 5%. את הנתון הסטטיסטי הזה סלע לא לוקח בחשבון. הוא לא תומך בטיעון שלו (ולמען האמת, גם הנתון שהוא הביא – מיותר).
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 26 במאי, 2009. נושאים: מה אומרת הסטטיסטיקה.
תגובות: 3
| טראקבק