במשחק השביעי והמכריע בסדרת גמר אליפות הכדורסל הארצית, התמודדה קבוצת ספרינגפילד בולס מול יריבתה המושבעת, קבוצת יוטה סופרגז. כצפוי, המשחק הוכרע על פי היכולות האישיות של כוכבי שתי הקבוצות: בארט מספרינגפילד ויוחנן מיוטה. במחצית הראשונה היו לבארט 40% אחוזי קליעה מהשדה, בעוד שיוחנן צלף ב- 50% מנסיונות הקליעה שלו. במחצית השניה צפינו בהתעלות אישית של שני הכוכבים. בארט הדהים והכפיל את אחוז הקליעה שלו ל-80%, אך יוחנן שוב התעלה עליו, והשיג הישג בלתי יאמן של 90% קליעה. את סל הנצחון לזכות ספרינגפילד קלע בארט עם שריקת הסיום. הוא גם נבחר לשחקן המצטיין של המשחק המותח והשקול, לאחר שסיים אותו עם 67% קליעה, בעוד שאחוזי הקליעה של יוחנן במשחק היו בסופו של דבר נמוכים יותר: 63% בלבד.
לא, אין כאן טעות חישוב וגם לא טעות בסטטיסטיקה. למרות שיוחנן היה טוב יותר מבארט בכל אחת ממחציות המשחק, הרי בסיכום הכולל של המשחק בארט היה טוב יותר מיוחנן. זו תופעה סטטיסטית הידועה בשם “פרדוקס סימפסון”.
הקוראים מוזמנים לעצור כאן, ולנסות למצוא מספרים ש-“יסתדרו” עם הדוגמא המלאכותית בה פתחתי. (המספרים שלי יובאו בהמשך הרשימה).
אולי הדוגמא המפורסמת ביותר לפרדוקס סימפסון היא פרשת ההפליה על רקע מגדרי בקבלה ללימודים מתקדמים באוניברסיטת ברקלי. בשנת 1973, נדהמו ראשי האוניברסיטה לגלות כי 44% מהגברים שנרשמו ללימודים מתקדמים (תואר שני ושלישי) באוניברסיטה התקבלו ללימודים, אך רק 35% מהנשים התקבלו. ראשי האוניברסיטה, שחששו מתביעה, הזעיקו לעזרה את הסטטיסטיקאי פיטר ביקל, וביקשו ממנו לבחון את נתוני הקבלה. ביקל ועמיתיו האמל ואו’קונל, פרסמו את ממצאיהם כעבור שנתיים בכתב העת היוקרתי Science. אביא כאן ניתוח של נתונים חלקיים אך מייצגים של נתוני הקבלה, כפי שהופיעו בספר הקלאסי של פרידמן ועמיתיו – Statistics.
לצורך הדגמת העקרון, נתרכז בששת החוגים הגדולים ביותר באוניברסיטה, אליהם נרשמו קצת יותר משליש מהמועמדים והמועמדות (באוניברסיטת ברקלי יש למעלה ממאה חוגים שהציעו תכניות ללימודים מתקדמים). נתוני ההרשמה והקבלה לחוגים אלה נתונים בטבלה הבאה:
גברים |
נשים |
סך הכל |
||||
חוג |
נרשמו |
אחוז קבלה |
נרשמו |
אחוז קבלה |
נרשמו |
אחוז קבלה |
A |
825 |
62 |
108 |
82 |
933 |
64 |
B |
560 |
63 |
25 |
68 |
585 |
63 |
C |
325 |
37 |
593 |
34 |
918 |
35 |
D |
417 |
33 |
375 |
35 |
792 |
34 |
E |
191 |
28 |
393 |
24 |
584 |
25 |
F |
373 |
6 |
341 |
7 |
714 |
6 |
סך הכל |
2691 |
45 |
1835 |
30 |
4526 |
39 |
התמונה הכללית המוצגת כאן דומה לתמונה שהתגלתה בנתונים המלאים: 45% מהגברים התקבלו ללימודים, רק 30% מהנשים. אבל שימו לב: ברוב החוגים אחוזי הקבלה של גברים ונשים דומים זה לזה, עם הבדלים של אחוזים בודדים לכאן או לכאן. רק בחוג A נראה שיש (אולי) אפליה על רקע מגדרי: לחוג זה התקבלו 82% מהנשים, אבל רק 62% מהגברים. הנשים משחקות כאן את תפקידו של יוחנן, הגברים את בארט. איך זה קרה?
שימו לב כי לחוגים A ו-B קל להתקבל – כשני שליש מהנרשמים מתקבלים. יותר ממחצית הנרשמים הגברים ביקשו להתקבל לחוגים אלה. לחוגים C עד F הרבה יותר קשה להתקבל. יותר מ-90% מהנרשמות ביקשו להתקבל לחוגים אלה. אופס.
תופעות כאלה אינן נדירות כלל וכלל, ויש שפע של דוגמאות נוספות (ראו למשל בערך של ויקיפדיה על הנושא). הוול סטריט ג’ורנל, למשל, העלה את השאלה הבאה: האם נתוני האבטלה במשבר הכלכלי הנוכחי גרועים יותר מאלה של המשבר של תחילת שנות ה-80 של המאה הקודמת? נראה שלא, או לפחות עדיין לא: בנובמבר 1982 עמד אחוז המובטלים בארה”ב על 10.8%, בעוד שבאוקטובר 2009 היה אחוז המובטלים 10.2%. אבל, בקרב העובדים בעלי תואר אקדמי אחוז האבטלה ב-2009 גבוה מזה של 1982, וכך הדבר גם בקרב בעלי השכלה אקדמית חלקית, בוגרי תיכון, ובעלי השכלה תיכונית חלקית. מה שקורה הוא שכיום יש יותר בעלי השכלה אקדמית, שבקרבם אחוז האבטלה נמוך יחסית לקבוצות האחרות, והרבה פחות בעלי השכלה תיכונית חלקית, שבקרבם תמיד אחוז האבטלה גבוה יותר. אחוז האבטלה הכולל הוא ממוצע משוקלל על פי גודל תת האוכלוסיה, וכאשר משקלם של האקדמאים גבוה יותר, הם מושכים את הממוצע המשוקלל כלפי מטה.
באותו אופן, כאשר יותר נשים נרשמות לחוגים עם אחוזי קבלה נמוכים, הן מושכות את הממוצע המשוקלל של נתוני הקבלה לנשים כלפי מטה, בעוד שהגברים שנרשמו ברובם לחוגים עם תנאי קבלה קלים מושכים את הממוצע המשוקלל של נתוני קבלת הגברים כלפי מעלה.
ואם נחזור לבארט ויוחנן, הנה נתוני הקליעות שלהם:
בארט |
יוחנן |
||
מחצית ראשונה |
נסיונות |
10 |
20 |
קליעות |
4 |
10 |
|
אחוז קליעה |
40% |
50% |
|
מחצית שניה |
נסיונות |
20 |
10 |
קליעות |
16 |
9 |
|
אחוז קליעה |
80% |
90% |
|
כל המשחק |
נסיונות |
30 |
30 |
קליעות |
20 |
19 |
|
אחוז קליעה |
67% |
63% |
כל שחקן זרק את הכדור לסל 30 פעם במהלך המשחק, ובסך הכל יוחנן החטיא פעם אחת יותר מבארט. אבל בארט לקח את רוב הזריקות שלו במחצית השניה בה שני השחקנים התעלו, בעוד יוחנן הרבה לזרוק לסל במחצת הראשונה, בה גם הוצגה יכולת טובה, אבל פחות טובה מהיכולת המופלאה של המחצית השניה.
מה שראינו בשתי הדוגמאות היא נוכחות של משתנה מתווך (confounding variable). בדוגמת הכדורסל המשתנה המתווך הוא מחצית המשחק. אני מניח שיתפתח ויכוח האם תואר השחקן המצטיין אכן מגיע לבארט, או שמא יוחנן היה טוב יותר. מי היה נבחר אילו יוטה ניצחה במשחק? האם החלוקה למחציות משנה משהו? מה היה קורה לו היינו מסתכלים על נתוני המשחק לפי רבעים? האם יש טעם להסתכל על נתונים חלקיים של המשחק ולא על המשחק כשלם?
משתנה מתווך הוא משתנה המסביר את מבנה הקשר בין שני משתנים אחרים. דנתי בנושא כבר ברשימה הראשונה שפורסמה אי פעם בבלוג הזה (האם החסידה מביאה ילדים לעולם?). הדוגמא הקלאסית היא הקשר בין מספר הנעליים לידע במתמטיקה: בכל בית ספר תמצאו כי לתלמידים שמספר הנעליים שלהם גדול יותר יש ידע רב יותר במתמטיקה (גילוי נאות: מספר הנעליים שלי הוא 46). מהו המשתנה המתווך בדוגמא זו?
בדוגמת נתוני האבטלה המשתנה המתווך הוא ההשכלה, ובדוגמא של אוניברסיטת ברקלי הדברים לדעתי קצת יותר ברורים. אין טעם, לדעתי, להסתכל על הנתונים הכוללים של האוניברסיטה, ויש לבחון מה המצב בכל חוג בנפרד. החוג (ומדיניות הקבלה שלו) הוא משתנה מתווך בין המגדר ובין אחוז הקבלה הכולל.
בזמנו פרסמתי כאן בבלוג רשימה שעסקה בנושא הממוצע המשוקלל תחת הכותרת “ממוצע משוקלל – איך ולמה” שזכתה לתגובות רבות ועוררה פולמוס עז בתגובות. הטענה שטענתי שם, ואני עדיין עומד מאחוריה, היא כי יש טעם בחישוב ממוצע משוקלל רק אם המשקלות מתאימים, ובמקרה של מיצוע יחסים, המשקל המתאים הוא המשתנה שבמכנה. כך, טענתי, יש למצע מהירויות תוך כדי שקלול בזמני התנועה, יחסי חוב-תוצר יש לשקלל בתוצר, וכן הלאה. שימו לב כי כל המדדים הכוללים שהובאו כאן הם ממוצעים משוקללים נכונים. בדוגמת הכדורסל אחוז הקליעות הכולל של כל שחקן הוא ממוצע משוקלל של אחוזי הקליעות בכל מחצית כשהמשקלות הם מספר הזריקות לסל בכל מחצית. בדוגמא של אוניברסיטת ברקלי, אחוז הקבלה הכולל של הנשים (גברים) הוא ממוצע משוקלל של אחוזי הקבלה של הנשים (גברים) בכל חוג, כשהמשקלות הם מספר הנשים (גברים) שניסו להתקבל לכל חוג. בדקו זאת!
את הרשימה על הממוצע המשוקלל כתבתי כהמשך לרשימה קודמת בנושא “ממוצע פוליטי” שם יצאתי נגד חישוב ממוצע כלשהו באחד ממסמכי משרד האוצר, וטענתי (או יותר נכון, תמכתי בסבר פלוצקר שטען) כי על האוצר היה להשתמש בממוצע משוקלל ולא בממוצע פשוט. אז הנה אשאל את השאלה לפני שתעלה בתגובות. אם הממוצע המשוקלל בברקלי הוא ממוצע משוקלל על פי המשקלות הנכונים, כפי שאני טוען, הרי שברקלי אכן הפלתה נשים לרעה בקבלה לאוניברסיטה. ורק לפני כמה פסקאות נכתב כאן כי אין לדון בממוצע המשוקלל אלא הנתונים הפרטניים???
גם כאן יש לי תשובה, אך היא אינה מתמטית. התשובה שלי היא שיש תמיד לזהות את המשתנה המתווך (אם ישנו כזה) ולהעריך את חשיבותו לטיב הקשר בין המשתנים (ראו את תגובתו המצויינת של דודי קינג לרשימה “ממוצע פוליטי”) . סטטיסטיקאי טוב (כמו פיטר ביקל, למשל) יעשה את זה, ולא יסתפק רק בהצבת נתונים בנוסחאות. אין כל ספק שאחוז הקבלה הכולל של נשים באוניברסיטת ברקלי נמוך מזה של הגברים. כל מי שיודע לחשב ממוצע יכול לומר את זה. השאלה החשובה היא האם האחוז הנמוך נובע מאפליה מכוונת או מסיבות אחרות, ולשם כך צריך גם קצת חשיבה סטטיסטית, לא רק חישובים סטטיסטיים.
נפלא. הדגמה מעולה לדרך בה אפשר לשקר באמצעות סטטיסטיקות מדויקות.
מייק, בתור קורא ותיק אתה לא אמור להיות מופתע. הבלוג הזה מלא בדוגמאות של “שקרים באמצעות סטטיסטיקה”, שהם פשוט שקרים ותו לא. אני לא מתייחס לתופעות של המצאת נתונים, אבל מתייחס ברחבה לכל מיני שיטות של עיוות נתונים, סילוף נתונים, הצגה לא נאותה של נתונים, “בחירת” מדגם שנותן את התוצאה הרצויה, ועוד ועוד. יש לי קטגוריה שלמה על הנושא
אני חושב שהפרדוקס הזה מדגים נקודה כללית יותר. להרבה אנשים, כולל סטטיסטיקאים מדופלמים, יש נטייה להתייחס למדדי אצמע אבל להתעלם מהנתונים הגולמיים. אם אנשים רק יסתכלו על הנתונים שלהם או יציגו אותם בצורה גרפית קודם שהם מחשבים מדדים תאוריים או רצים לניתוחים סטטיסטיים, הרבה בעיות היו נפתרות.
מסכים
תמיד כשזה מגיע לנושאים חברתיים זה מסתבך.
למה קיים המתאם בין
חוגים שמושכים אליהם יותר נשים
ו
חוגים שיותר קשה להתקבל אליהם?
האם זה קשור למספר המקומות בחוג, לכסף המוקצה לפקולטה?
שאלות מצויינות, וניתן עקרונית לענות עליהן על ידי מחקר נוסף (שבודאי יכלול עיון בנתונים נוספים)
יוסי-
רציתי לבדוק אם הבנתי איך עורכים את החשבון במקרה של הממוצע המשוקלל, אם יש נאמר שלוש מדינות א,ב,ג, שהתוצר שלהן הוא 1000, 2000 ו-3000 והחוב 500, 800 ן-1000 אז את היחס חוב:תוצר הממוצע צריך לחשב על פי משקולות של שישית, שליש וחצי? והאם הממוצע של היחס יוצא במקרה זה
23 חלקי 60 (0.3833 בערך)? תודה מראש.
זה אכן יוצא 23 חלקי 60, אם כי הרבה יותר פשוט לחשב את זה בדרך הבאה: 2300 (100+800+500) חלקי 6000 (1000+2000+3000).
היי יוסי,
רק רציתי לוודא שראית את תגובתי לדבריך והשאלה שהופיעה בהם. עדיין לא הצלחתי להבין איך הדברים מסתדרים.
יוסי,
האם יש לך כבר תשובה לסוגיה שהעליתי? אני ערכתי את החשבון הזה עבור עוד כמה דוגמאות ובכל פעם מתקבלת תוצאה שונה. הייתי מצפה שהממוצע ייצא אותו הדבר בלי קשר לדרך ההצגה. היכן הבעיה?
תודה יוסי,
כן, ברור לי ששני החשבונות שווים, רק רציתי לבדוק שהבנתי אותך. אבל יש משהו שמפריע לי, ובטח תוכל לעזור לי איתו. נניח שבמדינה א חיים 1000 אנשים, במדינה ב חיים 1500 ובמדינה ג’ 2000. את היחס חוב:תוצר אפשר גם להציג כיחס (חוב לתושב):(תוצר לתושב). זה בדיוק אותו המספר. כעת, לפי החשבון שאתה מציע הממוצע של היחס (חוב לתושב):(תוצר לתושב) הוא 2 חמישיות בדיוק (0.4), וזה שונה מהחשבון הראשון. אני גם שמתי לב לכך שאם משנים את האוכלוסיות במדינות מקבלים בכל פעם תוצאה אחרת. כיצד זה מסתדר? ושוב תודה.
זאת דוגמא טובה למהדורה מעודכנת של How to lie with statistics. אתה לוקח מדד, במקרה הזה יחס חוב לתוצר, ומציג אותו בצורה מלאכותית כיחס של שני משתנים אחרים. הערך המספרים זהה, אבל האינטרפרטציה שונה. כעת, אם תשקלל את המדד הזה לפי התוצר לתושב, מה המשמעות של המספר שתקבל? זה ממוצע החוב לנפש משוקלל לפי התוצר לנפש, לא ממוצע משוקלל של החוב לתוצר.
שים לב שזה לא פשוט עניין של דרך הצגה – אתה בעצם מעוות את המשקלות.
בוא ניקח דוגמא יותר אבסורדית, של מהירויות ממוצעות. מהירות (ממוצעת) היא היחס בין סך כל הדרך לסך כל הזמן. אם נסתכל על היחס בין דרך/מספר נוסעים לבין זמן/מספר נוסעים, אז ברור כי אם מסתכלים על רכב אחד היחס נשאר אותו דבר, וברור כי אם תיקח שני כלי רכב, ותשקלל את מהירותיהם הממוצעות לפי היחס זמן למספר נוסעים, לא תקבל את המהירות הממוצעת.
יוסי-
עכשיו אני מבולבל. אתה בפירוש טענת שיש דרך אחת מבחינה מתמטית שלפיה צריך לערוך את הממוצע – אם גודל מסויים הוא מנת גדלים צריך לחשב את הממוצע כממוצע משוקלל כשהמשקולות נלקחות מהמכנה של המנה. זה לא משנה מה מופיע במנה (לפי ההגדרה שנתת) – זה יכול להיות גם כרבולות מאודות:מסמרים מטגנים ובאותו אופן (כרבולות:סירים):(מסמרים:סירים). מה שהסתבר מהדיון הזה הוא שהפעולה הזו לא ממש מוגדרת היטב. אולי צריך לחשוב על הגדרה אחרת. והנה עוד עניין (שקשור למהירות; הדוגמא עם שתי המכוניות לא מתאימה כאן) – נניח שבדוגמא שנתת עם המהירויות, ראו נוסעי הרכב בחלק הראשון של הדרך 40 עצים ובחלק השני 20 עצים. ברור למדי שאם נחשב את המהירות הממוצעת ביחס למשקולות שנגזרות מ-(זמן:עצים) נקבל תוצאה שונה. הדבר הזה לא מראה שהעניין שהעליתי שגוי אלא שיש בעיה מהותית עם הדרך שבה הגדרת את הממוצע. לי נראה שהעניין כאן הוא זה – יש כאן שני מקטעי דרך (שהם המקבילים למדינות). למקטעים הללו נקרא (1) ו-(2). יש לנו גודל שניתן למדידה שנקרא לו “זמן”. את הזמן אפשר לכתוב על ציר ואם נכתוב את הפונקציה שהיא ההשתנות של הדרך ביחס לזמן נקבל את המהירות. כעת, אם יש לנו יחס כזה בין 3 משתנים, X,V,T כך ש-X ו-V הם פונקציה של T,ושהשינוי של המשתנה X ביחס למשתנה T הוא V אז הממוצע של V על המקטעים (1), (2) הוא הממוצע המשוקלל אם המשקולות שבאות מהמשתנה T (נראה לי שזו בדיוק ההגדרה של ממוצע). במצב הזה, אפשר לראות היכן הבעיה בדוגמאת המדינות – המדינות הם המקטעים אולם החוב אינו פונקציה של התוצר בלבד והיחס ביניהם אינו ההשתנות של החוב ביחס לתוצר (מושג שלא ממש מוגדר כאן). לכן, אי אפשר לערוך חשבון ממוצע בדרך יחידה ומוגדרת היטב, אלא רק לפי בחירה שרירותית.
עכשיו גם אני מבולבל מכל התגובה הזו, שלא ממש הצלחתי לעקוב אחרי כל הטענות שכתובות בה.
אבהיר שוב את דברי: אם נתון לך יחס כלשהו, ובוא ניצמד ליחס חוב תוצר כמו בדוגמא שדנו בה עד כה, אז אם תחלק את המונה והמכנה במה שלא תחשוב עליו: גודל האוכלוסיה, מהירות הנסיעה או כמות החסה שגודלה בשטחים, היחס יישאר יחס חוב תוצר. בדוגמא שלך יחס החוב תוצר של מדינה א הוא 0.5 (אם לא טעיתי בחישוב) וכל משתנה נוסף שתחשוב עליו לא ישנה את זה.
עכשיו אתה צריך להחליט מה אתה רוצה: האם אתה מעוניין ביחס חוב תוצר הממוצע על פני כל המדינות? אם כן, אתה צריך לסכם את כל החובות של כל המדינות, לסכם את כל התוצרים, ולחלק את הסכום הראשון בסכום השני. מבחינה אלגברית, תקבל את אותו המספר אם תיקח את יחסי חוב התוצר המדינתיים (עם או בלי חלוקת המונה והמכנה במשתנה הנוסף החביב עליך), ותשקלל אותם לפי התוצרים של כל מדינה. כל שקלול אחר ייתן לך משהו אחר, שיכול להיות משהו מאוד מעניין, אבל לא יחס חוב תוצר ממוצע על פני המדינות הנדונות.
מרתק, נהניתי מאוד לקרוא, והחכמתי.
(ואם אתה רוצה לדעת איך הגעתי לפוסט הישן הזה, אז הגעתי לכאן מרשימת ההפניות בפוסט ההרצאה “איך לשקר בעזרת סטטיסטיקה”.
“גם כאן יש לי תשובה, אך היא אינה מתמטית. התשובה שלי היא שיש תמיד לזהות את המשתנה המתווך (אם ישנו כזה) ולהעריך את חשיבותו לטיב הקשר בין המשתנים”
יהודה פרל פיתח תחשיב שבהינתן מודל-סיבתי ליצירת הנתונים עונה באופן חד-משמעי על השאלה על אילו משתנים יש להסתמך.
http://bayes.cs.ucla.edu/BOOK-2K/
וגם בבלוג:
http://lifesimulator.wordpress.com/2011/03/29/simpson/
תודה על ההפניה. אקרא בשעת כושר