במשחק השביעי והמכריע בסדרת גמר אליפות הכדורסל הארצית, התמודדה קבוצת ספרינגפילד בולס מול יריבתה המושבעת, קבוצת יוטה סופרגז. כצפוי, המשחק הוכרע על פי היכולות האישיות של כוכבי שתי הקבוצות: בארט מספרינגפילד ויוחנן מיוטה. במחצית הראשונה היו לבארט 40% אחוזי קליעה מהשדה, בעוד שיוחנן צלף ב- 50% מנסיונות הקליעה שלו. במחצית השניה צפינו בהתעלות אישית של שני הכוכבים. בארט הדהים והכפיל את אחוז הקליעה שלו ל-80%, אך יוחנן שוב התעלה עליו, והשיג הישג בלתי יאמן של 90% קליעה. את סל הנצחון לזכות ספרינגפילד קלע בארט עם שריקת הסיום. הוא גם נבחר לשחקן המצטיין של המשחק המותח והשקול, לאחר שסיים אותו עם 67% קליעה, בעוד שאחוזי הקליעה של יוחנן במשחק היו בסופו של דבר נמוכים יותר: 63% בלבד.
לא, אין כאן טעות חישוב וגם לא טעות בסטטיסטיקה. למרות שיוחנן היה טוב יותר מבארט בכל אחת ממחציות המשחק, הרי בסיכום הכולל של המשחק בארט היה טוב יותר מיוחנן. זו תופעה סטטיסטית הידועה בשם "פרדוקס סימפסון".
הקוראים מוזמנים לעצור כאן, ולנסות למצוא מספרים ש-"יסתדרו" עם הדוגמא המלאכותית בה פתחתי. (המספרים שלי יובאו בהמשך הרשימה).
אולי הדוגמא המפורסמת ביותר לפרדוקס סימפסון היא פרשת ההפליה על רקע מגדרי בקבלה ללימודים מתקדמים באוניברסיטת ברקלי. בשנת 1973, נדהמו ראשי האוניברסיטה לגלות כי 44% מהגברים שנרשמו ללימודים מתקדמים (תואר שני ושלישי) באוניברסיטה התקבלו ללימודים, אך רק 35% מהנשים התקבלו. ראשי האוניברסיטה, שחששו מתביעה, הזעיקו לעזרה את הסטטיסטיקאי פיטר ביקל, וביקשו ממנו לבחון את נתוני הקבלה. ביקל ועמיתיו האמל ואו'קונל, פרסמו את ממצאיהם כעבור שנתיים בכתב העת היוקרתי Science. אביא כאן ניתוח של נתונים חלקיים אך מייצגים של נתוני הקבלה, כפי שהופיעו בספר הקלאסי של פרידמן ועמיתיו – Statistics.

לצורך הדגמת העקרון, נתרכז בששת החוגים הגדולים ביותר באוניברסיטה, אליהם נרשמו קצת יותר משליש מהמועמדים והמועמדות (באוניברסיטת ברקלי יש למעלה ממאה חוגים שהציעו תכניות ללימודים מתקדמים). נתוני ההרשמה והקבלה לחוגים אלה נתונים בטבלה הבאה:
|
גברים
|
נשים
|
סך הכל
|
|
חוג
|
נרשמו
|
אחוז קבלה
|
נרשמו
|
אחוז קבלה
|
נרשמו
|
אחוז קבלה
|
|
A
|
825
|
62
|
108
|
82
|
933
|
64
|
|
B
|
560
|
63
|
25
|
68
|
585
|
63
|
|
C
|
325
|
37
|
593
|
34
|
918
|
35
|
|
D
|
417
|
33
|
375
|
35
|
792
|
34
|
|
E
|
191
|
28
|
393
|
24
|
584
|
25
|
|
F
|
373
|
6
|
341
|
7
|
714
|
6
|
|
סך הכל
|
2691
|
45
|
1835
|
30
|
4526
|
39
|
התמונה הכללית המוצגת כאן דומה לתמונה שהתגלתה בנתונים המלאים: 45% מהגברים התקבלו ללימודים, רק 30% מהנשים. אבל שימו לב: ברוב החוגים אחוזי הקבלה של גברים ונשים דומים זה לזה, עם הבדלים של אחוזים בודדים לכאן או לכאן. רק בחוג A נראה שיש (אולי) אפליה על רקע מגדרי: לחוג זה התקבלו 82% מהנשים, אבל רק 62% מהגברים. הנשים משחקות כאן את תפקידו של יוחנן, הגברים את בארט. איך זה קרה?
שימו לב כי לחוגים A ו-B קל להתקבל – כשני שליש מהנרשמים מתקבלים. יותר ממחצית הנרשמים הגברים ביקשו להתקבל לחוגים אלה. לחוגים C עד F הרבה יותר קשה להתקבל. יותר מ-90% מהנרשמות ביקשו להתקבל לחוגים אלה. אופס.
תופעות כאלה אינן נדירות כלל וכלל, ויש שפע של דוגמאות נוספות (ראו למשל בערך של ויקיפדיה על הנושא). הוול סטריט ג'ורנל, למשל, העלה את השאלה הבאה: האם נתוני האבטלה במשבר הכלכלי הנוכחי גרועים יותר מאלה של המשבר של תחילת שנות ה-80 של המאה הקודמת? נראה שלא, או לפחות עדיין לא: בנובמבר 1982 עמד אחוז המובטלים בארה"ב על 10.8%, בעוד שבאוקטובר 2009 היה אחוז המובטלים 10.2%. אבל, בקרב העובדים בעלי תואר אקדמי אחוז האבטלה ב-2009 גבוה מזה של 1982, וכך הדבר גם בקרב בעלי השכלה אקדמית חלקית, בוגרי תיכון, ובעלי השכלה תיכונית חלקית. מה שקורה הוא שכיום יש יותר בעלי השכלה אקדמית, שבקרבם אחוז האבטלה נמוך יחסית לקבוצות האחרות, והרבה פחות בעלי השכלה תיכונית חלקית, שבקרבם תמיד אחוז האבטלה גבוה יותר. אחוז האבטלה הכולל הוא ממוצע משוקלל על פי גודל תת האוכלוסיה, וכאשר משקלם של האקדמאים גבוה יותר, הם מושכים את הממוצע המשוקלל כלפי מטה.
באותו אופן, כאשר יותר נשים נרשמות לחוגים עם אחוזי קבלה נמוכים, הן מושכות את הממוצע המשוקלל של נתוני הקבלה לנשים כלפי מטה, בעוד שהגברים שנרשמו ברובם לחוגים עם תנאי קבלה קלים מושכים את הממוצע המשוקלל של נתוני קבלת הגברים כלפי מעלה.
ואם נחזור לבארט ויוחנן, הנה נתוני הקליעות שלהם:
|
|
בארט
|
יוחנן
|
|
מחצית ראשונה
|
נסיונות
|
10
|
20
|
|
קליעות
|
4
|
10
|
|
אחוז קליעה
|
40%
|
50%
|
|
מחצית שניה
|
נסיונות
|
20
|
10
|
|
קליעות
|
16
|
9
|
|
אחוז קליעה
|
80%
|
90%
|
|
כל המשחק
|
נסיונות
|
30
|
30
|
|
קליעות
|
20
|
19
|
|
אחוז קליעה
|
67%
|
63%
|
כל שחקן זרק את הכדור לסל 30 פעם במהלך המשחק, ובסך הכל יוחנן החטיא פעם אחת יותר מבארט. אבל בארט לקח את רוב הזריקות שלו במחצית השניה בה שני השחקנים התעלו, בעוד יוחנן הרבה לזרוק לסל במחצת הראשונה, בה גם הוצגה יכולת טובה, אבל פחות טובה מהיכולת המופלאה של המחצית השניה.
מה שראינו בשתי הדוגמאות היא נוכחות של משתנה מתווך (confounding variable). בדוגמת הכדורסל המשתנה המתווך הוא מחצית המשחק. אני מניח שיתפתח ויכוח האם תואר השחקן המצטיין אכן מגיע לבארט, או שמא יוחנן היה טוב יותר. מי היה נבחר אילו יוטה ניצחה במשחק? האם החלוקה למחציות משנה משהו? מה היה קורה לו היינו מסתכלים על נתוני המשחק לפי רבעים? האם יש טעם להסתכל על נתונים חלקיים של המשחק ולא על המשחק כשלם?
משתנה מתווך הוא משתנה המסביר את מבנה הקשר בין שני משתנים אחרים. דנתי בנושא כבר ברשימה הראשונה שפורסמה אי פעם בבלוג הזה (האם החסידה מביאה ילדים לעולם?). הדוגמא הקלאסית היא הקשר בין מספר הנעליים לידע במתמטיקה: בכל בית ספר תמצאו כי לתלמידים שמספר הנעליים שלהם גדול יותר יש ידע רב יותר במתמטיקה (גילוי נאות: מספר הנעליים שלי הוא 46). מהו המשתנה המתווך בדוגמא זו?
בדוגמת נתוני האבטלה המשתנה המתווך הוא ההשכלה, ובדוגמא של אוניברסיטת ברקלי הדברים לדעתי קצת יותר ברורים. אין טעם, לדעתי, להסתכל על הנתונים הכוללים של האוניברסיטה, ויש לבחון מה המצב בכל חוג בנפרד. החוג (ומדיניות הקבלה שלו) הוא משתנה מתווך בין המגדר ובין אחוז הקבלה הכולל.
בזמנו פרסמתי כאן בבלוג רשימה שעסקה בנושא הממוצע המשוקלל תחת הכותרת "ממוצע משוקלל – איך ולמה" שזכתה לתגובות רבות ועוררה פולמוס עז בתגובות. הטענה שטענתי שם, ואני עדיין עומד מאחוריה, היא כי יש טעם בחישוב ממוצע משוקלל רק אם המשקלות מתאימים, ובמקרה של מיצוע יחסים, המשקל המתאים הוא המשתנה שבמכנה. כך, טענתי, יש למצע מהירויות תוך כדי שקלול בזמני התנועה, יחסי חוב-תוצר יש לשקלל בתוצר, וכן הלאה. שימו לב כי כל המדדים הכוללים שהובאו כאן הם ממוצעים משוקללים נכונים. בדוגמת הכדורסל אחוז הקליעות הכולל של כל שחקן הוא ממוצע משוקלל של אחוזי הקליעות בכל מחצית כשהמשקלות הם מספר הזריקות לסל בכל מחצית. בדוגמא של אוניברסיטת ברקלי, אחוז הקבלה הכולל של הנשים (גברים) הוא ממוצע משוקלל של אחוזי הקבלה של הנשים (גברים) בכל חוג, כשהמשקלות הם מספר הנשים (גברים) שניסו להתקבל לכל חוג. בדקו זאת!
את הרשימה על הממוצע המשוקלל כתבתי כהמשך לרשימה קודמת בנושא "ממוצע פוליטי" שם יצאתי נגד חישוב ממוצע כלשהו באחד ממסמכי משרד האוצר, וטענתי (או יותר נכון, תמכתי בסבר פלוצקר שטען) כי על האוצר היה להשתמש בממוצע משוקלל ולא בממוצע פשוט. אז הנה אשאל את השאלה לפני שתעלה בתגובות. אם הממוצע המשוקלל בברקלי הוא ממוצע משוקלל על פי המשקלות הנכונים, כפי שאני טוען, הרי שברקלי אכן הפלתה נשים לרעה בקבלה לאוניברסיטה. ורק לפני כמה פסקאות נכתב כאן כי אין לדון בממוצע המשוקלל אלא הנתונים הפרטניים???
גם כאן יש לי תשובה, אך היא אינה מתמטית. התשובה שלי היא שיש תמיד לזהות את המשתנה המתווך (אם ישנו כזה) ולהעריך את חשיבותו לטיב הקשר בין המשתנים (ראו את תגובתו המצויינת של דודי קינג לרשימה "ממוצע פוליטי") . סטטיסטיקאי טוב (כמו פיטר ביקל, למשל) יעשה את זה, ולא יסתפק רק בהצבת נתונים בנוסחאות. אין כל ספק שאחוז הקבלה הכולל של נשים באוניברסיטת ברקלי נמוך מזה של הגברים. כל מי שיודע לחשב ממוצע יכול לומר את זה. השאלה החשובה היא האם האחוז הנמוך נובע מאפליה מכוונת או מסיבות אחרות, ולשם כך צריך גם קצת חשיבה סטטיסטית, לא רק חישובים סטטיסטיים.