ארכיב עבור תגית מתאם
The Simpson
במשחק השביעי והמכריע בסדרת גמר אליפות הכדורסל הארצית, התמודדה קבוצת ספרינגפילד בולס מול יריבתה המושבעת, קבוצת יוטה סופרגז. כצפוי, המשחק הוכרע על פי היכולות האישיות של כוכבי שתי הקבוצות: בארט מספרינגפילד ויוחנן מיוטה. במחצית הראשונה היו לבארט 40% אחוזי קליעה מהשדה, בעוד שיוחנן צלף ב- 50% מנסיונות הקליעה שלו. במחצית השניה צפינו בהתעלות אישית של שני הכוכבים. בארט הדהים והכפיל את אחוז הקליעה שלו ל-80%, אך יוחנן שוב התעלה עליו, והשיג הישג בלתי יאמן של 90% קליעה. את סל הנצחון לזכות ספרינגפילד קלע בארט עם שריקת הסיום. הוא גם נבחר לשחקן המצטיין של המשחק המותח והשקול, לאחר שסיים אותו עם 67% קליעה, בעוד שאחוזי הקליעה של יוחנן במשחק היו בסופו של דבר נמוכים יותר: 63% בלבד.
לא, אין כאן טעות חישוב וגם לא טעות בסטטיסטיקה. למרות שיוחנן היה טוב יותר מבארט בכל אחת ממחציות המשחק, הרי בסיכום הכולל של המשחק בארט היה טוב יותר מיוחנן. זו תופעה סטטיסטית הידועה בשם "פרדוקס סימפסון".
הקוראים מוזמנים לעצור כאן, ולנסות למצוא מספרים ש-"יסתדרו" עם הדוגמא המלאכותית בה פתחתי. (המספרים שלי יובאו בהמשך הרשימה).
אולי הדוגמא המפורסמת ביותר לפרדוקס סימפסון היא פרשת ההפליה על רקע מגדרי בקבלה ללימודים מתקדמים באוניברסיטת ברקלי. בשנת 1973, נדהמו ראשי האוניברסיטה לגלות כי 44% מהגברים שנרשמו ללימודים מתקדמים (תואר שני ושלישי) באוניברסיטה התקבלו ללימודים, אך רק 35% מהנשים התקבלו. ראשי האוניברסיטה, שחששו מתביעה, הזעיקו לעזרה את הסטטיסטיקאי פיטר ביקל, וביקשו ממנו לבחון את נתוני הקבלה. ביקל ועמיתיו האמל ואו'קונל, פרסמו את ממצאיהם כעבור שנתיים בכתב העת היוקרתי Science. אביא כאן ניתוח של נתונים חלקיים אך מייצגים של נתוני הקבלה, כפי שהופיעו בספר הקלאסי של פרידמן ועמיתיו – Statistics.

לצורך הדגמת העקרון, נתרכז בששת החוגים הגדולים ביותר באוניברסיטה, אליהם נרשמו קצת יותר משליש מהמועמדים והמועמדות (באוניברסיטת ברקלי יש למעלה ממאה חוגים שהציעו תכניות ללימודים מתקדמים). נתוני ההרשמה והקבלה לחוגים אלה נתונים בטבלה הבאה:
|
גברים |
נשים |
סך הכל |
||||
|
חוג |
נרשמו |
אחוז קבלה |
נרשמו |
אחוז קבלה |
נרשמו |
אחוז קבלה |
|
A |
825 |
62 |
108 |
82 |
933 |
64 |
|
B |
560 |
63 |
25 |
68 |
585 |
63 |
|
C |
325 |
37 |
593 |
34 |
918 |
35 |
|
D |
417 |
33 |
375 |
35 |
792 |
34 |
|
E |
191 |
28 |
393 |
24 |
584 |
25 |
|
F |
373 |
6 |
341 |
7 |
714 |
6 |
|
סך הכל |
2691 |
45 |
1835 |
30 |
4526 |
39 |
התמונה הכללית המוצגת כאן דומה לתמונה שהתגלתה בנתונים המלאים: 45% מהגברים התקבלו ללימודים, רק 30% מהנשים. אבל שימו לב: ברוב החוגים אחוזי הקבלה של גברים ונשים דומים זה לזה, עם הבדלים של אחוזים בודדים לכאן או לכאן. רק בחוג A נראה שיש (אולי) אפליה על רקע מגדרי: לחוג זה התקבלו 82% מהנשים, אבל רק 62% מהגברים. הנשים משחקות כאן את תפקידו של יוחנן, הגברים את בארט. איך זה קרה?
שימו לב כי לחוגים A ו-B קל להתקבל – כשני שליש מהנרשמים מתקבלים. יותר ממחצית הנרשמים הגברים ביקשו להתקבל לחוגים אלה. לחוגים C עד F הרבה יותר קשה להתקבל. יותר מ-90% מהנרשמות ביקשו להתקבל לחוגים אלה. אופס.
תופעות כאלה אינן נדירות כלל וכלל, ויש שפע של דוגמאות נוספות (ראו למשל בערך של ויקיפדיה על הנושא). הוול סטריט ג'ורנל, למשל, העלה את השאלה הבאה: האם נתוני האבטלה במשבר הכלכלי הנוכחי גרועים יותר מאלה של המשבר של תחילת שנות ה-80 של המאה הקודמת? נראה שלא, או לפחות עדיין לא: בנובמבר 1982 עמד אחוז המובטלים בארה"ב על 10.8%, בעוד שבאוקטובר 2009 היה אחוז המובטלים 10.2%. אבל, בקרב העובדים בעלי תואר אקדמי אחוז האבטלה ב-2009 גבוה מזה של 1982, וכך הדבר גם בקרב בעלי השכלה אקדמית חלקית, בוגרי תיכון, ובעלי השכלה תיכונית חלקית. מה שקורה הוא שכיום יש יותר בעלי השכלה אקדמית, שבקרבם אחוז האבטלה נמוך יחסית לקבוצות האחרות, והרבה פחות בעלי השכלה תיכונית חלקית, שבקרבם תמיד אחוז האבטלה גבוה יותר. אחוז האבטלה הכולל הוא ממוצע משוקלל על פי גודל תת האוכלוסיה, וכאשר משקלם של האקדמאים גבוה יותר, הם מושכים את הממוצע המשוקלל כלפי מטה.
באותו אופן, כאשר יותר נשים נרשמות לחוגים עם אחוזי קבלה נמוכים, הן מושכות את הממוצע המשוקלל של נתוני הקבלה לנשים כלפי מטה, בעוד שהגברים שנרשמו ברובם לחוגים עם תנאי קבלה קלים מושכים את הממוצע המשוקלל של נתוני קבלת הגברים כלפי מעלה.
ואם נחזור לבארט ויוחנן, הנה נתוני הקליעות שלהם:
|
בארט |
יוחנן |
||
|
מחצית ראשונה |
נסיונות |
10 |
20 |
|
קליעות |
4 |
10 |
|
|
אחוז קליעה |
40% |
50% |
|
|
מחצית שניה |
נסיונות |
20 |
10 |
|
קליעות |
16 |
9 |
|
|
אחוז קליעה |
80% |
90% |
|
|
כל המשחק |
נסיונות |
30 |
30 |
|
קליעות |
20 |
19 |
|
|
אחוז קליעה |
67% |
63% |
כל שחקן זרק את הכדור לסל 30 פעם במהלך המשחק, ובסך הכל יוחנן החטיא פעם אחת יותר מבארט. אבל בארט לקח את רוב הזריקות שלו במחצית השניה בה שני השחקנים התעלו, בעוד יוחנן הרבה לזרוק לסל במחצת הראשונה, בה גם הוצגה יכולת טובה, אבל פחות טובה מהיכולת המופלאה של המחצית השניה.
מה שראינו בשתי הדוגמאות היא נוכחות של משתנה מתווך (confounding variable). בדוגמת הכדורסל המשתנה המתווך הוא מחצית המשחק. אני מניח שיתפתח ויכוח האם תואר השחקן המצטיין אכן מגיע לבארט, או שמא יוחנן היה טוב יותר. מי היה נבחר אילו יוטה ניצחה במשחק? האם החלוקה למחציות משנה משהו? מה היה קורה לו היינו מסתכלים על נתוני המשחק לפי רבעים? האם יש טעם להסתכל על נתונים חלקיים של המשחק ולא על המשחק כשלם?
משתנה מתווך הוא משתנה המסביר את מבנה הקשר בין שני משתנים אחרים. דנתי בנושא כבר ברשימה הראשונה שפורסמה אי פעם בבלוג הזה (האם החסידה מביאה ילדים לעולם?). הדוגמא הקלאסית היא הקשר בין מספר הנעליים לידע במתמטיקה: בכל בית ספר תמצאו כי לתלמידים שמספר הנעליים שלהם גדול יותר יש ידע רב יותר במתמטיקה (גילוי נאות: מספר הנעליים שלי הוא 46). מהו המשתנה המתווך בדוגמא זו?
בדוגמת נתוני האבטלה המשתנה המתווך הוא ההשכלה, ובדוגמא של אוניברסיטת ברקלי הדברים לדעתי קצת יותר ברורים. אין טעם, לדעתי, להסתכל על הנתונים הכוללים של האוניברסיטה, ויש לבחון מה המצב בכל חוג בנפרד. החוג (ומדיניות הקבלה שלו) הוא משתנה מתווך בין המגדר ובין אחוז הקבלה הכולל.
בזמנו פרסמתי כאן בבלוג רשימה שעסקה בנושא הממוצע המשוקלל תחת הכותרת "ממוצע משוקלל – איך ולמה" שזכתה לתגובות רבות ועוררה פולמוס עז בתגובות. הטענה שטענתי שם, ואני עדיין עומד מאחוריה, היא כי יש טעם בחישוב ממוצע משוקלל רק אם המשקלות מתאימים, ובמקרה של מיצוע יחסים, המשקל המתאים הוא המשתנה שבמכנה. כך, טענתי, יש למצע מהירויות תוך כדי שקלול בזמני התנועה, יחסי חוב-תוצר יש לשקלל בתוצר, וכן הלאה. שימו לב כי כל המדדים הכוללים שהובאו כאן הם ממוצעים משוקללים נכונים. בדוגמת הכדורסל אחוז הקליעות הכולל של כל שחקן הוא ממוצע משוקלל של אחוזי הקליעות בכל מחצית כשהמשקלות הם מספר הזריקות לסל בכל מחצית. בדוגמא של אוניברסיטת ברקלי, אחוז הקבלה הכולל של הנשים (גברים) הוא ממוצע משוקלל של אחוזי הקבלה של הנשים (גברים) בכל חוג, כשהמשקלות הם מספר הנשים (גברים) שניסו להתקבל לכל חוג. בדקו זאת!
את הרשימה על הממוצע המשוקלל כתבתי כהמשך לרשימה קודמת בנושא "ממוצע פוליטי" שם יצאתי נגד חישוב ממוצע כלשהו באחד ממסמכי משרד האוצר, וטענתי (או יותר נכון, תמכתי בסבר פלוצקר שטען) כי על האוצר היה להשתמש בממוצע משוקלל ולא בממוצע פשוט. אז הנה אשאל את השאלה לפני שתעלה בתגובות. אם הממוצע המשוקלל בברקלי הוא ממוצע משוקלל על פי המשקלות הנכונים, כפי שאני טוען, הרי שברקלי אכן הפלתה נשים לרעה בקבלה לאוניברסיטה. ורק לפני כמה פסקאות נכתב כאן כי אין לדון בממוצע המשוקלל אלא הנתונים הפרטניים???
גם כאן יש לי תשובה, אך היא אינה מתמטית. התשובה שלי היא שיש תמיד לזהות את המשתנה המתווך (אם ישנו כזה) ולהעריך את חשיבותו לטיב הקשר בין המשתנים (ראו את תגובתו המצויינת של דודי קינג לרשימה "ממוצע פוליטי") . סטטיסטיקאי טוב (כמו פיטר ביקל, למשל) יעשה את זה, ולא יסתפק רק בהצבת נתונים בנוסחאות. אין כל ספק שאחוז הקבלה הכולל של נשים באוניברסיטת ברקלי נמוך מזה של הגברים. כל מי שיודע לחשב ממוצע יכול לומר את זה. השאלה החשובה היא האם האחוז הנמוך נובע מאפליה מכוונת או מסיבות אחרות, ולשם כך צריך גם קצת חשיבה סטטיסטית, לא רק חישובים סטטיסטיים.
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 23 בפברואר, 2010. נושאים: מה אומרת הסטטיסטיקה.
תגובות: 14
| טראקבק
לימונים משפרים את הבטיחות בדרכים
יבוא לימונים ממקסיקו משפר את הבטיחות בדרכים, לפחות בארה"ב. הנתונים שמוכיחים זאת פורסמו :
ובכן, רואים בבירור: ככל שיבוא הלימונים ממקסיקו גדל, כן קטן מספר תאונות הדרכים הקטלניות בכבישים המהירים שבארצות הברית.
לא לדאוג: הנתונים אמנם אמיתיים, אך מדובר בבדיחה. חסידות לא מביאות ילדים לעולם.
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 30 באפריל, 2009. נושאים: אותי זה מצחיק.
תגובות: אין
| טראקבק
זוית מבט נוספת על מתאם וסיבתיות
לחצו על התמונה כדי לראות אותה (ואת הפאנצ'ליין, שמופיע בתור כיתובית לתמונה) בגודל מלא באתר xkcd, שם פורסמה היום.
כמובן שהתרעתי ואמשיך להתריע כאן בבלוג כי מתאם אינו מעיד על סיבתיות. בכל מקרה, במצב המתואר בקריקטורה זו יש בעיה סטטיסטית נוספת – גודל מדגם קטן מדי.
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 7 במרץ, 2009. נושאים: אותי זה מצחיק.
תגובות: 1
| טראקבק
הזהרו מעצי באובב וממכוניות שחורות
אחד מקוראי שלח לי את הכתבה הבאה שפורסמה ב"ידיעות אחרונות" לפני זמן מה (לחצו על התמונה כדי לראות אותה בגודל מלא). על פי הכתבה, מכוניות שחורות הינן מסוכנות. לפי נתוני חברת "שגריר", נטען שם, "הסיכוי של מכונית שחורה להיות מעורבת בתאונה הוא פי 1.5 משל מכונית לבנה או אדומה". ואכן, מהתבוננות בטבלה נראה כי 2.12% מהמכוניות השחורות היו מעורבות בתאונות, לעומת 1.48% מהמכוניות האדומות ו-1.50% מהמכוניות הלבנות. האם כדאי לזוז הצידה כאשר רואים במראה מכונית שחורה, כמו שמייעץ לנו הכתב? לא בטוח.
קודם כל, ההבדלים בין האחוזים המצוינים עבור המכוניות השחורות והאדומות אינם מובהקים סטטיסטית. ההבדל בין המכוניות השחורות למכוניות הלבנות כן מובהק סטטיסטית, וזאת בגלל המספר הגבוה של המכוניות הלבנות (כ-35,000) לעומת המספר הנמוך יחסית של מכוניות שחורות ב"מדגם" (פחות מ-3000). אבל זה באמת לא משנה. ממילא התוצאה הזו אנקדוטלית, ולא בהכרח מייצגת, כפי שאסביר מייד.
מדוע נצפתה התופעה? יכולים להיות מספר הסברים. הסבר אפשרי אחד ניתן בכתבה על ידי מנכ"ל חברת שגריר. קשה יותר להבחין במכוניות כהות על רקע הכביש, הסביר, וכן הצבע האדון מאפיין מכוניות ספורט ונהגים צעירים. במלים מקצועיות, ייתכן ויש כאן משתנים המתווכים בין צבע המכונית והסיכוי שלה להיות מעורבת בתאונה – סוג המכונית ואופי הנהג. אני חייב לשבח את המנכ"ל הנכבד שסיפק את ההסבר המתבקש, ומיתן בכך את פתיחת הכתבה הסוערת.
ברצוני להוסיף שתי הערות. ראשית, כפי שאולי שמתם לב, הכנסתי את המילה מדגם למרכאות כפולות כאשר התייחסתי לנתונים שפורסמו בפיסקה השניה של רשימה זו. זה לא במקרה. הנתונים אינם נתוני מדגם, אלא נתונים המתייחסים לכלי הרכב של מנויי חברת שגריר. ייתכן כי מנויי החברה שונים באופן מהותי מנהגים שאינם מנויים. למשל, ייתכן כי שרוב המנויים מקבלים את המנוי כתוספת לביטוח המקיף של הרכב, ומצד שני רוב הנהגים שאין להם ביטוח מקיף גם אינם מנויים של שגריר. אם כך הדבר, אזי המסקנות הנגזרות מנתוני שגריר אינן תקפות לכלל אוכלוסיית הנהגים ומכוניותיהם.
הערה שניה: כיצד אפשר באמת לוודא האם לצבע הרכב יש או אין השפעה על הסיכוי להיות מעורב בתאונת דרכים? במלים אחרות – כיצד אפשר לנטרל את השפעת המשתנים המתווכים? הדרך לשעות זאת היא בעזרת ניסוי מבוקר. לוקחים קבוצת נהגים, ומקצים להם באופן מקרי מכוניות בצבעים שונים. לאחר תקופת מה, בודקים את שיעור המעורבות בתאונות הדרכים של כל אחת מקבוצות המכוניות. זה לא מעשי כמובן, כשמדובר במכוניות, אבל זו פרקטיקה מקובלת בהרבה תחומים אחרים – פיתוח תרופות למשל.
ולסיום – לא משנה מה צבע המכונית שלכם. סעו בזהירות!
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 7 בפברואר, 2009. נושאים: מה אומרת הסטטיסטיקה.
תגובות: 9
| טראקבק
הכוכב הנעלם והאמד הכחול: משפט גאוס מרקוב ושיטת הריבועים הפחותים
שמחה גדולה אחזה בעולם האסטרונומיה בשנת 1781, עם גילויו של כוכב הלכת אוראנוס. לאחר שכוכב לכת זה נצפה, מסלולו חושב ומרחקו מהשמש הוערך, התברר כי מרחקו מהשמש מתאים לתחזית של "חוק טיטיוס-בודה", מעין להטוט חשבוני (שגוי, כך התברר בדיעבד) המתאר את מרחקו של כוכב לכת מהשמש כפונקציה של מספרו הסידורי. החוק תיאר בצורה טובה את מרחקיהם של כל כוכבי הלכת שהיו חדועים עד אז, אך השאיר "חור" בין מאדים לצדק. לפי החוק, "צריך" היה להיות שם עוד כוכב לכת, שלא נתגלה עדיין.
האסטרונומים הפנו את מאמציהם לגילוי כוכב הלכת האבוד. המאמץ נשא פרי כעבור 20 שנה. באחד בינואר 1801 גילה האסטרונום האיטלקי ג'וזפה פיאצי גוף שמימי שנע במסלול המיועד לכוכב הלכת האבוד. הוא כינה כוכב לכת חדש זה בשם צרס, לכבוד אלת החקלאות הרומית.
שמחתם של פיאצי ועמיתיו הייתה קצרה. לאחר שצפו בצרס במשך 41 לילות, "התקרב" מסלולו אל השמש, ובשל אורה החזק לא יכלו המשיך ולצפות בו. כמובן, כאשר יסיים צרס את הקפתו ויופיע מצידה השני של השמש יוכלו לצפות בו שוב, אבל, היכן בדיוק יופיע בשמי הלילה? הנתונים המועטים שנצברו (רק 22 תצפיות בפועל נאספו במשך 41 הלילות) לא אפשרו חישוב מדוייק של מסלולו.
מספר מלומדים ניסו לחזות את מסלולו של הכוכב הסורר. אחד מהם היה קרל פרידריך גאוס, מתמטיקאי ואסטרונום מהאוניברסיטה של גטינגן (אני מניח שכבר שמעתם עליו אי אלו פעמים). גאוס פרסם את תחזיתו למסלול של צרס בספטמבר 1801. צרס ציית לתחזיותיו של גאוס, והופיע בשמים בהתאם. עם גילוים של אסטרואידים נוספים שנעו במסלול בין מאדים לצדק, חזר גאוס על התרגיל וחישב את מסלולם של רבים מהם.

שרטוט המסלולים של האסטרואידים צרס ופאלאס על ידי גאוס (מקור: http://www.math.rutgers.edu/~cherlin/History/Papers1999/weiss.html)
מה היה הסוד של גאוס? רק ב-1809 פרסם גאוס ברבים את שיטתו, הידועה כיום כשיטת הריבועים הפחותים. ככל הנראה, גאוס נכנע ופרסם את השיטה רק לאחר שהמתמטיקאי הצרפתי לז'נדר פרסם בשנת 1806 את שיטתו לחישוב מסלולי שביטים, ולמעשה הוא שטבע את שם השיטה :"Méthode des Moindres Quarrés ". עם זאת, ידוע כי גאוס הכיר את השיטה כבר ב-1795, והוכיח ב-1798 כי אמד הריבועים הפחותים הוא אמד נראות מירבית – Maximum Likelihood Estimator (כמובן, המושגים האלה, שלקוחים מתחום התיאוריה הסטטיסטית, עדיין לא היו ידועים בימיו). ב-1823 הוכיח גאוס כי השיטה אכן מספקת את האמד הלינארי הטוב ביותר במובן שזהו האמד הלינארי חסר ההטיה ששונותו מינימלית. מכאן הופיע הביטוי "אמד כחול" בכותרת הרשימה. כחול – BLUE- הם ראשי התיבות של Best Linear Unbiased Estimator. אין צורך להבהל מהמונחים הטכניים האלה, שלא אסביר בפירוט. אומר רק כי במלים פשוטות, גאוס הוכיח כי השיטה אופטימלית בשלושה מובנים שונים – גם נראות מירבית, גם שונות מינימלית וגם חסר הטיה.

גאוס (משמאל) ומרקוב חולקים בתהילה של שיטת הריבועים הפחותים
המתמטיקאי הרוסי אנדריי אנדרייביץ מרקוב, שידוע בעיקר בזכות תרומתו לחקר התהליכים המקריים, תיאר בפירוט את שיטת הריבועים הפחותים בספר שפרסם ב-1912, וניסח אותה מחדש באופן ברור יותר, ובכך תרם את תרומתו להפצתה של השיטה ולפיתוחה. בזכות תרומתו זו זכה לחלוק בתהילה עם גאוס, והמשפט המוכיח את האופטימליות של שיטת הריבועים הפחותים נקרא משפש גאוס-מרקוב.
השיטה והכללותיה משמשות עד היום ככלי מרכזי לניתוח סטטיסטי של נתונים, ונמצאת בשימוש גם במדעים המדוייקים וגם במדעי החברה, בעיקר בתחום הכלכלה. סטיבן לויט, מחבר הספר רב המכר "פריקונומיקס", כתב בספרו כי השימוש בשיטה הוא "יותר אמנות מאשר מדע". אני חולק על דבריו. זוהי שיטה מדעית, המבוססת על תיאוריה מתמטית. יש לה יתרונות עצומים, כמובן, אך גם מגבלות. המשתמש בה חייב תמיד להיות מודע למגבלות האלה, ולא, מסקנותיו יהיו שגויות.
עד כאן ה"ציונות". אבל מהי בעצם שיטת הריבועים הפחותים? אנסה כעת לתת הסבר שווה לכל נפש.
נניח כי יש בידינו קבוצת נתונים, שנאספה ממדגם כלשהו. לכל פרט במדגם יש שני נתונים כמותיים. לדוגמא, אם אנו מסתכלים על מדגם של כפרים, נתון אחד יכול להיות מספר החסידות שקיננו בכפר באביב, והנתון השני יכול להיות מספר הלידות שהיו בכפר בקיץ שלאחר מכן. כלכלנים יעדיפו אולי להסתכל על מדגם של מדינות, כאשר נתון אחד הוא גובה המס שמטילה ממשלת המדינה על העסקים בתחומה, והנתון השני הוא הכנסות הממשלה ממסים באחוזים מהתמ"ג. חוקרים בחברת תרופות יסתכלו על מדגם של חולים, ויאספו נתונים על מינון התרופה הנסיונית שניתן לכל חולה ועל השינוי במצבו. בכל מקרה, אפשר לשרטט את הנתונים שהתקבלו על מערכת צירים, ומתקבלת דיאגרמת פיזור (scatterplot). בשרטוט אנו רואים מדגם בגודל עשרה כפרים. הנקודה המסומנת בחץ, לדוגמא, מייצגת כפר במדגם בו קיננו עשר חסידות ונולדו שני תינוקות (הנתונים לא אמיתיים, כמובן, אלא נדגמו ממוחי הקודח):
|
|
נניח שאנו רוצים לגלות האם קיים קשר קווי בין שני המשתנים. במלים אחרות, אנו שואלים את עצמנו האם ניתן לשרטט על מערכת הצירים קו שיתאר את הקשר בין המשתנים? כמובן שאי אפשר לשרטט קו ישר שיעבור דרך כל 10 הנקודות, אבל ישנם הרבה (אינסוף) קוים שעוברים דרך "ענן" הנקודות שלנו. שרטטתי כמה מהם על פני מערכת הצירים. איזה מהם מתאר את הקשר בין שני המשתנים בצורה הטובה ביותר?
![]() |
הנה הרעיון של גאוס. הוא בחר קו ישר אחד, ומדד את המרחק האנכי מכל נקודה אל הקו. סימנתי את המרחק האנכי מכל נקודה אל הקו על השרטוט שלנו. בכפר הראשון, בו קיננו 2 חסידות והיו 10 לידות, המרחק האנכי (כלומר אורך הקו האדום) הוא בערך 5. בכפר השני, בו קיננו 3 חסידות והיו 5 לידות, אורך הקו האדום הוא בערך 0.5, אבל כיוון שהנקודה נמצאת מתחת לקו, המרחק האנכי הוא 0.5-.
|
|
הקו האידיאלי הוא זה שעבורו כל המרחקים האנכיים שוים לאפס, אבל קו כזה לא קיים בדרך כלל. לכן אין ברירה אלא לחשב את הקו האופטימלי. אפשר, למשל, לחפש את הקו שעבורו סכום המרחקים בערכיהם המוחלטים הוא מינימלי. גאוס הבין כי עדיף לחפש את הקו שעבורו סכום ריבועי המרחקים הוא מינימלי (מכאן השם "ריבועים פחותים" – "Least Squares"). גאוס גם הראה כיצד ניתן למצוא את הקו האופטימלי. כל קו ישר ניתן לאפיון מלא על ידי שני פרמטרים – שיפועו ונקודת החיתוך שלו עם הציר האנכי. לכן ניתן לרשום את סכום ריבועי המרחקים האנכיים כפונקציה של שני הפרמטרים האלה, ולמצוא את נקודת המינימום של הפונקציה. ניתן לעשות זאת על ידי שימוש בחשבון דיפרנציאלי או תוך כדי שימוש בשיקולים גיאומטריים/אלגבריים. אפשר לחשב ולמצוא כי הקו האופטימלי לנתונים שבדוגמא הוא:
|
|
ניתן לפרש זאת בערך כך: גם ללא חסידות יהיו בממוצע 6.8 לידות, וכל חמש (בערך) חסידות נוספות יביאו ללידת תינוק נוסף. אינטרפרטציה מפתה נוספת היא אינטרפרטצית הניבוי: מה יקרה בכפר בו יקננו 20 חסידות? אם נציב 20 בנוסחא, קו הריבועים הפחותים ינבא כי יהיו בכפר זה 10.6 לידות.
אבל, אבוי, קו הריבועים הפחותים אינו מאפשר ניבוי אמיתי. הפרמטרים הנאמדים (שהם כזכור שיפוע הקו ונקודת החיתוך שלו עם הציר האנכי) תלויים ישירות במקדם המתאם בין שני המשתנים. קו הריבועים הפחותים מתאר קשר אפשרי בין המשתנים, אבל לא סיבה ותוצאה. גם אם היינו מחליפים את תפקידי המשתנים, כמספר הלידות הוא המשתנה ה"מסביר" את מספר החסידות (כמשתנה ה"מוסבר"), מקדם המתאם בין שני המשתנים לא היה משתנה, וההסבר לפיו מספר החסידות מנבא את מספר הלידות הגיוני בדיוק כמו ההסבר לפיו מספר הלידות מנבא את מספר החסידות.
זאת ועוד: קו הריבועים הפחותים מתאר רק את מה שקורה בתחום הערכים בו צפינו. הוא לא יכול לומר לנו שום דבר על מהות הקשר בין המשתנים מחוץ לטווח הזה. במלים אחרות: קו הריבועים הפחותים הוא מודל תיאורי של הנתונים, וככזה הוא מוגבל להסברה של הנתונים המתוארים ותו לא. המציאות עשויה להיות שונה. באיור הבא מובאות ארבע דיאגרמות פיזור שמצאתי באינטרנט, עם קוי הריבועים הפחותים שהיו עשויים להתקבל לו הייינו מסתכלים רק על טווח חלקי של הנתונים:

קו הריבועים הפחותים מול המציאות - ארבע דוגמאות
גאוס הצליח בניבוי המסלול של צרס בעזרת קו הריבועים הפחותים כיוון שהסתבך על מודל מוצק, לפיו צרס (כמו שאר כוכבי הלכת) מקיף את השמש במסלול אליפטי. לאחר שיש מודל, הכלים הסטטיסטיים יכולים לאפשר את אמידת הפרמטרים שלו. ההיפך לא בהכרח נכון. ניתן להשתמש בכלים הסטטיסטיים כדי לתאר את הנתונים, אך אין די בכך כדי לבנות ולאשר מודל. לצערנו, ישנם אנשים שבכל זאת בונים מודל סביב הנתונים הסטטיסטיים שלהם, מבלי להתחשב במגבלות של כלי הרגרסיה.
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 1 בינואר, 2009. נושאים: האנשים שמאחורי הסטטיסטיקה, המשפטים הגדולים של הסטטיסטיקה, מה אומרת הסטטיסטיקה.
תגובות: 6
| טראקבק





