חיפוש באתר

קישורים

RSS סטטיסטיקה ברשת

עמודים

קטגוריות

תגיות

ארכיב עבור תגית ממוצע

The Simpson

במשחק השביעי והמכריע בסדרת גמר אליפות הכדורסל הארצית, התמודדה קבוצת ספרינגפילד בולס מול יריבתה המושבעת, קבוצת יוטה סופרגז. כצפוי, המשחק הוכרע על פי היכולות האישיות של כוכבי שתי הקבוצות: בארט מספרינגפילד ויוחנן מיוטה. במחצית הראשונה היו לבארט 40% אחוזי קליעה מהשדה, בעוד שיוחנן צלף ב- 50% מנסיונות הקליעה שלו.  במחצית השניה צפינו בהתעלות אישית של שני הכוכבים. בארט הדהים והכפיל את אחוז הקליעה שלו ל-80%, אך יוחנן שוב התעלה עליו, והשיג הישג בלתי יאמן של 90% קליעה. את סל הנצחון לזכות ספרינגפילד קלע בארט עם שריקת הסיום. הוא גם נבחר לשחקן המצטיין של המשחק המותח והשקול, לאחר שסיים אותו עם 67% קליעה, בעוד שאחוזי הקליעה של יוחנן במשחק היו בסופו של דבר נמוכים יותר: 63% בלבד.

לא, אין כאן טעות חישוב וגם לא טעות בסטטיסטיקה. למרות שיוחנן היה טוב יותר מבארט בכל אחת ממחציות המשחק, הרי בסיכום הכולל של המשחק בארט היה טוב יותר מיוחנן. זו תופעה סטטיסטית הידועה בשם "פרדוקס סימפסון".

הקוראים מוזמנים לעצור כאן, ולנסות למצוא מספרים ש-"יסתדרו" עם הדוגמא המלאכותית בה פתחתי. (המספרים שלי יובאו בהמשך הרשימה).

אולי הדוגמא המפורסמת ביותר לפרדוקס סימפסון היא פרשת ההפליה על רקע מגדרי בקבלה ללימודים מתקדמים באוניברסיטת ברקלי. בשנת 1973, נדהמו ראשי האוניברסיטה לגלות כי 44% מהגברים שנרשמו ללימודים מתקדמים (תואר שני ושלישי) באוניברסיטה התקבלו ללימודים, אך רק 35% מהנשים התקבלו. ראשי האוניברסיטה, שחששו מתביעה, הזעיקו לעזרה את הסטטיסטיקאי פיטר ביקל, וביקשו ממנו לבחון את נתוני הקבלה. ביקל ועמיתיו האמל ואו'קונל, פרסמו את ממצאיהם כעבור שנתיים בכתב העת היוקרתי Science. אביא כאן ניתוח של נתונים חלקיים אך מייצגים של נתוני הקבלה, כפי שהופיעו בספר הקלאסי של פרידמן ועמיתיו – Statistics.

sex bias

לצורך הדגמת העקרון, נתרכז בששת החוגים הגדולים ביותר באוניברסיטה, אליהם נרשמו קצת יותר משליש מהמועמדים והמועמדות (באוניברסיטת ברקלי יש למעלה ממאה חוגים שהציעו תכניות ללימודים מתקדמים). נתוני ההרשמה והקבלה לחוגים אלה נתונים בטבלה הבאה:

גברים

נשים

סך הכל

חוג

נרשמו

אחוז קבלה

נרשמו

אחוז קבלה

נרשמו

אחוז קבלה

A

825

62

108

82

933

64

B

560

63

25

68

585

63

C

325

37

593

34

918

35

D

417

33

375

35

792

34

E

191

28

393

24

584

25

F

373

6

341

7

714

6

סך הכל

2691

45

1835

30

4526

39

התמונה הכללית המוצגת כאן דומה לתמונה שהתגלתה בנתונים המלאים: 45% מהגברים התקבלו ללימודים, רק 30% מהנשים. אבל שימו לב: ברוב החוגים אחוזי הקבלה של גברים ונשים דומים זה לזה, עם הבדלים של אחוזים בודדים לכאן או לכאן. רק בחוג A נראה שיש (אולי) אפליה על רקע מגדרי: לחוג זה התקבלו 82% מהנשים, אבל רק 62% מהגברים. הנשים משחקות כאן את תפקידו של יוחנן, הגברים את בארט. איך זה קרה?

שימו לב כי לחוגים A ו-B קל להתקבל – כשני שליש מהנרשמים מתקבלים. יותר ממחצית הנרשמים הגברים ביקשו להתקבל לחוגים אלה. לחוגים C עד F הרבה יותר קשה להתקבל. יותר מ-90% מהנרשמות ביקשו להתקבל לחוגים אלה. אופס.

תופעות כאלה אינן נדירות כלל וכלל, ויש שפע של דוגמאות נוספות (ראו למשל בערך של ויקיפדיה על הנושא). הוול סטריט ג'ורנל, למשל, העלה את השאלה הבאה: האם נתוני האבטלה במשבר הכלכלי הנוכחי גרועים יותר מאלה של המשבר של תחילת שנות ה-80 של המאה הקודמת? נראה שלא, או לפחות עדיין לא: בנובמבר 1982 עמד אחוז המובטלים בארה"ב על 10.8%, בעוד שבאוקטובר 2009 היה אחוז המובטלים 10.2%. אבל, בקרב העובדים בעלי תואר אקדמי אחוז האבטלה ב-2009 גבוה מזה של 1982, וכך הדבר גם בקרב בעלי השכלה אקדמית חלקית, בוגרי תיכון, ובעלי השכלה תיכונית חלקית. מה שקורה הוא שכיום יש יותר בעלי השכלה אקדמית, שבקרבם אחוז האבטלה נמוך יחסית לקבוצות האחרות, והרבה פחות בעלי השכלה תיכונית חלקית, שבקרבם תמיד אחוז האבטלה גבוה יותר. אחוז האבטלה הכולל הוא ממוצע משוקלל על פי גודל תת האוכלוסיה, וכאשר משקלם של האקדמאים גבוה יותר, הם מושכים את הממוצע המשוקלל כלפי מטה.

באותו אופן, כאשר יותר נשים נרשמות לחוגים עם אחוזי קבלה נמוכים, הן מושכות את הממוצע המשוקלל של נתוני הקבלה לנשים כלפי מטה, בעוד שהגברים שנרשמו ברובם לחוגים עם תנאי קבלה קלים מושכים את הממוצע המשוקלל של נתוני קבלת הגברים כלפי מעלה.

ואם נחזור לבארט ויוחנן, הנה נתוני הקליעות שלהם:

בארט

יוחנן

מחצית ראשונה

נסיונות

10

20

קליעות

4

10

אחוז קליעה

40%

50%

מחצית שניה

נסיונות

20

10

קליעות

16

9

אחוז קליעה

80%

90%

כל המשחק

נסיונות

30

30

קליעות

20

19

אחוז קליעה

67%

63%

כל שחקן זרק את הכדור לסל 30 פעם במהלך המשחק, ובסך הכל יוחנן החטיא פעם אחת יותר מבארט. אבל בארט לקח את רוב הזריקות שלו במחצית השניה בה שני השחקנים התעלו, בעוד יוחנן הרבה לזרוק לסל במחצת הראשונה, בה גם הוצגה יכולת טובה, אבל פחות טובה מהיכולת המופלאה של המחצית השניה.

מה שראינו בשתי הדוגמאות היא נוכחות של משתנה מתווך (confounding variable). בדוגמת הכדורסל המשתנה המתווך הוא מחצית המשחק. אני מניח שיתפתח ויכוח האם תואר השחקן המצטיין אכן מגיע לבארט, או שמא יוחנן היה טוב יותר. מי היה נבחר אילו יוטה ניצחה במשחק? האם החלוקה למחציות משנה משהו? מה היה קורה לו היינו מסתכלים על נתוני המשחק לפי רבעים? האם יש טעם להסתכל על נתונים חלקיים של המשחק ולא על המשחק כשלם?

משתנה מתווך הוא משתנה המסביר את מבנה הקשר בין שני משתנים אחרים. דנתי בנושא כבר ברשימה הראשונה שפורסמה אי פעם בבלוג הזה (האם החסידה מביאה ילדים לעולם?). הדוגמא הקלאסית היא הקשר בין מספר הנעליים לידע במתמטיקה: בכל בית ספר תמצאו כי לתלמידים שמספר הנעליים שלהם גדול יותר יש ידע רב יותר במתמטיקה (גילוי נאות: מספר הנעליים שלי הוא 46). מהו המשתנה המתווך בדוגמא זו?

בדוגמת נתוני האבטלה המשתנה המתווך הוא ההשכלה, ובדוגמא של אוניברסיטת ברקלי הדברים לדעתי קצת יותר ברורים. אין טעם, לדעתי, להסתכל על הנתונים הכוללים של האוניברסיטה, ויש לבחון מה המצב בכל חוג בנפרד. החוג (ומדיניות הקבלה שלו) הוא משתנה מתווך בין המגדר ובין אחוז הקבלה הכולל.

בזמנו פרסמתי כאן בבלוג רשימה שעסקה בנושא הממוצע המשוקלל תחת הכותרת "ממוצע משוקלל – איך ולמה" שזכתה לתגובות רבות ועוררה פולמוס עז בתגובות. הטענה שטענתי שם, ואני עדיין עומד מאחוריה, היא כי יש טעם בחישוב ממוצע משוקלל רק אם המשקלות מתאימים, ובמקרה של מיצוע יחסים, המשקל המתאים הוא המשתנה שבמכנה. כך, טענתי, יש למצע מהירויות תוך כדי שקלול בזמני התנועה, יחסי חוב-תוצר יש לשקלל בתוצר, וכן הלאה. שימו לב כי כל המדדים הכוללים שהובאו כאן הם ממוצעים משוקללים נכונים. בדוגמת הכדורסל אחוז הקליעות הכולל של כל שחקן הוא ממוצע משוקלל של אחוזי הקליעות בכל מחצית כשהמשקלות הם מספר הזריקות לסל בכל מחצית. בדוגמא של אוניברסיטת ברקלי, אחוז הקבלה הכולל של הנשים (גברים) הוא ממוצע משוקלל של אחוזי הקבלה של הנשים (גברים) בכל חוג, כשהמשקלות הם מספר הנשים (גברים) שניסו להתקבל לכל חוג. בדקו זאת!

את הרשימה על הממוצע המשוקלל כתבתי כהמשך לרשימה קודמת בנושא "ממוצע פוליטי" שם יצאתי נגד חישוב ממוצע כלשהו באחד ממסמכי משרד האוצר, וטענתי (או יותר נכון, תמכתי בסבר פלוצקר שטען) כי על האוצר היה להשתמש בממוצע משוקלל ולא בממוצע פשוט. אז הנה אשאל את השאלה לפני שתעלה בתגובות. אם הממוצע המשוקלל בברקלי הוא ממוצע משוקלל על פי המשקלות הנכונים, כפי שאני טוען, הרי שברקלי אכן הפלתה נשים לרעה בקבלה לאוניברסיטה. ורק לפני כמה פסקאות נכתב כאן כי אין לדון בממוצע המשוקלל אלא הנתונים הפרטניים???

גם כאן יש לי תשובה, אך היא אינה מתמטית. התשובה שלי היא שיש תמיד לזהות את המשתנה המתווך (אם ישנו כזה) ולהעריך את חשיבותו לטיב הקשר בין המשתנים (ראו את תגובתו המצויינת של דודי קינג לרשימה "ממוצע פוליטי") . סטטיסטיקאי טוב (כמו פיטר ביקל, למשל) יעשה את זה, ולא יסתפק רק בהצבת נתונים בנוסחאות. אין כל ספק שאחוז הקבלה הכולל של נשים באוניברסיטת ברקלי נמוך מזה של הגברים. כל מי שיודע לחשב ממוצע יכול לומר את זה. השאלה החשובה היא האם האחוז הנמוך נובע מאפליה מכוונת או מסיבות אחרות, ולשם כך צריך גם קצת חשיבה סטטיסטית, לא רק חישובים סטטיסטיים.

חידה יפה

דוברמן פרסם אתמול בבלוג שלו חידה יפה. כל מי שמבין קצת את תכונות הממוצע יפתור מייד. לי החידה הזו הזכירה את התרעמותו של אחד הפוליטקאים שהיו בארץ אי שם בשנות המונים, שהתרעם כי ישנם שכירים ששכרם נמוך מהשכר הממוצע במשק.

ממוצע משוקלל – איך ולמה

אדם יצא לדרך של 240 ק"מ במכוניתו. את המחצית הראשונה של הדרך, 120 ק"מ, נסע במהירות של 40 קמ"ש. את המחצית השניה נסע במהירות 60 קמ"ש. מה הייתה מהירותו הממוצעת לאורך הדרך?

ברשימתי הקודמת הבאתי דברים שכתב סבר פלוצקר בעיתון "ידיעות אחרונות" לפני כשבוע. הוא הביא דוגמא בה הציג משרד האוצר ממוצע פשוט של נתונים מ-28 מדינות, ובכך קיבל נתון מטעה ושונה מהנתון המקביל של ארגון OECD, שהציג ממוצע משוקלל. הקוראים אייל ב.ד. ושחר הצביעו בתגובות לרשימה על מאמר באתר העוקץ, שבו הייתה תלונה הפוכה: אותו מאמר התלונן על כך שכשהאוצר משווה את נטל המס הוא משתמש בממוצע משוקלל.

אז מתי נכון להשתמש בממוצע משוקלל? האם רק כשנוח לך? או שאולי יש הגיון מאחורי הממוצע המשוקלל והשימוש בו?

בואו נחזור לנהג בדוגמא המלאכותית שפתחה את הפרק.

אם נחשב את מהירותו הממוצעת כממוצע פשוט, נקבל כי מהירות הממוצעת הייתה 50 קמ"ש לאורך הדרך. אבל אני משוכנע שכולכם תשתכנעו כי משהו לא בסדר בחישוב הזה. כדי לחשב את המהירות הממוצעת יש לחלק את הדרך הכוללת שעבר אותו אדם בסך הזמן הכולל שבו שהה בדרך. הדרך שהוא עבר שווה ל-240 ק"מ. את 120 הק"מ הראשונים עבר במהירות 40 קמ"ש, כלומר דרכו ארכה 3 שעות. את החלק השני עבר במהירות 60 קמ"ש, ולכן עבר את החלק הזה בשתי שעות. בסה"כ עבר האיש 240 ק"מ ב-5 שעות, ולכן מהירותו הממוצעת הייתה 48 קמ"ש (240 חלקי 5). החישוב שעשינו כעת הוא ממוצע משוקלל: שיקללנו את המהירויות בשני חלקי הדרך לפי משך הזמן בו שהה אותו אדם בכל אחד מחלקי הדרך.

מהירות ממוצעת

מכאן אפשר לעשות אנלוגיה מהמהירות אל היחס החוב לתוצר.

המהירות הממוצעת אינה אלא היחס בין הדרך הכוללת לזמן הכולל. את המהירות הממוצעת על פני מספר קטעי דרך,יש לחשב על ידי חלוקת סך הדרך בסך הזמן, או, באופן שקול, על ידי חישוב ממוצע משוקלל של המהירויות, כשאר הזמנים מהווים את המשקלות.

באותו אופן, את היחס הממוצע בין החוב הציבורי לתוצר על פני מספר מדינות, יש לחשב על ידי חלוקת סך החוב הציבורי בסך התוצר, או, באופן שקול, על ידי חישוב ממוצע משוקלל של יחסי החוב-תוצר, כשאר התוצרים מהווים את המשקלות.

המסקנה ברורה: בחישוב היחס בין החוב הציבורי לתוצר ב-28 מדינות OECD, משרד האוצר של ישראל שגה (ואולי אף הטעה), סבר פלוצקר וארגון OECD צדקו.

נותר רק לברר מה קרה באתר העוקץ. האם תלונתם על שימוש האוצר בממוצע המשוקלל היא קנטרנית? צריך לבדוק. המאמר באתר העוקץ מצטט כתבה בעיתון הארץ שבה נאמר: " "ממשרד האוצר נמסר כי נטל המס בישראל עדיין גבוה מהממוצע במדינות ה-OECD, שאליו עתידה ישראל להתקבל כחברה. נטל המס בישראל ב-2005 היה כ-37% מהתמ"ג, לעומת כ-32% מהתמ"ג במדינות ה-OECD. מצב זה נובע מנטל מס עקיף של 18%, הכולל מסי קנייה, לעומת כ-10% מהתוצר במדינות המערב". הבעיה היא שהנתון שמפרסם האוצר סותר את נתון ה-OECD. לפי נתוני האוצר, נטל המס הממוצע בארגון OECD הוא 32% מהתמ"ג, בעוד שלפי ארגון OECD הנטל הממוצע הוא 36.3% (ראו טבלה מספר 1 בעמוד 14 של קובץ ה-pdf הזה שנמצא באתר מכון ון-ליר, גם תרשים מספר 1 בעמוד 13 של המסמך, יראה לכם כי הטל המס בישראל דומה לזה של מדינות OECD מאז 1990). אנחנו יודעים ש-OECD משתמש בממוצע משוקלל על פי התוצר, ומהדיון שנערך עד כה, אנו יודעים כי זהו השקלול הנכון. כיוון שהחישוב של האוצר נתן תוצאה אחרת, הרי שהחישוב של האוצר שגוי. אם הוא משתמש בממוצע משוקלל, אז המשקלות אינם נכונים. הבעיה היא כמובן שאין אפשרות לדעת מה היו משקלות האוצר, שכן הנתון הזה נשאר חסוי (הוא לא פורסם בהודעה לעיתונות של האוצר). מה קורה כשמשתמשים במשקלות הלא נכונים? התמונה מתעוותת, כמובן. באתר העוקץ נרמז כאילו השקלול של האוצר היה לפי גודל האוכלוסיה (הייתה התייחסות אל ארה"ב ויפן כאל "מדינות גדולות") אבל אני לא בטוח שזה אכן היה השקלול.

כדי להדגים מה קורה בשקלול לא נכון אחזור לדוגמא שבה פתחתי את הרשימה. נניח שהנהג שלנו נסע את 120 הק"מ הראשונים בתל-אביב שאוכלוסייתה היא כ-360,000 איש, ואת החלק השני של הדרך ברמת השרון שאוכלוסייתה היא כ-36,000 איש. שקלול לפי גודל האוכלוסיה הייה נותן לנו את התוצאה שמהירותו הממוצעת הייתה בערך 42 קמ"ש.

פורסם לראשונה באתר "רשימות" בתאריך 2 בדצמבר 2007  שם התקבלו 47 תגובות

אדם  בתאריך 12/1/2007 8:54:39 PM

יוסי היקר

הרשומה מיושרת לצד שמאל של המסך, (או שמא זה המצב רק אצלי?) – האם תוכל לתקן אותה כך שניתן יהיה לקרוא בנוחות?
באותה הזדמנות – תודה על כל הרשימות הנפלאות, אני נהנה כל פעם.
אדם

הכלכלן המתוסכל  [אתר]  בתאריך 12/1/2007 9:08:57 PM

ללא נושא

מצטרף לאדם, זה לא רק אצלו. קשה מאד לקרוא ככה

דרור שניר  בתאריך 12/1/2007 10:10:07 PM

ללא נושא

יש באמת בעיה עם היישור לימין בדף, אבל בינתיים אתם יכולים לטפל בבעיה בצד שלכם:
* עבור אינטרנט אקספלורר: לחיצה על כפתור ימני מעל הטקסט, בחירה בתת-תפריט Encoding [קידוד], ואז בחירה באפשרות Document right to left [מסמך מימין לשמאל]. זה הכל ועובד בכל מקום.
* פיירפוקס: לחיצה על כפתור ימני מעל הטקסט ובחירה באפשרות Switch page direction.

יוסי לוי  [אתר]  בתאריך 12/1/2007 11:24:34 PM

ללא נושא

לא ברור לי מה קרה. אנסה לתקן את זה בבוקר

יוסי לוי  [אתר]  בתאריך 12/2/2007 9:00:54 AM

העימוד תוקן

תודה לכל מי שהעיר את תשומת ליבי.

דוגמא נגדית  בתאריך 12/2/2007 5:49:59 PM

יוסי,

כפי שכבר אמרתי לך במאמר שעסק בפרסומי האוצר – אתה טועה מבחינת השאלה שאותה צריך לשאול.
כעת אומר לך – אתה טועה גם מהבחינה המתודית;
אין ספק שבמקרה של בעיית התנועה יש להשתמש בממוצע משוקלל: יש שני מ"מ שהם פונקציה של משתנה שלישי (דרך, מהירות וזמן בהתאמה). יש כאן עוד קשר והוא שהדרך קשורה פונקציונלית למהירות ולזמן, ולכן התפלגות המנה של דרך חלקי מהירות משרה התפלגות על הזמן שביחס אליה יש לערוך את המיצוע.
במקרה של הדו"ח שהזכרת יש את המ"מ התמ"ג והמנה בינהם (וההתפלגות של השניים הקודמים משרה עליה התפלגות חדשה). הבעיה שצומחת היא שאיננו יכולים להציג את החוב והתמ"ג כפונקציות של היחס בין החוב לתמ"ג בלבד. השדה של המ"מ השלישי לא נקבע באופן יחיד ע"י שני המ"מ הראשונים, ולכן צריך כאן איזו התפלגות על השדות. באיזה התפלגות נבחר? אלוהים יודע!
אבל – אפשר לשקול שיקולים שונים. שיקול של אינפורמציה (יחד עם העובדה שאפשר לשכן את הבעיה במרחב מדגם סופי, שכולל את המדינות האמורות), ללא כל ידיעה מוקדמת על מתאם בין המ"מ, יניב התפלגות אחידה (כמובן שמידע על מתאמים בין המ"מ משנים הכל…).

יוסי לוי  [אתר]  בתאריך 12/3/2007 7:58:05 AM

לדוגמא נגדית

אני מצטער אבל גיבוב של מלים גבוהות (כגון מ"מ, שדות, התפלגות וכולי) לא מהווים טיעון.
הנושא שעמד לדיון פשוט מאוד – יש תצפיות על נתון, שהוא יחס בין שני נתונים אחרים. איך למצע אותם? מה קשורה כאן ההתפלגות? המתאם בין המשתנים לא משנה את הממוצע.

דוגמא נגדית  בתאריך 12/3/2007 11:19:13 AM

מה קשור?

אז הנה:
אתה נתת דוגמא לשני משתנים מקריים מעל מרחב מדגם שהוא הזמן, שיש בינהם קשר (נגזרת). הקשר הזה קובע באופן יחיד את ההתפלגות שצריך לשים על הזמן כדי לחשב את המהירות הממוצעת (כאן לזמןיש התפלגות ולדרך יש התפלגות ויש צפיפות יחידה על המהירות – "נגזרת רדון ניקודים", כך שהדרך הממוצעת שווה לממוצע של הצפיפות ביחס לזמן).
המקרה השני שונה לחלוטין! המשתנה בו תלויים המשתנים הוא המדינות ולא איזו מן "נגזרת" שקיימת בינהם. לפיכך אין התפלגות אחת ויחידה שנגזרת מהנתונים על מרחב המדגם. כל התפלגות שנבחר תהייה שרירותית, משום שהנ"ל לא תקף עוד.
לעניין המתאם: כדאי שתנסה לקרוא קודם! אני הצעתי לבחור בהתפלגות שנוצרת משיקולי אנטרופיה, והיא (אם המשתנים תוצר וחוב ב"ת) ההתפלגות האחידה שנותנת את הממוצע האריתמטי. אם המשתנים חוב ותוצר תלויים, ההתפלגות שתיוצר (על המדינות!!) משיקולי האנטרופיה תהייה שונה (כי אפשר "ללמוד" ממשתנה אחד משהו על היחס), ובפרט הממוצע יהיה שונה.
נ.ב. – מקווה שלא גיבבתי יותר מדי מילים גבוהות הפעם…

דוגמא נגדית  בתאריך 12/3/2007 11:20:37 AM

תיקון-

בסוף הפסקה הראשונה זה צריך להיות "דרך" ולא "דרך ממוצעת"…

דוגמא נגדית  בתאריך 12/3/2007 11:37:31 AM

טעיון נוסף ופשוט

שיבהיר מדוע הטענה של יוסי מופרכת:
איך צריך לחשב את התמ"ג הממוצע של המדינות?
ובכן: לפי הטיעון של יוסי, התמ"ג הוא היחס בין החוב ל"חוב:תמ"ג". לפיכך צריך לחשב את הממוצע כממוצע משוקלל כשהמשקולות מגיעות מההתפלגות של "חוב:תמ"ג".
באותו האופן התמ"ג הוא היחס בין שער המטבע לבין "שער מטבע:תמ"ג", ולכן יש לחשב את הממוצע לפי המשקולות שמגיעות מההתפלגות של "שער מטבע:תמ"ג".
אבל, המשקולות בשני המקרים יכולות להיות שונות. אז באילו נשתמש? כאן אני מתערב ואומר ששתיהן שרירותיות, ולכן צריך למצוא שיקול מנחה אחר (או, לחילופין – לעבוד מאוד קשה על מציאת קשרים פונקציונליים בין המשתנים השונים).

יוסי לוי  [אתר]  בתאריך 12/3/2007 4:48:26 PM

סיכום הדיון עם דוגמא נגדית

סיכום הדיון עם דוגמא נגדית (מבחינתי לפחות):
אני עדיין סבור שהטיעון שלך הוא גיבוב של מילים, אבל מצד שני, אם אתה טוען שהסטטיסטיקאים בארגון OECD טועים ואתה דווקא צודק, אני לא מתכוון להמשיך להתווכח איתך בנושא הזה.
למעוניינים, אני מצרף לינק למאמר המתייחס לתופעה בה צפינו בתגובות לרשימה זו, שפורסם באתר האייל הקורא לפני מספר שנים:
http://www.haayal.co.il/story_1571

ילד ירוק  [אתר]  בתאריך 12/7/2007 3:16:16 PM

יוסי, אני דווקא מסכים עם דוגמה נגדית

למרות הסרבול המילולי של ההסבר שלו אני לא חושב שמדובר בטרחן מתמטי. ניתן להבין (אני לפחות הבנתי) את הטיעון שלו ולדעתי הוא כן תקף.
אני אסביר זאת באמצעות דוגמה אחרת. נניח שיש 4 ערים ושני איזורים (בכל איזור יש שני ערים), לכל עיר יש נטל מס אחר, ושטח אחר.
הנה נתונים:
עיר א':
שטח: 1000 מ"ר
נטל מס: 90%
עיר ב':
שטח: 0 מ"ר (נניח לשם הפשטות החישובים).
נטל מס: 0%
איזור 2:
עיר ג':
שטח: 500 מ"ר.
נטל מס: 50%.
עיר ד':
שטח: 500 מ"ר.
נטל מס: 50%.
עכשיו נניח שאתה אדם, שיכול לבחור באיזה מן האיזורים לחיות (אתה לא יכול לבחור באיזה עיר). כעת נניח שני דרכים שבהם אתה מוגרל בערים אחרי שאתה בוחר את האיזור:
א. אתה בוחר את האיזור ואז אתה מוגר רנדומלית לאחת הערים בו. במקרה הזה, כדי לחשב את תוחלת נטל המס, היגיוני מאוד להשתמש בממוצע פשוט של הערים:
איזור א': ממוצע נטל המס הוא 45%.
איזור ב': ממוצע נטל המס הוא 50%.
ב. נניח תרחיש אחר, במקום להיות מוגרל רנדומלית לאחת מהערים באיזור, אתה תטוס מלמעלה במטוס ותצנח באחת מהערים (ושם תישאר). במקרה הזה, יהיה מאוד לא היגיוני להשתמש בממוצע פשוט כדי לשקלל את נטל המס, מכיוון שגורם ההחלטה שלך מושפע מאוד מהשטח של העיר. במקרה הזה אם נשתמש בממוצע משוקלל לפי שטח, הרי ש:
הממוצע של איזור א' הוא: 90%.
והממוצע של איזור ב' הוא: 50%.
ותעדיף בהרבה את איזור ב'.
הנקודה שדוגמה נגדית ניסה להעביר וגם אני סמכים איתו, שבדוגמה הראשונה יש לך קשר מתמטי אינהרנטי בין ההגדרה של מהירות ממוצעת לזמן (ולכן אתה חייב להתחשב בו). מצד שני בדוגמה עם יחס החוב\תמ"ג, ברגע שאתה משתמש בתמ"ג כמשקולת לשקלל לפיה, הרי שזה שרירותי בדיוק כמו להשתמש בכמות האוכלוסיה בכל מדינה, או בשטח של כל מדינה. קודם נדרש להוכיח שיש כאן קשר למטרה שעבורה מובא החישוב, או שזאת דרך נכונה יותר למשקל לפיו.
ולצערי אין הסבר בפוסט הזה למה לשקלל דווקא לפי התמ"ג.
אשמח להתייחסותך, ואני מקווה שלא תקטלג גם אותי כטרחן 😉

יוסי לוי  [אתר]  בתאריך 12/13/2007 9:47:44 AM

תגובה לילד ירוק

אני לא מבין את הדוגמא, אך מבין שלא הובנתי.
אנחנו דנים ביחס בין שני משתנים. היחס הזה חושב במספר יחידות נפרדות (מדינות, – לצורך העניין). עכשיו אנחנו מעוניינים לחשב את היחס הכולל בכל היחידות יחד. אפשרות אית היא לחבר את כל המונים, לחבר את כל המכנים, ולחלק סכום בסכום. אפשרות שניה היא לשקלל את היחסים על פי המכנים. שתי הדרכים שקולות מתמטית (קל להוכיח) ויתנו את אותה התוצאה. כל שקלול אחר ייתן תוצאה שגויה.
אם אנחנו צדברים על יחס חוב תוצר, צריך לחבר את כל החובות ולחלק בסך כל התוצרים, או לחשב את היחס בכל מדינה לחוד, ולקלל את היחסים לפי התוצרים. אלגברית, זה אותו דבר, וזה שונה מכל שקלול אחר של יחסי החוב.תוצר.

ילד ירוק  [אתר]  בתאריך 12/14/2007 7:16:12 PM

ללא נושא

דווקא הבנתי את כוונתך יוסי, אך אני עדיין חושש שלא הבנת את שלי. אני אתן דוגמה מקבילה יותר כדי להראות שיש הבדל ערכי בין שימוש בממוצע פשוט לממוצע משוקלל.
נניח שאנחנו מעוניינים לראות האם מדינות ביבשת מסויימת נוטות לתת עונש מוות לפושעים שהורשעו ברצח. (כלומר לחשב את היחס בין רוצחים שניתן להם בעונש מוות לבין כלל הרוצחים)
יש לנו את הנתונים הבאים:
במדינה אחת היו מיליון מקרים מתוך מיליון מקרים של עונש מוות לרוצחים.
ב100 מדינות אחרות (קטנות הרבה יותר) היו 0 מקרים של עונש מוות מתוך 10 פושעים שהואשמו מרצח (כלומר לכל מדינה זה 0\10).
עכשיו אם תחשב את זה בממוצע משוקלל (כמו שאתה מציע לגבי יחס חוב\תוצר), יתברר שביבשת הזאת הממוצע של עונש מוותר לרוצחים הוא 99%, ולכן המדינות בו מאוד לא "הומניות" (למרות שהממוצע המשוקלל במקרה הזה משקר).
בעצם כשאתה מבצע ממוצע משוקלל אתה גורם לכך שאתה נותן סוג של משקל לגודל היחס המחושב במדינה. אני ממש לא בטוח שזה הדבר הנכון לעשות, במיוחד במקרה בו אנחנו מדברים על הבחירה של כמה חובות לקחת שהיא החלטה שכל ממשלה עושה בנפרד.
אשמח להתייחסות נוספת.

יוסי לוי  [אתר]  בתאריך 12/16/2007 10:51:08 AM

טוב

אתה מדבר על הבעייתיות הכללית של הממוצע – העובדה שהוא מושפע מתצפיות חריגות – וזה נכון גם לממוצע פשוט וגם לממוצע משוקקל.
כתבתי על זאת בהרחבה ברשימה על המנהל והפועלים, כאן: http://www.sci-princess.info/archives/7093.asp
וגם כאן: http://www.sci-princess.info/archives/7224.asp
זה לא נוגד את הטענה שאם משקללים, צריך לעשות זאת לפי המשקלות הנכונים

ילד ירוק  [אתר]  בתאריך 12/17/2007 7:28:03 PM

ללא נושא

לא אנחנו עדיין לא מסונכרנים, לא מדובר כאן על זה שממוצע לא מכסה את עניין השונות שהוא עניין חשוב בפני עצמו.
אלא כי השימוש בממוצע משוקלל (לפי גודל התופעה) הוא לא נכון יותר משימוש בממוצע פשוט. הכל מאוד תלוי בהקשר בו מסתכלים על הנתונים. בדוגמה שנתתי לך קודם ממוצע משוקלל יהיה נכון אם נשאל את השאלה
"בממוצע כמה אחוז מהמורשעים ברצח נהרגים ביבשת X"
לעומת זאת ממוצע פשוט יהיה נכון יותר אם נשאל את השאלה:
"בממוצע מה המדיניות של המדינות באיזור כלפי הוצאה להורג של מורשעים ברצח?"
הטיעון המרכזי שלי הוא שבמקרה המקורי של יחס חוב\תוצר. היגיוני יותר דווקא כן להשתמש בממוצע פשוט, מהסיבה הבאה:
כשאנחנו רוצים להשוות את ישראל לשאר המדינות בהקשר של יחס חוב\תוצר אנחנו מעוניינים לדעת בעצם איך ישראל מנהלת את המשמעת התקציבית שלה ביחס לשאר המדינות. מהסיבה הזאת היגיוני יותר להסתכל על התנהלות של כל מדינה בנפרד (ולתת אותו משקל לארה"ב ולוכסמבורג), כי כל מדינה עושה את "ההחלטה" של לאיזה גירעון להיכנס בנפרד.

יוסי לוי  [אתר]  בתאריך 12/18/2007 9:18:25 PM

תשובה לילד ירוק

חזרנו למשבצת הראשונה ממנה התחיל כל הדיון הזה (http://www.sci-princess.info/archives/38758.asp):ההצדקה שלך לשימוש בממוצע פשוט במקרה הזה היא אידיאולוגית, לא סטטיסטית.

אליהו כץ  בתאריך 12/19/2007 2:32:27 AM

ניסיון משלי

שלום יוסי,
כדי להפריך את הטענה (אם הבנתי אותה נכון) אתה צריך להסביר (דבר שלא עשית במאמר), מדוע בחרת דווקא במשקולת של תמ"ג לחישוב הממוצע המשוקלל ולא השתמשת בכל משקולת אחרת (לדוגמא החוב או גודל האוכלוסיה) ?
או במילים אחרות – למה לתת יותר משקל לכלכלות יותר גדולות?

יוסי לוי  [אתר]  בתאריך 12/19/2007 9:26:37 AM

אליהו

אתה קראת את המאמר? לפי התגובה שלך פה – לא נראה לי.

אליהו כץ  בתאריך 12/19/2007 2:18:02 PM

כן יוסי קראתי

ואני גם מבין שכנראה את הצודק , אני רק אשמח אם גם תסביר מדוע
הדבר הלא מובן בטיעון שלך, הוא הקפיצה הלוגית מהפיסקה שמתחילה ב "המהירות אינה אלא היחס " לפיסקה שבאה אחריה
אם לא ברורה לך הבעיה בקפיצה זו תעיין שוב בתגובה של "דוגמא נגדית" מתאריך 12/3/2007 11:37:31
(במיוחד תסתכל על הדוגמא שהוא נותן).
תודה על ההתיחסות.

ילד ירוק  [אתר]  בתאריך 12/20/2007 7:47:08 PM

לא חזרנו לאותה הנקודה

כי הטיעון שלי שהרעיון להשתמש בממוצע משוקלל לעומת ממוצע פשוט בהקשר הזה הוא מוטה אידיאולוגית לא פחות, אין כאן משהו "נכון" מבחינה סטטיסטית. השאלה היא איזה נתונים אנחנו מנסים להשיג.
ובהקשר הזה כפי שהסברתי, בהקשר של השאלה עליה אנחנו מנסים לענות (לתקף את מדיניות ישראל בהקשר החוב ביחס לתל"ג) השימוש בממוצע פשוט נותן לנו תשובה טובה יותר מאשר שימוש בממוצע משוקלל.

יוסי לוי  [אתר]  בתאריך 12/20/2007 9:00:49 PM

תשובה לאליהו

אני לא מתכוון להתייחס לטיעונים של "דוגמא נגדית" – כפי שציינתי מדובר בבליל של מלים שמנסות ליצור רושם.

יוסי לוי  [אתר]  בתאריך 12/20/2007 9:02:00 PM

שאלה לילד ירוק

האם גם חישוב המהירות הממוצעת שהצעתי הוא "מוטה אידיאולוגית"?

אוהד ק  בתאריך 12/24/2007 9:41:32 PM

יוסי צודק

יש להשתמש בתמ"ג כמשקולת, ולא בפרמטרים אחרים כגון מספר התושבים. זאת פשוט מכיוון שהגורם הממוסה הוא התוצר המקומי (שהוא ביטוי של כלל ההכנסות במדינה) ולא התושבים. לכן כל שקלול אחר יניב תוצאה חסרת היגיון כלכלי.

יוסי לוי  [אתר]  בתאריך 12/25/2007 7:33:38 AM

לאוהד

תודה על התמיכה, אבל גם הנימוק שלך לא מתקבל על דעתי. השיקול אם לשקלל ובמה הוא סטטיסטי, לא כלכלי.
לכן יש רק שקלול אחד נכון.
בדרך כלל השקלול הנכון הוא גם בעל משמעות לתחום היישומי ממנו נלקיו הנתונים, אך לא תמיד.

ילד ירוק  [אתר]  בתאריך 12/25/2007 9:52:36 PM

ללא נושא

יוסי, כמו יהודי טוב אני אענה לך על שאלה בשאלה אחרת:
נניח שאתה רוצה לחשב את המהירות המקסימלית הממוצעת של כמה מכוניות (כלומר המהירות הכי גבוהה שבה המכונית הייתה אי פעם), האם אתה הולך לעשות ממוצע פשוט, או לשקלל את זה לפי כמות הקילומטרים שכל מכונית נסעה (והזמן שלה על הכביש כמובן)?
כשתענה על השאלה הזאת, אני מזמין אותך לחשוב למה הדוגמה הזאת יותר דומה למצב בו אנו עוסקים מאשר הדוגמה של המהירות שסיפקת במהלך הפוסט שלך.

עופר  בתאריך 12/26/2007 12:46:14 PM

עוד דוגמה

נניח שקוראי בלוגים מתבקשים לתת ציון לבלוגים שהם קוראים.
קוראי הבלוג של יוסי נתנו לו ציון 8.5 (500 מדרגים)
קוראי הבלוגים של א',ב', וג' נתנו להם את הציונים: 10, 6,5 ע"י 100000, 500 ו-1000 מדרגים בהתאמה.
איך נכון להעריך את הבלוג של יוסי ביחס לאחרים?
ממוצע הדירוגים של אתרים אחרים הוא 7, ולכן יוסי הוא מעל הממוצע, או ממוצע משוקלל של כמעט 10 לשאר האתרים ולכן הבלוג של יוסי הוא מתחת לממוצע?
התשובה באיזה ממוצע צירך להשתמש תלויה בשאלה שרוצים לקבל עליה תשובה. הסטטיסטיקה לא יכולה להחליט בשבילנו לאיזה שאלה אנחנו רוצים תשובה.

יוסי לוי  [אתר]  בתאריך 12/27/2007 9:53:58 AM

תשובה לילד ירוק

אתה בעצמך נתת את התשובה בשאלה שלך: הנתון מתייחס למכונית, ולכן יש לחשב את הממוצע לפי המכוניות. יש יכול להיות ממוצע "פשוט" או "משוקלל" כרצונך: נניח שיש 3 מכוניות, אחת מהן הגיע למהירות מקסימלית של 100 קמ"ש, ושתי האחרות ל-120 קמ"ש. אז אתה יכול לחבר 100 ל-120 ל-120 ולחלק ב-3, או לשקלל את 100 ו-120 במשקלות של 1 ו-2 בהתאמה.

יוסי לוי  [אתר]  בתאריך 12/27/2007 9:56:01 AM

הערה לתגובה של עופר

"התשובה באיזה ממוצע צירך להשתמש תלויה בשאלה שרוצים לקבל עליה תשובה. הסטטיסטיקה לא יכולה להחליט בשבילנו לאיזה שאלה אנחנו רוצים תשובה."
זה נכון כמובן, אבל שאלה לא פחות חשובה היא היא לאיזה שאלה עונה התשובה שלך. אתה יכול לשאול איזה שאלה שאתה רוצה, ולתת גם איזה תשובה שאתה רוצה, אבל אם אתה רוצה להשתמש בסטטיסטיקה, אתה חייב לעשות את זה ללא שגיאות והטעיות.

ילד ירוק  [אתר]  בתאריך 12/28/2007 7:54:10 PM

מה ההבדל?

בשתי "הדרכים" שנתת אתה מבצע בעצם אותו דבר וזה ממוצע פשוט של המהירויות על סמך המכוניות (המשקולות שאתה נותן הן מנוונות ושקולות מתמטית למציאת מכנה משותף, זה לא הופך את הממוצע למשוקלל – זה ממוצע פשוט שבו כינסת איברים).
אם נחזור לדוגמה המקורית הרי שבאותה מידה אתה יכול לבצע ממוצע פשוט של יחסי החוב\תל"ג לפי כל מדינה בדיוק כפי שאתה מבצע ממוצע פשוט של המהירויות המקסימליות כאן. (כשמדינה שקולה למכונית)
גם בנושא המקורי עליו דיברנו כמו בדוגמת המהירות המקסימלית יחס החוב\תל"ג מהווה Snapshot רגעי של המצב ולא אינטגרל על פני זמן כמו הדוגמה של המכונית האחת שנוסעת הלוך וחזור. ולכן נכון יותר מבחינה רעיונית לבצע ממוצע פשוט לפי מדינות, ולא להשתמש בתל"ג כמשקולת לממוצע (להשתמש בתל"ג כמשקולת לממוצע בדוגמה המקורית זה קצת כמו להשתמש בזמן שכל מכונית הייתה על הכביש כדי לשקלל את המהירויות המקסימליות).

יוסי לוי  [אתר]  בתאריך 12/30/2007 5:36:52 PM

לילד ירוק – בראבו

נראה שהבנת סוף סוף שממוצע משוקלל הוא בסה"כ כתיבה מקוצרת של הממוצע ה"רגיל" – ואני כותב "רגיל" במרכאות כי יש רק ממוצע אמיתי אחד.
גם בנושא שקלול יחס החוב/תמג אין הבדל: שקלול
היחסים על פי המכנים (התמג) שקול מתמטית לסיכום כל החובות וחלוקתם בסך כל התמגים

ילד ירוק  [אתר]  בתאריך 12/31/2007 7:36:03 PM

אבל יוסי זה סתם להחטיא את הנקודה

למה זה יותר היגיוני מלחשב את כל יחסי החוב\תמ"ג וחלוקתם במדינות?
(אני חוזר איתך לדוגמה של הרוצחים וההוצאות להורג כי זה שקול בדיוק).

יוסי לוי  [אתר]  בתאריך 1/1/2008 7:58:53 AM

כמעט מרים ידיים

נסיון אחרון:
חישוב כל היחסים, אחד בכל מדיה, סיכומם וחלוקה במספר המדינות נותן את ממוצע היחסים.
שקלול יחסי החוב/תמג לפי התמג בכל מדינה, שקול לסיכום כל החובות וחלוקתו בסיכום כל התמגים, וזהנותן לך את היחס הממוצע של חוב/תמג על פני כל המדינות

ילד ירוק  [אתר]  בתאריך 1/5/2008 2:19:34 AM

עכשיו אנחנו מסונכרנים.

ועכשיו לשאלה הבאה, כפי שפלוצקר כתב בכתבה שלו:
לפי הגישה השניה, אתה נותן משקל יותר גדול בשקלול שלך למדינות עם תל"ג גבוה יותר. לעומת השיטה הראשונה בה בעצם כל היחסים משוקללים בנפרד וכל מדינה מקבלת משקל זהה.
למה כשאנחנו באים להשוות את היחס בישראל היגיוני יותר להשוות את זה למדד שנותן משקל גבוה יותר לארה"ב מאשר ללוכסמבורג, כאשר בעצם כל מדינה מקבלת את ההחלטה כמה חוב לקחת באופן עצמאי (ואין שום רלוונטיות לגודל המדינה בהחלטה הזאת).
כפי שכלכלני האוצר אמרו, יש כאן ללא ספק הטייה אידיאולוגית – לטעמי היגיוני יותר להשתמש דווקא בשיטה הראשונה. אבל זאת כבר יותר שאלה כלכלית מאשר סטטיסטית. הנקודה המרכזית שלי מלכתחילה שאין כאן דרך נכונה סטטיסטית לעשות את זה. כל דרך יכולה להיות נכונה, השאלה איזה מטרה היא באה לשרת.

יוסי לוי  [אתר]  בתאריך 1/5/2008 8:47:02 AM

תשובה אחרונה בהחלט

השאלה כיצד חשב ממוצע היא שאלה סטטיסטית, לא כלכלית.
יש דרך אחת ויחידה נכונה מבחינה סטטיסטיית
למיצוע – והיא שקלול על פי המכנה.
כמו שבחישוב מהירות ממוצעת יש לשקלל לפי הזמן (שנמצא במכנה של יחס המרחק לזמן) כך במיצוע יחסי חוב תוצר יש לשקלל לפי התוצר, שנמצא במכנה.
כל חישוב אחר הוא שגוי במובן שתוצאתו אינה היחס הממוצע.
לכן, הטענה (הפוסט-מודרניסטית) שכל דרך יכולה להיות נכונה היא טענת הבל.

ילד ירוק  [אתר]  בתאריך 1/5/2008 11:03:17 AM

פוסטמודרניזם או סמנטיקה?

אם אתה רוצה להמשיך להתעקש על כך שלפי ההגדרה המתמטית היבשה "ממוצע היחס חוב\תל"ג במדינות ה-OECD", צריך להיות משוקלל לפי המכנים. Be My Guest.
אבל זאת ממש "הקטנת ראש", מבחינתי המדד "ממוצע היחסים בין חוב\תל"ג במדינות ה-OECD" הוא מדד יותר רלוונטי להשוואה מאשר המדד הראשון (וההסבר מדוע כבר ניתן בכמה תגובות נפרדות).
אני לא מבין את פשר ההתקטננות על הסעיף הסמנטי בהתעלמות מהשאלה המהותית יותר שהיא איזה מן המדדים רלוונטי יותר.
בשורה התחתונה, האוצר משתמש במדד רלוונטי יותר – ואילו כלכלני ה-OECD משתמשים במדד שמוגדר טוב יותר סמנטית.
אני חושב שאני אלך עם כלכלני האוצר בהקשר הזה.

יוסי לוי  [אתר]  בתאריך 1/5/2008 3:17:01 PM

כלל וככל לא סמנטיקה

אין זה מקרה שהממוצע הינו סטטיסטי כה נפוץ בדיווח נתונים.
לממוצע יש תכונות מתמטיות לא טריויאליות ועל גבן (ובזכותן) נבנתה תיאוריה המאפשרת הסקה סטטיסטית מנתונים. למדדים סטטיסטיים אחרים (כגון החציון, או אותו "ממוצע יחסים" מוזר שאתה וכלכלני האוצר כה מחבבים) אין את התכונות האלה, ולכן הסקת מסקנות על פי מדדים אלה אינה אופטימלית.

ילד ירוק  [אתר]  בתאריך 1/6/2008 9:47:46 PM

טוב זה כבר באמת לא רציני

אתה קושר לממוצע איזשהן סגולות פלא לא ברורות לחלוטין שהופכות אותו למדד הכי רלוונטי בכל מצב? (אני יכול לתת לך מספיק דוגמאות שבהם זה לא נכון, קח לדוגמה את החיציון של המשכורות כמשקף טוב יותר את מצב העושר בחברה מאשר את הממוצע).
נימוקים והתייחסויות לגופו של עניין יהיו יותר רלוונטיות כאן, אם אתה חושב שממוצע משוקלל יהיה נכון יותר ממוצע יחסים, אתה צריך להסביר מדוע. אני כבר הסברתי מדוע ממוצע יחסים טוב יותר – אתה יכול להתחיל מלהתמודד עם הטיעונים שלי.

יוסי לוי  [אתר]  בתאריך 1/6/2008 10:33:09 PM

מילה אחרונה בהחלט (שלי)

ילד ירוק,
אני חושש שהדיון הזה הדרדר, ואני, בכל אופן, לא מוכן להמשיך אותו.
אני מציע שתפנה לאוניברסיטה הקרובה למקום מגוריך, תלמד שנתיים סטטיסטיקה, ואחרי שתסיים את קורס שנה ב הנקרא "תיאוריה סטטיסטית" יהיה לנו בסיס משותף מינימלי להמשך הדיון.
כל טוב.

ילד ירוק  [אתר]  בתאריך 1/7/2008 8:13:13 PM

קודם כל אני מתנצל

ההתנסחות שלי הייתה אכן לא הולמת ונכתבה בעיקר מתוך קלות דעת ותחושה רגעית, ועל כך אני מצטער.
מצד שני, אני סבור שאתה "נפטר" ממני קצת מהר מדי. בתואר שלי למדתי שלושה קורסים של סטטיסטיקה טהורה, מעבר לזה בשביל העשרה עשיתי את הקורס "הפילוסופיה של ההסתברות" (סילבוס כאן:
http://www.tau.ac.il/humanitie….llabi/science_philosophy.html)
(ואפילו אם יורשה לי להתרברב, קיבלתי את הציון הכי גבוה בקורס)
לא שאני רומז שהידע שלי משתווה לשלך, אבל דווקא בגלל זה – וכקורא ותיק של הבלוג שלך ושמחזיק ממך כבר סמכא בתחום הסטטיסטי הרגשתי במהלך הדיון הזה שהטיעונים שלך היו יותר ברוח מטיפה מאשר ברוח של התדיינות אמיתית, ומכך למען האמת התאכזבתי קצת.
מעבר לזה, אני מקווה שתסלח לי על גסות הרוח בהודעה הקודמת.
יום נעים.

דוגמא נגדית  בתאריך 3/4/2008 12:57:19 AM

צר לי על האיחור בתשובה,

העניין הוא שעמית למקצוע (מתמטיקה) סיפר לי על איזה ד"ר לסטטיסטיקה שפרסם איזו שטות באתרו בעניין ממוצעים משוקללים. הוא די הופתע כששאלתי אותו "האם זה יוסי לוי?". המשכנו לדון למשך דקה בקשקוש המקושקש הנ"ל וזהו בעצם.
מעבר לכך, אני רוצה רק לבקש ממך יוסי להסיר את הזבל הזה מאתרך. לא משום שאני נפגע באופן אישי מהקשקוש הזה, אלא שנראה לי שאתה עשוי להיפגע ממנו.
ואה, כן – אתה יכול אולי לספר לנו היכן אתה מועסק? אני פשוט רוצה לנסות ולהימנע ככל הניתן משימוש בתכשירים שמפתחת חברה שמעסיקה אדם שלא מבין מה המשמעות של תוחלת מותנית (וגם לא שהקשר בין דרך וזמן למהירות אינה מנה פשוטה אלא נגזרת)….

יוסי לוי  [אתר]  בתאריך 3/4/2008 8:27:43 AM

מר דוגמא נגדית

אני מאחל לך בריאות, ומודה לך על הדאגה למוניטין המקצועי שלי.
הייתי מציע לך לדאוג למוניטין המקצועי שלך, למרות שאתה עושה זאת בצורה לא רעה בכלל (על ידי הסתתרות מאחורי כינוי אנונימי).

דוגמא נגדית  בתאריך 3/5/2008 11:52:43 PM

יוסי יקירי,

אני לא מסתתר מאחורי שום כינוי. זהו שמי כאן באינטרנט (תתעורר – זו המאה ה-21).
מעבר לכך – אני בהחלט מתכוון לדאוג ליוקרתך המקצועית, ואעשה זאת באופן הבא: מחר בבוקר אני מתכוון לתלות אצלנו במכון (למתמטיקה…) את יצירת הפאר שפרסמת כאן, כדי שכמה שיותר אנשים יתוודעו לגאונות הצרופה הזו!

יוסי לוי  [אתר]  בתאריך 3/6/2008 9:44:26 AM

תיהנה

רק תוודא שכולם שם אצלכם ידעו מי אתה, כדי שיראו שאתה לא יודע לחשב מהירות ממוצעת.

גילי נחום  [אתר]  בתאריך 3/10/2008 2:12:58 AM

עצוב לראות שהדיון הדרדר לרמה זו

נראה לי שאפשר לפטור את הוויכוח בתור ויכוח סמנטי ותו לא.

יוסי לוי  [אתר]  בתאריך 3/11/2008 3:30:55 PM

כן, גם אני מצטער

ומתנצל שנגררתי

יוסי לוי  [אתר]  בתאריך 3/11/2008 3:37:20 PM

בעניין הקשר בין דרך וזמן למהירות

נכון שאם מסתכלים עלאת המרחק שנגמא כפונקציה של הזמן, אז הנגזרת של הפונקציה הזו (אם היא קיימת) מבטא את המהירות של הגוף הנע כפונקציה של הזמן. אבל, והאבל הזה הוא גדול מאוד, מדובר במהירות הרגעית של הגוף. ןאם מעוניינים במהירות הממוצעת, ולא במהירות הרגעית, אז הביטוי הגיאומטרי.מתמטי הראוי הוא לא ה(פונקציה) הנגזרת, אלא… תחשבו בעצמכם.
ומלבד זאת, מי שמכיר את הגדרת הנגזרת יודע בודאי שהנגזרת היא גבול של מנה. ואם מסתכלים על המרחק כפונקציה של הזמן, אז במנה הזו מופיע מרחק במכנה, וזמן במונה. במלים אחרות, הקשר בין הדרך, הזמן והמהירות, מבוטא על ידי מנה. זו המציאות.

ממוצע פוליטי

העורך הכלכלי של ידיעות אחרונות, סבר פלוצקר, מפרסם ב"בלוג"באתר ווינט  חלק ממאמריו שהופיעו במהדורה המודפסת של העיתון. אני לא יודע מהם השיקלים לפיהם מוחלט מה מפורסם גם ברשת ומה לא, אבל אני מצטער על כך שלא פורסם הקטע שהופיע בעתון של יום ו האחרון, 23.11.07, תחת הכותרת "הממוצע הפוליטי". אביא כאן את עיקרי הדברים.

פלוצקר עיין בעמוד 29 של החוברת "עיקרי תקציב המדינה 2008" (זהו קישור לחוברת – קובץ pdf) שהוציא משרד האוצר. בעמוד זה הופיע גרף שכותרתו "החוב הציבורי – השוואה בינלאומית, אחוזי תוצר 2006". עבור 28 מדינות מוצג היחס בין החוב הלאומי לתוצר הלאומי. ביפן היחס הזה הוא בערך 180% וזה ממש לא טוב. בלוקסמבורג היחס הוא פחות מ-10%, וזה מעולה. בישראל היה היחס הזה כ-87%. בעמודה הופיע עוד נתון אחד – היחס הממוצע במדינות OECD, ונאמר כי הוא שווה ל-58%. כלומר – המצב בישראל הרבה יותר גרוע מאשר במדינות OECD. יש רק בעיה אחת בנתון האחרון – הוא לא נכון.

הגרף שופיע בחוברת משרד האוצר, עם הנתון שמתאים לאידיאולגיה של האוצר - בעמודה הירוקה

הגרף שופיע בחוברת משרד האוצר, עם הנתון שמתאים לאידיאולגיה של האוצר – בעמודה הירוקה

פלוצקר בדק ומצא כי ארגון OECD בעצמו פרסם כי היחס הממוצע בין החוב לתוצר במדינות הארגון הוא 77%, כלומר, מצבנו לא הרבה יותר גרוע ממצב מדינה ממוצעת בארגון היוקרתי הזה.
אז איך משרד האוצר הגיע לממוצע שלו? הם לקחו את נתוני 28 המדינות החברות בארגון, חיברו, וחילקו ב-28. על ממוצע משוקלל הם לא שמעו שם. ליפן יש אותו משקל ואותה חשיבות כמו ללוכסמבורג. ארה"ב שווה במשקלה לאיסלנד, וגרמניה וניו-זילנד חד הם. OECD חושב שצריך לשקלל את המדינות על פי התוצר הריאלי שלהן, אבל אנשי משרד האוצר סבורים שחישוב ממוצע משוקלל הוא "הטיה אידיאולוגית". זה לא מפתיע – הרי הכל יודעים כי אידיאולוגיה היא עניין של גיאוגרפיה.

פורסם לראשונה באתר "רשימות" בתאריך 27 בנובמבר 2007  שם התקבלו 16 תגובות

ערן  [אתר]  בתאריך 11/27/2007 11:48:22 PM

הקלות הבלתי נסבלת של משחק בנתונים

אני לא יודע מה יותר עצוב, הקלות שבה גופים ממשלתיים עושים לנו מניפולציות או העובדה שכמעט אף אחד בודק את הנתונים שלהם.

אייל ב. ד  בתאריך 11/28/2007 12:08:53 AM

לא אוהבים לשכלל?

אם אינני טועה, לפני זמן מה עלתה תלונה בדיוק הפוכה – על הטייה של האוצר ע"י שימוש בממוצע משוכלל כדי לחשב ממוצע הוצאה כאחוז מהתמ"ג (כמדומני), שמיקמה את ישראל במקום גבוה כי ניתן משקל יתר לארה"ב וסין.
בכל מקרה, ניתן לראות כי בניגוד לטענה הרווחת, נתונים לא מדברים בעד עצמם. אפשר גם לראות שהבעיות של שימוש בממוצע משוכלל מתאיידות משום מה כאשר השימוש תואם את האידיאולוגיה של האוצר.

אייל ב. ד  בתאריך 11/28/2007 12:14:24 AM

ללא נושא

סליחה, נזכרתי – הנתון היה לגבי נטל המסים הממוצע ביחס לתמ"ג.

שמעון  בתאריך 11/28/2007 5:13:19 AM

ללא נושא

ממליץ בחום לקרוא את טאפטי.

יוסי לוי  [אתר]  בתאריך 11/28/2007 9:19:21 AM

לאייל ב.ד.

לא ממש הבנתי את כוונתך, האם תוכל לפרט? וכמו כן – האם תוכל להפנות אל התלונה ההפוכה שהזכרת?

שחר  בתאריך 11/28/2007 10:13:06 AM

ממוצע משוקלל

יוסי,
הנה לינק למאמר בהעוקץ, שבו תלונה הפוכה לשלך.
הוא מתלונן על כך שכשהאוצר משווה את נטל המס הוא משתמש בממוצע משוקלל.
http://www.haokets.org/mail-message.asp?ArticleID=2269

יואב  בתאריך 11/28/2007 12:10:53 PM

ללא נושא

ברור למה ממוצע פשוט הוא לא נכון, אבל השאלה שאני לא מבין היא איזה משקול הוא הנכון. אולי, נשאל את זה אחרת, למה ממוצע פשוט נותן מספר נמוך יותר מממוצע משוקלל? האם יש סיבה שלמדינות גדולות (בכלכלה או באוכלוסיה) יהיה יחס גדול יותר ממדינות קטנות (שים לב שבריטניה ויפן מובילות, מצד שני, ארה"ב, קנדה, גרמניה וצרפת נמצאות באמצע)? אם כן, אז המספר עצמו חסר משמעות, והמספר הנכון הוא היחס בין היחס הזה למספר אחר שמייצג את הגודל של המדינה. אולי, מה שנכון לעשות זה ממוצע אחרי שמוציאים את החריגים (יפן ובריטניה), ואז ההבדל בין הממוצעים השונים לא יהיה כל כך משמעותי. בכל מקרה, לא השתכנעתי שה-77% ממוצע הוא האידיאל של המדינות המפותחות.

אייל ב. ד  בתאריך 11/28/2007 1:06:05 PM

תודה לשחר!

חיפשתי וחיפשתי את הלינק, ושחר מצא אותו.

יוסי לוי  [אתר]  בתאריך 11/28/2007 1:24:35 PM

תשובה לשחר

תודה על הלינק. אני כמובן לא אחראי לכל מה שנכתב ברשת. בכל מקרה, אקרא את מה שנכתב שם ואחשוב על כך.
בעקרון, ממוצע משוקלל הוא הממוצע שיש להשתמש בו, אבל בתנאי שמשתמשים במשקלות הנכונים. אני מתכוון לכתוב על כך רשימה בקרוב.

יוסי לוי  [אתר]  בתאריך 11/28/2007 1:25:44 PM

רמז ליואב – עד הרשימה הבאה

תנסה לחשוב על מהירות ממוצעת.

יואב  בתאריך 11/28/2007 2:20:11 PM

ללא נושא

מהירות ממוצעת? חשבתי. עדיין לא הבנתי למה צריך לבחור דווקא בגודל כמשקל.

דודי קינג  בתאריך 11/28/2007 7:33:38 PM

השוואה לממוצע של מדינות ככ שונות אבסורדי

אני מאמין שזה מגוחך להתייחס לממוצע הכללי כאיזה שהוא מדד לכלכלה הישראלית, משוקלל או לא משוקלל. בארגון חברות מדינות שהכלכלה שלהן שונה מזו של ישראל כמזרח ממערב, ואין להשוואה אתן או לממוצע שכולל אותן כל משמעות. מה לישראל וללוקסמבורג? מה לישראל ולסין?
ההשוואה הנכונה היא למדינות שגודלן וכלכלתן דומות לאלו של ישראל. אירלנד, למשל. או דנמרק. או פורטוגל. או שוויץ. או ליטא. או יוון. כמובן שכל אחת מהן שונה גם היא מישראל, במובנים רבים, אבל לפחות יש בסיס כלשהו להשוואה, או לממוצע.

מוטי  בתאריך 11/28/2007 8:52:51 PM

נטל המס – תשובה לשחר

לפי נתוני בנק ישראל, נטל המס בישראל דומה ואף נמוך מממוצע המדינות המפותחות, אלא שמשרד האוצר, בניגוד לחישוב שיעור החוב, טוען שהממוצע של בנק ישראל הינו ממוצע פשוט, וביחס לנטל המס יש לערוך ממוצע משוקלל המתבסס על מספר אזרחי המדינה.
השאלה אם כן, אינה מי צודק, אלא לאיזה חישוב אוצרי להאמין.

דוגמא נגדית  בתאריך 11/29/2007 12:56:46 PM

השאלה שצריך

היה לשאול היא – מה הנתון בעצם אמור להראות?
החישוב של ארגון המדינות המפותחות מראה מה היחס בין החוב הכולל לתמ"ג הכולל. זה מאוד נחמד, אבל זה לא יכול לתת לנו מושג על ערכי החוב המקובלים. אם אנו רוצים ללמוד על ערכי החוב המקובלים. גם ממוצע משוכלל לא בהכרח יאמר לנו מהם ערכי החוב המקובלים במדינות שונות, אולם הוא יאמר הרבה יותר מהנתון של ה-OECD.
ובאותו עניין – אני מסכים עם דודי. צריך להסתכל על מדינות שגודלן וכלכלתן דומות.
במדינות הללו החוב הוא נמוך בהשוואה לישראל, וזה כל הסיפור!

באתר "נסיכת המדעים" פורסמה התייחסות לרשימה זו 
בתאריך 12/1/2007 8:20:57 PM

ממוצע משוקלל – איך ולמה

אדם יצא לדרך של 240 ק"מ במכוניתו. את המחצית הראשונה של הדרך, 120 ק"מ, נסע במהירות של 40 קמ"ש. את המחצית השניה נסע במהירות 60 קמ"ש. מה הייתה מהירותו הממוצעת לאורך הדרך?
ברשימתי הקודמת הבאתי דברים שכתב המשך…

נועה  [אתר]  בתאריך 4/24/2008 12:30:00 PM

איך מסמנים ממוצע

אני צריכה לעשות עבודה בממוצע אבל שכחתי את סימן הממוצע,
מישהו יכול להגיד לי בבקשה!!

כזב הממוצעים

באתר העוקץ הופיע אתמול מאמר מאת מני אביב תחת הכותרת "כזב הממוצעים". המאמר עוסק בראיון שערכו ירון לונדון ומרדכי קירשנבאום עם שלי יחימוביץ (ניתן לצפות בראיון באתר ואללה). במהלך הראיון, העלה לונדון בפני יחימוביץ נתון בדבר השכר הממוצע בתעשיית הטקסטיל בארץ – שגובהו 6000 ש"ח לחודש, על פי לונדון.

דוגמת השכר הממוצע של המנהל והפועלים (עליה כתבתי כאן בעבר) היא דוגמא קלאסית שכל מי שלמד קורס מבוא לסטטיסטיקה אמור להכיר, וחוסר היכולת של שלי יחימוביץ להתמודד עם כשל כה פשוט עשוי לעורר שאלות לגבי מועמדותה. מצד שני, אין חובה להציג ציון עובר בסטטיסטיקה כדי להבחר לכנסת, אז למה שנדרוש זה גם משלי?

כמו כן, אני לא בטוח שירון לונדון אינו מודע לבעייתיות שבשימוש בממוצע בלבד לתיאור נתונים – ייתכן מאוד שהוא הציג ליחימוביץ שאלה מכשילה כזו בכוונה תחילה. כבר כתבתי כאן בעבר על הצגת הנתונים של הלשכה המרכזית לסטטיסטיקה – גוף בו עובדים סטטיסטיקאים מוכשרים רבים – אך מציג תוצאות מעוותות .

פורסם לראשונה באתר "רשימות" בתאריך 21 בדצמבר 2005 שם התקבלו 4 תגובות

חנן כהן  [אתר]  בתאריך 12/21/2005 11:53:06 AM

מני אביב חבר שלך?

אז למה הוא כתב פוסט ב"העוקץ" על אותו עניין עם אותה כותרת?
ועוד עניין. הנה מה שכותב רונן סנדר על לימודי הכלכלה בארץ. את התואר השני שלו בכלכלה הוא למד בסקוטלנד.
"באברדין לעומת זאת, כאשר נדרשנו לבצע בדיקה של פרויקטים ולחשב את כדאיותם, לא התעניין איש מהמרצים בתוצאה המספרית/חישובית הסופית. מה שעמד למבחן היה אופן הצבת התרגיל וההתייחסות לגורמים כלכליים ועסקיים כגון ניגוד עניינים, מחירים אלטרנטיביים, דרישות השוק והצרכנים, האם הפילוסופיה הארגונית של הגורם המבצע הולמת את הפעילות, וכיו"ב. את גובה הציון של התרגיל קבעו ההבנה הכלכלית והנימוקים בדרך לפתרון. את המספרים של עלות התשומות, מחיר המכירה והריבית הציב כל סטודנט על פי שיקול דעתו."
http://www.kibbutz.org.il/shav….icles/yomyom/051216_sender.htm

אורן  [אתר]  בתאריך 12/21/2005 11:54:03 AM

היגיון בריא

כדי להבין את הבעייתיות בהצגת סטטיסטיקה כזו מספיק היגיון בריא ולא צריך להבים בסטטיסטיקה, שונויות, סטיות תקן ומגוון מדדים אחרים. זה בהחלט מאכזב ואולי גם מפתיע ששלי יחימוביץ' חסרה את הקומון סנס הזה. מאידך, חבר הכנסת ה"ממוצע" אינו מרשים באינטליגנציה שלו.

יוסי לוי  [אתר]  בתאריך 12/21/2005 12:47:00 PM

לחנן

אני לא מכיר את מני אביב – ואני לקחתי את הכותרת ממנו – כל הקרדיט (על הכותרת) מגיע לו

חנן כהן  [אתר]  בתאריך 12/21/2005 2:02:44 PM

סליחה ומחיקה

לא שמתי לב וחשדתי בכשר.