ארכיב עבור 'מה אומרת הסטטיסטיקה'
המנהל והפועלים
כמעט כל מי שלמד סטטיסטיקה במסגרת כלשהי (קורס מבוא, או אפילו בבית הספר) שמע על דוגמת "המנהל והפועלים". במפעל מסויים, השכר הממוצע לעובד הוא 5500 ש"ח בחודש. יפה, לא? אבל עיון מפורט יותר בנתוני השכר מגלה כי בין 50 עובדי המפעל, 49 הם פועלים המשתכרים שכר מינימום של 3500 ש"ח לחודש. המנהל, לעומת זאת, לוקח הביתה כל חודש משכורת קצת יותר גבוהה.
ובכן, כיום אין צורך לבדות דוגמאות כאלה. הלשכה המרכזית לסטטיסטיקה מפרסמת באופן קבוע את נתוני השכר. הנה מבחר נתונים מנתוני חודש מאי 2004 שפורסמו לפני ארבעה ימים:
* שכרם הממוצע של 2.381 מיליון שכירים ישראלים היה 6915 ש"ח .
* שכרם הממוצע של 61.2 אלף עובדים זרים היה 3980 ש"ח.
* שכרם הממוצע של 260 עובדים מיהודה שומרון ועזה לא פורסם בהודעה זו.
ועכשיו מתחיל החלק המעניין: מבין השכירים הישראלים – 65.4% השתכרו "מעל מחצית השכר הממוצע", והשכר הממוצע בקבוצה זו היה 9097 ש"ח. לעומת זאת 27.4% השתכרו "עד מחצית השכר הממוצע", והשכר הממוצע בקבוצה זו היה 1921 ש"ח בלבד. (יוצא ש-7.2% השתכרו בדיוק את השכר הממוצע).
מחצית השכר הממוצע היא 3457 ש"ח. אם כן, ממוצע שכרם של אלה שהשתכרו סכום זה או פחות הוא 1921 ש"ח, שזה בערך אמצע הטווח (הממוצע של הנתון המינימלי והנתון המקסימלי) של התחום 0 עד 3457 (אמצע הטווח הוא (0+3457)/2=1729 ש"ח). אמנם שכר המינימום בישראל הוא כ-3300 ש"ח, ולכן צפוי שממוצע השכר גם בקרב בעלי השכר הנמוך יהיה גבוה משכר המינימום, אך אין זה מתפקידה של הלשכה המרכזית לסטטיסטיקה לאכוף את החוק (וכן, אני יודע שיש אנשים העובדים במשרות חלקיות, אבל הממוצעים הם למשרה, לא לעובד). מה זה אומר על ההתפלגות של הנתונים האלה? עושה רושם שהם אחידים למדי. בקבוצת הפועלים אין מנהל שמושך את השכר הממוצע כלפי מעלה. לא מפתיע.
לרוע המזל, הלשכה לא מספקת לנו מידע רב על הקבוצה השנייה, בני המזל שמרוויחים יותר ממחצית השכר הממוצע , כלומר "שכר מינימום פלוס" (3457 ש"ח) ומעלה. הנתון היחיד הוא שהשכר הממוצע בקבוצה זו הוא 9091 ש"ח. כאן כמובן, יש ויש בעלי שכר גבוה המושכים את הממוצע למעלה. לו היה הממוצע בקבוצה שווה בערך לאמצע הטווח (כמו בקבוצת בעלי השכר הנמוך), היינו מקבלים כי השכר המקסימלי בקבוצה זו הוא קצת פחות מ-15000 ש"ח. אבל אנחנו יודעים שלא כך הדבר. אמצע הטווח הוא הרבה יותר גבוה. להתפלגות של השכר יש זנב ארוך ודק.
מה מטריד אותי בכל הסיפור הזה? הלשכה המרכזית לסטטיסטיקה מעסיקה כמה מהסטטיסטיקאים המוכשרים ביותר בארץ (אני מכיר באופן אישי כמה מהם – חלקם למדו איתי, חלקם היו סטודנטים שלי). אין לי ספק שנתוני השכר נאספו ועובדו באופן המקצועי ביותר, ושלא נעשתה כאן אף טעות מתודולוגית. אבל שהגיעה העת להציג את הנתונים, הדבר נעשה באופן מזלזל ומחפיר. הציון להודעה לעיתונות הוא "נכשל". בהצגת נתונים, ממוצע וחלוקה לשתי קטגוריות לא הומוגניות מציגות תמונה מעוותת. קצת אינפורמציה על פיזור הנתונים הייתה יכולה לחשוף הרבה. מהו השכר החציוני? מהו הרבעון העליון? מה סטיית התקן של השכר? אולי תצרפו איזו היסטוגרמה של ההתפלגות? הנתונים האלה פשוט אינם – לא בהודעה לעיתונות, וגם אינם נמצאים ב"ירחון הסטטיסטי לישראל" שמפרסמת הלשכה.
פורסם ב 8 באוגוסט 2004 00:00 במדור מה אומרת הסטטיסטיקה | 2 תגובות
משהו מישהו בתאריך 8/8/2004 8:31:07 PM
אתה חי? איזה שעמום!
שמאש בתאריך 8/9/2004 9:40:19 PM
ומסתדר יפה עם המדיניות הכללית שמשחקת לידי אלה שיש להם על גבם של אלה שחסר להם.
והמשהו מישהו שהגיב כאן מעלי – הוא כנראה לטובת אלה שיש להם ומתנגד לכך שכולם יראו.
התכנים הם חברתיים – יותר מאשר סטטיסטיים. המשהו מישהו הזה – רק מעמיד פני טיפש.
נשלח: 27 בנובמבר, 2008. נושאים: מה אומרת הסטטיסטיקה.
תגובות: 1
| טראקבק
מחקר חדש מגלה כי…
"מחקר חדש מגלה כי …" היא הכותרת של מאמר שהתפרסם לפני מספר ימים באתר "האייל הקורא". המאמר, שכתב יובל נוב, סוקר בצורה טובה מספר "כשלים סטטיסטיים נפוצים", אם כי אני סבור שראוי לקרוא לכשלים אלה "כשלים בשימוש בסטטיסטיקה".
כרגיל באייל, המאמר זכה למספר גדול של תגובות (198 נכון לכתיבת שורות אלו), עם גלישה לנושאי אוף-טופיק, והרבה אנשים שלא ממש יודעים על מה הם מדברים, וגם הרבה אנשים שכן. אני ממליץ לא להתעצל ולקרוא גם את התגובות, אם כי בביקורתיות.
פורסם לראשונה בתאריך 25 ביולי 2004 08:45 באתר "רשימות"
נשלח: 27 בנובמבר, 2008. נושאים: מה אומרת הסטטיסטיקה.
תגובות: אין
| טראקבק
מי אמר 69 ולא קיבל?
קשה להחמיץ את פרסומות ה-69. "אתה כבר עשית 69? אני הכרחתי את בעלי לעשות 69!" וכדו מה. למי שהחמיץ, זו פרסומת למוצר של חברה בשם מועדון מנויי טוטו זהב בע"מ. תמורת 69 ש"ח לחודש אתה מקבל כרטיס חבר במועדון, ועליו רשומים 6 המספרים האישיים שלך + "המספר החזק". מספרים אלה ישתתפו בשמך בהגרלות הלוטו של מפעל הפיס. אם מ ספרים אלה יזכו בפרס כלשהו, אתה תקבל 50% מכספי הפרס. 40% יתחלקו בין שאר חברי המוע דון, ו-10% יישארו ברשות החברה. כך, טוענת החברה בדף הבית שלה, אתה רוכש לע צמך סיכוי יותר גדול לזכות בפרס כלשהו בהגרלת הלוטו.
ראשית כל, אציין כי הטענה הבסיסית של החברה נכונה. הסיכוי לזכייה אכן גדול יותר. גדול ממה? ובכמה? ש אלות אלה קצת יותר מסובכות.
החברה טוענת, למשל, כי "מספרי הלוטו הרשומ ים בכרטיס (טבלת הלוטו+המספר החזק) הנם מתוך שיטה סטטיסטית בדוקה, אשר פותחה ע"י מי טב המומחים לשיטות לוטו מתקדמות". איני יודע מי הם המומחים של החברה, אך כסטטיסטיקא י מקצועי אני טוען כי אין כל דרך לבחור מספרים באופן שיגדיל את סיכויי הזכייה, אם ההגרלה של מפעל הפיס אכן אקראית. ומכיוון שככל הידוע לי, התהליך של הגרלת מפעל הפיס אכן אקראי לחלוטין, אני מרשה לעצמי להטיל ספק בשיטה הסטטיסטית הבדוקה הזו.
טענה נוספת היא כי "השתתפות בכרטיס המנוי מגדילה את הסיכויים לזכייה פי 10 לפחות מכל שיטה אחרת, מבטיחה זכייה בפרסי משנה רבים מתוך כלל המנויים ומשפרת משמעותית את הסיכויים לזכייה בפרס הגדול". אני יכול להסכים חלקית עם טענות אלה, אם כי הנוסח המעורפל משאיר סימני שאלה רבים. כדי להסביר את כוונתי, אשחק קצת במספרים.
בלוטו מוגרלים 6 מספרים מתוך 34, ועוד מספר נוסף, הוא "המספר החזק" מבין 10 מספרים אחרים. הסיכוי לנחש 6 מספרים מתוך 34 הוא לכן 1 ל-1344904 או 0.000000744 (למעונינים בנוסחת החישוב, יש הסבר בפורום מתמטיקה של תפוז). הסיכוי לנחש את המספר החזק הוא 1 ל-10, ולכן הסיכוי הכולל לזכיה בפרס הראשון הוא 1 ל-13449040 או 0.0000000744. כל אחד יכול לרכוש לעצמו סיכוי בסיסי כזה בכל אחד מדוכני מפעל הפיס תמורת 2.50 ש"ח.
בואו נניח כי יש 10,000 חברים בעלי כרטיס 69 (לחברה יש כיום קרוב ל-20,000 מינויים, המשתתפים במספר תכניות השתתפות שמציעה החברה). בהנחה הסבירה שלכל אחד מהם יש צירוף המספרים הייחודי שלו, הסיכוי כי אחד מהם יזכה בפרס הראשון הוא לכן הסיכוי הבסיסי כפול 10,000, כלומר כ-0.000744. עם עוד קצת חישובים, הסיכוי כי אחד המינויים יזכה בפרס הראשון בלוטו במשך תקופה של שנה הוא קצת יותר מ-7%, וזה הסיכוי של כ"א מהמינויים לזכות במאית אחוז של 40% מהפרס הגדול בלוטו במשך שנה. אם הפרס הגדול הוא 5 מיליון ₪, השלל יהיה 200 שקלים.
לעומת זאת למהמר בודד שיהמר על צירוף המספרים שלו במשך 100 הגרלות רצופות, יש סיכוי של 0.000007 לזכות בפרס הגדול. זהו כמובן גם הסיכוי של חבר מועדון לזכות במחצית הפרס הגדול. רק שלחבר המועדון הסיכוי הזה יעלה 828 ₪, ולמהמר העצמאי התענוג יעלה 250 ₪ בלבד. ההפרש, 578 ₪, הוא תמורת הזכות להשתתפות בשללם של המנויים האחרים, וכמובן, למימון החברה המפעילה את המועדון.
שיהיה במזל.
פורסם לראשונה בתאריך 16 ביולי 2004 14:32 באתר "רשימות" שם התקבלו 12 תגובות:
אורן [אתר] בתאריך 7/16/2004 3:17:16 PM
כשהייתי קטן קיבלתי מתנה מגריל מיספרים לבינגו. מיכל עם כדורים – מערבלים את הכדורים ומידי פעם יוצא כדור. על האריזה היה מצויין (בתוספת שלושה סימני קריאה) – בדיוק אותם סיכויים כמו בלוטו.
וואלה נכון.
תמיד דמיינתי את זה שקונה את המשחק הזה בשביל לתת את המכה בלוטו ושורף את המפעל אחרי שלא יצא לו אפילו מספר זהה נוסף.
דמיינתי גם את מי שינסה להסביר לו "אבל אדוני, הסיכוי שיצא 17 הוא באמת בדיוק בדיוק כמו בלוטו"
רוני ה. בתאריך 7/16/2004 6:10:22 PM
החברה הזאת מבטיחה לך לזכות במחצית הפרס שבו היית אמור לזכות אם היית קונה כרטיס ישירות ממפעל הפיס. זה אומר שהסיכויים שלך לזכות הם בדיוק כמו קודם, רק שהפרס קטן בחצי.
מצד שני, החברה נותנת לך "הנחה" על מחיר הכרטיס בכך שהיא מחזירה לך חלק מהזכיות של אחרים.אם רוצים להבין מה באמת קורה מאחורי הקלעים, אפשר להסתכל על סך כל הפרסים. מפעל הפיס מחזיר בממוצע (אם אינני טועה) כ-60% מסך כל תמורת הכרטיסים. כלומר, אם תשקיע בלוטו 69 ש"ח במשך זמן ארוך מספיק, ההחזר הממוצע שתקבל יהיה 60%*69=41.4 ש"ח.לעומת זאת נראה מה קורה אם תעבוד דרך החברה. באופן רעיוני, אפשר להסכל על זה כאילו קנית שני חצאי כרטיס. עם חצי הכרטיס הראשון אתה משתתף רגיל בהגרלה וסיכוייך הם כמו כל משתתף אחר.עם חצי הכרטיס השני אתה משתתף ב"פול" של כל החברים האחרים כדי לקבל החזר. בממוצע ההחזר שתקבל על מחצית הכרטיס הזה יהיה 60% ממחירו פחות 10% עמלה, כלומר 55% ממחיר חצי כרטיס.סך הכל, אתה תקנה בממוצע כרטיס שמחירו בממוצע 72.5% ממחיר כרטיס רגיל אבל תוכל לזכות רק ב-50% מהפרס. עסקה גרועה, לדעתי.חשוב גם לציין שהרווח של החברה יכול לעלות על 10% העמלה שהם מצהירים:לכאורה הם אמורים לקבל כל חודש 10%*60%*69*10000 כלומר 41,400 ש"ח על כל 10000 קוני כרטיסים.אבל בפועל, ככל שמספר הלקוחות שלהם יהיה גדול יותר, לא יהיה כדאי להם בכלל לקנות כרטיסי לוטו אמיתיים. הם יכולים בפועל לנהל את ההגרלה בעצמם ולשלם את הזכיות מכיסם. אם ללוטו זה משתלם, כנראה שזה יהיה כדאי גם להם. בהנחה של רווח ממוצע של 40%, הם יוכלו להרוויח על אותם 10000 לקוחות סכום של 40%*69*10000 כלומר 276,000 ש"ח. וזה כבר נראה יותר טוב.יש עם זה רק בעיה אחת קטנה – זה לא חוקי…
עמית [אתר] בתאריך 7/20/2004 10:18:45 AM
צודק יוסי שאומר שלא ניתן לבחור "נכון" את המספר הזוכה (בהנחה הסבירה שבחירת המספר הזוכה היא אקראית). אבל הסוד של בחירת המספרים אינו נמצא בפרס הראשון, אלא בפרסים המשניים. נסתכל לדוגמא על הפרס השני – ניחוש 6 מספרים, בלי ניחוש המספר החזק: נשווה שני מקרים – באחד, לשני מנויים יש אותם 6 מספרים ורק מספר חזק שונה, ובשני יש להם 6 מספרים שונים זה מזה, וגם המספר החזק שונה. בשני המקרים, הסיכוי המשותף שלהם לזכות בפרס הראשון זהה לחלוטין (ולכן אין "שיטה" לבחירת המספרים). אולם, במקרה השני, הסיכוי המשותף שלהם לזכות בפרס השני גדול יותר מאשר במקרה הראשון. זוהי רק דוגמא איך ניתן לבחור מספרים באופן "חכם" באופן שיגדיל את הסיכוי המשותף לזכות בפרס משני.לגבי עניין חלוקת הפרסים: באופן תאורטי, לו היה מספר גדול של משתתפים בתכנית, ולו חלוקת הפרסים היתה 50-50 (חצי לזוכה, חצי מחולק לכלל) – ניתן לראות, לפחות מן הבחינה המתמטית, שהפרס (או יותר נכון "תוחלת הפרס") בשני המקרים כמעט זהה (זהה במקרה שכמות המשתתפים שואפת לאינסוף). במקרה של תכנית 69, מארגני התוכנית לוקחים כעמלה 10% מהפרס, וכאן טמון העוקץ העיקרי – ולכן בכל מקרה תוחלת הפרס של כל אחד מהמשתתפים נמוכה משמעותית.ובכל זאת, יש מספר יתרונות לתכנית 69 והם נוגעים לטבע האדם ולמושג התוחלת (ואני זורק כפפה ליוסילכתוב משהו על מושג זה ומשמעותו בחיי היומיום). אתחיל בשאלה. מה הייתם מעדיפים, להשתתף בהגרלה בה אתם יכולים להרוויח 1000 שקל בהסתברות 10% (ולא להרוויח כלום בשאר המקרים) או להשתתף בהגרלה בה אתם יכולים להרוויח 150 שקל בהסתברות 50% ו50 שקל בהסתברות 50%?
בשתי הדוגמאות, תקבלו בממוצע (או בתוחלת איך שתרצו לקרוא לזה) 100 שקל. אבל איזה הגרלה נראית לכם עדיפה?תכנית 69 של הלוטו עובדת בדיוק על העקרון הזה. יש אנשים שלא אכפת להם תוחלת הפרס, אלא מעניינים אותם שיקולים אחרים (למשל, הסיכוי לזכות במשהו – לא חשוב מה. או אולי, לסטטיסטיקאים שבינינו – ששונות הפרס תהיה נמוכה כלל האפשר תוך פגיעה מינימלית בתוחלת).אינני בטוח שתוחלת הפרס היא המדד הנכון לבדוק כדאיות של השתתפות הגרלה כזו אחרת (אגב, לפי המדד הזה לא כדאי להשתתף בשום הגרלה של מפעל הפיס). אני גם לא בטוח שזה המדד אשר לפיו צריך להשוות בין הגרלות שונות.
יוסי לוי [אתר] בתאריך 7/21/2004 2:05:27 PM
אני מסכים עם טענתו של עמית: תוחלת הפרס בהגרלה אינה מדד לכדאיות ההשתתפות בהגרלה, ובצדק.כדאיות ההשתתפות נגזרת מהתועלת הנובעת למשתתף מעצם ההשתתפות בהגרלה, ותועלת נובעת לא רק מכסף.עם זאת, נראה לי שאם העובדות יוצגו בצורה נכונה, רוב האנשים יגיעו למסקנה כי התועלת של תכנית 69 פחותה מהתועלת של הגרלה רגילה של מפעל הפיס. אבל כמובן שזוהי השערה בלבד, ואין בידי נתונים שיכולים לתמוך בה.אולי מישהו מתנדב לעשות על זה מאסטר?
רוני ה. בתאריך 7/23/2004 8:27:28 PM
והנה מה שאני יודע על הנושא: מה שגורם לאנשים להשתתף בהגרלה הוא גובה הפרס הראשון (ובמידה פחותה בהרבה גם הפרס השני, אם הוא גבוה מספיק). התוחלת של ההחזר הכספי כמעט לא משחקת תפקיד: אדם שמחשב חישובי תוחלת לרוב לא יחפש את מזלו בהגרלות.מאפיין שני של הגרלה טובה הוא סיכוי מספיק לזכות בפרס הראשון: הגרלה שבה כל שבוע או שבועיים זוכה מישהו בפרס הגדול עונה על הצורך הזה. הגרלה שבה במשך חודש ימים אין זוכים היא בעייתית, ואפשר לגזור מהנתון הזה פחות או יותר גם את הסיכויים הסטטיסטיים הנדרשים מהגרלה טובה.לאור זאת, נובע שהתועלת של התכנית הזאת פחותה מהגרלה רגילה מאחר שהפרסים בה נמוכים יותר.בהזדמנות זאת, אני רוצה לתקן שגיאה קטנה בתגובה שלי מלמעלה: העמלה האפקטיבית של החברה היא 20% (כי היא מחושבת מתוך חצי הפרס שמתחלק 40:10 ולא מתוך כלל הפרסים), ולכן מחיר הכרטיס האפקטיבי (אשר זכאי, כזכור, ל-50% מהפרסים) הוא 76% ממחיר כרטיס רגיל – מה שהופך את העסקה לעוד פחות כדאית.
תום בתאריך 7/29/2004 6:08:58 PM
אני מחפש שותף למשחק, שבו תוחלת הרווח של השחקן השני היא אינסוף. תוחלת הההפסד שלי היא, כמובן, אינסוף.חוקי המשחק:
עלות כרטיס למשחק היא 1,000,000 ש"ח. אחרי שקנית כרטיס, אנחנו משחקים כך:
זורקים מטבע הוגן מספר פעמים ככל הנדרש, עד הפעם הראשונה שהמטבע מראה "עץ", ואז המשחק נגמר.
אם יצא עץ בזריקה הראשונה, אז אני משלם לך אגורה אחת. אם בפעם השנייה אז אני משלם שתי אגורות. בפעם השלישית – ארבע אגורות. רביעית – שמונה אגורות.
אם יצא עץ בזריקה ה– n אז אני משלך לך 2 בחזקת n-1 אגורות.תוחלת הרווח שלך באמת אינסופית! רוצה לשחק?
תום בתאריך 7/30/2004 8:25:41 PM
דעה רווחת היא, שתוחלת הזכייה בהגרלה מבטאת את המחיר ההוגן להשתתפות. אם מחיר ההשתתפות גבוה בהרבה מהמחיר ההוגן, אז "האדם הרציונאלי" לא ישתתף במשחק. אם המחיר נמוך, אז הוא ישתתף, ואם המחיר הוא בסביבות המחיר ההוגן (התוחלת?) אז ההשתתפות תלויה במאפיינים פסיכולוגיים ובערך המשתנה של הכסף עבור המהמר.במשחק סנט-פטרבורג (בהצגה המניפולטיבית שלי לעיל) המחיר קטן בהרבה מהמחיר ההוגן (כל מחיר הוא כזה), ובכל זאת אף אחד לא ירצה להשתתף בו. מה הסיבה לכך? על פי איזה קריטריון (למעט שכל ישר) החלטת שלא לשחק?
שלומי בתאריך 11/12/2005 9:59:26 PM
בכלום אבל אני ממשיך לשלוח אני שולח באופן קבוע בחיים לא זכיתי
יוסי בתאריך 3/3/2007 12:09:19 AM
היתי מנוי בלוטונט, מניסיון של שנה אין רוחי משנה גדולים עלה לי הרבה ולא ראיתי כמעת אגורה. התחלתי לשלוח לבד וכעבור שנה יצא לי 6 עם עוד שני שותפים כל אחד 166330 לפני מס ,נקי כ-125000. תחשבו מה היתי מרגיש אם זה בא דרך מינוי לוטונט !!! יוסי
נשלח: 27 בנובמבר, 2008. נושאים: מה אומרת הסטטיסטיקה.
תגובות: אין
| טראקבק
הרהורים בין כרכור לסינגפור (א)
אני מניח שלאור 25 אחוזי הרייטינג להם זכה חיים הכט אתמול (11 ביולי 2004) בתכניתו "בין כרכור לסינגפור", חלק מכם ראה את התכנית. אני מניח שעוד יאמרו וייכתבו דברים רבים על יצירתו האחרונה של מייקל מור של הימין הישראלי, לכן אסתפק כאן בדיון קצר אודות אפיזודה קטנה מהתכנית הנ"ל, הקשורה (כמובן) לנסיכת המדעים, היא הסטטיסטיקה.
כדי לקלס את מערכת החינוך הסינגפורית, הביא הכט את מה שכינה "מדגם אקראי" של תלמידות כיתה ג' סינגפוריות וישראליות, וממנו עלה כי הסינגפוריות מעדיפות לקרוא ספרים, לעומת הישראליות המעדיפות לצפות ב-MTV. אבל למה התכוון במילים "מדגם אקראי"?
מה שראינו בהחלט היה מדגם, שכן מדגם מוגדר כקבוצה חלקית של האוכלוסייה. בדרך כלל, שואפים שמדגם יהיה מדגם מייצג לאוכלוסיה. אני מניח כי במילים "מדגם אקראי" התכוון הכט לומר כי המדגם לא היה מייצג, ולכן אין לראות בתשובות שהציג בתכנית עדות מוסמכת להעדפותיהן של בנות ה-9 בשתי הארצות (מה שכל צופה רציונאלי היה מסיק ממילא). ברור לי כי הכט ראיין מספר תלמידות, ובעריכה שתל את התשובות שידגישו את המסר שהוא רוצה להעביר. התלמידות שהוצגו בתכנית נבחרו באופן בלתי אקראי כלל וכלל. להיפך. העדויות שהוצגו בפנינו היו מוּטוֹת (biased) לטובת המסר של הכט.
ואם המדגם שהוצג לא היה מדגם אקראי, למרות שכך נאמר, מהו באמת מדגם אקראי, ומה תועלתו?
הארי טרומן לא ממש מתרגש מסקר השיקאגו טריביון שהכריז על הפסדו לדיואי בבחירות לנשיאות ארה"ב ב-1948
סוקרים למדו בדרך הקשה כי לקיחת מדגם מייצג היא בעיה קשה במיוחד (הדוגמא הבולטת היא הסקר שהכריז על הפסדו של הארי טרומן בבחירות לנשיאת ארה"ב ב-1948). ניתן לקחת מדגם שייצג תכונות ידועות באוכלוסיה בקלות (יחס בין מספר הגברים לנשים למשל), אולם כיצד נדע אם המדגם מייצג את האוכלוסייה גם בערכו של הפרמטר הבלתי ידוע, למשל העדפה בין קריאה לצפייה בטלוויזיה? מתברר שניתן לעשות זאת אם שיטת הדגימה היא הסתברותית. אם נדע בדיוק את ההסתברות של כל פרט באוכלוסיה להיכלל במדגם, אזי נוכל לאמוד בדיוק רב את ערכו של הפרמטר הבלתי ידוע (למשל, איזה אחוז מתלמידות כיתה ג בישראל מעדיף קריאת ספרים על פני צפייה ב-MTV). הדרך הקלה ביותר לעשות זאת, היא על ידי בחירת המדגם באופן אקראי לחלוטין מתוך האוכלוסייה. מתודולוגיה זו נקראת בסטטיסטיקה בשם "מדגם מקרי פשוט" (simple random sample – באנגלית זה נשמע יותר טוב).
מוזר – אך המדגם האקראי הוא המדגם האמין שניתן להסתמך על תוצאותיו.
פורסם לראשונה ב 12 ביולי 2004 באתר "רשימות"
נשלח: 25 בנובמבר, 2008. נושאים: מה אומרת הסטטיסטיקה.
תגובות: אין
| טראקבק
האם החסידה מביאה ילדים לעולם?
האם החסידה מביאה ילדים לעולם? ניתן לאסוף שפע של נתונים שיתמכו בתיאוריה המעניינת הזו, אבל אני סבור כי שום מתאם בין תנועת החסידות מעל לעיר ובין שיעורי הלידה לא ישכנעו איש מכם כי אכן כך הדבר.
האם יש קשר בין מספר הנעליים ורמת הידע במתמטיקה? לכו לבית הספר הקרוב ותיווכחו בעצמכם. לילדים בכיתות הגבוהות בודאי יש ידע נרחב יותר במתמטיקה, והם גם גדולים יותר פיזית, ולכן מספרי הנעליים שלהם גבוהים יותר.
האם ככל שנשלחות יותר מכוניות כיבוי כדי לכבות שריפה, כך גדול יותר הנזק שנגרם בשריפה? כן, בודאי. האם עלינו להסיק מכך שניתן לבטל את שירותי הכבאות? לא ולא. שריפות גדולות מצריכות כח כיבוי גדול יותר, וכמובן גורמות נזקים גדולים יותר.
האם בבתי חולים גדולים ומשוכללים שיעורי התמותה גבוהים יותר מבתי חולים קטנים ופחות מצויידים? לפעמים זה אכן כך. אולם לכל חולה אמליץ תמיד לבחור בבית החולים הגדול והמשוכלל. אכן, לבתי חולים כאלה מגיעים חולים יותר קשים, ולכן גם שיעורי ההצלחה שלהם יותר נמוכים לפעמים.
טוענים כי קיים קשר בין תוצאות המשחקים של קבוצת הבייסבול ניו-יורק יאנקיס, ובין ביצועי מדד הבורסה של ניו-יורק. כאשר היאנקיס מנצחים, הבורסה עולה, ולהיפך. האם כדאי לבסס את אסטרטגיית הכספים שלך על הביצועים של היאנקיס במגרש? אפשר לטעון כי כאשר הקבוצה המקומית מנצחת, משקיעי ניו-יורק שמחים ואופטימיים יותר, והדבר מתבטא במסחר. תיאוריה נחמדה, אבל המשחקים נערכים בשעות אחר הצהריים והערב , בעוד שהמסחר בבורסה מתקיים בבוקר. מאידך ייתכן כי כאשר שערי הבורסה עולים, השחקנים יותר שמחים ומשחקים במרץ רב יותר. וייתכן גם כי המתאם הנצפה הוא מקרי בלבד.
דוגמא קיצונית סיפק לנו הסטטיסטיקאי רונלד פישר, שהיה מעשן כבד. באמצע שנות החמישים של המאה העשרים, התגלו המתאמים הראשונים בין העישון ובין הסיכוי לחלות בסרטן הריאות. תלמידיו של פישר פנו אליו, וביקשו ממנו שינסה לעשן פחות למען בריאותו. הם נימקו את בקשתם במתאם הסטטיסטי שזה עתה התגלה. פישר דחה אותם, בנימוק שהמתאם עצמו אינו מראה סיבה ותוצאה. ייתכן, אמר פישר, כי מחלת הסרטן גורמת בשלב הראשון של המחלה לצורך בניקוטין, המתבטא בכך שהחולה מעשן, ורק אחר כך מתפתחים הגידולים. פישר נפטר בשנת 1962. רק בשנות השבעים של המאה העשרים הוכיחו המדענים כי צריכה מוגברת של ניקוטין אכן גורמת לעליית הסיכון לחלות בסרטן הריאות.
יש אנשים שיאמרו כי פישר נהג בטיפשות, אולם מבחינה סטטיסטית, פישר צדק לחלוטין. המתאם הסטטיסטי מראה קשר בלבד, ולא סיבה ותוצאה. הסטטיסטיקה יכולה לספק עדויות לתופעות, אך לא לספק פירוש לתופעה הנצפית. את הפירוש חייבים לספק המומחים, בעזרת כלים מתחום מומחיותם. בדוגמא של העישון והסרטן, הוכח הקשר הסיבתי (עישון גורם סרטן, ולא סרטן ורם עישון) בניסויים בתנאי מעבדה.
האם יש קשר בין היד הדומיננטית ובין הכשרון למתמטיקה? ייתכן, איני יודע. יש הטוענים כי קיים מתאם סטטיסטי בין התופעות, וראיתי פה ושם קטעי עיתונות המצטטים מארים בהם "הוכיחו" כי אטרי יד ימינם מגלים כישורים מתמטיים מיוחדים. אולם, מי שטוען טענה כזו, צריך להביא נימוקים משכנעים, מתחום הפסיכולוגיה ו/או נוירולוגיה. הקשר הסטטיסטי הוא רק עדות לתופעה, אך לא מספק שום מידע על הסיבות לתופעה הנצפית.
כיום כאשר עומדים לרשותנו מאגרי נתונים עצומים, ומחשבים רבי עוצמה. קל מאוד לתת למחשב לעבוד ולחפש מתאמים. זה יותר קל מלחפש מטבע תחת הפנס. אולם יש תמיד לזכור כי גם אם צופים במתאם בין שני משתנים, אין הדבר אומר כי קיים קשר ישיר בינם.
לא אפרט כאן כיצד מחושב מקדם המתאם הסטטיסטי. אומר רק שזהו אכן כלי רב עוצמה, אבל גם בעל מגבלות שיש להכיר ולהיזהר מפניהן. שימוש לא נכון במתאם הסטטיסטי עלול להוביל למסקנות מגוחכות, במקרה הטוב, ואף למסקנות מסוכנות, במקרה הגרוע.
פורסם לראשונה ב 27 ביוני 2004 באתר רשימות, שם התקבלו 4 תגובות
אביבה [אתר] בתאריך 7/12/2004 11:13:01 PM
ברוך הבא ובהצלחה.
יובל בתאריך 7/15/2004 2:20:46 PM
אכן, מתאם אינו בהכרח קשור לקשר בין סיבה ותוצאה.
למרות זאת, יש חוקרים המנסים להסיק קשרים
סיבתיים באופן מבוסס בשיטות הסתברותיות.
אחד מהם הוא יהודה פרל, מדען מחשב ותיק ומוכשר:
http://bayes.cs.ucla.edu/jp_home.html
יוסי ל בתאריך 7/15/2004 3:48:31 PM
מעניין.
תודה על הלינק.
תראזימאכוס בתאריך 7/20/2004 4:55:43 PM
תודה ובהצלחה
נשלח: 24 בנובמבר, 2008. נושאים: מה אומרת הסטטיסטיקה.
תגובות: אין
| טראקבק
