חיפוש באתר

קישורים

עמודים

קטגוריות

סטטיסטיקה רעה: לא לתת מדד לאי ודאות

נתונים סטטיסטיים מבוססים בדרך כלל על מדגמים, ובמדגמים, גם מדגמים מייצגים, יש אלמנט של אי ודאות. עד כמה ניתן לסמוך על התוצאות המתקבלות מהמדגם? את זה אפשר לכמת, ולתת מדד למידת אי הודאות של התוצאות המדווחות.

הנה דוגמא מלאכותית אבל קלאסית: במקום עבודה מסויים השכר הממוצע הוא 10400 ₪. יפה, לא? בטח טוב לעבוד שם. אבל עיון יותר מעמיק בנתונים מעלה כי יש 9 עובדים שכל אחד מהם מרוויח 6000 ₪ בחודש, בעוד שהמנהל לוקח הייתה בכל חודש 50000 ₪. מי שיעשה חשבון יגלה כי סטיית התקן של השכר במפעל היא 13200 ₪. הדוגמא הזו מחשבת את הממוצע וסטיית התקן מתוך הנתונים (המלאכותיים) המלאים, ובדרך כלל מיועדת להדגים את רגישותו של הממוצע לערכים קיצוניים, אך סטיית התקן נותנת לנו מושג עד כמה אפשר לסמוך על הנתון הממוצע.  אם למשל אומר לכם כי במפעל אחר השכר הממוצע גם שם שווה ל-10400 ₪, אבל סטיית התקן היא 1200 ₪, יהיה לכם מידע יותר ודאי על רמות השכר במפעל הזה. תוכלו להסיק כי פערי השכר במפעל הזה קטנים יותר מאשר במפעל הראשון.[1]

בספרות המדעית בדרך כלל לא חוטאים את החטא הזה. העורכים של כתבי העת המדעיים כמעט תמיד דורשים לצרף לאומדנים המתפרסמים מדד לאי-ודאות, בדרך כלל סטיית תקן או רווח סמך.

עם זאת, זיהיתי שני תחומים שבהם מרבים לפרסם אמדנים כגון ממוצעים או חציונים ללא מדדים לאי הודאות.

התחום הראשון הוא העיתונות. חיפוש מהיר בגוגל באתרים של 5 עיתונים גדולים[2] הראה כי המילה "ממוצע" מופיע פעמים רבות בידיעות שהתפרסמו בשנה האחרונה. החיפוש אחרי "סטיית תקן" (לאורך כל השנים) כמעט ולא העלה ממצאים. חיפוש אחרי "רווח סמך" (שוב, לאורך כל השנים)  באתרים הנ"ל העלה תוצאה בודדת[3] . עם זאת, שני העיתונים הכלכליים מפרסמים את סטיות התקן עבור נתונים כלכליים שוטפים (מסחר בבורסה ומסחר במטבע חוץ). כמו כן, כאשר מתפרסמים בעיתונות סקרים למיניהם, מפורסמת יחד עימם טעות הדגימה, וטוב שכך.

התחום השני הרבה יותר בעייתי. מדובר בפרסומים רשמיים של נתונים סטטיסטיים על ידי המדינה, בראש ובראשונה על ידי הלשכה המרכזית לסטטיסטיקה (אך גם על ידי מוסדות נוספים, כגון הביטוח הלאומי, בנק ישראל, ומשרדי ממשלה שונים). כתבתי כאן בעבר על הבעייתיות שיש בפרסום השכר הממוצע שהלמ"ס מפרסמת מדי חודש. זה היה ב-2004. מה השתנה מאז? כלום. בשנתון הסטטיסטי לישראל יש נתונים על גבי נתונים (הנה למשל פרק שוק העבודה מתוך שנתון 2016 – קובץ pdf) . מופיעים שם לוחות על גבי לוחות. סטיות תקן או רווחי סמך? יוק. מי שמבין קצת סטטיסטיקה ורוצה לערוך חישובים יכול אמנם לקבל אומדנים למדדי אי-וודאות  כך למשל, פירקתי פעם את נתוני התפלגות השכר לפי עשירונים שפירסמה הלמ"ס כדי לאמוד את קטגוריית השכר השכיחה, כלומר "כמה משתכרים הרוב". באופן דומה הייתי יכול לאמוד גם את סטיית התקן של התפלגות השכר. אוסיף ואומר כי הבעיה שבפרסומי הלמ"ס אינה רק בעיה סטטיסטית חמורה אלא גם בעיה ציבורית חמורה: מדובר כאן בחוסר שקיפות ובמקרים מסויימים גם בהטעיית הציבור.


רשימות נוספות בסדרה:


הערות
  1. בדוגמא הזו 9 עובדים מרוויחים 10000 ₪ בחודש, המנהל מרוויח 14000 ₪ []
  2. ידיעות אחרונות – Ynet, מעריב/מקור ראשון –nrg, הארץ, דה-מרקר וגלובס []
  3. סקירה בגלובס על ספר של חיים שפירא, בשנת 2015 []

תגובה אחת ל“סטטיסטיקה רעה: לא לתת מדד לאי ודאות”

  • תגובה מאת יאיר
    תאריך 11 בפברואר 2018 10:50

    מעניין, תודה. שתי שאלות:

    מה ההבדל בין סטיית תקן לרווח סמך לטעות הדגימה?

    בתור מומחה, למה אתה לא פונה ללמ"ס שיתקנו את הדוחות שלהם?

תגובה