חיפוש באתר

קישורים

עמודים

קטגוריות

ארכיב עבור 'סטטיסטיקה רעה'

ויזואליזציה של נתוני יחס חוב/תוצר

לפני מספר ימים ראיתי את הגרף הזה בטוויטר:[1]

גיגול קצר העלה כי מדובר בגרף ישן יחסית מאוקטובר 2017. מצד אחד, זהו באמת גרף מאוד יפה ומרשים. מצד שני, מקומו בדפי פייסבוק כגון Trust me, I’m a Statistician או Trust me, I’m a Data Scientist.

גרף זה הוא סוג של דיאגרמת עוגה (pie chart).  בדיאגרמת עוגה קלאסית הפרוסות הן בצורת “משולשים”, או גזרות של עיגול אם רוצים לדייק. כאן לפרוסות יש צורות אחרות, הכוללות משולשים, מרובעים, מצולעים אחרים, וצרות שאין לי מושג מה שמן[2]

אני מודה שהגרף הזה די בילבל אותי. מדובר בנתונים של חוב לאומי ויחס חוב/תוצר. בתחילה התייחסתי לנתון של יחס חוב/תוצר, ומשום מה חשבתי שהשטח של כל פרוסה בעוגה הזו מייצג את יחס החוב/תוצר של כל מדינה. זאת כנראה בגלל שהעין שלי תפסה קודם כל את הכותרת התחתונה.

בפועל, כל פרוסה מראה את החלק של המדינה מתוך סך כל החובות הלאומיים בעולם, ולכן סך כל השטחים אמור להסתכם ל-100%. [3].ניתן לראות בבירור כי המדינה עם החלק הגדול ביותר מתוך סך החובות היא ארצות הברית, ומכאן ג ניתן להסיק כי לארצות הברית יש את החוב המוחלט הגבוה ביותר במונחים דולריים. המדינה עם החלק השני הכי גדול בסך החובות היא יפן, וסין שלישית. מצאו בעוגה את הפרוסות של  איטליה, גרמניה, צרפת ובריטניה. לאיזה מדינה מבין הארבע יש חלק יותר גדול בעוגת סך החובות? האם אתם יכולים לקבוע זאת על ידי השוואת השטחים של הפרוסות?

יחס החוב/תוצר של כל מדינה מבוטא על ידי הצבע של הפרוסה בעוגה. ככל שהצבע בהיר יותר, כך יחס החוב/תוצר גבוה יותר. אפשר לראות מייד כי ליפן יש יחס חוב/תוצר גבוה מאוד. ניתן להבחין כי גם ביוון היחס הזה גבוה, למעשה השני בגובהו. האם אתם יכולים לזהות את המדינה עם היחס השלישי בגובהו? זוהי לבנון. חפשו אותה בפינה הימנית עליונה. איטליה ופורטוגל, שתופסות את המקום הרביעי והחמישי, בולטות יותר. האם אתם יכולים לראות לאיזה מדינה יש את יחס החוב/תוצר הנמוך ביותר?

לאחר שהבנו את הנתונים המוצגים בדיאגרמה הזו, אנו יכולים לנסות למצוא תובנות.

דיאגרמה זו היא למעשה גרף דו-מימדי, במובן שמוצגים בה שני משתנים שונים. בדרך כלל גרפים כאלה אמורים להראות את הקשר בין שני המשתנים. אז מה הקשר בין יחס החוב/תוצר ובין חלק החוב בסך כל החובות? אתם יכולים לראות? כי אני לא יכול. לזכותם של הכותבים ייאמר שהם לא ניסו לדון בכלל בעניין.

האם יש דרך טובה יותר להציג את הנתונים האלה באופן גרפי? כמובן שיש. בואו נשכח את כל מה שראינו עד עכשיו ונשחק קצת בנתונים.

לקחתי את נתוני יחס החוב/תוצר של כל מדינות העולם וגם את נתוני התוצר עצמם מויקיפדיה. לצורך ההדגמה, התמקדתי בנתוני מדינות ה-OECD  משנת 2017. מנתוני יחס החוב/תוצר ונתוני התוצר אפשר כמובן לחשב את גובה החוב, משם את סך החובות, ולבסוף את חלקה של כל מדינה מתוך סך החובות. הנתונים נמצאים כאן.

האפשרות הפשוטה ביותר היא לשרטט תרשים פיזור (scatter plot) משרטטים את הנתונים במערכת צירים, כשכל מדינה מיוצגת על ידי נקודה. המרחק של הנקודה מכל אחד מהצירים מייצג את הערך המתאים של הנתון.

הנה דיאגרמת פיזור בסיסית המציגה את הנתונים שלנו. למעוניינים, קוד R נמצא בגרסה האנגלית של הפוסט הזה.

בדיאגרמה ניתן לראות בבירור כי יש שתי נקודות/מדינות חריגות: אחת מהן עם יחס חוב/תוצר גדול מ-200%, חלקה של השניה בסך כל החובות גבוה מ-30%.

עיון נוסף מגלה מדינה שיחס החוב/תוצר שלה גבוה מ-150%, ועוד שתי מדינות שיחס החוב/תוצר שלהן באיזור ה-130%.

מאחר ויש כלכלנים שסבורים כי חוב גבוה זה רע, וחוב גבוה ביחס לתוצר הוא עוד יותר רע, החלטתי לחלק את הנקודות/מדינות לשלוש קבוצות:

  • בקבוצה הראשונה נכללות המדינות שיחס החוב/תוצר שלהן גבוה מ-100% או שחלקן בסך החובות גבוה מ-10%. אלה המדינות שמצבן הכלכלי “רע” על פי הפרמטרים האלה.
  • בקבוצה השניה נכללות המדינות שיחס החוב/תוצר שלהן נמוך מ-50% וגם חלקן בסך החובות נמוך מ-2%. אלה המדינות שמצבן הכלכלי “טוב” על פי הפרמטרים האלה.
  • הקבוצה השלישית כוללת את כל שאר המדינות.

קווי הגבול בין הקבוצות (2%, 10% וכולי) הם שרירותיים משהו. קבעתי אותם על פי מיטב שיפוטי.[4]

שרטטתי מחדש את הגרף: את הנקודות של המדינות שמצבן “רע” צבעתי באדום, והוספתי לגרף גם את שמה של כל מדינה מקבוצה זו. את הנקודות של המדינות שמצבן “טוב” צבעתי בירוק, ואת שאר הנקודות צבעתי בכתום:

עכשיו ניתן לראות כי:

  • יחס החוב/תוצר של המדינות שמצבן “טוב” משתרע על כל הטווח מ-0 עד 50, אם כי יש בקבוצה זו יותר מדינות שיחס החוב/תוצר שלהן מתקרב ל-50%.
  • מדינות הביניים מתחלקות בערך לשתי קבוצות: קבוצה אחת עם רמת חובות מוחלטת (כאחוז מסך החוב) נמוכה ויחס חוב/תוצר בין 50 ל-75 בערך, וקבוצה שניה של חמש מדינות  עם רמת חובות מוחלטת גבוהה יותר, כאשר לא ניתן לומר אמירה ברורה על מכנה משותף ביניהן לגבי יחס חוב/תוצר.

הערות
  1. הערה: ביצעתי כמה עריכות מינוריות בגרף לצורך ההדגמה בהמשך הפוסט []
  2. ראו לדוגמא את בריטניה בתחתית הדיאגרמה []
  3. לא בדקתי את הנתונים האלה, אני מאמין למי שיצר את הדיאגרמה, וזה גם לא כל כך משנה לדיון כאן []
  4. אם אתם מכירים כלכלן שיכול לקבוע את קווי הגבול באופן יותר מדוייק (במובן accuracy, לא במובן precision) , אשמח אם תכירו לי אותו []

איך לגרום לילדים לאכול יותר ירקות

נתחיל מהסוף: אני לא יודע איך לגרום לילדים לאכול ירקות. לפחות עם הילדים שלי, ההצלחה היא מועטה. אבל לשני חוקרים מאוניברסיטת קולורדו היה רעיון: נגיש להם את הירקות בצלחות עם ציורים של ירקות. כדי לבדוק האם הרעיון עובד הם ערכו ניסוי שתוצאותיו פורסמו בכתב העת היוקרתי JAMA Pediatrics. מכיוון שהתוצאות פורסמו אתם יכולים לנחש כי התוצאה של הניסוי הייתה חיובית. אבל, האם הם באמת הוכיחו כי הרעיון שלהם עובד? לדעתי לא, וזו תוצאה ישירה של התכנון הלקוי של הניסוי.

תכנון הניסוי ותוצאותיו

נבחרו 18 כיתות גן ובית ספר (ילדים בגיל 3-8) באחד מפרוורי דנוור. בתחילה הוצעו לילדים פירות וירקות כאשר סופקו להם צלחות לבנות. בכל כיתה הונחו קערת פירות וקערת ירקות, וכל ילד לקח לעצמו פירות וירקות, ואכל מהם כרצונו. המשקלים של הירקות והפירות נרשמו לפני שהוגשו לילדים, ולאר שהילדים סיימו את ארוחתם החוקרים שקלו את הפירות והירקות שנותרו. ההפרש בין המשקלים (לפני הארוחה ואחריה) חולק במספר הילדים, וכך התקבלה הכמות הממוצעת של פירות וירקות שכל ילד אכל. נעשו גם חישובים לפירות לחוד ולירקות לחוד. החוקרים חזרו על המדידות האלה שלוש פעמים בכל כיתה.

לאחר זמן מה חזרו על המדידות באותו אופן, כאשר הפעם סופקו לילדים צלחות שעליהן ציורים של ירקות ופירות. התוצאה: חלה עליה ממוצעת של 13.82 גרם בצריכת הירקות, ותוצאה זו מובהקת סטטיסטית. באחוזים, כמו ביידיש, זה נשמע הרבה יותר טוב: זו עליה של כמעט 47%.

אז מה הבעיה? יש מספר בעיות.

בעיה ראשונה – דיוק יתר

אתחיל במה שהוא לכאורה לא בעיה, אבל מהווה אות אזהרה: דיוק יתר. כאשר מתפרסמות תוצאות מדוייקות במיוחד, צריך להתחיל לדאוג. בעברית יש בעיה עם הבעיה הזו: יש רק מילה אחת לתיאור דיוק. באנגלית יש שתיים: precision ו-accuracy. הבדל הוא מהותי. precision מתייחס לרמת הדיוק המדווחת של המדידות. accuracy מתייחס למרחק בין הערך הנמדד והערך האמיתי, הבלתי נצפה, ונמדד בדרך כלל על ידי סטיית תקן או רווח סמך.  התוצאות מדווחות ברמה של שתי ספרות אחרי הנקודה: הן מאוד  precise. אני לא אומר שזה לא חשוב, אבל מהניסיון שלי, כשמגזימים צריך לבדוק בצורה יותר יסודית מה קורה. דיוק של שתי ספרות אחרי הנקודה העשרונית כשמדובר בגרמים נראה לי מוגזם. אתם כמובן יכולים לחשוב אחרת, אבל זה אות האזהרה שגרם לי לקרוא את המאמר עד סופו ולחשוב על מה שתואר בו .

בעיה שניה – על מי הניסוי נערך?

הבעיה השנייה היא הרבה יותר מהותית: הבחירה של יחידת הניסוי, מה שמכונה ה-experimental unit או unit of observation. יחידות הניסוי כאן הן הכיתות. התצפיות נעשו ברמת הכיתה. החוקרים מדדו כמה ירקות ופירות נאכלו ברמת הכיתה, לא ברמת הילד. הם אמנם חישבו ממוצע לילד, אבל אני מניח שכולם יודעים שהממוצע לבדו הוא מדד בעייתי: הוא מתעלם מהשונות בין הילדים. לפני ההתערבות הניסויית, כל ילד אכל בממוצע כ-30 גרם ירקות בארוחה, אבל אני לא חושב שיהיה מי שיחלוק על האמירה כי כל ילד אכל כמות שונה של ירקות. מהי סטיית התקן? אנחנו לא יודעים, והחוקרים לא יודעים, וזה מהותי, כי השונות שבין הילדים משפיעה על המסקנה הסופית. מכיוון שהחוקרים התעלמו (ולא משנה מה הסיבה) מהשונות בין הילדים, הם הניחו למעשה כי השונות היא נמוכה מאוד, למעשה אפס. אם השונות הזו הייתה נלקחת בחשבון המסקנות של הניסוי היו אחרות: רווחי הסמך בוודאי היו שונים, ויותר רחבים מרווחי הסמך שחישבו החוקרים.

עוד סוג של שונות שלא נלקח בחשבון היא השונות בתוך ילדים. אסביר: גם אם צפינו בילד אחד וראינו כי בממוצע הוא אוכל 30 גרם ירקות בכל ארוחה, בארוחות שונות הוא אוכל כמות שונה של ירקות. ושוב נשאלת השאלה: מה סטיית התקן? גם לסטיית תקן זו יש השפעה על המסקנה הסופית של הניסוי. כמובן, לכל ילד יש סטיית תקן שונה, וגם את השונות הזאת צריך לקחת בחשבון.

סוג שלישי של שונות שלא נלקח בחשבון הוא השונות שבין ילדים בגילאים שונים: סביר להניח שילד בן 8 יגיב בצורה שונה לצלחת מצויירת מאשר ילד בן 3. בוודאי ילד בן 8 יאכל יותר ירקות מאשר ילד בן 3. החוקרים התעלמו גם מהשונות הזו.

אני סבור כי החוקרים לא נתנו דעתם על כל השונויות האלה. המילים variation, adjust או covariate לא מופיעות במאמר. מכיוון שהחוקרים התעלמו מהשונויות רווחי הסמך שלהם צרים מדי ולא משקפים את ההבדלים האמיתיים בין הילדים ובין סוגי הצלחות.

ולבסוף, למרות שהיחידה הניסויית הייתה הכיתה, התוצאות דווחו כאילו המדידות נעשו ברמת הילד. זו לדעתי עדות נוספת לכך שהחוקקים לא היו מודעים לשונויות שבין ובתוך הילדים. לדידם, כיתה וילד הם היינו הך.

בעיה שלישית – מה עם הביקורת?

בניסוי הזה אין קבוצת ביקורת. לכאורה אין בעיה: על פי תכנון הניסוי, כל כיתה מהווה את קבוצת הביקורת של עצמה. הרי הילדים קיבלו את הירקות גם בצלחות לבנות וגם בצלחות עם ציורי ירקות ופירות. אבל לדעתי זה לא מספיק.

יש המון סוגים של צלחות לילדים, עם ציורים של בוב הבנאי, דמויות דיסני, מפרץ ההרפתקאות, תומס הקטר, והרשימה עוד ארוכה. האם יכול להיות שהשינוי שנצפה הוא בגלל עצם הציורים עצמם ולא בגלל שמדובר בציורים של ירקות ופירות? אולי ילד שארוחתו מוגשת בצלחת עם ציורים של גיבור העל החביב עליו יאכל גם הוא יותר ירקות? זו שאלה שצריכה להישאל, והניסוי שנערך לא עונה על השאלה הזו. קבוצת ביקורת יכולה לענות על השאלות הלאה. לדעתי דרושות בניסוי כזה שתי קבוצות ביקורת. באחת מהן הילדים מקבלים בתחילה צלחות לבנות, ולאחר מכן צלחות של תומס הקטר, דיסני או גיבורי על, בהתאם לגילם. בקבוצת הביקורת השנייה יהיו ילדים שבתחילה יקבלו צלחות מצויירות “רגילות”[1] ולאחר מכן צלחות עם ציורים של ירקות ופירות.

בעיה רביעית – מה המשמעות של כל זה?

קודם כל, מתברר כי נצפה שינוי מובהק סטטיסטית לגבי צריכת הירקות, אך לא נצפה שינוי מובהק סטטיסטית לגבי הפירות. החוקרים התייחסו לכך במשפט קצר: הסבר אפשרי, הם אמרו, הוא ceiling effect. באופן פורמלי הם צודקים. ceiling effect הוא מונח סטטיסטי, וזה מה שקרה כאן. לשאלה החשובה באמת הם לא ענו: מדוע נגרם האפקט הזה?

והשאלה הכי חשובה: האם השינוי המובהק הוא גם משמעותי? מה המשמעות של הבדל של 14 גרם (סליחה, 13.82 גרם?) החוקרים לא התייחסו לשאלה הזו. אני אתן לכם קצת חומר למחשבה. הלכתי לסופרמרקט ושקלתי שם מלפפון אחד ועגבנייה אחת (כן, זה מדגם קטן, אני יודע). משקלו של המלפפון היה 126 גרם, ומשקל העגבנייה היה 124 גרם[2]. זאת אומרת, כל ילד אכל בממוצע עוד חצי ביס של עגבנייה או מלפפון. יכול להיות שזה אכן משמעותי מבחינה בריאותית ו/או תזונתית. החוקרים לא התייחסו לשאלה הזאת וגם לא העורכים של כתב העת.

סיכום

יכול להיות שצלחות עם ציורי ירקות ופירות גורמות לילדים לאכול יותר ירקות ופירות. זו אכן השערה מעניינת. המחקר שתואר כאן לא נותן תשובה לשאלה הזו. האופן שבו הוא תוכנן ובוצע כלל לא מאפשר לקבל אפילו תשובה חלקית לשאלה הזו, וזאת ככל הנראה בשל העדר חשיבה סטטיסטית בסיסית.


הערות
  1. שוב: דיסני, תומס הקטר וכדומה []
  2. למרבה הצער, למאזניים של שופרסל יש דיוק/precision מוגבל []

גרפים בעייתיים במחקר פערים דיגיטליים

בתאריך 17.8.2018 הופיעה במוסף של העיתון כלכליסט כתבה על מחקר שעסק בפערים הדיגיטליים בישראל. בכתבה הוצגו מספר גרפים שהם עיבודים של גרפים שהופיעו בדו”ח המחקר המקורי (קישור לקובץ pdf). ברשימה זו אתייחס לגרפים בלבד ולא לממצאי המחקר עצמו. מטעמי נוחות אציג את הגרפים שפורסמו בכתבה עם הפניה לגרפים המקוריים בדו”ח המחקר.

הגרף הראשון מתאר את ההבדלים בצריכת התוכן בהתאם להבדל בהכנסה[1].

ציר ה-Y בגרף מציין את אינדקס ריכוזיות התוכן[2]. בציר X מופיעות כל מיני קטגוריות: זכויות חברתיות, הימורים, רשתות חברתיות, יוטיוב, שירותים, ספורט ועוד. אלה הן למעשה קטגוריות של משתנה המתאר סוגי תוכן. זהו משתנה בסולם מדידה קטגוריאלי/שמי. אין סדר בין הקטגוריות. למרות זאת, עורכי הגרף סידרו את הקטגוריות בסדר מסויים, וכך הגרף יותר אשליה של סדר. די ברור כי הסדר של הקטגוריות נקבע על פי ההפרשים בין האינדקסים לשתי קבוצות האוכלוסייה – מהגבוה ביותר לנמוך ביותר – ראו הסבר מפורט יותר בתגובות[3] . המטה של יוצרי הגרף הייתה להראות כי לבעלי שכר ממוצע ומטה יש ריכוזיות תוכן גבוהה יותר בקטגוריות מסויימות בעוד שלבעלי שכר גבוה יש ריכוזיות תוכן בקטגוריות אחרות. עד כאן זה בסדר, אבל מה המשמעות של זה? מה אנחנו יכולים ללמוד מהגרף? העורך של הכתבה נתן פרשנות אפשרית: “העשירים מחפשים דירה, העניים מחפשים זוגיות”, אבל אני מקווה שברור לכולם שזו פרשנות פשטנית, שלא לומר דמגוגית. מה המשותף לכל הקטגוריות שבהן נמוך יותר כשמדובר בבעלי שכר גבוה? אני לא רואה שום דבר משותף בין יוטיוב וחיפוש עבודה. ברור לחלוטין שהסדר בין הקטגוריות נקבע על פי הפערים בין שתי שכבות ההכנסה. לראיה: בגרפים דומים אחרים בדו”ח הסדר בין הקטגוריות הוא ששונה, אבל התמונה נשארת דומה: קו אחד עולה מימין לשמאל, השני יורד.

מה המשמעות של קו עולה לאורך הקטגוריות? ככל שקטגוריית הגלישה היא יותר “משהו” כך האינדקס גבוה יותר. אבל מהו המשהו הזה? לא ברור.

בעיה שניה בגרף: ציר ה-X מציין קטגוריות בדידות, אבל הקווים הם רציפים. המשמעות בעייתית. לדוגמה: האינדקס עבור זכויות חברתיות לבעלי שכר גבוה הוא 0.25, ובקטגוריית ההיכרויות הוא בסביבות 0.4. הקו הרציף בים 0.25 ל-0.4 עובר דרך 0.33[4]. מה מציין האינדקס של 0.33? אם הקו רציף, אז האינדקס הזה צריך להתייחס לאיזשהו ערך בציר-X שנמצא בין הזכויות החברתיות וההיכרויות. אבל אין קטגוריה כזו.

הדרך העדיפה להצגת נתונים כאלה היא על ידי דיאגרמת עמודות. ניתן גם לקבץ קטגוריות דומות יחד ולהציג את האינדקס לכל אחת מהקבוצות בקטגוריה המאוחדת. כך, למשל, אפשר אולי לאחד קטגוריות כמו יוטיוב, בידור, תוכן למבוגרים והימורים לקטגוריית על של “פעילות פנאי”. [5] , ואילו קטגוריות כמו פיננסים, נדל”ן וחיפשו עבודה יכולות להיות מאוחדות אולי לקטגוריית כלכלה. כך אפשר להציג גרף עמודות, שבו בציר ה-X יוצגו הקטגוריות המקובצות לפי סדר קבוע (למשל סדר אלפביתי), וערכי האינדקס עבור שתי קבוצות ההכנסה יוצגו זה לצד זה, לדוגמה:[6]

 

לגרף השני שהוצג בכתבה יש בעיה דומה[7] :

כאן אמנם הקטגוריות לא מוצגות כמשתנה רציף כמו בגרף הקודם, אך הסדר ביניהן עדיין נקבע על פי הפערים (המקרה זה בין גברים ונשים).[8] הפרשנות שנתן העורך לנתונים שוב פשטנית, אבל זו לא הנקודה. האם ניתן למצוא מכנה משותף בין הקטגוריות שבהן צריכת התוכן של נשים גבוהה יותר מזו של גברים, למשל בריאות ועסקים ותעשייה? אולי כן, אני לא רואה איך. בדו”ח לא ניתן הסבר.

שוב, הדרך הנכונה להציג את הנתונים היא על ידי גרף דומה לה שהראיתי למעלה, עמודות המוצגות זו לצד זו, ללא הנחת סדר בין הקטגוריות.

אני רוצה להודות לידידי גיל גרינגרוז שהפנה את תשומת ליבי לכתבה.

פניתי לפרופסור רפאלי וביקשתי את התייחסותו. אשמח לפרסם אותה כאשר תתקבל.


הערות
  1. הגרף המקורי הוא גרף מספר 10 בדו”ח, עמוד 59. יש בדו”ח עוד גרפים דומים []
  2. אין לי מושג מה זה אומר וכיצד האינדקס מחושב []
  3. למי שלא השתכנע מומלץ לעיין בגרפים הדומים שמופיעים בדו”ח המקורי []
  4. זה בערך הממוצע של 0.25 ו-0.4 []
  5. אל תיתפסו לדוגמה, זו רק דוגמה ואפשר לעשות את זה אחרת []
  6. אפשר כאמור להציג את כל הקטגוריות המקוריות, אך כך ייווצר גרף עמוס יותר ויותר קשה להבנה []
  7. הגרף המקורי הוא גרף מספר 4 בדו”ח, עמוד 46 []
  8. זה קורה גם בגרפים דומים אחרים בדו”ח []

איך לא ללמד חשיבה סטטיסטית

גברת נחמדה, בעלת רצון עז להבין את מה שמלמדים אותה באוניברסיטה (או מנסים ללמד), העלתה אתמול לקבוצת סטטיסטיקה והסתברות בפייסבוק מספר שאלות שניתנו במבחנים בסטטיסטיקה. די מהר התברר שבשאלה אחת הייתה טעות גסה, והשאלות האחרות, איך לומר, היו בעייתיות, לפחות בעיני. שאלתי אותה איפה היא לומדת, והיא ענתה שמדובר בקורס “חשיבה סטטיסטית לפסיכולוגים”. עיון מהיר בפרופיל שלה העלה כי היא לומדת באוניברסיטה העברית[1].

כמה מילים על חשיבה סטטיסטית

כאן צריך להתקיים דיון בשאלה מהי חשיבה סטטיסטית ואיך מלמדים אותה. ברשותכם אני אדחה את הדיון הזה למועד אחר. אציין רק שחשיבה סטטיסטית זה דבר קשה, שלא בא בטבעיות כמעט לאף אחד (כולל אותי). שני פסיכולוגים מהאוניברסיטה העברית, דניאל כהנמן ועמוס טברסקי, הוכיחו כבר בסוף שנות השישים כי בני האדם אינם “סטטיסטיקאים טבעיים”, וחשיבה סטטיסטית אינה אינטואיטיבית. ללמד חשיבה סטטיסטית זה עוד יותר קשה ומסובך, אם כי לא בלתי אפשרי (ואני רוצה להפנות את הקוראים המתעניינים בכך לספרם של עמוס טברסקי וורדה ליברמן, “חשיבה ביקורתית“). אני בספק האם ניתן ללמד חשיבה סטטיסטית בקורס של כמה שעות בסמסטר אחד.

כפי שכבר ניתן להבין מדבריי עד כה, אני חושב שהשאלות שהיא העלתה (כאמור שאלות שניתנו במבחנים של הקורס הזה) אינן בודקות שום מימד של חשיבה, אלא יכולות של חישובים ולהטוטים בנוסחאות. אולי זה לגיטימי להתמקד בנוסחאות וחישובים במסגרת קורס בסיסי בסטטיסטיקה (אני חושב שלא) אבל זו לא חשיבה סטטיסטית.

איך לא בודקים יכולות של חשיבה סטטיסטית

ועכשיו בואו ננתח את השאלה שממש הרגיזה אותי:

ובכן, מה יש לנו כאן? מנהל בית ספר שנתוני הציון הממוצע וסטיית התקן בכיתה מסויימת לא מתאימים לאג’נדה שלו. הפתרון של המנהל הוא לעוות את הנתונים[2]. מחבר השאלה מציע למנהל הזה ארבע אופציות: בשתיים מהן מוסיפים לנתונים נתון נוסף של תלמידה מכיתה אחרת שקיבלה ציון גבוה מהממוצע (יש שתי אפשרויות כי המנהל גם רוצה להקטין את השונות, הרי בכל זאת מתיימרים לדבר על חשיבה סטטיסטית). בשתי האופציות האחרות משמיטים מנתוני הכיתה את הציון של תלמיד או תלמידה עם ציון נמוך מהממוצע.

אני חושב שהשאלה הזו ממצה את כל מה שרע בפרקטיקות של אנשים, חוקרים או אחרים, שמשתמשים בסטטיסטיקה ללא שמץ של הבנה או יושרה. כתבתי סדרה של שבעה פוסטים על סטטיסטיקה רעה, והנה שבע שורות שלוקחות את כל מה שכתבתי בהליכה.

מצד שני, באופן אבסורדי, דווקא כאן יש סוג של חשיבה סטטיסטית (אמנם בהקשר רע, אבל בכל זאת חשיבה). אבל השאלה לא בודקת את יכולות החשיבה של הסטודנטים, אלא לכל היותר מציגה בצורה מוגבלת את יכולת החשיבה הסטטיסטית של מחבר השאלה[3]. הוא אכן מבין, או לפחות יודע, שככל שממוצע הציונים גבוה יותר וסטיית התקן נמוכה יותר, כך העדות לטובת שיטת הלימוד החדשה חזקה יותר[4]. אבל הוא אומר את זה במפורש לסטודנטים: צריך ממוצע יותר גבוה וסטיית תקן יותר קטנה. מה שנשאר לסטודנטים לעשות זה רק לערוך ארבעה חישובים[5] חסרי טעם.

איך בכל זאת אפשר לבדוק יכולות של חשיבה סטטיסטית

כותב השאלה ממש לא מבין איך לברר את היכולת החשיבתית הזאת אצל הסטודנטים בצורה ישירה, ללא התעסקות בחישובים, וללא הצגה של סטטיסטיקה רעה. הוא היה יכול, למשל, להציע לסטודנטים את ארבע האפשרויות בלי לומר להם שהשאיפה היא לממוצע יותר גבוה עם סטיית תקן יותר קטנה. זה היה בודק האם הסטודנטים בוחרים באפשרות הנכונה ללא הנחיה. עם זאת, הלגיטימיות שניתנת כאן להונאה באמצעות שפצור הנתונים עדיין נשארת.

יש גם אפשרות אחרת: להציג נתוני ממוצע וסטיית תקן של ארבע כיתות היפותטיות, ולשאול איזה נתונים היפותטיים מבטאים עדות חזקה יותר ליעילותה של השיטה החדשה. כך הוא ניתן האם הסטודנטים אכן יודעים להעריך את העדויות על פי הממוצע וסטיית התקן, ללא חישובים, וללא הסיפור המזעזע[6] על המנהל הבלתי מרוצה.

אבל בשביל זה צריך חשיבה סטטיסטית.


הערות
  1. שהיא ה-alma mater שלי []
  2. ביטוי מכובס ל-“לשקר” []
  3. אני מקווה שהיכולות שלו גבוהות יותר, אי אפשר לשפוט את היכולות שלו על סמך מה שכתוב בשאלה אחת []
  4. אם כי איפה קבוצת הביקורת? []
  5. אמנם לא מסובכים []
  6. אין כאן שום ציניות []

סטטיסטיקה רעה: לא לתת מדד לאי ודאות

נתונים סטטיסטיים מבוססים בדרך כלל על מדגמים, ובמדגמים, גם מדגמים מייצגים, יש אלמנט של אי ודאות. עד כמה ניתן לסמוך על התוצאות המתקבלות מהמדגם? את זה אפשר לכמת, ולתת מדד למידת אי הודאות של התוצאות המדווחות.

הנה דוגמא מלאכותית אבל קלאסית: במקום עבודה מסויים השכר הממוצע הוא 10400 ₪. יפה, לא? בטח טוב לעבוד שם. אבל עיון יותר מעמיק בנתונים מעלה כי יש 9 עובדים שכל אחד מהם מרוויח 6000 ₪ בחודש, בעוד שהמנהל לוקח הייתה בכל חודש 50000 ₪. מי שיעשה חשבון יגלה כי סטיית התקן של השכר במפעל היא 13200 ₪. הדוגמא הזו מחשבת את הממוצע וסטיית התקן מתוך הנתונים (המלאכותיים) המלאים, ובדרך כלל מיועדת להדגים את רגישותו של הממוצע לערכים קיצוניים, אך סטיית התקן נותנת לנו מושג עד כמה אפשר לסמוך על הנתון הממוצע.  אם למשל אומר לכם כי במפעל אחר השכר הממוצע גם שם שווה ל-10400 ₪, אבל סטיית התקן היא 1200 ₪, יהיה לכם מידע יותר ודאי על רמות השכר במפעל הזה. תוכלו להסיק כי פערי השכר במפעל הזה קטנים יותר מאשר במפעל הראשון.[1]

בספרות המדעית בדרך כלל לא חוטאים את החטא הזה. העורכים של כתבי העת המדעיים כמעט תמיד דורשים לצרף לאומדנים המתפרסמים מדד לאי-ודאות, בדרך כלל סטיית תקן או רווח סמך.

עם זאת, זיהיתי שני תחומים שבהם מרבים לפרסם אמדנים כגון ממוצעים או חציונים ללא מדדים לאי הודאות.

התחום הראשון הוא העיתונות. חיפוש מהיר בגוגל באתרים של 5 עיתונים גדולים[2] הראה כי המילה “ממוצע” מופיע פעמים רבות בידיעות שהתפרסמו בשנה האחרונה. החיפוש אחרי “סטיית תקן” (לאורך כל השנים) כמעט ולא העלה ממצאים. חיפוש אחרי “רווח סמך” (שוב, לאורך כל השנים)  באתרים הנ”ל העלה תוצאה בודדת[3] . עם זאת, שני העיתונים הכלכליים מפרסמים את סטיות התקן עבור נתונים כלכליים שוטפים (מסחר בבורסה ומסחר במטבע חוץ). כמו כן, כאשר מתפרסמים בעיתונות סקרים למיניהם, מפורסמת יחד עימם טעות הדגימה, וטוב שכך.

התחום השני הרבה יותר בעייתי. מדובר בפרסומים רשמיים של נתונים סטטיסטיים על ידי המדינה, בראש ובראשונה על ידי הלשכה המרכזית לסטטיסטיקה (אך גם על ידי מוסדות נוספים, כגון הביטוח הלאומי, בנק ישראל, ומשרדי ממשלה שונים). כתבתי כאן בעבר על הבעייתיות שיש בפרסום השכר הממוצע שהלמ”ס מפרסמת מדי חודש. זה היה ב-2004. מה השתנה מאז? כלום. בשנתון הסטטיסטי לישראל יש נתונים על גבי נתונים (הנה למשל פרק שוק העבודה מתוך שנתון 2016 – קובץ pdf) . מופיעים שם לוחות על גבי לוחות. סטיות תקן או רווחי סמך? יוק. מי שמבין קצת סטטיסטיקה ורוצה לערוך חישובים יכול אמנם לקבל אומדנים למדדי אי-וודאות  כך למשל, פירקתי פעם את נתוני התפלגות השכר לפי עשירונים שפירסמה הלמ”ס כדי לאמוד את קטגוריית השכר השכיחה, כלומר “כמה משתכרים הרוב“. באופן דומה הייתי יכול לאמוד גם את סטיית התקן של התפלגות השכר. אוסיף ואומר כי הבעיה שבפרסומי הלמ”ס אינה רק בעיה סטטיסטית חמורה אלא גם בעיה ציבורית חמורה: מדובר כאן בחוסר שקיפות ובמקרים מסויימים גם בהטעיית הציבור.


רשימות נוספות בסדרה:


הערות
  1. בדוגמא הזו 9 עובדים מרוויחים 10000 ₪ בחודש, המנהל מרוויח 14000 ₪ []
  2. ידיעות אחרונות – Ynet, מעריב/מקור ראשון –nrg, הארץ, דה-מרקר וגלובס []
  3. סקירה בגלובס על ספר של חיים שפירא, בשנת 2015 []