בתאריך 6 באוגוסט 2008 פורסמה ב”כלכליסט” כתבה שכותרתה “קופת החולים החמישית שוב על המפה“. הכתבה, שנכתבה על ידי אחד הכתבים הכלכליים היותר מוערכים (לפחות על ידי), סקרה את תכניתו של משרד האוצר לקדם את הקמתה של קופת חולים חמישית באמצעות חוק ההסדרים, והיא כתובה היטב ובהחלט ראויה לקריאה. לכתבה שפורסמה במהדורה המודפסת של העיתון צורפו מספר גרפים ודיאגרמות שהציגו שלל נתונים על הנושא. הגרפים האלה לא מופיעים בגירסה האינטרנטית (כמו כן, לא ניתן קרדיט ליוצרי הגרפים).
אני לא מתכוון לדון ברשימה הזו בסוגיית ההקמה של הקופה החמישית, ובדרך שבה האוצר מנסה לקדם את ההקמה. אני רוצה לדון כאן רק בגרף קטן אחד שמתאר משתנה אחד. הנה הגרף לפניכם. התבוננו, ורק אחר כך המשיכו לקרוא:
הדבר הראשון ששאלתי את עצמי כשראיתי את הגרף הזה, היה איך זה שהעמודה שעליה כתוב 570 שקל גבוהה* יותר מהעמודה שמסמלת 965 שקל. רק התבוננות שניה בגרף הבהירה לי שגבהי העמודות מייצגים את האחוזים המופיעים לידם. פשוט, כיתוב האחוזים פחות בולט מכיתוב הסכומים המוחלטים. גם הכותרת של הגרף: “ההוצאה החודשית של משק בית על בריאות ב2006 מכלל ההוצאה” לא מבהירה כי אמורים להיות מוצגים כאן נתונים יחסיים. רשמו לפניכם שני כשלים. הכשל הראשון הוא כי כל עמודה מנסה לייצג שני נתונים: הוצאה מוחלטת והוצאה יחסית. הכשל השני הוא שדווקא הנתון האמור להיות מיוצג באופן גרפי, ההוצאה היחסית באחוזים, אינו מובלט כראוי, גם בגרף עצמו וגם לא בכותרת שלו. הנתון שלא אמור להיות מוצג בגרף על פי הכותרת, ההוצאה הנומינלית, מוצג בו בצורה בולטת יותר מנתון הראשי. היה עדיף לא להציג כלל את ההוצאה הנומינלית, או להוסיף עוד עמודות שיציגו את הנתון הזה.
טוב, ברור כי הוצאה של 5.6% גבוהה מהוצאה של 5.1%, וזו בתורה גדולה מהוצאה של 4.6%, אבל בכמה? מי שיקח סרגל וימדוד את גבהי העמודות יגלה כי גובה העמודה המייצגת 5.6% הוא 4.82 ס”מ, בעוד שגובה העמודה המייצגת 5.1% הוא 3.74 ס”מ, וגובה העמודה המייצגת 4.6% הוא 2.92 ס”מ בלבד. במלים אחרות, קנה המידה בעמודה הראשונה הוא 0.86 ס”מ לאחוז, בשניה 0.73 ובשלישית 0.63 ס”מ לאחוז. ככל שיש פחות אחוזים יש פחות סנטימטרים, והתוצאה היא שההבדלים בין הנתונים מצטיירים בגרף כגדולים יותר ממה שהם באמת.
עד כאן הכשלים שבציר האנכי* של הגרף, וכעת אפנה לציר האפקי. שלוש העמודות מציינות ממוצע, חמישון עליון, וחמישון תחתון, שהם שלוש רמות של… של מה בדיוק? האם מדובר בחמישוני הכנסה או בחמישוני הוצאה? מאחר ומדובר בנתוני הוצאות על בריאות ביחס לכלל ההוצאה, אני מנחש שמדובר בחמישונים וממוצע הוצאות, אבל זה רק ניחוש. אפשר לעשות תרגיל חילוק פשוט, ולקבל כי אם 570 שקלים מהווים 5.6% מכלל ההוצאה (במקרה של העמודה העליונה), אז כלל ההוצאה הוא 10,179 שקלים. המספרים האלה דומים למדי לנתונים שפרסמה הלמ”ס בסקר הוצאות משקי הבית לשנת 2006 (שנתון סטטיסטי לישראל, לוח 2.2, לוח 2.2 .- הוצאה חודשית לתצרוכת בעשירונים של משקי בית לפי הכנסה כספית נטו לנפש סטנדרטית, קישור לקובץ pdf) ההוצאה הממוצעת למשק בית הייתה 11,133 שקלים, מתוכם הוצאו 570 שקלים לצרכי בריאות. המספרים דומים אבל לא זהים. אפשר לערוך חישובים דומים לגבי החמישונים. לפי הלמ”ס, בחמישון התחתון הייתה הוצאה ממוצעת של 6793 שקלים למשק בית החמישון התחתון (זהו מיצוע של נתוני העשירון הראשון והשני כפי שפורסמו בלוח 2.2 הנ”ל), 331 שקלים להוצאה על בריאות, כלומר 4.9%. גם בחמישון העליון הנתונים שגרף לא מתיישבים לגמרי עם נתוני הלמ”ס (17505 שקלים הוצאה כוללת, מתוכם 966 לבריאות, שהם 5.5%) , אבל הסטיות סבירות בסך הכל, ולא הייתי אומר שהנתונים שהוצגו בגרף הינם מוטים או מטעים.
הבעיה שלי היא אחרת. המשתנה שעל הציר האפקי, שהוא כנראה רמת ההוצאה הכללית, הוא לכל הפחות משתנה סדור, אם לא משתנה כמותי (הנה לינק שמסביר את סיווג המשתנים). רמת ההוצאה הממוצעת בחמישון העליון, 17505 שקלים, גבוהה מרמת ההוצאה הממוצעת, שהיא 11,133 שקלים, וזו בתורה גבוהה מרמת ההוצאה בחמישון התחתון, שהיא 6793 שקלים. לכן העמודה של הממוצע צריכה להופיע בין שתי עמודות החמישונים, ולא במקום שבו היא נמצאת. (תחשבו על גרף שמראה את ההוצאה החודשית לאורך כל השנה: ההוצאה בינואר, בפברואר, וכן הלאה, עד דצמבר. האם לא סביר לצפות שהנתונים יוצגו כסדרם?) אופן ההצגה של הגרף מראה איזשהו קשר לינארי בין רמת ההוצאה הכוללת לבין רמת ההוצאה על בריאות – אבל האמת היא שאין קשר כזה. מי שיבדוק את נתוני הלמ”ס יגלה כי רמת ההוצאה על בריאות היא קבועה ושווה לכ-5% בכל העשירונים, פרט לעשירון העליון שבו ההוצאה על בריאות היא כ-6% מסך ההוצאות, והעשירון התחתון, שרק 4.7% מסך הוצאותיו הן הוצאות בריאות.
לסיכום, אחרי שיתוקנו כל הכשלים שתוארו, התצוגה הגרפית של ההוצאה החודשית של משק בית על בריאות ב2006 באחוזים מכלל ההוצאה תיראה כך:
והתמונה המתקבלת שונה לחלוטין מהתמונה שהוצגה בכלכליסט.
____________________________________________________________________
* אני מתייחס אל הציר של המשתנה המסביר (רמת ההוצאה הכוללת) כאל הציר האפקי – ציר ה-X, ואל הציר של המשתנה המוסבר (% מההוצאה הכוללת) כאל הציר האנכי – ציר ה-Y, למרות שהגרף מסובב. לכן גם אני מתייחס למלבנים כאל “עמודות”, ולאורכם כאל “גובה”.
פורסם לראשונה באתר “רשימות” בתאריך 19 באוגוסט 2008 22:30 במדור מה אומרת הסטטיסטיקה שם התקבלו 10 תגובות
הכלכלן המתוסכל בתאריך 8/20/2008 12:11:56 AM
אני מוכן להישבע
שאם לא הייתי טס הלילה לחו”ל והיה לי קצת יותר זמן, הייתי מחפש את המקור של הנתונים (דו”ח כלשהו של משרד הבריאות משנת 2007). המקור, נדמה לי, צוין בכתבה. אין מקום לתת קרדיט ליוצרי הגרפים, משום שהם לא הועתקו אלא יוצרו על בסיס הנתונים שאני העברתי למערכת. באותה מידה לא ניתן קרדיט לעורכים. אין לי מושג למה זה ככה, אבל ככה זה.
לגבי חוסר קנה המידה – נו, עיתונות פופולרית, ככה זה.
לגבי הטיעונים האחרים – כאמור, אין לי זמן עכשיו. כשאחזור.
שמח שקראת
ערן בתאריך 8/20/2008 12:19:28 AM
יוסי, תודה על הפוסט
ממש תענוג לקרוא ולהחכים
תודה
אייל ב.ד בתאריך 8/20/2008 12:48:55 AM
מאד מעניין, תודה!
מכיוון שהוצאות רפואיות משתנות מאד בין משקי בית שונים גם באותה רמת ההכנסה (תחשוב על בית עם ילדים חולים כרונית או צרכים מיוחדים אחרים וכו’), אני לא אתפלא אם סטיית התקן (שאגב, לא אמורה להופיע בגרף בעיתון?) תהיה משמעותית מאד, ושההבדלים לא משמעותיים סטטיסטית.
מהסתכלות בקובץ שצירפת, לכל הנתונים רשומה סטייה של כאחוז. לא ברור לי האם מדובר בסטיית התקן של המדגם (או שמא רווח בר סמך לממוצע).
אפשר אולי מהנתונים שם לעשות מבחן אנובא, יכול להיות מעניין.
בלה בלה בתאריך 8/20/2008 1:19:57 AM
ללא נושא
פוסט מצוין.
תודה
יוסי לוי [אתר] בתאריך 8/20/2008 8:35:02 AM
אייל ב.ד. צודק
כמובן
ברק בתאריך 8/20/2008 9:06:16 AM
לא מסתדר לי
איך זה יכול להיות שהעשירון העליון מוציא 6% על בריאות, השני 5%, אבל החמישון העליון 5.1%? היינו מצפים ל5.5 לפחות, וכנראה שקצת יותר, כי אחוז אחד מההוצאה של העשירון העליון זה יותר מאחוז מזו של השני, לפי הגדרה.
יובל בתאריך 8/20/2008 10:47:30 AM
אדוארד טפטי
ראוי לציין בהקשר הזה את ספריו של אדוארד טפטי:
http://www.edwardtufte.com/tufte/index
ארבעת ספריו עוסקים בהצגה ויזואלית נכונה ושגויה של נתונים.
bar בתאריך 8/21/2008 3:53:01 PM
כרגיל, כשאני מתחיל לקרוא מאמר שלך
אז אני קורא אותו עד לסופו ויש חשק לעוד, בניגוד להרבה מאמרים של עיתונאים “מקצועיים”.
יוסי לוי [אתר] בתאריך 8/21/2008 4:53:45 PM
ברק
מדובר על אחוזים מההוצאה, לא מההכנסה. באופן מפתיע, ההבדלים בין העשירונים מבחינת ההוצאה לא חדים כמו ההבדלים בהכנסות.
משה בתאריך 9/18/2008 9:23:08 AM
טעות בנתונים שהוצגו
אחוז ההוצאה הממוצע לבריאות שהוצג בגרף – 5.6 גבוה מזה של החמישוןן העליון 5.1 ומזה של החמישון התחתון 4.6 .במבט ראשון אינו נראה סביר.
בדיקת הנתונים בשנתון הסטטיסטי לוח 5.27 (נתונים ל-2006 מראה כי הממוצע לכל
האוכלוסיה הוא 5.1 ואילו לחמישון העליון 5.7