חיפוש באתר

קישורים

עמודים

קטגוריות

ארכיב עבור 'ויזואליזציה'

דיאגרמת העוגה “הטובה ביותר” בכל הזמנים

הנה היא – בחסות חדשות FOX (המקור: FlowingData):

FOX news pie chart

אם פעם חשבתם שאי אפשר לאכול את העוגה ולהשאיר אותה שלמה, באו חכמי פוקס ולימדו אותנו איך אפשר לאכול 193% מהעוגה.

בהזדמנות זו, אני מפנה את הקוראים לפוסט של טל גלילי על ההיסטוריה של תרשימי העוגה ועל חלק מהבעיות שכרוכות בהם.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

על בייסבול, גרפיקה והימורים

פיד הרסס של del.ico.us שמסנן את כל הלינקים שתויגו תחת סטטיסטיקה והומור הינו משעממם למדי. גולשים מתייגים שוב ושוב את אותם לינקים, שבדרך כלל לא קשורים לסטטיסטיקה, וגם לא ממש מצחיקים (אותי לפחות). ובכל זאת, לפעמים אני מצליח לדוג שם דברים מעניינים.

הנה למשל הלינק Flip Flop Fly Ball. לא תמצאו סטטיסטיקה, וגם לא שום דבר הומוריסטי, אבל הוא בכל זאת יכול להעלות לכם חיוך על השפתיים, בייחוד אם אתם אוהבים תיאורים גרפיים של נתונים או בייסבול (או שניהם, כמובן). הנה למשל דיאגרמה שעונה לשאלה האם קבוצת הביססבול קליבלנד אינדיאנס אכן ראויה לשמה. הדיאגרמה שמשמאל מראה את שיעורם של התושבים האמריקניים-ילידים בתוך אוכלוסיית קליבלנד. הדיאגרמה הנוספת שמוצגת כאן משווה בין אספקטים שונים של 30 האיצטדיונים של המייג’ור ליג (MLB). לחצו על התמונה כדי לעבור לאתר פליפ פלופ ולצפות בפרטים.

Flip Flop Fly Ball

את התיאורים הגרפיים האלה יצר קרייג רובינסון, חובב בייסבול מסיאטל, שלא מגביל את עצמו לבייסבול, ויוצר תיאורים גרפיים של נתונים מענפי ספורט נוספים. אם תמשיכו לשוטט באתר שלו, תמצאו עוד הרבה דברים מעניינים אחרים. אני למשל התלהבתי מהתמונה הזו, שנמצאת בפליקר שלו. זהו צילום של הלוח האלקטרוני בסיטי פארק של ניו-יורק, האיצטדיון החדש של הניו-יורק מטס:

Insurance and gambling

בתמונה אתם רואים שתי פרסומות שונות שהופיעו באותו זמן על הלוח, האחת לחברת ביטוח והשניה לקזינו, שתי תעשיות שהמודל העסקי שלהן בנוי על הסטטיסטיקה, אולם ההבדל בינהן הוא… אממממ…

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

תמונה אחת שווה אלף מלים

הטור של דילברט מהיום מדגים כיצד הצגה גרפית טובה יכולה להעביר את המסר בצורה אופטימלית. לחצו על התמונה כדי לראות אותה בגודל מלא באתר דילברט.קומ

הצגה גרפית אופטימלית

וברצינות – דיאגרמת עוגה (pie chart) היא אחת ההצגות הגרפיות הגרועות ביותר שיש, ומומלץ מאוד לא להשתמש בהן (הערה לעצמי: צריך לכתוב בהזדמנות רשימה על הנושא).

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

תמונה אחת שווה אלף מלים? על מה הם חשבו?

על מה הם חשבו?

למי שלא מספיקה התמונה, הנה כמה מלים: לפני כשבוע הייתי בכנס השנתי לסטטיסטיקה יישומית על שם וו. אדוורדס דמינג, שנערך, כמו כל שנה, באטלנטיק סיטי, ניו ג’רזי. אחת ההרצאות המעניינות ששמעתי ניתנה על ידי ד”ר תומאס א בראדסטריט ממעבדות המחקר של Merck. הרצאה זו נשאה את הכותרת “Effective Communication Through Graphics”. הגרף שמופיע למעלה, פורסם דווקא בעיתון מכובד (The New England Journal of Medicine). למרות זאת, אתם יכולים לנחש שהוא לא הובא בהרצאה כדוגמא לתקשורת אפקטיבית באמצעות גרפים.

למי שמעוניין לעקוב אחרי דוגמאות נוספות מהזאנר, אני ממליץ לעקוב אחרי הבלוג Junk Charts, למרות שגם עלעול יומי במדורי החדשות והכלכלה על העיתונים המקומיים יספיק בהחלט. מי שנתקל בפריט מעניין במיוחד, מוזמן לשלוח אותו אלי.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

הצגה בעייתית של נתוני הוצאה על בריאות בכלכליסט

בתאריך 6 באוגוסט 2008 פורסמה ב”כלכליסט” כתבה שכותרתה “קופת החולים החמישית שוב על המפה“. הכתבה, שנכתבה על ידי אחד הכתבים הכלכליים היותר מוערכים (לפחות על ידי), סקרה את תכניתו של משרד האוצר לקדם את הקמתה של קופת חולים חמישית באמצעות חוק ההסדרים, והיא כתובה היטב ובהחלט ראויה לקריאה. לכתבה שפורסמה במהדורה המודפסת של העיתון צורפו מספר גרפים ודיאגרמות שהציגו שלל נתונים על הנושא. הגרפים האלה לא מופיעים בגירסה האינטרנטית (כמו כן, לא ניתן קרדיט ליוצרי הגרפים).

אני לא מתכוון לדון ברשימה הזו בסוגיית ההקמה של הקופה החמישית, ובדרך שבה האוצר מנסה לקדם את ההקמה. אני רוצה לדון כאן רק בגרף קטן אחד שמתאר משתנה אחד. הנה הגרף לפניכם. התבוננו, ורק אחר כך המשיכו לקרוא:

xamishon - calcalist

הדבר הראשון ששאלתי את עצמי כשראיתי את הגרף הזה, היה איך זה שהעמודה שעליה כתוב 570 שקל גבוהה* יותר מהעמודה שמסמלת 965 שקל. רק התבוננות שניה בגרף הבהירה לי שגבהי העמודות מייצגים את האחוזים המופיעים לידם. פשוט, כיתוב האחוזים פחות בולט מכיתוב הסכומים המוחלטים. גם הכותרת של הגרף: “ההוצאה החודשית של משק בית על בריאות ב2006 מכלל ההוצאה” לא מבהירה כי אמורים להיות מוצגים כאן נתונים יחסיים. רשמו לפניכם שני כשלים. הכשל הראשון הוא כי כל עמודה מנסה לייצג שני נתונים: הוצאה מוחלטת והוצאה יחסית. הכשל השני הוא שדווקא הנתון האמור להיות מיוצג באופן גרפי, ההוצאה היחסית באחוזים, אינו מובלט כראוי, גם בגרף עצמו וגם לא בכותרת שלו. הנתון שלא אמור להיות מוצג בגרף על פי הכותרת, ההוצאה הנומינלית, מוצג בו בצורה בולטת יותר מנתון הראשי. היה עדיף לא להציג כלל את ההוצאה הנומינלית, או להוסיף עוד עמודות שיציגו את הנתון הזה.

טוב, ברור כי הוצאה של 5.6% גבוהה מהוצאה של 5.1%, וזו בתורה גדולה מהוצאה של 4.6%, אבל בכמה? מי שיקח סרגל וימדוד את גבהי העמודות יגלה כי גובה העמודה המייצגת 5.6% הוא 4.82 ס”מ, בעוד שגובה העמודה המייצגת 5.1% הוא 3.74 ס”מ, וגובה העמודה המייצגת 4.6% הוא 2.92 ס”מ בלבד. במלים אחרות, קנה המידה בעמודה הראשונה הוא 0.86 ס”מ לאחוז, בשניה 0.73 ובשלישית 0.63 ס”מ לאחוז. ככל שיש פחות אחוזים יש פחות סנטימטרים, והתוצאה היא שההבדלים בין הנתונים מצטיירים בגרף כגדולים יותר ממה שהם באמת.

עד כאן הכשלים שבציר האנכי* של הגרף, וכעת אפנה לציר האפקי. שלוש העמודות מציינות ממוצע, חמישון עליון, וחמישון תחתון, שהם שלוש רמות של… של מה בדיוק? האם מדובר בחמישוני הכנסה או בחמישוני הוצאה? מאחר ומדובר בנתוני הוצאות על בריאות ביחס לכלל ההוצאה, אני מנחש שמדובר בחמישונים וממוצע הוצאות, אבל זה רק ניחוש. אפשר לעשות תרגיל חילוק פשוט, ולקבל כי אם 570 שקלים מהווים 5.6% מכלל ההוצאה (במקרה של העמודה העליונה), אז כלל ההוצאה הוא 10,179 שקלים. המספרים האלה דומים למדי לנתונים שפרסמה הלמ”ס בסקר הוצאות משקי הבית לשנת 2006 (שנתון סטטיסטי לישראל, לוח 2.2, לוח 2.2 .- הוצאה חודשית לתצרוכת בעשירונים של משקי בית לפי הכנסה כספית נטו לנפש סטנדרטית, קישור לקובץ pdf) ההוצאה הממוצעת למשק בית הייתה 11,133 שקלים, מתוכם הוצאו 570  שקלים לצרכי בריאות. המספרים דומים אבל לא זהים. אפשר לערוך חישובים דומים לגבי החמישונים. לפי הלמ”ס, בחמישון התחתון הייתה הוצאה ממוצעת של 6793 שקלים למשק בית החמישון התחתון (זהו מיצוע של נתוני העשירון הראשון והשני כפי שפורסמו בלוח 2.2 הנ”ל), 331 שקלים להוצאה על בריאות, כלומר 4.9%. גם בחמישון העליון הנתונים שגרף לא מתיישבים לגמרי עם נתוני הלמ”ס (17505 שקלים הוצאה כוללת, מתוכם 966 לבריאות, שהם 5.5%) , אבל הסטיות סבירות בסך הכל, ולא הייתי אומר שהנתונים שהוצגו בגרף הינם מוטים או מטעים.

הבעיה שלי היא אחרת. המשתנה שעל הציר האפקי, שהוא כנראה רמת ההוצאה הכללית, הוא לכל הפחות משתנה סדור, אם לא משתנה כמותי (הנה לינק שמסביר את סיווג המשתנים). רמת ההוצאה הממוצעת בחמישון העליון, 17505 שקלים, גבוהה מרמת ההוצאה הממוצעת, שהיא 11,133 שקלים, וזו בתורה גבוהה מרמת ההוצאה בחמישון התחתון, שהיא 6793 שקלים. לכן העמודה של הממוצע צריכה להופיע בין שתי עמודות החמישונים, ולא במקום שבו היא נמצאת. (תחשבו על גרף שמראה את ההוצאה החודשית לאורך כל השנה: ההוצאה בינואר, בפברואר, וכן הלאה, עד דצמבר. האם לא סביר לצפות שהנתונים יוצגו כסדרם?) אופן ההצגה של הגרף מראה איזשהו קשר לינארי בין רמת ההוצאה הכוללת לבין רמת ההוצאה על בריאות – אבל האמת היא  שאין קשר כזה. מי שיבדוק את נתוני הלמ”ס יגלה כי רמת ההוצאה על בריאות היא קבועה ושווה לכ-5% בכל העשירונים, פרט לעשירון העליון שבו ההוצאה על בריאות היא כ-6% מסך ההוצאות, והעשירון התחתון, שרק 4.7% מסך הוצאותיו הן הוצאות בריאות.

לסיכום, אחרי שיתוקנו כל הכשלים שתוארו, התצוגה הגרפית של ההוצאה החודשית של משק בית על בריאות ב2006 באחוזים מכלל ההוצאה תיראה כך:

xamishon - yossi

והתמונה המתקבלת שונה לחלוטין מהתמונה שהוצגה בכלכליסט.

____________________________________________________________________

* אני מתייחס אל הציר של המשתנה המסביר (רמת ההוצאה הכוללת) כאל הציר האפקי – ציר ה-X, ואל הציר של המשתנה המוסבר (% מההוצאה הכוללת) כאל הציר האנכי – ציר ה-Y, למרות שהגרף מסובב. לכן גם אני מתייחס למלבנים כאל “עמודות”, ולאורכם כאל “גובה”.

פורסם לראשונה באתר “רשימות” בתאריך 19 באוגוסט 2008 22:30 במדור מה אומרת הסטטיסטיקה שם התקבלו 10 תגובות

הכלכלן המתוסכל  בתאריך 8/20/2008 12:11:56 AM

אני מוכן להישבע

שאם לא הייתי טס הלילה לחו”ל והיה לי קצת יותר זמן, הייתי מחפש את המקור של הנתונים (דו”ח כלשהו של משרד הבריאות משנת 2007). המקור, נדמה לי, צוין בכתבה. אין מקום לתת קרדיט ליוצרי הגרפים, משום שהם לא הועתקו אלא יוצרו על בסיס הנתונים שאני העברתי למערכת. באותה מידה לא ניתן קרדיט לעורכים. אין לי מושג למה זה ככה, אבל ככה זה.
לגבי חוסר קנה המידה – נו, עיתונות פופולרית, ככה זה.
לגבי הטיעונים האחרים – כאמור, אין לי זמן עכשיו. כשאחזור.
שמח שקראת

ערן  בתאריך 8/20/2008 12:19:28 AM

יוסי, תודה על הפוסט

ממש תענוג לקרוא ולהחכים
תודה

אייל ב.ד  בתאריך 8/20/2008 12:48:55 AM

מאד מעניין, תודה!

מכיוון שהוצאות רפואיות משתנות מאד בין משקי בית שונים גם באותה רמת ההכנסה (תחשוב על בית עם ילדים חולים כרונית או צרכים מיוחדים אחרים וכו’), אני לא אתפלא אם סטיית התקן (שאגב, לא אמורה להופיע בגרף בעיתון?) תהיה משמעותית מאד, ושההבדלים לא משמעותיים סטטיסטית.
מהסתכלות בקובץ שצירפת, לכל הנתונים רשומה סטייה של כאחוז. לא ברור לי האם מדובר בסטיית התקן של המדגם (או שמא רווח בר סמך לממוצע).
אפשר אולי מהנתונים שם לעשות מבחן אנובא, יכול להיות מעניין.

בלה בלה  בתאריך 8/20/2008 1:19:57 AM

ללא נושא

פוסט מצוין.
תודה

יוסי לוי  [אתר]  בתאריך 8/20/2008 8:35:02 AM

אייל ב.ד. צודק

כמובן

ברק  בתאריך 8/20/2008 9:06:16 AM

לא מסתדר לי

איך זה יכול להיות שהעשירון העליון מוציא 6% על בריאות, השני 5%, אבל החמישון העליון 5.1%? היינו מצפים ל5.5 לפחות, וכנראה שקצת יותר, כי אחוז אחד מההוצאה של העשירון העליון זה יותר מאחוז מזו של השני, לפי הגדרה.

יובל  בתאריך 8/20/2008 10:47:30 AM

אדוארד טפטי

ראוי לציין בהקשר הזה את ספריו של אדוארד טפטי:
http://www.edwardtufte.com/tufte/index
ארבעת ספריו עוסקים בהצגה ויזואלית נכונה ושגויה של נתונים.

bar  בתאריך 8/21/2008 3:53:01 PM

כרגיל, כשאני מתחיל לקרוא מאמר שלך

אז אני קורא אותו עד לסופו ויש חשק לעוד, בניגוד להרבה מאמרים של עיתונאים “מקצועיים”.

יוסי לוי  [אתר]  בתאריך 8/21/2008 4:53:45 PM

ברק

מדובר על אחוזים מההוצאה, לא מההכנסה. באופן מפתיע, ההבדלים בין העשירונים מבחינת ההוצאה לא חדים כמו ההבדלים בהכנסות.

משה  בתאריך 9/18/2008 9:23:08 AM

טעות בנתונים שהוצגו

אחוז ההוצאה הממוצע לבריאות שהוצג בגרף – 5.6 גבוה מזה של החמישוןן העליון 5.1 ומזה של החמישון התחתון 4.6 .במבט ראשון אינו נראה סביר.
בדיקת הנתונים בשנתון הסטטיסטי לוח 5.27 (נתונים ל-2006 מראה כי הממוצע לכל
האוכלוסיה הוא 5.1 ואילו לחמישון העליון 5.7

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו