חיפוש באתר

קישורים

עמודים

קטגוריות

ארכיב עבור 'ויזואליזציה'

עוגה? לא, תודה.

שלא תבינו אותי לא נכון. אני אוהב עוגות, מאוד. עוגות של שוקולד, גבינה, פירות, אבל לא עוגות של נתונים.
הבעיה היא שדיאגרמות עוגה (pie charts) מאוד פופולריות. לעיתים נדמה כי מצגת או דו”ח ללא דיאגרמת עוגה אחת לפחות הינם פגומים. נדמה כי כל טיעוני הנגד אינם תקפים כאשר מוצגת דיאגרמת עוגה.

ובכל זאת, אני טוען כי דיאגרמת עוגה, למרות ההיסטוריה הארוכה והמכובדת שלה, אינה דרך טובה להציג נתונים.
הרעיון מאחורי דיאגרמת עוגה הוא להראות כיצד אוכלוסיה מסויימת מתפלגת למרכיביה. נניח כי אנו מתעניינים באהדת האוכלוסיה לקבוצות כדורגל, ומתברר כי במדגם של 90 איש 40 אוהדים את קבוצת הפועל תל-אביב, 30 אוהדים את מכבי חיפה, והשאר (20) אוהדים את מכבי תל-אביב. ניתן להציג מידע זה כעוגה, שמחולקת לשלוש פרוסות/גזרות, כשגודלה היחסי של כל פרוסה שווה לשכיחות היחסית המתאימה. אוהדי הפועל יקבלו פרוסה בגודל ארבע תשיעיות העוגה, אוהדי מכבי חיפה יקבלו שליש, ואוהדי מכבי תל-אביב יקבלו את מה שנשאר – שתי תשיעיות.
התוצאה תיראה כך:

יפה, נכון?
שימו לב כי השכיחות היחסית מבוטאת בדיאגרמה על ידי שלושה מאפיינים גאומטריים: שטח הפרוסה, שהוא המאפיין העיקרי הנתפס על ידי העין, אורך הקשת של הפרוסה, וגודל הזוית של הגיזרה.
וכאן הבעיה הגדולה של דיאגרמות העוגה. העין האנושית, או יותר נכון, המוח האנושי, אינם תופסים כראוי גדלים כאלה. התבוננו בחלק הירוק והחלק האדום. זוית הגזרה האדומה היא 160 מעלות וזוית הגזרה הצהובה הירוקה היא 120 מעלות. האם אתם רואים הבדל בין שתי הזוויות? המצב נעשה מסובך יותר אם יש יותר משלושה ערכים. הנה למשל הדוגמא הבאה, הלקוחה מדף הערך על דיאגרמות עוגה בויקיפדיה:

שלוש העוגות נראות מאוד דומות, אבל אם תבחנו אותן בעיון, תראו שיש ביניהן הבדלים. הפרוסה השחורה גדולה יותר בעוגה A, למשל. אבל באיזה עוגה הפרוסה הירוקה גדולה יותר? האם הפרוסה הכחולה שווה בגודלה לפרוסה האדומה? מהי הפרוסה הגדולה ביותר בעוגה B?
אפשר כמובן לשבת ולפענח אט אט את כל ההבדלים. אבל האם לא עדיף להשתמש בתצוגה ברורה יותר? (לחצו על הלינק כדי לראות תצוגה ברורה יותר של נתונים אלה).

תכנת אקסל ודומותיה מציעות עוד שכלולים לדיאגרמת העוגה – העוגה התלת מימדית פופולרית מאוד. הנה תצוגת נתוני האוהדים בעוגה תלת מימדית:

הפרוסה הצהובה נראית לפתע קטנה יותר, כיוון שהעין תופסת את הדפנות הקדמיות של הפרוסות האחרות כחלק משטחן. הנה דוגמא קיצונית יותר, שמצאתי באינטרנט (לא זוכר היכן):

החלק הכהה בדיאגרמה הימנית זהה בגודלו לחלק הכהה בדיאגרמה השמאלית, אבל הוא נראה הרבה יותר גדול.
הנה דוגמא נוספת, הפעם אמיתית, שממחישה את הבעייתיות.

דיאגרמה זו מציגה את הסיבות להפסקת הפיתוח של תרופות פוטנציאליות בבריטניה. פיתוחן של 40% מהמולקולות הופסק עקב בעיות פרמקוקינטיות, ופיתוחן של 29% מהמולקולות הופסק עקב חוסר יעילות טיפולית. נראה כאילו לשתי הסיבות יש משקל דומה, ואלי אפילו משקל הפרמקוקינטיקה קטן יותר. זאת כיוון שהפרוסה הצהובה נמצאת בקדמת התמונה ולכן נראית גדולה יותר.
עד כמה ההטעיה חמורה? ניתן למדוד את השטח בתמונה שתופסת כל פרוסה על ידי ספירת פיקסלים (עשיתי זאת בעזרת תכנית קטנה שכתב עבורי ידידי שי אלקין). מתברר כי השטח הצהוב תופס כ-50% משטח הדיאגרמה, השטח האדום תופש 32% בלבד מהשטח הכולל של הדיאגרמה. המסר שהעבירה הדיאגרמה שונה לחלוטין מזה שמעבירים הנתונים המספריים. למרה הצער, דיאגרמה זו הוצגה בפתיחת הרצאה על חשיבות המחקר הפרמקוקינטי.

למרות שדיאגרמת העוגה מאוד משכנעת, הרי שברוב המקרים אינה מצליחה להציג את הנתונים בצורה ראויה, בדרך כלל מקשה על תפיסת מהירה של משמעותם, ולעיתים אף עלולה להעביר מסר שגוי. קיימות דרכים טובות יותר להציג נתונים באופן גרפי. העדיפו אותן על פני העוגה. עוגה – רק בבית קפה!

עוד דיאגרמת פיי

כל מילה נוספת מיותרת. אציין רק שמצאתי את הגרף הזה בפריטים המשותפים של רותי מורין.

לחיצה על התמונה תוביל אתכם לאתר graphjam.com, שם תוכלו למצוא עוד גרפים משעשעים.

דיאגרמת העוגה “הטובה ביותר” בכל הזמנים

הנה היא – בחסות חדשות FOX (המקור: FlowingData):

FOX news pie chart

אם פעם חשבתם שאי אפשר לאכול את העוגה ולהשאיר אותה שלמה, באו חכמי פוקס ולימדו אותנו איך אפשר לאכול 193% מהעוגה.

בהזדמנות זו, אני מפנה את הקוראים לפוסט של טל גלילי על ההיסטוריה של תרשימי העוגה ועל חלק מהבעיות שכרוכות בהם.

על בייסבול, גרפיקה והימורים

פיד הרסס של del.ico.us שמסנן את כל הלינקים שתויגו תחת סטטיסטיקה והומור הינו משעממם למדי. גולשים מתייגים שוב ושוב את אותם לינקים, שבדרך כלל לא קשורים לסטטיסטיקה, וגם לא ממש מצחיקים (אותי לפחות). ובכל זאת, לפעמים אני מצליח לדוג שם דברים מעניינים.

הנה למשל הלינק Flip Flop Fly Ball. לא תמצאו סטטיסטיקה, וגם לא שום דבר הומוריסטי, אבל הוא בכל זאת יכול להעלות לכם חיוך על השפתיים, בייחוד אם אתם אוהבים תיאורים גרפיים של נתונים או בייסבול (או שניהם, כמובן). הנה למשל דיאגרמה שעונה לשאלה האם קבוצת הביססבול קליבלנד אינדיאנס אכן ראויה לשמה. הדיאגרמה שמשמאל מראה את שיעורם של התושבים האמריקניים-ילידים בתוך אוכלוסיית קליבלנד. הדיאגרמה הנוספת שמוצגת כאן משווה בין אספקטים שונים של 30 האיצטדיונים של המייג’ור ליג (MLB). לחצו על התמונה כדי לעבור לאתר פליפ פלופ ולצפות בפרטים.

Flip Flop Fly Ball

את התיאורים הגרפיים האלה יצר קרייג רובינסון, חובב בייסבול מסיאטל, שלא מגביל את עצמו לבייסבול, ויוצר תיאורים גרפיים של נתונים מענפי ספורט נוספים. אם תמשיכו לשוטט באתר שלו, תמצאו עוד הרבה דברים מעניינים אחרים. אני למשל התלהבתי מהתמונה הזו, שנמצאת בפליקר שלו. זהו צילום של הלוח האלקטרוני בסיטי פארק של ניו-יורק, האיצטדיון החדש של הניו-יורק מטס:

Insurance and gambling

בתמונה אתם רואים שתי פרסומות שונות שהופיעו באותו זמן על הלוח, האחת לחברת ביטוח והשניה לקזינו, שתי תעשיות שהמודל העסקי שלהן בנוי על הסטטיסטיקה, אולם ההבדל בינהן הוא… אממממ…

תמונה אחת שווה אלף מלים

הטור של דילברט מהיום מדגים כיצד הצגה גרפית טובה יכולה להעביר את המסר בצורה אופטימלית. לחצו על התמונה כדי לראות אותה בגודל מלא באתר דילברט.קומ

הצגה גרפית אופטימלית

וברצינות – דיאגרמת עוגה (pie chart) היא אחת ההצגות הגרפיות הגרועות ביותר שיש, ומומלץ מאוד לא להשתמש בהן (הערה לעצמי: צריך לכתוב בהזדמנות רשימה על הנושא).