חיפוש באתר

קישורים

עמודים

קטגוריות

עוגה? לא, תודה.

שלא תבינו אותי לא נכון. אני אוהב עוגות, מאוד. עוגות של שוקולד, גבינה, פירות, אבל לא עוגות של נתונים.
הבעיה היא שדיאגרמות עוגה (pie charts) מאוד פופולריות. לעיתים נדמה כי מצגת או דו”ח ללא דיאגרמת עוגה אחת לפחות הינם פגומים. נדמה כי כל טיעוני הנגד אינם תקפים כאשר מוצגת דיאגרמת עוגה.

ובכל זאת, אני טוען כי דיאגרמת עוגה, למרות ההיסטוריה הארוכה והמכובדת שלה, אינה דרך טובה להציג נתונים.
הרעיון מאחורי דיאגרמת עוגה הוא להראות כיצד אוכלוסיה מסויימת מתפלגת למרכיביה. נניח כי אנו מתעניינים באהדת האוכלוסיה לקבוצות כדורגל, ומתברר כי במדגם של 90 איש 40 אוהדים את קבוצת הפועל תל-אביב, 30 אוהדים את מכבי חיפה, והשאר (20) אוהדים את מכבי תל-אביב. ניתן להציג מידע זה כעוגה, שמחולקת לשלוש פרוסות/גזרות, כשגודלה היחסי של כל פרוסה שווה לשכיחות היחסית המתאימה. אוהדי הפועל יקבלו פרוסה בגודל ארבע תשיעיות העוגה, אוהדי מכבי חיפה יקבלו שליש, ואוהדי מכבי תל-אביב יקבלו את מה שנשאר – שתי תשיעיות.
התוצאה תיראה כך:

יפה, נכון?
שימו לב כי השכיחות היחסית מבוטאת בדיאגרמה על ידי שלושה מאפיינים גאומטריים: שטח הפרוסה, שהוא המאפיין העיקרי הנתפס על ידי העין, אורך הקשת של הפרוסה, וגודל הזוית של הגיזרה.
וכאן הבעיה הגדולה של דיאגרמות העוגה. העין האנושית, או יותר נכון, המוח האנושי, אינם תופסים כראוי גדלים כאלה. התבוננו בחלק הירוק והחלק האדום. זוית הגזרה האדומה היא 160 מעלות וזוית הגזרה הצהובה הירוקה היא 120 מעלות. האם אתם רואים הבדל בין שתי הזוויות? המצב נעשה מסובך יותר אם יש יותר משלושה ערכים. הנה למשל הדוגמא הבאה, הלקוחה מדף הערך על דיאגרמות עוגה בויקיפדיה:

שלוש העוגות נראות מאוד דומות, אבל אם תבחנו אותן בעיון, תראו שיש ביניהן הבדלים. הפרוסה השחורה גדולה יותר בעוגה A, למשל. אבל באיזה עוגה הפרוסה הירוקה גדולה יותר? האם הפרוסה הכחולה שווה בגודלה לפרוסה האדומה? מהי הפרוסה הגדולה ביותר בעוגה B?
אפשר כמובן לשבת ולפענח אט אט את כל ההבדלים. אבל האם לא עדיף להשתמש בתצוגה ברורה יותר? (לחצו על הלינק כדי לראות תצוגה ברורה יותר של נתונים אלה).

תכנת אקסל ודומותיה מציעות עוד שכלולים לדיאגרמת העוגה – העוגה התלת מימדית פופולרית מאוד. הנה תצוגת נתוני האוהדים בעוגה תלת מימדית:

הפרוסה הצהובה נראית לפתע קטנה יותר, כיוון שהעין תופסת את הדפנות הקדמיות של הפרוסות האחרות כחלק משטחן. הנה דוגמא קיצונית יותר, שמצאתי באינטרנט (לא זוכר היכן):

החלק הכהה בדיאגרמה הימנית זהה בגודלו לחלק הכהה בדיאגרמה השמאלית, אבל הוא נראה הרבה יותר גדול.
הנה דוגמא נוספת, הפעם אמיתית, שממחישה את הבעייתיות.

דיאגרמה זו מציגה את הסיבות להפסקת הפיתוח של תרופות פוטנציאליות בבריטניה. פיתוחן של 40% מהמולקולות הופסק עקב בעיות פרמקוקינטיות, ופיתוחן של 29% מהמולקולות הופסק עקב חוסר יעילות טיפולית. נראה כאילו לשתי הסיבות יש משקל דומה, ואלי אפילו משקל הפרמקוקינטיקה קטן יותר. זאת כיוון שהפרוסה הצהובה נמצאת בקדמת התמונה ולכן נראית גדולה יותר.
עד כמה ההטעיה חמורה? ניתן למדוד את השטח בתמונה שתופסת כל פרוסה על ידי ספירת פיקסלים (עשיתי זאת בעזרת תכנית קטנה שכתב עבורי ידידי שי אלקין). מתברר כי השטח הצהוב תופס כ-50% משטח הדיאגרמה, השטח האדום תופש 32% בלבד מהשטח הכולל של הדיאגרמה. המסר שהעבירה הדיאגרמה שונה לחלוטין מזה שמעבירים הנתונים המספריים. למרה הצער, דיאגרמה זו הוצגה בפתיחת הרצאה על חשיבות המחקר הפרמקוקינטי.

למרות שדיאגרמת העוגה מאוד משכנעת, הרי שברוב המקרים אינה מצליחה להציג את הנתונים בצורה ראויה, בדרך כלל מקשה על תפיסת מהירה של משמעותם, ולעיתים אף עלולה להעביר מסר שגוי. קיימות דרכים טובות יותר להציג נתונים באופן גרפי. העדיפו אותן על פני העוגה. עוגה – רק בבית קפה!

27 תגובות ל“עוגה? לא, תודה.”

  • תגובה מאת עפר
    תאריך 25 ביוני 2011 09:41

    הצגה משכנעת – תודה!

  • תגובה מאת דרור
    תאריך 25 ביוני 2011 14:41

    אין לך איזו דיאגרמת עוגה שתראה כמה אנשים משתמשים לא נכון בדיאגרמות עוגה?

  • תגובה מאת אורי
    תאריך 25 ביוני 2011 15:44

    לא, נו, אתה לא מבין. פספסת לחלוטין את כל הפואנטה.

    טוב, אני אתוודא לפני כן. אני אורי, ואני מצייר תרשימי פאי למחייתי. אני עושה את זה כבר כ 5 שנים בעבודות שונות, אני טוב בעבודתי, והבוסים שלי מרוצים ממני. לעיתים אני גם מצייר גרפים אחרים, בשביל לגוון.

    בדרך כלל התרשימים האלו הם חלק ממצגת כלשהי, אותה מציגים בפני מנהלים / לקוחות. במסגרת המצגת, אתה רוצה להשיג שני דברים:
    1. להראות שביצעת עבודה
    2. להוכיח נקודה

    הדרך הטובה ביותר להשיג את 1, היא להציג שקפים רבים. הדרך הטובה ביותר להציג שקפים רבים, היא להציג בכל שקף קצת. כלומר, אפשר פשוט להציג טבלה של מספרים מדוייקים על פני שקף אחד, ואפשר במקומה להציג 5 שקפים שונים וצבעוניים של תרשימי פאי.

    הדרך הטובה ביותר להשיג את 2, בייחוד במקרים בהם הנתונים הם אמביוולנטיים, היא להשתמש בשקרים סטטיסטיים קטנים – למשל לסובב תרשים פאי תלת מימדי כך שחלקים מסויימים יראו קצת יותר בולטים מאחרים (למרות שבד”כ גם המספרים כתובים על התרשים, אבל מי מבחין בהם), לשחק עם נקודת ההתחלה של ציר ה Y בתרשים רגיל (וכך עמודות בגבהים די דומים נראות מאוד שונות אחת מהשניה, או קו שהוא יחסית אופקי נראה עם שיפוע גבוה), וכו’.

    על כן, כפי שאתה רואה, לתרשים הפאי ישנן מטרות חשובות שהוא ממלא בהצלחה רבה.

    • תגובה מאת איתן
      תאריך 26 ביוני 2011 02:12

      עצוב עד כמה שאני יכול להזדהות עם זה…

    • תגובה מאת אדיר קיסר
      תאריך 19 בספטמבר 2017 17:26

      היי כתוב לי למייל צריך את שירותך עזרתך

  • תגובה מאת ben
    תאריך 25 ביוני 2011 18:13

    איך יכולת לכתוב את הפוסט הזה בלי לצרף את התמונה הבאה:

    http://www.sensepost.com/blogstatic/2009/06/pie_chart_the_real_onjpg-jpeg-image-640×422-pixels.png

    • תגובה מאת בלוגר
      תאריך 26 ביוני 2011 00:03

      אהבתי את התמונה
      הצלחת להצחיק אותי

  • תגובה מאת SilentMike
    תאריך 25 ביוני 2011 19:33

    אז אתה אומר שעדיפה היסטוגרמה פשוטה בלי רוח וצלצולים. אני חושב שזה לא שקר אם יש מספרים מדויקים בתרשים, אבל כן, בעצם זה בעיקר משהו שמטרתו “להראות טוב” ויש צורות הצגה שעדיפות מבחינה אינפורמטיבית.

    @Ben

    באותה מידה היה יכול לשים את זה:
    http://www.hemmy.net/images/games/pacmanchart.jpg

  • תגובה מאת דפנה שיזף
    תאריך 25 ביוני 2011 20:49

    יוסי, אף פעם לא חשבתי על זה ככה! ואני כבר חשבתי שידעתי *הכל*! תודה!

  • תגובה מאת ליבוביץ
    תאריך 25 ביוני 2011 22:55

    אני חושב שאני לא מסכים (אולי מסכים שדיאגרמת עוגה תלת מימדית היא מיותרת).

    דיאגרמת עוגה, טובה כשיש הרבה נתונים ואתה רוצה לראות את החלק *היחסי* של כל נתון מהעוגה השלמה. שים לב, אני לא רוצה לראות מה יותר גדול, אלא כמה הם מהווים בערך. כך, אם יש לי עשרה פריטים שהם בערך רבע מהתקציב, יהיה לי קל לראות זאת בדיאגרמת עוגה, אבל קשה בדיאגרמת מקלות.

    • תגובה מאת יוסי לוי
      תאריך 26 ביוני 2011 22:52

      ליבוביץ, אני חיב להסכים עם האמירה שיש מצבים בהם דיאגרמת עוגה דווקא מתאימה כדי להבהיר נקודה מסויימת. אבל לדעתי המצבים האלה נדירים יחסית, והשימוש בדיאגרמת עוגה הוא גורף מדי, וברוב המקרים יש הצגה גרפית טובה יותר.

  • תגובה מאת Boojie
    תאריך 25 ביוני 2011 23:20

    נדמה לי שבדיאגרמה הראשונה התכוונת שהזווית של הגזרה הירוקה היא 120 מעלות, לא הצהובה.

  • תגובה מאת טל גלילי
    תאריך 25 ביוני 2011 23:32

    לפרוטוקול, מאמר באותו נושא שפירסמתי לפני למעלה משנה וחצי (וואו הזמן טס!!):
    http://www.biostatistics.co.il/?p=108

    • תגובה מאת שפי שליט
      תאריך 26 ביוני 2011 19:23

      אהבתי מאד גם את המאמר שלך- כי הוא מציג את המצבים בהם עעוגה כן רלוונטית. לגעתי מאד חשוב להבין גם מתי כן וגם מתי לא – וגם באיזה אופן – להשתמש בתצוגה גרפית ספציפית.

  • תגובה מאת גיל
    תאריך 26 ביוני 2011 00:48

    אני לא חושב שזה כל כך משמעי. כן, יש נטייה להשתמש בדיאגרמת עוגה שלא לצורך, אבל זה נכון לכל דיאגרמה. היתרון הגדול שלה על גרף מקלות זה שאפשר לראות כמה כל פלח מהווה חלק מהשלם. זה לא תמיד אפשרי בגרפים אחרים.

    • תגובה מאת יוסי לוי
      תאריך 26 ביוני 2011 22:59

      אני מסכים שדיאגרמת עוגה מתאימה כאשר רוצים לתאר איזה חלק מהשלם מהווה כל פלח. האם יש עוד מקרים הבם דיאגרמת עוגה מתאימה יותר מהיצגים גרפיים אחרים? חושבני שלא

  • תגובה מאת חנן כהן
    תאריך 26 ביוני 2011 07:33

    לא מסכים עם המסקנה של הפוסט.

    הפוסט הזה הוא עוד דוגמא של שימושים לא נכונים בכלים טובים.

    אפשר לכתוב אותו פוסט (ונכתבו) על סטטיסטיקה, פאוורפוינט, פטישים ו WD40.

    • תגובה מאת יוסי לוי
      תאריך 26 ביוני 2011 23:05

      חנן, לא הבנתי עם מה אתה לא מסכים.

      האם אתה סבור כי ברוב המקרים דיאגרמת עוגה כן מצליחה להציג את הנתונים בצורה ראויה? האם אתה סבור כי בדרך כלל דיאגרמת עוגה אינה מקשה על תפיסת מהירה של משמעות הנתונים? האם אתה סבור כי דיאגרמת עוגה אינה עלולה להעביר מסר שגוי?

  • תגובה מאת גדי איידלהייט
    תאריך 26 ביוני 2011 09:01

    כתבה נחמדה, ובכל זאת היה כדאי להגיד למה כן התרשימים האלו טובים (ולו רק בשביל שנלמד עוד כלי לעושת מניפולציה לנתונים סטטיסטיים)

  • תגובה מאת יובל
    תאריך 26 ביוני 2011 23:12

    המומחה בתחום של הצגה גרפית של מידע כמותי הוא פרופ’ אדוארד טאפטי. בויקיפדיה: http://en.wikipedia.org/wiki/Edward_tufte

    דף הבית שלו:http://www.edwardtufte.com/tufte/

    הספרים והמאמרים שלו יפיפיים, ועוסקים בנושאים:
    – איך להציג מידע בגרף?
    – מתי הגרף מטעה או חסר ערך?
    – איך לדחוס כמה מימדי מידע לדף דו-ממדי?
    – למה פאוארפוינט הוא כלי גרוע להצגת נתונים?
    וכו’

    דיון מעמיק באתר שלו בנושא העוגות:
    http://www.edwardtufte.com/bboard/q-and-a-fetch-msg?msg_id=00018S

  • תגובה מאת דוד
    תאריך 19 ביולי 2011 20:57

    אצלנו אסרו על תרשימים תלת-מימדיים ככלל!

    למדתי מדעי המחשב, ואחד הקורסים החשובים שלקחתי בתואר עסק בגישות נסיוניות במדעי המחשב.
    בדקנו ומדדנו, במקום להוכיח ו”להבין” (או לחשוב שאנחנו מבינים).
    היה מאיר עיניים!

    בוא נאמר שהיית מקבל מבט מגחגח משהו מהמרצה אם היית משתמש בתרשים תלת-מימדי כלשהו.
    לא חרוטים, ולא עוגות בתלת מימד.
    קוים פשוטים, נקיים וברי השוואה.
    צירים מתוייגים נכונה ונקיון על הגרף.

  • תגובה מאת הצגות ומופעים
    תאריך 27 ביולי 2011 14:26

    אני חושב שעצם זה שיש מחסור בתרופות זהו מצב לא נורמלי שאנחנו כמדינה ריבונית יכולים להגיע אליה,מדינה ללא סל תרופות בסיסי במחיר נורמלי לשוק זו כבר ירידה ברמה,למזלנו עדיין מצבנו בסדר כי המחיר של הרפואה פה בארץ עדיין לא יקר כל כך,לעומת ארה”ב שביקור אצל רופא עולה 100 דולר.

  • תגובה מאת shlomix
    תאריך 7 ביולי 2012 21:58

    גם אם אתה לא אוהב תרשימי עוגה אתה תאהב את התרשים הזה: http://imgur.com/gallery/4JoPs

  • פינג מאת לא כל הנוצץ מידע הוא | שקרים יפים
    תאריך 7 ביוני 2020 09:18

    […] ישן בבלוג הסטטיסטיקה "נסיכת המדעים", מציג יוסי לוי כמה מהבעיות של pie charts, מהגרפים […]

תגובה