שלא תבינו אותי לא נכון. אני אוהב עוגות, מאוד. עוגות של שוקולד, גבינה, פירות, אבל לא עוגות של נתונים.
הבעיה היא שדיאגרמות עוגה (pie charts) מאוד פופולריות. לעיתים נדמה כי מצגת או דו”ח ללא דיאגרמת עוגה אחת לפחות הינם פגומים. נדמה כי כל טיעוני הנגד אינם תקפים כאשר מוצגת דיאגרמת עוגה.
ובכל זאת, אני טוען כי דיאגרמת עוגה, למרות ההיסטוריה הארוכה והמכובדת שלה, אינה דרך טובה להציג נתונים.
הרעיון מאחורי דיאגרמת עוגה הוא להראות כיצד אוכלוסיה מסויימת מתפלגת למרכיביה. נניח כי אנו מתעניינים באהדת האוכלוסיה לקבוצות כדורגל, ומתברר כי במדגם של 90 איש 40 אוהדים את קבוצת הפועל תל-אביב, 30 אוהדים את מכבי חיפה, והשאר (20) אוהדים את מכבי תל-אביב. ניתן להציג מידע זה כעוגה, שמחולקת לשלוש פרוסות/גזרות, כשגודלה היחסי של כל פרוסה שווה לשכיחות היחסית המתאימה. אוהדי הפועל יקבלו פרוסה בגודל ארבע תשיעיות העוגה, אוהדי מכבי חיפה יקבלו שליש, ואוהדי מכבי תל-אביב יקבלו את מה שנשאר – שתי תשיעיות.
התוצאה תיראה כך:
יפה, נכון?
שימו לב כי השכיחות היחסית מבוטאת בדיאגרמה על ידי שלושה מאפיינים גאומטריים: שטח הפרוסה, שהוא המאפיין העיקרי הנתפס על ידי העין, אורך הקשת של הפרוסה, וגודל הזוית של הגיזרה.
וכאן הבעיה הגדולה של דיאגרמות העוגה. העין האנושית, או יותר נכון, המוח האנושי, אינם תופסים כראוי גדלים כאלה. התבוננו בחלק הירוק והחלק האדום. זוית הגזרה האדומה היא 160 מעלות וזוית הגזרה הצהובה הירוקה היא 120 מעלות. האם אתם רואים הבדל בין שתי הזוויות? המצב נעשה מסובך יותר אם יש יותר משלושה ערכים. הנה למשל הדוגמא הבאה, הלקוחה מדף הערך על דיאגרמות עוגה בויקיפדיה:
שלוש העוגות נראות מאוד דומות, אבל אם תבחנו אותן בעיון, תראו שיש ביניהן הבדלים. הפרוסה השחורה גדולה יותר בעוגה A, למשל. אבל באיזה עוגה הפרוסה הירוקה גדולה יותר? האם הפרוסה הכחולה שווה בגודלה לפרוסה האדומה? מהי הפרוסה הגדולה ביותר בעוגה B?
אפשר כמובן לשבת ולפענח אט אט את כל ההבדלים. אבל האם לא עדיף להשתמש בתצוגה ברורה יותר? (לחצו על הלינק כדי לראות תצוגה ברורה יותר של נתונים אלה).
תכנת אקסל ודומותיה מציעות עוד שכלולים לדיאגרמת העוגה – העוגה התלת מימדית פופולרית מאוד. הנה תצוגת נתוני האוהדים בעוגה תלת מימדית:
הפרוסה הצהובה נראית לפתע קטנה יותר, כיוון שהעין תופסת את הדפנות הקדמיות של הפרוסות האחרות כחלק משטחן. הנה דוגמא קיצונית יותר, שמצאתי באינטרנט (לא זוכר היכן):
החלק הכהה בדיאגרמה הימנית זהה בגודלו לחלק הכהה בדיאגרמה השמאלית, אבל הוא נראה הרבה יותר גדול.
הנה דוגמא נוספת, הפעם אמיתית, שממחישה את הבעייתיות.
דיאגרמה זו מציגה את הסיבות להפסקת הפיתוח של תרופות פוטנציאליות בבריטניה. פיתוחן של 40% מהמולקולות הופסק עקב בעיות פרמקוקינטיות, ופיתוחן של 29% מהמולקולות הופסק עקב חוסר יעילות טיפולית. נראה כאילו לשתי הסיבות יש משקל דומה, ואלי אפילו משקל הפרמקוקינטיקה קטן יותר. זאת כיוון שהפרוסה הצהובה נמצאת בקדמת התמונה ולכן נראית גדולה יותר.
עד כמה ההטעיה חמורה? ניתן למדוד את השטח בתמונה שתופסת כל פרוסה על ידי ספירת פיקסלים (עשיתי זאת בעזרת תכנית קטנה שכתב עבורי ידידי שי אלקין). מתברר כי השטח הצהוב תופס כ-50% משטח הדיאגרמה, השטח האדום תופש 32% בלבד מהשטח הכולל של הדיאגרמה. המסר שהעבירה הדיאגרמה שונה לחלוטין מזה שמעבירים הנתונים המספריים. למרה הצער, דיאגרמה זו הוצגה בפתיחת הרצאה על חשיבות המחקר הפרמקוקינטי.
למרות שדיאגרמת העוגה מאוד משכנעת, הרי שברוב המקרים אינה מצליחה להציג את הנתונים בצורה ראויה, בדרך כלל מקשה על תפיסת מהירה של משמעותם, ולעיתים אף עלולה להעביר מסר שגוי. קיימות דרכים טובות יותר להציג נתונים באופן גרפי. העדיפו אותן על פני העוגה. עוגה – רק בבית קפה!
הצגה משכנעת – תודה!
אין לך איזו דיאגרמת עוגה שתראה כמה אנשים משתמשים לא נכון בדיאגרמות עוגה?
לא, נו, אתה לא מבין. פספסת לחלוטין את כל הפואנטה.
טוב, אני אתוודא לפני כן. אני אורי, ואני מצייר תרשימי פאי למחייתי. אני עושה את זה כבר כ 5 שנים בעבודות שונות, אני טוב בעבודתי, והבוסים שלי מרוצים ממני. לעיתים אני גם מצייר גרפים אחרים, בשביל לגוון.
בדרך כלל התרשימים האלו הם חלק ממצגת כלשהי, אותה מציגים בפני מנהלים / לקוחות. במסגרת המצגת, אתה רוצה להשיג שני דברים:
1. להראות שביצעת עבודה
2. להוכיח נקודה
הדרך הטובה ביותר להשיג את 1, היא להציג שקפים רבים. הדרך הטובה ביותר להציג שקפים רבים, היא להציג בכל שקף קצת. כלומר, אפשר פשוט להציג טבלה של מספרים מדוייקים על פני שקף אחד, ואפשר במקומה להציג 5 שקפים שונים וצבעוניים של תרשימי פאי.
הדרך הטובה ביותר להשיג את 2, בייחוד במקרים בהם הנתונים הם אמביוולנטיים, היא להשתמש בשקרים סטטיסטיים קטנים – למשל לסובב תרשים פאי תלת מימדי כך שחלקים מסויימים יראו קצת יותר בולטים מאחרים (למרות שבד”כ גם המספרים כתובים על התרשים, אבל מי מבחין בהם), לשחק עם נקודת ההתחלה של ציר ה Y בתרשים רגיל (וכך עמודות בגבהים די דומים נראות מאוד שונות אחת מהשניה, או קו שהוא יחסית אופקי נראה עם שיפוע גבוה), וכו’.
על כן, כפי שאתה רואה, לתרשים הפאי ישנן מטרות חשובות שהוא ממלא בהצלחה רבה.
עצוב עד כמה שאני יכול להזדהות עם זה…
היי כתוב לי למייל צריך את שירותך עזרתך
איך יכולת לכתוב את הפוסט הזה בלי לצרף את התמונה הבאה:
אהבתי את התמונה
הצלחת להצחיק אותי
אז אתה אומר שעדיפה היסטוגרמה פשוטה בלי רוח וצלצולים. אני חושב שזה לא שקר אם יש מספרים מדויקים בתרשים, אבל כן, בעצם זה בעיקר משהו שמטרתו “להראות טוב” ויש צורות הצגה שעדיפות מבחינה אינפורמטיבית.
@Ben
באותה מידה היה יכול לשים את זה:
יוסי, אף פעם לא חשבתי על זה ככה! ואני כבר חשבתי שידעתי *הכל*! תודה!
אני חושב שאני לא מסכים (אולי מסכים שדיאגרמת עוגה תלת מימדית היא מיותרת).
דיאגרמת עוגה, טובה כשיש הרבה נתונים ואתה רוצה לראות את החלק *היחסי* של כל נתון מהעוגה השלמה. שים לב, אני לא רוצה לראות מה יותר גדול, אלא כמה הם מהווים בערך. כך, אם יש לי עשרה פריטים שהם בערך רבע מהתקציב, יהיה לי קל לראות זאת בדיאגרמת עוגה, אבל קשה בדיאגרמת מקלות.
ליבוביץ, אני חיב להסכים עם האמירה שיש מצבים בהם דיאגרמת עוגה דווקא מתאימה כדי להבהיר נקודה מסויימת. אבל לדעתי המצבים האלה נדירים יחסית, והשימוש בדיאגרמת עוגה הוא גורף מדי, וברוב המקרים יש הצגה גרפית טובה יותר.
נדמה לי שבדיאגרמה הראשונה התכוונת שהזווית של הגזרה הירוקה היא 120 מעלות, לא הצהובה.
נכון, תודה על ההערה. אתקן מייד.
לפרוטוקול, מאמר באותו נושא שפירסמתי לפני למעלה משנה וחצי (וואו הזמן טס!!):
אהבתי מאד גם את המאמר שלך- כי הוא מציג את המצבים בהם עעוגה כן רלוונטית. לגעתי מאד חשוב להבין גם מתי כן וגם מתי לא – וגם באיזה אופן – להשתמש בתצוגה גרפית ספציפית.
אני לא חושב שזה כל כך משמעי. כן, יש נטייה להשתמש בדיאגרמת עוגה שלא לצורך, אבל זה נכון לכל דיאגרמה. היתרון הגדול שלה על גרף מקלות זה שאפשר לראות כמה כל פלח מהווה חלק מהשלם. זה לא תמיד אפשרי בגרפים אחרים.
אני מסכים שדיאגרמת עוגה מתאימה כאשר רוצים לתאר איזה חלק מהשלם מהווה כל פלח. האם יש עוד מקרים הבם דיאגרמת עוגה מתאימה יותר מהיצגים גרפיים אחרים? חושבני שלא
עם זה אני מסכים לגמרי.
לא מסכים עם המסקנה של הפוסט.
הפוסט הזה הוא עוד דוגמא של שימושים לא נכונים בכלים טובים.
אפשר לכתוב אותו פוסט (ונכתבו) על סטטיסטיקה, פאוורפוינט, פטישים ו WD40.
חנן, לא הבנתי עם מה אתה לא מסכים.
האם אתה סבור כי ברוב המקרים דיאגרמת עוגה כן מצליחה להציג את הנתונים בצורה ראויה? האם אתה סבור כי בדרך כלל דיאגרמת עוגה אינה מקשה על תפיסת מהירה של משמעות הנתונים? האם אתה סבור כי דיאגרמת עוגה אינה עלולה להעביר מסר שגוי?
כתבה נחמדה, ובכל זאת היה כדאי להגיד למה כן התרשימים האלו טובים (ולו רק בשביל שנלמד עוד כלי לעושת מניפולציה לנתונים סטטיסטיים)
המומחה בתחום של הצגה גרפית של מידע כמותי הוא פרופ’ אדוארד טאפטי. בויקיפדיה: http://en.wikipedia.org/wiki/Edward_tufte
דף הבית שלו:http://www.edwardtufte.com/tufte/
הספרים והמאמרים שלו יפיפיים, ועוסקים בנושאים:
– איך להציג מידע בגרף?
– מתי הגרף מטעה או חסר ערך?
– איך לדחוס כמה מימדי מידע לדף דו-ממדי?
– למה פאוארפוינט הוא כלי גרוע להצגת נתונים?
וכו’
דיון מעמיק באתר שלו בנושא העוגות:
http://www.edwardtufte.com/bboard/q-and-a-fetch-msg?msg_id=00018S
אצלנו אסרו על תרשימים תלת-מימדיים ככלל!
למדתי מדעי המחשב, ואחד הקורסים החשובים שלקחתי בתואר עסק בגישות נסיוניות במדעי המחשב.
בדקנו ומדדנו, במקום להוכיח ו”להבין” (או לחשוב שאנחנו מבינים).
היה מאיר עיניים!
בוא נאמר שהיית מקבל מבט מגחגח משהו מהמרצה אם היית משתמש בתרשים תלת-מימדי כלשהו.
לא חרוטים, ולא עוגות בתלת מימד.
קוים פשוטים, נקיים וברי השוואה.
צירים מתוייגים נכונה ונקיון על הגרף.
אני חושב שעצם זה שיש מחסור בתרופות זהו מצב לא נורמלי שאנחנו כמדינה ריבונית יכולים להגיע אליה,מדינה ללא סל תרופות בסיסי במחיר נורמלי לשוק זו כבר ירידה ברמה,למזלנו עדיין מצבנו בסדר כי המחיר של הרפואה פה בארץ עדיין לא יקר כל כך,לעומת ארה”ב שביקור אצל רופא עולה 100 דולר.
Nice try
הלינק לאתר של ספאמר זה נמחק
גם אם אתה לא אוהב תרשימי עוגה אתה תאהב את התרשים הזה: