חיפוש באתר

קישורים

עמודים

קטגוריות

ארכיב עבור תגית גרפים

גרפים בעייתיים במחקר פערים דיגיטליים

בתאריך 17.8.2018 הופיעה במוסף של העיתון כלכליסט כתבה על מחקר שעסק בפערים הדיגיטליים בישראל. בכתבה הוצגו מספר גרפים שהם עיבודים של גרפים שהופיעו בדו"ח המחקר המקורי (קישור לקובץ pdf). ברשימה זו אתייחס לגרפים בלבד ולא לממצאי המחקר עצמו. מטעמי נוחות אציג את הגרפים שפורסמו בכתבה עם הפניה לגרפים המקוריים בדו"ח המחקר.

הגרף הראשון מתאר את ההבדלים בצריכת התוכן בהתאם להבדל בהכנסה[1].

ציר ה-Y בגרף מציין את אינדקס ריכוזיות התוכן[2]. בציר X מופיעות כל מיני קטגוריות: זכויות חברתיות, הימורים, רשתות חברתיות, יוטיוב, שירותים, ספורט ועוד. אלה הן למעשה קטגוריות של משתנה המתאר סוגי תוכן. זהו משתנה בסולם מדידה קטגוריאלי/שמי. אין סדר בין הקטגוריות. למרות זאת, עורכי הגרף סידרו את הקטגוריות בסדר מסויים, וכך הגרף יותר אשליה של סדר. די ברור כי הסדר של הקטגוריות נקבע על פי ההפרשים בין האינדקסים לשתי קבוצות האוכלוסייה – מהגבוה ביותר לנמוך ביותר – ראו הסבר מפורט יותר בתגובות[3] . המטה של יוצרי הגרף הייתה להראות כי לבעלי שכר ממוצע ומטה יש ריכוזיות תוכן גבוהה יותר בקטגוריות מסויימות בעוד שלבעלי שכר גבוה יש ריכוזיות תוכן בקטגוריות אחרות. עד כאן זה בסדר, אבל מה המשמעות של זה? מה אנחנו יכולים ללמוד מהגרף? העורך של הכתבה נתן פרשנות אפשרית: "העשירים מחפשים דירה, העניים מחפשים זוגיות", אבל אני מקווה שברור לכולם שזו פרשנות פשטנית, שלא לומר דמגוגית. מה המשותף לכל הקטגוריות שבהן נמוך יותר כשמדובר בבעלי שכר גבוה? אני לא רואה שום דבר משותף בין יוטיוב וחיפוש עבודה. ברור לחלוטין שהסדר בין הקטגוריות נקבע על פי הפערים בין שתי שכבות ההכנסה. לראיה: בגרפים דומים אחרים בדו"ח הסדר בין הקטגוריות הוא ששונה, אבל התמונה נשארת דומה: קו אחד עולה מימין לשמאל, השני יורד.

מה המשמעות של קו עולה לאורך הקטגוריות? ככל שקטגוריית הגלישה היא יותר "משהו" כך האינדקס גבוה יותר. אבל מהו המשהו הזה? לא ברור.

בעיה שניה בגרף: ציר ה-X מציין קטגוריות בדידות, אבל הקווים הם רציפים. המשמעות בעייתית. לדוגמה: האינדקס עבור זכויות חברתיות לבעלי שכר גבוה הוא 0.25, ובקטגוריית ההיכרויות הוא בסביבות 0.4. הקו הרציף בים 0.25 ל-0.4 עובר דרך 0.33[4]. מה מציין האינדקס של 0.33? אם הקו רציף, אז האינדקס הזה צריך להתייחס לאיזשהו ערך בציר-X שנמצא בין הזכויות החברתיות וההיכרויות. אבל אין קטגוריה כזו.

הדרך העדיפה להצגת נתונים כאלה היא על ידי דיאגרמת עמודות. ניתן גם לקבץ קטגוריות דומות יחד ולהציג את האינדקס לכל אחת מהקבוצות בקטגוריה המאוחדת. כך, למשל, אפשר אולי לאחד קטגוריות כמו יוטיוב, בידור, תוכן למבוגרים והימורים לקטגוריית על של "פעילות פנאי". [5] , ואילו קטגוריות כמו פיננסים, נדל"ן וחיפשו עבודה יכולות להיות מאוחדות אולי לקטגוריית כלכלה. כך אפשר להציג גרף עמודות, שבו בציר ה-X יוצגו הקטגוריות המקובצות לפי סדר קבוע (למשל סדר אלפביתי), וערכי האינדקס עבור שתי קבוצות ההכנסה יוצגו זה לצד זה, לדוגמה:[6]

 

לגרף השני שהוצג בכתבה יש בעיה דומה[7] :

כאן אמנם הקטגוריות לא מוצגות כמשתנה רציף כמו בגרף הקודם, אך הסדר ביניהן עדיין נקבע על פי הפערים (המקרה זה בין גברים ונשים).[8] הפרשנות שנתן העורך לנתונים שוב פשטנית, אבל זו לא הנקודה. האם ניתן למצוא מכנה משותף בין הקטגוריות שבהן צריכת התוכן של נשים גבוהה יותר מזו של גברים, למשל בריאות ועסקים ותעשייה? אולי כן, אני לא רואה איך. בדו"ח לא ניתן הסבר.

שוב, הדרך הנכונה להציג את הנתונים היא על ידי גרף דומה לה שהראיתי למעלה, עמודות המוצגות זו לצד זו, ללא הנחת סדר בין הקטגוריות.

אני רוצה להודות לידידי גיל גרינגרוז שהפנה את תשומת ליבי לכתבה.

פניתי לפרופסור רפאלי וביקשתי את התייחסותו. אשמח לפרסם אותה כאשר תתקבל.


הערות
  1. הגרף המקורי הוא גרף מספר 10 בדו"ח, עמוד 59. יש בדו"ח עוד גרפים דומים []
  2. אין לי מושג מה זה אומר וכיצד האינדקס מחושב []
  3. למי שלא השתכנע מומלץ לעיין בגרפים הדומים שמופיעים בדו"ח המקורי []
  4. זה בערך הממוצע של 0.25 ו-0.4 []
  5. אל תיתפסו לדוגמה, זו רק דוגמה ואפשר לעשות את זה אחרת []
  6. אפשר כאמור להציג את כל הקטגוריות המקוריות, אך כך ייווצר גרף עמוס יותר ויותר קשה להבנה []
  7. הגרף המקורי הוא גרף מספר 4 בדו"ח, עמוד 46 []
  8. זה קורה גם בגרפים דומים אחרים בדו"ח []

עוני, פיתוח כלכלי וסטטיסטיקה על כוס שמפניה

רשימה זו היא החמישית והאחרונה בסדרת הרשימות הסוקרות את גיליון פברואר של כתב העת Significance, המוקדש לנושאי העוני והפיתוח הכלכלי. עורך המגזין, ג'וליאן צ'אמפקין, כותב במדור הויזואליזציה על אפקט כוס השמפניה.[1]

כולכם בודאי שמעתם על כלל ה-80/20. 20% האנשים העשירים בעולם מחזיקים בידיהם 80% מעושר העולם, המשאבים, הכל. ל-20% העניים ביותר יש, ובכן, כמעט שום דבר. איך יוצגו נתונים אלו בצורה שהמסר יועבר?

אינפוגרפיקה זו הופיעה לראשונה בדו"ח הפיתוח האנושי של האו"ם משנת 1992. מאז שוחזרה פעמים רבות, מכיוון שהיא ברורה מאוד, אינטואיטיבית מאוד. היא מספרת סיפור, וזה מה שחשוב. היא מציגה נתונים, אבל הם לא העיקר כאן. המסר הוא בצורה.

 conley_champagne_distribution

נתוני חלוקת ההכנסות בעולם בשנת 2008

אולי אנחנו לא מבינים בכלכלה, כותב צ'אמפקין, אבל אנחנו יודעים מהי שמפניה. זהו המשקה ששותים העשירים. זהו סמל הצריכה הראוותנית, ההדוניזם, הכסף המבוזבז שעדיף היה להשקיע אותו ב-… כל דבר אחר, בעצם. אם תנסו להציג את נתוני חלוקת העושר בעזרת כוס בירה, המסר לא יעבוד.

האם גרף כוס השמפניה מטעה? בפירוש לא. אין כאן כל עיוות של הנתונים. הגרף לא גורם לצופה לחשוב שחלקו של החמישון העליון גדול יותר או קטן יותר בצורה משמעותית מהחלק האמיתי, וכך גם לגבי החמישונים האחרים.

האם הגרף מניפולטיבי? צ'אמפקין חושב שכן. נכון, הוא מנגן על התת מודע של הצופים. לפרסומאים מותר לעשות את זה. גם לסטטיסטיקאים של האו"ם. יש להם מסר להעביר בדבר עוצמתו של אי השוויון בעולמנו, והמסר עובר. אני מסכים איתו.

רשימות נוספות בסדרה:


הערות
  1. 1. Champkin, J. (2014), The champagne glass effect. Significance, 11: 39–41. doi: 10.1111/j.1740-9713.2014.00726.x []

עוגה לשבת

היום הוא היום הגדול – היום האחרון לפני הבחירות בו מותר לפרסם תוצאות סקרים. אתמול בלילה (בשעה שאחרי חצות) עלה הסקר המסכם של עיתון הארץ לאתר. לכתבה צורפה דיאגרמת עוגה לפיה גוש השמאל זוכה ב-57% מהמנדטים/קולות, ומפסיד בבחירות. מבולבלים?

בשעה שבע בבוקר הטעות כבר תוקנה.

תודה לאיתי אשר ששלח לי את צילום המסך.

בכמה 30 יותר גדול מ-29?

נפלא, פשוט נפלא. ותודה לרון קנת שהעביר לי את זה.

 

לחצו על התמונה לצפיה בגודל מלא.

עוגה? לא, תודה.

שלא תבינו אותי לא נכון. אני אוהב עוגות, מאוד. עוגות של שוקולד, גבינה, פירות, אבל לא עוגות של נתונים.
הבעיה היא שדיאגרמות עוגה (pie charts) מאוד פופולריות. לעיתים נדמה כי מצגת או דו"ח ללא דיאגרמת עוגה אחת לפחות הינם פגומים. נדמה כי כל טיעוני הנגד אינם תקפים כאשר מוצגת דיאגרמת עוגה.

ובכל זאת, אני טוען כי דיאגרמת עוגה, למרות ההיסטוריה הארוכה והמכובדת שלה, אינה דרך טובה להציג נתונים.
הרעיון מאחורי דיאגרמת עוגה הוא להראות כיצד אוכלוסיה מסויימת מתפלגת למרכיביה. נניח כי אנו מתעניינים באהדת האוכלוסיה לקבוצות כדורגל, ומתברר כי במדגם של 90 איש 40 אוהדים את קבוצת הפועל תל-אביב, 30 אוהדים את מכבי חיפה, והשאר (20) אוהדים את מכבי תל-אביב. ניתן להציג מידע זה כעוגה, שמחולקת לשלוש פרוסות/גזרות, כשגודלה היחסי של כל פרוסה שווה לשכיחות היחסית המתאימה. אוהדי הפועל יקבלו פרוסה בגודל ארבע תשיעיות העוגה, אוהדי מכבי חיפה יקבלו שליש, ואוהדי מכבי תל-אביב יקבלו את מה שנשאר – שתי תשיעיות.
התוצאה תיראה כך:

יפה, נכון?
שימו לב כי השכיחות היחסית מבוטאת בדיאגרמה על ידי שלושה מאפיינים גאומטריים: שטח הפרוסה, שהוא המאפיין העיקרי הנתפס על ידי העין, אורך הקשת של הפרוסה, וגודל הזוית של הגיזרה.
וכאן הבעיה הגדולה של דיאגרמות העוגה. העין האנושית, או יותר נכון, המוח האנושי, אינם תופסים כראוי גדלים כאלה. התבוננו בחלק הירוק והחלק האדום. זוית הגזרה האדומה היא 160 מעלות וזוית הגזרה הצהובה הירוקה היא 120 מעלות. האם אתם רואים הבדל בין שתי הזוויות? המצב נעשה מסובך יותר אם יש יותר משלושה ערכים. הנה למשל הדוגמא הבאה, הלקוחה מדף הערך על דיאגרמות עוגה בויקיפדיה:

שלוש העוגות נראות מאוד דומות, אבל אם תבחנו אותן בעיון, תראו שיש ביניהן הבדלים. הפרוסה השחורה גדולה יותר בעוגה A, למשל. אבל באיזה עוגה הפרוסה הירוקה גדולה יותר? האם הפרוסה הכחולה שווה בגודלה לפרוסה האדומה? מהי הפרוסה הגדולה ביותר בעוגה B?
אפשר כמובן לשבת ולפענח אט אט את כל ההבדלים. אבל האם לא עדיף להשתמש בתצוגה ברורה יותר? (לחצו על הלינק כדי לראות תצוגה ברורה יותר של נתונים אלה).

תכנת אקסל ודומותיה מציעות עוד שכלולים לדיאגרמת העוגה – העוגה התלת מימדית פופולרית מאוד. הנה תצוגת נתוני האוהדים בעוגה תלת מימדית:

הפרוסה הצהובה נראית לפתע קטנה יותר, כיוון שהעין תופסת את הדפנות הקדמיות של הפרוסות האחרות כחלק משטחן. הנה דוגמא קיצונית יותר, שמצאתי באינטרנט (לא זוכר היכן):

החלק הכהה בדיאגרמה הימנית זהה בגודלו לחלק הכהה בדיאגרמה השמאלית, אבל הוא נראה הרבה יותר גדול.
הנה דוגמא נוספת, הפעם אמיתית, שממחישה את הבעייתיות.

דיאגרמה זו מציגה את הסיבות להפסקת הפיתוח של תרופות פוטנציאליות בבריטניה. פיתוחן של 40% מהמולקולות הופסק עקב בעיות פרמקוקינטיות, ופיתוחן של 29% מהמולקולות הופסק עקב חוסר יעילות טיפולית. נראה כאילו לשתי הסיבות יש משקל דומה, ואלי אפילו משקל הפרמקוקינטיקה קטן יותר. זאת כיוון שהפרוסה הצהובה נמצאת בקדמת התמונה ולכן נראית גדולה יותר.
עד כמה ההטעיה חמורה? ניתן למדוד את השטח בתמונה שתופסת כל פרוסה על ידי ספירת פיקסלים (עשיתי זאת בעזרת תכנית קטנה שכתב עבורי ידידי שי אלקין). מתברר כי השטח הצהוב תופס כ-50% משטח הדיאגרמה, השטח האדום תופש 32% בלבד מהשטח הכולל של הדיאגרמה. המסר שהעבירה הדיאגרמה שונה לחלוטין מזה שמעבירים הנתונים המספריים. למרה הצער, דיאגרמה זו הוצגה בפתיחת הרצאה על חשיבות המחקר הפרמקוקינטי.

למרות שדיאגרמת העוגה מאוד משכנעת, הרי שברוב המקרים אינה מצליחה להציג את הנתונים בצורה ראויה, בדרך כלל מקשה על תפיסת מהירה של משמעותם, ולעיתים אף עלולה להעביר מסר שגוי. קיימות דרכים טובות יותר להציג נתונים באופן גרפי. העדיפו אותן על פני העוגה. עוגה – רק בבית קפה!