קישורים

ניווט

נושאים

ארכיב עבור 'ויזואליזציה'

boxplot – האהבה שהכזיבה

אהבה שנמשכת שנים רבות עד שלפתע מתגלה משהו שלא שמתם לב אליו קודם. מכירים? הנה סיפור אישי: הכרתי אותה כאשר הייתי בשנה ב באוניברסיטה, וזו הייתה אהבה ממבט ראשון: ה-boxplot, או כפי שהיא נקראת בעברית, דיאגרמת הקופסה. כל כך נאה, כל כך אלגנטית, כל כך אינטליגנטית.

הקופסה הירוקה מציגה את החציון ואת שני הרבעונים – התחתון והעליון: . ה-“שפמים” מראים את הנתון המינימלי והנתון המקסימלי, או, כמו בדוגמה הזו, את הגבול שמעליו תצפיות נחשבות לחריגות.

בדוגמה הספציפית הזו, המציגה את הגילאים של חלק מנוסעי הטיטניק, הגיל המינימלי הוא קצת יותר מאפס (תינוק בן 5 חודשים). הרבעון התחתון הוא בערך 20, החציון הוא בערך 28 והרבעון העליון הוא בערך 38. המשמעות היא כי רבע מהנוסעים הם בגילאי 0 עד עד 20, רבע בגילאי 20 עד 28, רבע בגילאי 28 עד 38, והשאר בגילאי 38 ומעלה. כמו כן ניתן לראות כי הגילאים של נוסעים שגילם גבוה מ-65 נחשבים כגילאים חריגים ביחס לגילאים שאר הנוסעים.

בפוסט שפירסם בבלוג הוויזואליזציה נייטינגייל, ניק דספרטס (Nick Desbarats) מסביר למה הוא הפסיק להשתמש ב-boxplot, והוא צודק.

ראשית, דספרטס מספר כי מניסיונו, רוב האנשים בסדנאות שהוא מעביר מתקשים להבין את ה-boxplot, בוודאי בהשוואה לסוגים אחרים של וויזואליזציה. גם כאשר אנשים מבינים את העקרונות של הדיאגרמה, הם עדיין נזקקים ל-“התעמלות קוגניטיבית”, כדבריו, כדי לפרש נכונה את האינפורמציה המוצגת, ונוטים לפרשנות לא נכונה, שוב בהשוואה לאלטרנטיבות ויזואליזציה אחרות. וכאן אני יכול להעיד גם על ניסיוני מהעבר המאוד לא רחוק: בבחינה בקורס המבוא לסטטיסטיקה שלימדתי לא מזמן, היו שתי שאלות על דיאגרמת קופסה שחשבתי כי הן “שאלות מתנה”. למרבה הצער, שיעור הטעויות בשאלות האלה היה גבוה בהשוואה לשאלות אחרות.

דספרטס מביא 3 נימוקים נגד השימוש ב-boxplot, ואסקור אותם כאן בקצרה. הנימוק הראשון הוא של-boxplot אין הגיון וויזואלי. לקופסה יש שטח/נפח בניגוד לשפמים, ולכן היא נתפשת כמייצגת יותר נתונים. אולם, כל חלק של ה-boxplot (שני חצאי קופסה ושני שפמים) מייצג בדיוק את אותה כמות נתונים – כל אחד מהם מייצג רבע מכלל הנתונים (פרט לחריגים). שנית, שני חלקי הקופסה נתפשים ויזואלית כחלק אחד, כלומר ההתרשמות היא כי הנתונים מתחלקים לשלוש קבוצות ולא לארבע. שלישית, אנשים נוטים לקשר אורך עם כמות, ושוב, ה-boxplot מתעלם מכך (בדוגמה שלי, השפם הימני ארוך יותר מאורך הקופסה, בעוד שהוא מייצג חצי מכמות הנותנים שמייצגת הקופסה).

הנימוק השני הוא כי ה-boxplot דורש מהקהל להבין מושגים אבסטרקטיים יחסית, חציון ורבעונים, כאשר לא נדרש צורך אמיתי בכך. בדרך כלל, אם לא מדובר בקהל של סטטיסטיקאים המיומנים בקריאת boxplots, יש צורך להסביר את מבנה ה-boxplot ואת המושגים שהיא מייצגת לפני שדנים במשמעות של הנתונים עצמם. ואין צורך בכך כי יש אלטרנטיבות טובות יותר להצגת נתונים בהם החציון ושאר האחוזונים נתפשים באופן אינטואיטיבי.

הנימוק השלישי, אולי החשוב ביותר, הוא הטענה כי לעיתים קרובות ה-boxplot מציג את ההתפלגות של הנתונים באופן לא נכון, ואף ייתכן כי הboxplots של שתי התפלגויות שונות לגמרי יהיו זהות. בפוסט יש מספר דוגמאות לכך.

אז זהו. אני כנראה אפסיק להשתמש ב-boxplot אלא אם אחשוב שזה ממש הכרחי. למי שמלמד מבוא לסטטיסטיקה, אני ממליץ להפסיק ללמד את ה- boxplot, אם אתם עושים זאת.

  • התוכן של הפוסט הזה הופיע לראשונה בניוזלטר של נסיכת המדעים. הרשמו ותקבלו עדכון חודשי על כל מה שקורה עכשיו בסטטיסטיקה: http://www.sci-princess.info/updates

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

ויזואליזציה של נתונים קטגוריים

פוסט זה עוסק בתחום שאני אוהב במיוחד: משתנים קטגוריים.

תזכורת: יש ארבעה סולמות מדידה, ומשתנים קטגוריים הם משתנים שנמדדים בשני סולמות המדידה התחתונים (אך לא נחותים).

הסולם הנמוך ביותר הוא סולם שמי/נומינלי, בו לערכים המספריים של הנתונים אין כל משמעות מספרית פרט לזיהוי המשתנה. דוגמה אופיינית היא מספרי החולצות של שחקני קבוצת ספורט. בעזרת המספר אנו יכולים לזהות את השחקן, אך השחקן שלובש את חולצה מספר 11 אינו בהכרח שחקן יותר טוב מהשחקן שלובש את חולצה מספר 10.

שלב אחד מעל הסולם השמי נמצא הסולם הסודר/אורדינלי. כאן יש לערכי המספריים משמעות מוגבלת: הערכים מבטאים סדר בין הנתונים, אך לא הפרשים או יחסים. משתנים כאלה מופעים בכל מיני שאלונים, אך לא רק שם. אם אתם נשאלים עד כמה אתם מסכימים עם משפט כלשהו, התשבות האפשריות הן: לא מסכים בכלל, לא מסכים, אין דעה, מסכים ומסכים בהחלט, התשובות נמדדות בסולם אורדינלי. ניתן לקודד את התשובות במספרים 1 עד 5 למשל, אך מי שמסכים ותשובתו מקודדת ב-4, אינו מסכים עם הטענה כפליים מזה שאינו מסכים עם הטענה ותשובתו מקודדת ב-2, אם כי למרבה הצער יש לא מעט אנשים שחושבים כך. (יש עוד הרבה בעיות בפרשנות של נתונים מהסולם הזה, אבל אני אעצור כאן).

לדעתי זהו תחום מרתק, ועבודת הדוקטורט שלי הייתה קשורה לתחום זה. כאן אי אפשר לחשב ממוצעים, סטיות תקן וכולי. צריך כלים אחרים, וצורת חשיבה אחרת. אחד הפרוייקטים שלקחתי על עצמי הוא ליצור קבוצת ערכים בויקיפדיה העברית שתעסוק במשתנים כאלה. אני מרשה לעצמי להפנות גם לפוסט נוסף שכתבתי על המריבה ההיסטורית בין קרל פירסון ותלמידו אדני יול שסבבה סביב השאלה כיצד לבדוק הם יש קשר בין שני משתנים קטגוריים.

בבלוג הוויזואליזציה נייטינגייל הופיע לא מזמן פוסט העוסק בהצגה ויזואלית של נתונים קטגוריים. מה שמוזר הוא שבפוסט לא הוזכרה דיאגרמת הפרחים המפורסמת של פלורנס נייטינגייל שמציגה שלושה משתנים קטגוריים שונים. הפוסט מתמקד בארבעה סוגי ויזואליזציה של משתנים קטגוריים (יש עוד), ואני מודה שאת אחד מהם לא הכרתי קודם, אם כי ניתן לראות בסוג דיאגרמה אחרת שהוצגה בפוסט כהכללה שלו. אני לא אכנס כאן לפרטים, אבל ממליץ לכם להיכנס, וגם אם לא תקראו את כל הפוסט,  אני ממליץ לכם לצפות בדוגמאות היסטוריות של דיאגרמות sankey ו-sunburst מהמאה ה-19.

  • התוכן של הפוסט הזה הופיע בניוזלטר של נסיכת המדעים. הרשמו ותקבלו עדכון חודשי על כל מה שקורה עכשיו בסטטיסטיקה: http://www.sci-princess.info/updates

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

ויזואליזציה: מבט לעבר – צילום מפגש זום

ב-16.9.2020 נערך מפגש הזום הראשון של נסיכת המדעים שכותרתו הייתה ויזואליזציה: מבט לעבר.
אומר כי אני מאוד מאוכזב מהאופן שבו המפגש הזה התנהל, ואבהיר כי אני מאוכזב מעצמי, ולא מאף אחד אחר. למדתי, בדרך הקשה, כי זום הוא מדיום מאוד שונה מהרצאה/מפגש פנים אל פנים, והשוני מתבטא גם באופי הקשר עם הקהל, וגם בטכנולוגיה שאני, מה לעשות, לא מכיר מספיק טוב ((למרות שעברתי הדרכה אצל הבן שלי… )). אני מקווה שבמפגש הבא אצליח לשפר את את אופן השימוש שלי בזום.
בכל אופן, כפי שהבטחתי, המפגש הוקלט והוא זמין לצפיה. מקווה שבכל זאת תיהנו:

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

ויזואליזציה של נתוני יחס חוב/תוצר

לפני מספר ימים ראיתי את הגרף הזה בטוויטר: (( הערה: ביצעתי כמה עריכות מינוריות בגרף לצורך ההדגמה בהמשך הפוסט ))

גיגול קצר העלה כי מדובר בגרף ישן יחסית מאוקטובר 2017. מצד אחד, זהו באמת גרף מאוד יפה ומרשים. מצד שני, מקומו בדפי פייסבוק כגון Trust me, I’m a Statistician או Trust me, I’m a Data Scientist.

גרף זה הוא סוג של דיאגרמת עוגה (pie chart).  בדיאגרמת עוגה קלאסית הפרוסות הן בצורת “משולשים”, או גזרות של עיגול אם רוצים לדייק. כאן לפרוסות יש צורות אחרות, הכוללות משולשים, מרובעים, מצולעים אחרים, וצרות שאין לי מושג מה שמן (( ראו לדוגמא את בריטניה בתחתית הדיאגרמה))

אני מודה שהגרף הזה די בילבל אותי. מדובר בנתונים של חוב לאומי ויחס חוב/תוצר. בתחילה התייחסתי לנתון של יחס חוב/תוצר, ומשום מה חשבתי שהשטח של כל פרוסה בעוגה הזו מייצג את יחס החוב/תוצר של כל מדינה. זאת כנראה בגלל שהעין שלי תפסה קודם כל את הכותרת התחתונה.

בפועל, כל פרוסה מראה את החלק של המדינה מתוך סך כל החובות הלאומיים בעולם, ולכן סך כל השטחים אמור להסתכם ל-100%.  (( לא בדקתי את הנתונים האלה, אני מאמין למי שיצר את הדיאגרמה, וזה גם לא כל כך משנה לדיון כאן)).ניתן לראות בבירור כי המדינה עם החלק הגדול ביותר מתוך סך החובות היא ארצות הברית, ומכאן ג ניתן להסיק כי לארצות הברית יש את החוב המוחלט הגבוה ביותר במונחים דולריים. המדינה עם החלק השני הכי גדול בסך החובות היא יפן, וסין שלישית. מצאו בעוגה את הפרוסות של  איטליה, גרמניה, צרפת ובריטניה. לאיזה מדינה מבין הארבע יש חלק יותר גדול בעוגת סך החובות? האם אתם יכולים לקבוע זאת על ידי השוואת השטחים של הפרוסות?

יחס החוב/תוצר של כל מדינה מבוטא על ידי הצבע של הפרוסה בעוגה. ככל שהצבע בהיר יותר, כך יחס החוב/תוצר גבוה יותר. אפשר לראות מייד כי ליפן יש יחס חוב/תוצר גבוה מאוד. ניתן להבחין כי גם ביוון היחס הזה גבוה, למעשה השני בגובהו. האם אתם יכולים לזהות את המדינה עם היחס השלישי בגובהו? זוהי לבנון. חפשו אותה בפינה הימנית עליונה. איטליה ופורטוגל, שתופסות את המקום הרביעי והחמישי, בולטות יותר. האם אתם יכולים לראות לאיזה מדינה יש את יחס החוב/תוצר הנמוך ביותר?

לאחר שהבנו את הנתונים המוצגים בדיאגרמה הזו, אנו יכולים לנסות למצוא תובנות.

דיאגרמה זו היא למעשה גרף דו-מימדי, במובן שמוצגים בה שני משתנים שונים. בדרך כלל גרפים כאלה אמורים להראות את הקשר בין שני המשתנים. אז מה הקשר בין יחס החוב/תוצר ובין חלק החוב בסך כל החובות? אתם יכולים לראות? כי אני לא יכול. לזכותם של הכותבים ייאמר שהם לא ניסו לדון בכלל בעניין.

האם יש דרך טובה יותר להציג את הנתונים האלה באופן גרפי? כמובן שיש. בואו נשכח את כל מה שראינו עד עכשיו ונשחק קצת בנתונים.

לקחתי את נתוני יחס החוב/תוצר של כל מדינות העולם וגם את נתוני התוצר עצמם מויקיפדיה. לצורך ההדגמה, התמקדתי בנתוני מדינות ה-OECD  משנת 2017. מנתוני יחס החוב/תוצר ונתוני התוצר אפשר כמובן לחשב את גובה החוב, משם את סך החובות, ולבסוף את חלקה של כל מדינה מתוך סך החובות. הנתונים נמצאים כאן.

האפשרות הפשוטה ביותר היא לשרטט תרשים פיזור (scatter plot) משרטטים את הנתונים במערכת צירים, כשכל מדינה מיוצגת על ידי נקודה. המרחק של הנקודה מכל אחד מהצירים מייצג את הערך המתאים של הנתון.

הנה דיאגרמת פיזור בסיסית המציגה את הנתונים שלנו. למעוניינים, קוד R נמצא בגרסה האנגלית של הפוסט הזה.

בדיאגרמה ניתן לראות בבירור כי יש שתי נקודות/מדינות חריגות: אחת מהן עם יחס חוב/תוצר גדול מ-200%, חלקה של השניה בסך כל החובות גבוה מ-30%.

עיון נוסף מגלה מדינה שיחס החוב/תוצר שלה גבוה מ-150%, ועוד שתי מדינות שיחס החוב/תוצר שלהן באיזור ה-130%.

מאחר ויש כלכלנים שסבורים כי חוב גבוה זה רע, וחוב גבוה ביחס לתוצר הוא עוד יותר רע, החלטתי לחלק את הנקודות/מדינות לשלוש קבוצות:

  • בקבוצה הראשונה נכללות המדינות שיחס החוב/תוצר שלהן גבוה מ-100% או שחלקן בסך החובות גבוה מ-10%. אלה המדינות שמצבן הכלכלי “רע” על פי הפרמטרים האלה.
  • בקבוצה השניה נכללות המדינות שיחס החוב/תוצר שלהן נמוך מ-50% וגם חלקן בסך החובות נמוך מ-2%. אלה המדינות שמצבן הכלכלי “טוב” על פי הפרמטרים האלה.
  • הקבוצה השלישית כוללת את כל שאר המדינות.

קווי הגבול בין הקבוצות (2%, 10% וכולי) הם שרירותיים משהו. קבעתי אותם על פי מיטב שיפוטי. (( אם אתם מכירים כלכלן שיכול לקבוע את קווי הגבול באופן יותר מדוייק (במובן accuracy, לא במובן precision) , אשמח אם תכירו לי אותו ))

שרטטתי מחדש את הגרף: את הנקודות של המדינות שמצבן “רע” צבעתי באדום, והוספתי לגרף גם את שמה של כל מדינה מקבוצה זו. את הנקודות של המדינות שמצבן “טוב” צבעתי בירוק, ואת שאר הנקודות צבעתי בכתום:

עכשיו ניתן לראות כי:

  • יחס החוב/תוצר של המדינות שמצבן “טוב” משתרע על כל הטווח מ-0 עד 50, אם כי יש בקבוצה זו יותר מדינות שיחס החוב/תוצר שלהן מתקרב ל-50%.
  • מדינות הביניים מתחלקות בערך לשתי קבוצות: קבוצה אחת עם רמת חובות מוחלטת (כאחוז מסך החוב) נמוכה ויחס חוב/תוצר בין 50 ל-75 בערך, וקבוצה שניה של חמש מדינות  עם רמת חובות מוחלטת גבוהה יותר, כאשר לא ניתן לומר אמירה ברורה על מכנה משותף ביניהן לגבי יחס חוב/תוצר.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

גרפים בעייתיים במחקר פערים דיגיטליים

בתאריך 17.8.2018 הופיעה במוסף של העיתון כלכליסט כתבה על מחקר שעסק בפערים הדיגיטליים בישראל. בכתבה הוצגו מספר גרפים שהם עיבודים של גרפים שהופיעו בדו”ח המחקר המקורי (קישור לקובץ pdf). ברשימה זו אתייחס לגרפים בלבד ולא לממצאי המחקר עצמו. מטעמי נוחות אציג את הגרפים שפורסמו בכתבה עם הפניה לגרפים המקוריים בדו”ח המחקר.

הגרף הראשון מתאר את ההבדלים בצריכת התוכן בהתאם להבדל בהכנסה ((הגרף המקורי הוא גרף מספר 10 בדו”ח, עמוד 59. יש בדו”ח עוד גרפים דומים)).

ציר ה-Y בגרף מציין את אינדקס ריכוזיות התוכן ((אין לי מושג מה זה אומר וכיצד האינדקס מחושב)). בציר X מופיעות כל מיני קטגוריות: זכויות חברתיות, הימורים, רשתות חברתיות, יוטיוב, שירותים, ספורט ועוד. אלה הן למעשה קטגוריות של משתנה המתאר סוגי תוכן. זהו משתנה בסולם מדידה קטגוריאלי/שמי. אין סדר בין הקטגוריות. למרות זאת, עורכי הגרף סידרו את הקטגוריות בסדר מסויים, וכך הגרף יותר אשליה של סדר. די ברור כי הסדר של הקטגוריות נקבע על פי ההפרשים בין האינדקסים לשתי קבוצות האוכלוסייה – מהגבוה ביותר לנמוך ביותר – ראו הסבר מפורט יותר בתגובות (( למי שלא השתכנע מומלץ לעיין בגרפים הדומים שמופיעים בדו”ח המקורי )) . המטה של יוצרי הגרף הייתה להראות כי לבעלי שכר ממוצע ומטה יש ריכוזיות תוכן גבוהה יותר בקטגוריות מסויימות בעוד שלבעלי שכר גבוה יש ריכוזיות תוכן בקטגוריות אחרות. עד כאן זה בסדר, אבל מה המשמעות של זה? מה אנחנו יכולים ללמוד מהגרף? העורך של הכתבה נתן פרשנות אפשרית: “העשירים מחפשים דירה, העניים מחפשים זוגיות”, אבל אני מקווה שברור לכולם שזו פרשנות פשטנית, שלא לומר דמגוגית. מה המשותף לכל הקטגוריות שבהן נמוך יותר כשמדובר בבעלי שכר גבוה? אני לא רואה שום דבר משותף בין יוטיוב וחיפוש עבודה. ברור לחלוטין שהסדר בין הקטגוריות נקבע על פי הפערים בין שתי שכבות ההכנסה. לראיה: בגרפים דומים אחרים בדו”ח הסדר בין הקטגוריות הוא ששונה, אבל התמונה נשארת דומה: קו אחד עולה מימין לשמאל, השני יורד.

מה המשמעות של קו עולה לאורך הקטגוריות? ככל שקטגוריית הגלישה היא יותר “משהו” כך האינדקס גבוה יותר. אבל מהו המשהו הזה? לא ברור.

בעיה שניה בגרף: ציר ה-X מציין קטגוריות בדידות, אבל הקווים הם רציפים. המשמעות בעייתית. לדוגמה: האינדקס עבור זכויות חברתיות לבעלי שכר גבוה הוא 0.25, ובקטגוריית ההיכרויות הוא בסביבות 0.4. הקו הרציף בים 0.25 ל-0.4 עובר דרך 0.33 (( זה בערך הממוצע של 0.25 ו-0.4)). מה מציין האינדקס של 0.33? אם הקו רציף, אז האינדקס הזה צריך להתייחס לאיזשהו ערך בציר-X שנמצא בין הזכויות החברתיות וההיכרויות. אבל אין קטגוריה כזו.

הדרך העדיפה להצגת נתונים כאלה היא על ידי דיאגרמת עמודות. ניתן גם לקבץ קטגוריות דומות יחד ולהציג את האינדקס לכל אחת מהקבוצות בקטגוריה המאוחדת. כך, למשל, אפשר אולי לאחד קטגוריות כמו יוטיוב, בידור, תוכן למבוגרים והימורים לקטגוריית על של “פעילות פנאי”.  (( אל תיתפסו לדוגמה, זו רק דוגמה ואפשר לעשות את זה אחרת)) , ואילו קטגוריות כמו פיננסים, נדל”ן וחיפשו עבודה יכולות להיות מאוחדות אולי לקטגוריית כלכלה. כך אפשר להציג גרף עמודות, שבו בציר ה-X יוצגו הקטגוריות המקובצות לפי סדר קבוע (למשל סדר אלפביתי), וערכי האינדקס עבור שתי קבוצות ההכנסה יוצגו זה לצד זה, לדוגמה: ((אפשר כאמור להציג את כל הקטגוריות המקוריות, אך כך ייווצר גרף עמוס יותר ויותר קשה להבנה))

 

לגרף השני שהוצג בכתבה יש בעיה דומה (( הגרף המקורי הוא גרף מספר 4 בדו”ח, עמוד 46 )) :

כאן אמנם הקטגוריות לא מוצגות כמשתנה רציף כמו בגרף הקודם, אך הסדר ביניהן עדיין נקבע על פי הפערים (המקרה זה בין גברים ונשים). (( זה קורה גם בגרפים דומים אחרים בדו”ח)) הפרשנות שנתן העורך לנתונים שוב פשטנית, אבל זו לא הנקודה. האם ניתן למצוא מכנה משותף בין הקטגוריות שבהן צריכת התוכן של נשים גבוהה יותר מזו של גברים, למשל בריאות ועסקים ותעשייה? אולי כן, אני לא רואה איך. בדו”ח לא ניתן הסבר.

שוב, הדרך הנכונה להציג את הנתונים היא על ידי גרף דומה לה שהראיתי למעלה, עמודות המוצגות זו לצד זו, ללא הנחת סדר בין הקטגוריות.

אני רוצה להודות לידידי גיל גרינגרוז שהפנה את תשומת ליבי לכתבה.

פניתי לפרופסור רפאלי וביקשתי את התייחסותו. אשמח לפרסם אותה כאשר תתקבל.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו