קישורים

ניווט

נושאים

ארכיב עבור תגית ויזואליזציה

boxplot – האהבה שהכזיבה

אהבה שנמשכת שנים רבות עד שלפתע מתגלה משהו שלא שמתם לב אליו קודם. מכירים? הנה סיפור אישי: הכרתי אותה כאשר הייתי בשנה ב באוניברסיטה, וזו הייתה אהבה ממבט ראשון: ה-boxplot, או כפי שהיא נקראת בעברית, דיאגרמת הקופסה. כל כך נאה, כל כך אלגנטית, כל כך אינטליגנטית.

הקופסה הירוקה מציגה את החציון ואת שני הרבעונים – התחתון והעליון: . ה-“שפמים” מראים את הנתון המינימלי והנתון המקסימלי, או, כמו בדוגמה הזו, את הגבול שמעליו תצפיות נחשבות לחריגות.

בדוגמה הספציפית הזו, המציגה את הגילאים של חלק מנוסעי הטיטניק, הגיל המינימלי הוא קצת יותר מאפס (תינוק בן 5 חודשים). הרבעון התחתון הוא בערך 20, החציון הוא בערך 28 והרבעון העליון הוא בערך 38. המשמעות היא כי רבע מהנוסעים הם בגילאי 0 עד עד 20, רבע בגילאי 20 עד 28, רבע בגילאי 28 עד 38, והשאר בגילאי 38 ומעלה. כמו כן ניתן לראות כי הגילאים של נוסעים שגילם גבוה מ-65 נחשבים כגילאים חריגים ביחס לגילאים שאר הנוסעים.

בפוסט שפירסם בבלוג הוויזואליזציה נייטינגייל, ניק דספרטס (Nick Desbarats) מסביר למה הוא הפסיק להשתמש ב-boxplot, והוא צודק.

ראשית, דספרטס מספר כי מניסיונו, רוב האנשים בסדנאות שהוא מעביר מתקשים להבין את ה-boxplot, בוודאי בהשוואה לסוגים אחרים של וויזואליזציה. גם כאשר אנשים מבינים את העקרונות של הדיאגרמה, הם עדיין נזקקים ל-“התעמלות קוגניטיבית”, כדבריו, כדי לפרש נכונה את האינפורמציה המוצגת, ונוטים לפרשנות לא נכונה, שוב בהשוואה לאלטרנטיבות ויזואליזציה אחרות. וכאן אני יכול להעיד גם על ניסיוני מהעבר המאוד לא רחוק: בבחינה בקורס המבוא לסטטיסטיקה שלימדתי לא מזמן, היו שתי שאלות על דיאגרמת קופסה שחשבתי כי הן “שאלות מתנה”. למרבה הצער, שיעור הטעויות בשאלות האלה היה גבוה בהשוואה לשאלות אחרות.

דספרטס מביא 3 נימוקים נגד השימוש ב-boxplot, ואסקור אותם כאן בקצרה. הנימוק הראשון הוא של-boxplot אין הגיון וויזואלי. לקופסה יש שטח/נפח בניגוד לשפמים, ולכן היא נתפשת כמייצגת יותר נתונים. אולם, כל חלק של ה-boxplot (שני חצאי קופסה ושני שפמים) מייצג בדיוק את אותה כמות נתונים – כל אחד מהם מייצג רבע מכלל הנתונים (פרט לחריגים). שנית, שני חלקי הקופסה נתפשים ויזואלית כחלק אחד, כלומר ההתרשמות היא כי הנתונים מתחלקים לשלוש קבוצות ולא לארבע. שלישית, אנשים נוטים לקשר אורך עם כמות, ושוב, ה-boxplot מתעלם מכך (בדוגמה שלי, השפם הימני ארוך יותר מאורך הקופסה, בעוד שהוא מייצג חצי מכמות הנותנים שמייצגת הקופסה).

הנימוק השני הוא כי ה-boxplot דורש מהקהל להבין מושגים אבסטרקטיים יחסית, חציון ורבעונים, כאשר לא נדרש צורך אמיתי בכך. בדרך כלל, אם לא מדובר בקהל של סטטיסטיקאים המיומנים בקריאת boxplots, יש צורך להסביר את מבנה ה-boxplot ואת המושגים שהיא מייצגת לפני שדנים במשמעות של הנתונים עצמם. ואין צורך בכך כי יש אלטרנטיבות טובות יותר להצגת נתונים בהם החציון ושאר האחוזונים נתפשים באופן אינטואיטיבי.

הנימוק השלישי, אולי החשוב ביותר, הוא הטענה כי לעיתים קרובות ה-boxplot מציג את ההתפלגות של הנתונים באופן לא נכון, ואף ייתכן כי הboxplots של שתי התפלגויות שונות לגמרי יהיו זהות. בפוסט יש מספר דוגמאות לכך.

אז זהו. אני כנראה אפסיק להשתמש ב-boxplot אלא אם אחשוב שזה ממש הכרחי. למי שמלמד מבוא לסטטיסטיקה, אני ממליץ להפסיק ללמד את ה- boxplot, אם אתם עושים זאת.

  • התוכן של הפוסט הזה הופיע לראשונה בניוזלטר של נסיכת המדעים. הרשמו ותקבלו עדכון חודשי על כל מה שקורה עכשיו בסטטיסטיקה: http://www.sci-princess.info/updates

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

ויזואליזציה של נתונים קטגוריים

פוסט זה עוסק בתחום שאני אוהב במיוחד: משתנים קטגוריים.

תזכורת: יש ארבעה סולמות מדידה, ומשתנים קטגוריים הם משתנים שנמדדים בשני סולמות המדידה התחתונים (אך לא נחותים).

הסולם הנמוך ביותר הוא סולם שמי/נומינלי, בו לערכים המספריים של הנתונים אין כל משמעות מספרית פרט לזיהוי המשתנה. דוגמה אופיינית היא מספרי החולצות של שחקני קבוצת ספורט. בעזרת המספר אנו יכולים לזהות את השחקן, אך השחקן שלובש את חולצה מספר 11 אינו בהכרח שחקן יותר טוב מהשחקן שלובש את חולצה מספר 10.

שלב אחד מעל הסולם השמי נמצא הסולם הסודר/אורדינלי. כאן יש לערכי המספריים משמעות מוגבלת: הערכים מבטאים סדר בין הנתונים, אך לא הפרשים או יחסים. משתנים כאלה מופעים בכל מיני שאלונים, אך לא רק שם. אם אתם נשאלים עד כמה אתם מסכימים עם משפט כלשהו, התשבות האפשריות הן: לא מסכים בכלל, לא מסכים, אין דעה, מסכים ומסכים בהחלט, התשובות נמדדות בסולם אורדינלי. ניתן לקודד את התשובות במספרים 1 עד 5 למשל, אך מי שמסכים ותשובתו מקודדת ב-4, אינו מסכים עם הטענה כפליים מזה שאינו מסכים עם הטענה ותשובתו מקודדת ב-2, אם כי למרבה הצער יש לא מעט אנשים שחושבים כך. (יש עוד הרבה בעיות בפרשנות של נתונים מהסולם הזה, אבל אני אעצור כאן).

לדעתי זהו תחום מרתק, ועבודת הדוקטורט שלי הייתה קשורה לתחום זה. כאן אי אפשר לחשב ממוצעים, סטיות תקן וכולי. צריך כלים אחרים, וצורת חשיבה אחרת. אחד הפרוייקטים שלקחתי על עצמי הוא ליצור קבוצת ערכים בויקיפדיה העברית שתעסוק במשתנים כאלה. אני מרשה לעצמי להפנות גם לפוסט נוסף שכתבתי על המריבה ההיסטורית בין קרל פירסון ותלמידו אדני יול שסבבה סביב השאלה כיצד לבדוק הם יש קשר בין שני משתנים קטגוריים.

בבלוג הוויזואליזציה נייטינגייל הופיע לא מזמן פוסט העוסק בהצגה ויזואלית של נתונים קטגוריים. מה שמוזר הוא שבפוסט לא הוזכרה דיאגרמת הפרחים המפורסמת של פלורנס נייטינגייל שמציגה שלושה משתנים קטגוריים שונים. הפוסט מתמקד בארבעה סוגי ויזואליזציה של משתנים קטגוריים (יש עוד), ואני מודה שאת אחד מהם לא הכרתי קודם, אם כי ניתן לראות בסוג דיאגרמה אחרת שהוצגה בפוסט כהכללה שלו. אני לא אכנס כאן לפרטים, אבל ממליץ לכם להיכנס, וגם אם לא תקראו את כל הפוסט,  אני ממליץ לכם לצפות בדוגמאות היסטוריות של דיאגרמות sankey ו-sunburst מהמאה ה-19.

  • התוכן של הפוסט הזה הופיע בניוזלטר של נסיכת המדעים. הרשמו ותקבלו עדכון חודשי על כל מה שקורה עכשיו בסטטיסטיקה: http://www.sci-princess.info/updates

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

ויזואליזציה: מבט לעבר – צילום מפגש זום

ב-16.9.2020 נערך מפגש הזום הראשון של נסיכת המדעים שכותרתו הייתה ויזואליזציה: מבט לעבר.
אומר כי אני מאוד מאוכזב מהאופן שבו המפגש הזה התנהל, ואבהיר כי אני מאוכזב מעצמי, ולא מאף אחד אחר. למדתי, בדרך הקשה, כי זום הוא מדיום מאוד שונה מהרצאה/מפגש פנים אל פנים, והשוני מתבטא גם באופי הקשר עם הקהל, וגם בטכנולוגיה שאני, מה לעשות, לא מכיר מספיק טוב ((למרות שעברתי הדרכה אצל הבן שלי… )). אני מקווה שבמפגש הבא אצליח לשפר את את אופן השימוש שלי בזום.
בכל אופן, כפי שהבטחתי, המפגש הוקלט והוא זמין לצפיה. מקווה שבכל זאת תיהנו:

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

ויזואליזציה של נתוני יחס חוב/תוצר

לפני מספר ימים ראיתי את הגרף הזה בטוויטר: (( הערה: ביצעתי כמה עריכות מינוריות בגרף לצורך ההדגמה בהמשך הפוסט ))

גיגול קצר העלה כי מדובר בגרף ישן יחסית מאוקטובר 2017. מצד אחד, זהו באמת גרף מאוד יפה ומרשים. מצד שני, מקומו בדפי פייסבוק כגון Trust me, I’m a Statistician או Trust me, I’m a Data Scientist.

גרף זה הוא סוג של דיאגרמת עוגה (pie chart).  בדיאגרמת עוגה קלאסית הפרוסות הן בצורת “משולשים”, או גזרות של עיגול אם רוצים לדייק. כאן לפרוסות יש צורות אחרות, הכוללות משולשים, מרובעים, מצולעים אחרים, וצרות שאין לי מושג מה שמן (( ראו לדוגמא את בריטניה בתחתית הדיאגרמה))

אני מודה שהגרף הזה די בילבל אותי. מדובר בנתונים של חוב לאומי ויחס חוב/תוצר. בתחילה התייחסתי לנתון של יחס חוב/תוצר, ומשום מה חשבתי שהשטח של כל פרוסה בעוגה הזו מייצג את יחס החוב/תוצר של כל מדינה. זאת כנראה בגלל שהעין שלי תפסה קודם כל את הכותרת התחתונה.

בפועל, כל פרוסה מראה את החלק של המדינה מתוך סך כל החובות הלאומיים בעולם, ולכן סך כל השטחים אמור להסתכם ל-100%.  (( לא בדקתי את הנתונים האלה, אני מאמין למי שיצר את הדיאגרמה, וזה גם לא כל כך משנה לדיון כאן)).ניתן לראות בבירור כי המדינה עם החלק הגדול ביותר מתוך סך החובות היא ארצות הברית, ומכאן ג ניתן להסיק כי לארצות הברית יש את החוב המוחלט הגבוה ביותר במונחים דולריים. המדינה עם החלק השני הכי גדול בסך החובות היא יפן, וסין שלישית. מצאו בעוגה את הפרוסות של  איטליה, גרמניה, צרפת ובריטניה. לאיזה מדינה מבין הארבע יש חלק יותר גדול בעוגת סך החובות? האם אתם יכולים לקבוע זאת על ידי השוואת השטחים של הפרוסות?

יחס החוב/תוצר של כל מדינה מבוטא על ידי הצבע של הפרוסה בעוגה. ככל שהצבע בהיר יותר, כך יחס החוב/תוצר גבוה יותר. אפשר לראות מייד כי ליפן יש יחס חוב/תוצר גבוה מאוד. ניתן להבחין כי גם ביוון היחס הזה גבוה, למעשה השני בגובהו. האם אתם יכולים לזהות את המדינה עם היחס השלישי בגובהו? זוהי לבנון. חפשו אותה בפינה הימנית עליונה. איטליה ופורטוגל, שתופסות את המקום הרביעי והחמישי, בולטות יותר. האם אתם יכולים לראות לאיזה מדינה יש את יחס החוב/תוצר הנמוך ביותר?

לאחר שהבנו את הנתונים המוצגים בדיאגרמה הזו, אנו יכולים לנסות למצוא תובנות.

דיאגרמה זו היא למעשה גרף דו-מימדי, במובן שמוצגים בה שני משתנים שונים. בדרך כלל גרפים כאלה אמורים להראות את הקשר בין שני המשתנים. אז מה הקשר בין יחס החוב/תוצר ובין חלק החוב בסך כל החובות? אתם יכולים לראות? כי אני לא יכול. לזכותם של הכותבים ייאמר שהם לא ניסו לדון בכלל בעניין.

האם יש דרך טובה יותר להציג את הנתונים האלה באופן גרפי? כמובן שיש. בואו נשכח את כל מה שראינו עד עכשיו ונשחק קצת בנתונים.

לקחתי את נתוני יחס החוב/תוצר של כל מדינות העולם וגם את נתוני התוצר עצמם מויקיפדיה. לצורך ההדגמה, התמקדתי בנתוני מדינות ה-OECD  משנת 2017. מנתוני יחס החוב/תוצר ונתוני התוצר אפשר כמובן לחשב את גובה החוב, משם את סך החובות, ולבסוף את חלקה של כל מדינה מתוך סך החובות. הנתונים נמצאים כאן.

האפשרות הפשוטה ביותר היא לשרטט תרשים פיזור (scatter plot) משרטטים את הנתונים במערכת צירים, כשכל מדינה מיוצגת על ידי נקודה. המרחק של הנקודה מכל אחד מהצירים מייצג את הערך המתאים של הנתון.

הנה דיאגרמת פיזור בסיסית המציגה את הנתונים שלנו. למעוניינים, קוד R נמצא בגרסה האנגלית של הפוסט הזה.

בדיאגרמה ניתן לראות בבירור כי יש שתי נקודות/מדינות חריגות: אחת מהן עם יחס חוב/תוצר גדול מ-200%, חלקה של השניה בסך כל החובות גבוה מ-30%.

עיון נוסף מגלה מדינה שיחס החוב/תוצר שלה גבוה מ-150%, ועוד שתי מדינות שיחס החוב/תוצר שלהן באיזור ה-130%.

מאחר ויש כלכלנים שסבורים כי חוב גבוה זה רע, וחוב גבוה ביחס לתוצר הוא עוד יותר רע, החלטתי לחלק את הנקודות/מדינות לשלוש קבוצות:

  • בקבוצה הראשונה נכללות המדינות שיחס החוב/תוצר שלהן גבוה מ-100% או שחלקן בסך החובות גבוה מ-10%. אלה המדינות שמצבן הכלכלי “רע” על פי הפרמטרים האלה.
  • בקבוצה השניה נכללות המדינות שיחס החוב/תוצר שלהן נמוך מ-50% וגם חלקן בסך החובות נמוך מ-2%. אלה המדינות שמצבן הכלכלי “טוב” על פי הפרמטרים האלה.
  • הקבוצה השלישית כוללת את כל שאר המדינות.

קווי הגבול בין הקבוצות (2%, 10% וכולי) הם שרירותיים משהו. קבעתי אותם על פי מיטב שיפוטי. (( אם אתם מכירים כלכלן שיכול לקבוע את קווי הגבול באופן יותר מדוייק (במובן accuracy, לא במובן precision) , אשמח אם תכירו לי אותו ))

שרטטתי מחדש את הגרף: את הנקודות של המדינות שמצבן “רע” צבעתי באדום, והוספתי לגרף גם את שמה של כל מדינה מקבוצה זו. את הנקודות של המדינות שמצבן “טוב” צבעתי בירוק, ואת שאר הנקודות צבעתי בכתום:

עכשיו ניתן לראות כי:

  • יחס החוב/תוצר של המדינות שמצבן “טוב” משתרע על כל הטווח מ-0 עד 50, אם כי יש בקבוצה זו יותר מדינות שיחס החוב/תוצר שלהן מתקרב ל-50%.
  • מדינות הביניים מתחלקות בערך לשתי קבוצות: קבוצה אחת עם רמת חובות מוחלטת (כאחוז מסך החוב) נמוכה ויחס חוב/תוצר בין 50 ל-75 בערך, וקבוצה שניה של חמש מדינות  עם רמת חובות מוחלטת גבוהה יותר, כאשר לא ניתן לומר אמירה ברורה על מכנה משותף ביניהן לגבי יחס חוב/תוצר.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

ישראל היום – הגרף שלא ייאמן

כשראיתי את הסריקה של הגרף הזה שמישהו העלה לפייסבוק, לא האמנתי שזה אמיתי. אז גלשתי לאתר של העיתון הנפוץ “ישראל היום” ומצאתי את זה במהדורה המודפסת של יום שישי, 25 בנובמבר 2011. החבר’ה מישראל היום עשו סקר, בנושא הגרעין האירני. שאלו שאלה, 41.3% ענו כן, 48.6% ענו לא. מחנות הכן והלא שווים בערך, אם כי יש הבדל סטטיסטי מובהק לטובת עוני ה-“לא”. אבל הגרף מראה כי מספר המשיבם “כן” גדול פי 3 ממספר המשיבים “לא”.

אני לא יודע מה האינטרס של העיתון להציג כאילו הרוב השיבו “כן”, ועוד רוב כל כך גדול. לעיתון יש אג’נדה פוליטית, זה ברור, וזה בסדר. אבל אני מתקשה להאמין שעורכי העיתון סבורים שקהל הקוראים שלהם כה טיפש. אני מקווה שביום ראשון תצא התנצלות כלשהי ותסביר שזו הייתה טעות של הגרפיקאי, או הש.ג. או מי שזה לא יהיה. באמת.

הערה: זהו צילום מסך מאתר ישראל היום. גודל התמונה שונה כדי שיתאים לתבנית הבלוג. כמו כן, העתקתי את הלוגו של העיתון והתאריך מפינת העמוד בו הופיע הגרף והדבקתי אותו מעל הגרף.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו