Skip to content

נסיכת המדעים

אלוהים משחק ביקום בקוביות

  • עמוד הבית
  • אודות נסיכת המדעים
  • ייעוץ סטטיסטי
  • מבוא לסטטיסטיקה
  • מצגות Presentations
  • יצירת קשר
  • Toggle search form

גרפים בעייתיים במחקר פערים דיגיטליים

Posted on 26 באוגוסט 20186 בפברואר 2020 By יוסי לוי 7 תגובות על גרפים בעייתיים במחקר פערים דיגיטליים

בתאריך 17.8.2018 הופיעה במוסף של העיתון כלכליסט כתבה על מחקר שעסק בפערים הדיגיטליים בישראל. בכתבה הוצגו מספר גרפים שהם עיבודים של גרפים שהופיעו בדו”ח המחקר המקורי (קישור לקובץ pdf). ברשימה זו אתייחס לגרפים בלבד ולא לממצאי המחקר עצמו. מטעמי נוחות אציג את הגרפים שפורסמו בכתבה עם הפניה לגרפים המקוריים בדו”ח המחקר.

הגרף הראשון מתאר את ההבדלים בצריכת התוכן בהתאם להבדל בהכנסה ((הגרף המקורי הוא גרף מספר 10 בדו”ח, עמוד 59. יש בדו”ח עוד גרפים דומים)).

ציר ה-Y בגרף מציין את אינדקס ריכוזיות התוכן ((אין לי מושג מה זה אומר וכיצד האינדקס מחושב)). בציר X מופיעות כל מיני קטגוריות: זכויות חברתיות, הימורים, רשתות חברתיות, יוטיוב, שירותים, ספורט ועוד. אלה הן למעשה קטגוריות של משתנה המתאר סוגי תוכן. זהו משתנה בסולם מדידה קטגוריאלי/שמי. אין סדר בין הקטגוריות. למרות זאת, עורכי הגרף סידרו את הקטגוריות בסדר מסויים, וכך הגרף יותר אשליה של סדר. די ברור כי הסדר של הקטגוריות נקבע על פי ההפרשים בין האינדקסים לשתי קבוצות האוכלוסייה – מהגבוה ביותר לנמוך ביותר – ראו הסבר מפורט יותר בתגובות (( למי שלא השתכנע מומלץ לעיין בגרפים הדומים שמופיעים בדו”ח המקורי )) . המטה של יוצרי הגרף הייתה להראות כי לבעלי שכר ממוצע ומטה יש ריכוזיות תוכן גבוהה יותר בקטגוריות מסויימות בעוד שלבעלי שכר גבוה יש ריכוזיות תוכן בקטגוריות אחרות. עד כאן זה בסדר, אבל מה המשמעות של זה? מה אנחנו יכולים ללמוד מהגרף? העורך של הכתבה נתן פרשנות אפשרית: “העשירים מחפשים דירה, העניים מחפשים זוגיות”, אבל אני מקווה שברור לכולם שזו פרשנות פשטנית, שלא לומר דמגוגית. מה המשותף לכל הקטגוריות שבהן נמוך יותר כשמדובר בבעלי שכר גבוה? אני לא רואה שום דבר משותף בין יוטיוב וחיפוש עבודה. ברור לחלוטין שהסדר בין הקטגוריות נקבע על פי הפערים בין שתי שכבות ההכנסה. לראיה: בגרפים דומים אחרים בדו”ח הסדר בין הקטגוריות הוא ששונה, אבל התמונה נשארת דומה: קו אחד עולה מימין לשמאל, השני יורד.

מה המשמעות של קו עולה לאורך הקטגוריות? ככל שקטגוריית הגלישה היא יותר “משהו” כך האינדקס גבוה יותר. אבל מהו המשהו הזה? לא ברור.

בעיה שניה בגרף: ציר ה-X מציין קטגוריות בדידות, אבל הקווים הם רציפים. המשמעות בעייתית. לדוגמה: האינדקס עבור זכויות חברתיות לבעלי שכר גבוה הוא 0.25, ובקטגוריית ההיכרויות הוא בסביבות 0.4. הקו הרציף בים 0.25 ל-0.4 עובר דרך 0.33 (( זה בערך הממוצע של 0.25 ו-0.4)). מה מציין האינדקס של 0.33? אם הקו רציף, אז האינדקס הזה צריך להתייחס לאיזשהו ערך בציר-X שנמצא בין הזכויות החברתיות וההיכרויות. אבל אין קטגוריה כזו.

הדרך העדיפה להצגת נתונים כאלה היא על ידי דיאגרמת עמודות. ניתן גם לקבץ קטגוריות דומות יחד ולהציג את האינדקס לכל אחת מהקבוצות בקטגוריה המאוחדת. כך, למשל, אפשר אולי לאחד קטגוריות כמו יוטיוב, בידור, תוכן למבוגרים והימורים לקטגוריית על של “פעילות פנאי”.  (( אל תיתפסו לדוגמה, זו רק דוגמה ואפשר לעשות את זה אחרת)) , ואילו קטגוריות כמו פיננסים, נדל”ן וחיפשו עבודה יכולות להיות מאוחדות אולי לקטגוריית כלכלה. כך אפשר להציג גרף עמודות, שבו בציר ה-X יוצגו הקטגוריות המקובצות לפי סדר קבוע (למשל סדר אלפביתי), וערכי האינדקס עבור שתי קבוצות ההכנסה יוצגו זה לצד זה, לדוגמה: ((אפשר כאמור להציג את כל הקטגוריות המקוריות, אך כך ייווצר גרף עמוס יותר ויותר קשה להבנה))

 

לגרף השני שהוצג בכתבה יש בעיה דומה (( הגרף המקורי הוא גרף מספר 4 בדו”ח, עמוד 46 )) :

כאן אמנם הקטגוריות לא מוצגות כמשתנה רציף כמו בגרף הקודם, אך הסדר ביניהן עדיין נקבע על פי הפערים (המקרה זה בין גברים ונשים). (( זה קורה גם בגרפים דומים אחרים בדו”ח)) הפרשנות שנתן העורך לנתונים שוב פשטנית, אבל זו לא הנקודה. האם ניתן למצוא מכנה משותף בין הקטגוריות שבהן צריכת התוכן של נשים גבוהה יותר מזו של גברים, למשל בריאות ועסקים ותעשייה? אולי כן, אני לא רואה איך. בדו”ח לא ניתן הסבר.

שוב, הדרך הנכונה להציג את הנתונים היא על ידי גרף דומה לה שהראיתי למעלה, עמודות המוצגות זו לצד זו, ללא הנחת סדר בין הקטגוריות.

אני רוצה להודות לידידי גיל גרינגרוז שהפנה את תשומת ליבי לכתבה.

פניתי לפרופסור רפאלי וביקשתי את התייחסותו. אשמח לפרסם אותה כאשר תתקבל.

ויזואליזציה, סטטיסטיקה רעה Tags:גרפים, סטטיסטיקה רעה

ניווט

Previous Post: ניתוח השפעה של אירוע על נתונים לאורך זמן – Interrupted Time Series
Next Post: נסיכת המדעים בפייסבוק

Comments (7) on “גרפים בעייתיים במחקר פערים דיגיטליים”

  1. גיל הגיב:
    29 באוגוסט 2018 בשעה 15:27

    תודה על הפוסט. אני פחות מוטרד מהגרף השני כי לא נראה שיש שם נסיון להטעות כמו בגרף הראשון. זה בעצם סוג מסוים של גרף עמודות שבו הקטגוריות סודרו מהקטן לגדול. הפרשנות שלו באמת בעייתית אבל מבחינת הצגת הגרף, אין לי בעייה איתו כי זה עוזר למצוא את הקטגוריות שבהן נשים/גברים פעילים יותר.

    הגב
  2. י. פורת הגיב:
    29 באוגוסט 2018 בשעה 16:24

    מה שלא ברור לי מהגרף הראשון למשל, זאת המקריות(?) הבלתי סבירה שגורמת לכך שקו אחד מונוטוני עולה והשני יורד. ההגיון (שלי) טוען שאם מסדרים את הקטגוריות כל שקו אחד יהיה עולה, השני יזגזג ולא יהיה מונוטוני.

    הגב
    1. יוסי לוי הגיב:
      1 בספטמבר 2018 בשעה 10:41

      אסביר שוב: מחשבים לכל קטגוריה את ההפרש בין שתי הפרופורציות. סביר להניח שחלק מההפרשים יהיו חיוביים וחלקם שליליים. מסדרים את הקטגוריות לפי סדר ההפרשים – מההפרש החיובי הגדול ביותר עד ההפרש השלילי הקטן ביותר, ואז משרטטים את הקווים לפי סדר הקטגוריות שנקבע על ידי סדר ההפרשים. כך מובטח לך שיהיו שני קווים מונוטוניים.
      הנה קוד R קצר שמגריל פרופורציות רנדומליות ומייצר שני קווים מונוטוניים:

      x=runif(20)
      y=1-x
      diff=x-y
      df=data.frame(x,y, diff)
      df=df[order(df$diff),]
      df$category=1:20
      plot(df$category, df$y, type=”l”, col=’red’, lwd=2)
      lines(df$category, df$x, col=”blue”, lwd=2)

      הגב
  3. י. פורת הגיב:
    29 באוגוסט 2018 בשעה 16:25

    “כך שקו אחד” ולא “כל שקו אחד”.

    הגב
  4. יוסי לוי הגיב:
    1 בספטמבר 2018 בשעה 10:44

    אני מסכים שהגרף השני פחות בעייתי, אולם זה בגלל שהוא לא יוצר מצג של משתנה רציף. הוא עדיין יותר מצג של מונוטוניות, שזה אולי בסדר אם יש גרף אחד, אבל כאשר יש בדו”ח מספר גרפים דומים, שכולם יוצרים מצג של מונוטוניות עבור סדרים שונים של קטגוריות, זה כבר בעייתי.

    הגב
  5. י. פורת הגיב:
    3 בספטמבר 2018 בשעה 12:02

    ברור שאם המשתנים מתואמים (אצלך בדוגמא הם משלימים ל-1) אפשר לסדר אותם כך ששני הקוים יהיו מונוטוניים. אבל זה לא אמור להיות המצב שנחקר שם! למעשה אם כל הנאמר נכון, *זאת* מסקנה חזקה מאד מהמחקר.

    הגב
  6. י. פורת הגיב:
    26 בספטמבר 2018 בשעה 16:27

    לא שווה התייחסות לדעתך?

    הגב

כתיבת תגובה לבטל

האימייל לא יוצג באתר. שדות החובה מסומנים *

אתר זה עושה שימוש באקיזמט למניעת הודעות זבל. לחצו כאן כדי ללמוד איך נתוני התגובה שלכם מעובדים.

  • תכנים נוספים בנסיכת המדעים
  • ערוץ היוטיוב של נסיכת המדעים 
  • נסיכת המדעים בפייסבוק
  • חפירות על סטטיסטיקה
  • תכנים מומלצים ברשת בנושאי סטטיסטיקה ו- Data Science
  • Privacy policy
  • מה אומרת הסטטיסטיקה
  • כלכלה וחברה
  • בריאות
  • ביוסטטיסטיקה
  • האנשים שמאחורי הסטטיסטיקה
  • נשים בסטטיסטיקה
  • סטטיסטיקה רעה
  • אותי זה מצחיק
  • בנימה אישית

Copyright © 2025 נסיכת המדעים.

Powered by PressBook WordPress theme

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish.Accept Read More
Privacy & Cookies Policy

Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
Necessary
Always Enabled
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Non-necessary
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
SAVE & ACCEPT