נסיכת המדעים

גרפים בעייתיים במחקר פערים דיגיטליים

בתאריך 17.8.2018 הופיעה במוסף של העיתון כלכליסט כתבה על מחקר שעסק בפערים הדיגיטליים בישראל. בכתבה הוצגו מספר גרפים שהם עיבודים של גרפים שהופיעו בדו"ח המחקר המקורי (קישור לקובץ pdf). ברשימה זו אתייחס לגרפים בלבד ולא לממצאי המחקר עצמו. מטעמי נוחות אציג את הגרפים שפורסמו בכתבה עם הפניה לגרפים המקוריים בדו"ח המחקר.

הגרף הראשון מתאר את ההבדלים בצריכת התוכן בהתאם להבדל בהכנסה ((הגרף המקורי הוא גרף מספר 10 בדו"ח, עמוד 59. יש בדו"ח עוד גרפים דומים)).

ציר ה-Y בגרף מציין את אינדקס ריכוזיות התוכן ((אין לי מושג מה זה אומר וכיצד האינדקס מחושב)). בציר X מופיעות כל מיני קטגוריות: זכויות חברתיות, הימורים, רשתות חברתיות, יוטיוב, שירותים, ספורט ועוד. אלה הן למעשה קטגוריות של משתנה המתאר סוגי תוכן. זהו משתנה בסולם מדידה קטגוריאלי/שמי. אין סדר בין הקטגוריות. למרות זאת, עורכי הגרף סידרו את הקטגוריות בסדר מסויים, וכך הגרף יותר אשליה של סדר. די ברור כי הסדר של הקטגוריות נקבע על פי ההפרשים בין האינדקסים לשתי קבוצות האוכלוסייה – מהגבוה ביותר לנמוך ביותר – ראו הסבר מפורט יותר בתגובות (( למי שלא השתכנע מומלץ לעיין בגרפים הדומים שמופיעים בדו"ח המקורי )) . המטה של יוצרי הגרף הייתה להראות כי לבעלי שכר ממוצע ומטה יש ריכוזיות תוכן גבוהה יותר בקטגוריות מסויימות בעוד שלבעלי שכר גבוה יש ריכוזיות תוכן בקטגוריות אחרות. עד כאן זה בסדר, אבל מה המשמעות של זה? מה אנחנו יכולים ללמוד מהגרף? העורך של הכתבה נתן פרשנות אפשרית: "העשירים מחפשים דירה, העניים מחפשים זוגיות", אבל אני מקווה שברור לכולם שזו פרשנות פשטנית, שלא לומר דמגוגית. מה המשותף לכל הקטגוריות שבהן נמוך יותר כשמדובר בבעלי שכר גבוה? אני לא רואה שום דבר משותף בין יוטיוב וחיפוש עבודה. ברור לחלוטין שהסדר בין הקטגוריות נקבע על פי הפערים בין שתי שכבות ההכנסה. לראיה: בגרפים דומים אחרים בדו"ח הסדר בין הקטגוריות הוא ששונה, אבל התמונה נשארת דומה: קו אחד עולה מימין לשמאל, השני יורד.

מה המשמעות של קו עולה לאורך הקטגוריות? ככל שקטגוריית הגלישה היא יותר "משהו" כך האינדקס גבוה יותר. אבל מהו המשהו הזה? לא ברור.

בעיה שניה בגרף: ציר ה-X מציין קטגוריות בדידות, אבל הקווים הם רציפים. המשמעות בעייתית. לדוגמה: האינדקס עבור זכויות חברתיות לבעלי שכר גבוה הוא 0.25, ובקטגוריית ההיכרויות הוא בסביבות 0.4. הקו הרציף בים 0.25 ל-0.4 עובר דרך 0.33 (( זה בערך הממוצע של 0.25 ו-0.4)). מה מציין האינדקס של 0.33? אם הקו רציף, אז האינדקס הזה צריך להתייחס לאיזשהו ערך בציר-X שנמצא בין הזכויות החברתיות וההיכרויות. אבל אין קטגוריה כזו.

הדרך העדיפה להצגת נתונים כאלה היא על ידי דיאגרמת עמודות. ניתן גם לקבץ קטגוריות דומות יחד ולהציג את האינדקס לכל אחת מהקבוצות בקטגוריה המאוחדת. כך, למשל, אפשר אולי לאחד קטגוריות כמו יוטיוב, בידור, תוכן למבוגרים והימורים לקטגוריית על של "פעילות פנאי". (( אל תיתפסו לדוגמה, זו רק דוגמה ואפשר לעשות את זה אחרת)) , ואילו קטגוריות כמו פיננסים, נדל"ן וחיפשו עבודה יכולות להיות מאוחדות אולי לקטגוריית כלכלה. כך אפשר להציג גרף עמודות, שבו בציר ה-X יוצגו הקטגוריות המקובצות לפי סדר קבוע (למשל סדר אלפביתי), וערכי האינדקס עבור שתי קבוצות ההכנסה יוצגו זה לצד זה, לדוגמה: ((אפשר כאמור להציג את כל הקטגוריות המקוריות, אך כך ייווצר גרף עמוס יותר ויותר קשה להבנה))

לגרף השני שהוצג בכתבה יש בעיה דומה (( הגרף המקורי הוא גרף מספר 4 בדו"ח, עמוד 46 )) :

כאן אמנם הקטגוריות לא מוצגות כמשתנה רציף כמו בגרף הקודם, אך הסדר ביניהן עדיין נקבע על פי הפערים (המקרה זה בין גברים ונשים). (( זה קורה גם בגרפים דומים אחרים בדו"ח)) הפרשנות שנתן העורך לנתונים שוב פשטנית, אבל זו לא הנקודה. האם ניתן למצוא מכנה משותף בין הקטגוריות שבהן צריכת התוכן של נשים גבוהה יותר מזו של גברים, למשל בריאות ועסקים ותעשייה? אולי כן, אני לא רואה איך. בדו"ח לא ניתן הסבר.

שוב, הדרך הנכונה להציג את הנתונים היא על ידי גרף דומה לה שהראיתי למעלה, עמודות המוצגות זו לצד זו, ללא הנחת סדר בין הקטגוריות.

אני רוצה להודות לידידי גיל גרינגרוז שהפנה את תשומת ליבי לכתבה.

פניתי לפרופסור רפאלי וביקשתי את התייחסותו. אשמח לפרסם אותה כאשר תתקבל.

נשלח: 26 באוגוסט, 2018 נושאים: ויזואליזציה, סטטיסטיקה רעה.
תגובות: 7 | טראקבק

7 תגובות ל“גרפים בעייתיים במחקר פערים דיגיטליים”

תגובה מאת גיל
תאריך 29 באוגוסט 2018 15:27

תודה על הפוסט. אני פחות מוטרד מהגרף השני כי לא נראה שיש שם נסיון להטעות כמו בגרף הראשון. זה בעצם סוג מסוים של גרף עמודות שבו הקטגוריות סודרו מהקטן לגדול. הפרשנות שלו באמת בעייתית אבל מבחינת הצגת הגרף, אין לי בעייה איתו כי זה עוזר למצוא את הקטגוריות שבהן נשים/גברים פעילים יותר.

הגב
תגובה מאת י. פורת
תאריך 29 באוגוסט 2018 16:24

מה שלא ברור לי מהגרף הראשון למשל, זאת המקריות(?) הבלתי סבירה שגורמת לכך שקו אחד מונוטוני עולה והשני יורד. ההגיון (שלי) טוען שאם מסדרים את הקטגוריות כל שקו אחד יהיה עולה, השני יזגזג ולא יהיה מונוטוני.

הגב
- תגובה מאת יוסי לוי
  תאריך 1 בספטמבר 2018 10:41
  
  אסביר שוב: מחשבים לכל קטגוריה את ההפרש בין שתי הפרופורציות. סביר להניח שחלק מההפרשים יהיו חיוביים וחלקם שליליים. מסדרים את הקטגוריות לפי סדר ההפרשים – מההפרש החיובי הגדול ביותר עד ההפרש השלילי הקטן ביותר, ואז משרטטים את הקווים לפי סדר הקטגוריות שנקבע על ידי סדר ההפרשים. כך מובטח לך שיהיו שני קווים מונוטוניים.
  הנה קוד R קצר שמגריל פרופורציות רנדומליות ומייצר שני קווים מונוטוניים:
  
  x=runif(20)
  y=1-x
  diff=x-y
  df=data.frame(x,y, diff)
  df=df[order(df$diff),]
  df$category=1:20
  plot(df$category, df$y, type="l", col='red', lwd=2)
  lines(df$category, df$x, col="blue", lwd=2)
  
  הגב
תגובה מאת י. פורת
תאריך 29 באוגוסט 2018 16:25

"כך שקו אחד" ולא "כל שקו אחד".

הגב
תגובה מאת יוסי לוי
תאריך 1 בספטמבר 2018 10:44

אני מסכים שהגרף השני פחות בעייתי, אולם זה בגלל שהוא לא יוצר מצג של משתנה רציף. הוא עדיין יותר מצג של מונוטוניות, שזה אולי בסדר אם יש גרף אחד, אבל כאשר יש בדו"ח מספר גרפים דומים, שכולם יוצרים מצג של מונוטוניות עבור סדרים שונים של קטגוריות, זה כבר בעייתי.

הגב
תגובה מאת י. פורת
תאריך 3 בספטמבר 2018 12:02

ברור שאם המשתנים מתואמים (אצלך בדוגמא הם משלימים ל-1) אפשר לסדר אותם כך ששני הקוים יהיו מונוטוניים. אבל זה לא אמור להיות המצב שנחקר שם! למעשה אם כל הנאמר נכון, *זאת* מסקנה חזקה מאד מהמחקר.

הגב
תגובה מאת י. פורת
תאריך 26 בספטמבר 2018 16:27

לא שווה התייחסות לדעתך?

הגב

גרפים בעייתיים במחקר פערים דיגיטליים

7 תגובות ל“גרפים בעייתיים במחקר פערים דיגיטליים”

תגובה