Skip to content

נסיכת המדעים

אלוהים משחק ביקום בקוביות

  • עמוד הבית
  • אודות נסיכת המדעים
  • ייעוץ סטטיסטי
  • מבוא לסטטיסטיקה
  • מצגות Presentations
  • יצירת קשר
  • Toggle search form

למה זה לא רעיון טוב לחשב מתאם בין מספר סידורי לכל דבר בעצם

Posted on 14 בדצמבר 201710 במרץ 2018 By יוסי לוי 6 תגובות על למה זה לא רעיון טוב לחשב מתאם בין מספר סידורי לכל דבר בעצם

לפני כשבועיים הבאתי כאן דוגמה לסטטיסטיקה רעה, בה מרצה בקורס Data Science הדגימה כיצד מחשבים בפייתון מקדם מתאם. היא השתמשה בקובץ שהכיל נתונים על סרטים, וחישבה את מקדם המתאם בין המספר הסידורי של הסרט בבסיס הנתונים ובין הרייטינג הממוצע שלו. (( הרייטינג הממוצע הוא בעצמו יצור בעייתי מבחינה סטטיסטית, ואקדיש לו רשימה אחרת ))

לי ברור כי זו סטטיסטיקה רעה, אך היו כאלה שלא הסכימו איתי. לכן אסביר מה בדיוק הבעיה כאן, ואתייחס לטענות התומכות בחישוב של הגברת הנחמדה (( היא באמת נחמדה, בלי ציניות ))

כדי להבין מה קרה פה, צריך לחזור ליסודות – סולמות מדידה. כתבתי בעבר סקירה נרחבת בנושא. יישנם ארבעה סולמות מדידה, שניים מהם מכונים סולמות כמותיים, ושניים הם סולמות איכותיים. סולמות כמותיים, מטבעם, מודדים כמויות.

אני חושב שלא קשה להשתכנע כי המספר הסידורי של סרט בבסיס הנתונים אינו משתנה כמותי. סרט מספר 4800 בדטהבייס אינו פי שניים (( פי שניים מה בדיוק? )) מסרט מספר 2400. ההבדל (( איזה הבדל בדיוק? )) בין סרט מספר 2 לסרט מספר 4 אינו שווה להבדל בין סרט מספר 2400 לסרט מספר 2402. האם מישהו יכול לטעון אחרת, ולנמק את טענתו? אני חושב שלא. (( ובכל זאת לא אופתע אם מישהו יקום ויגיד שכן ))

מקדם המתאם חישבה המרצה הוא מקדם המתאם של פירסון. מקדם מתאם זה נועד למשתנים כמותיים. הוא קשור קשר הדוק למודל הרגרסיה הלינארית, שהצגתי בקצרה ברשימה קודמת. סוף פסוק. לכאורה.

אבל מה שברור לי לא ברור לכל אחד.

הטענה הראשונה שהועלתה כדי להצדיק את החישוב שערכה המרצה הנ”ל היא שאין שום בעיה, והחישוב רק נועד להדגים את חישוב מקדם המתאם.

האמת היא שאין לי מה לומר נגד טיעון כזה. אני חושב שלדברים שעושים צריכה להיות משמעות, בייחוד כאשר מדובר בקורס מבוא לדטה סיינס. דיברתי כאן באריכות לגבי ההבדלים בין מודלים ואלגוריתמים. המרצה הדגימה את הפעלת האלגוריתם בלי להתייחס למודל הסטטיסטי שעמד בבסיסו, ולדעתי זה לא נכון. המרצה אף הוסיפה חטא על פשע כאשר עברה הלאה בלי להתייחס בכלל לתוצאה שהתקבלה ולמשמעות שלה.

הטענה השניה שהועלתה היא שייתכן כי המספר הסידורי טומן בחובו אינפורמציה נוספת. ייתכן למשל, טענו, כי ככל שהמספר הסידורי קטן יותר, אז הסרט ישן יותר. במילים אחרות, נטען כי המספר הסידורי מבטא סדר בין הנתונים, ולא משמש לזיהוי בלבד.

זו בהחלט טענה מתוחכמת יותר ואכן יש מקרים שבהם מספר מזהה מייצג גם סדר, לפחות חלקי. דוגמאות אפשריות הם מספרי תעודת הזהות, מספרים אישיים בצה”ל, ואלי גם מספרי רישוי של מכוניות (( ככה זה היה בישראל, לפחות, עד סוף שנות ה-70 של המאה ה-20 ))

לכך יש לי שתי תשובות. ראשית, גם אם מספרי הזיהוי מכילים בתוכם אינפורמציה על סדר, הם עדיין לא משתנים כמותיים, ולכן השימוש במקדם המתאם של פירסון שגוי. יש מקדמי מתאם שפותחו עבור משתנים סודרים, הידוע שבהם הוא מקדם המתאם של ספירמן (( חבילת התכנה NumPy של פייתון לא מאפשרת לערוך חישוב כה מתוחכם ))

אבל לפני שרצים לחישוב מקדם מתאם, אפילו זה של ספירמן, צריך לבדוק האם ההנחה כי המספר המזהה של הסרט מכיל אינפורמציה על סדר היא נכונה. (( ואני לא רואה שום סיבה הגיונית להניח את זה מלכתחילה )) סטטיסטיקאי טוב אמור לבדוק את ההנחות, וגם דטה סיינטיסט (להבדיל מדטה-טכנאי) אמור לעשות את זה. לבדוק את הטענה זה קל. הנה הקישור לקובץ הנתונים (קובץ zip). מי שממש רוצה להיות בטוח יפתח מתוך הזיפ את הקובץ movies.csv. סרט מספר 1 הוא Toy story, משנת 1995. סרט מספר 80827 הוא Brown of Harvard משנת 1926. סרט מספר 131262 הוא Innocence משנת 2014. ולא צריך לעבוד קשה כדי לגלות את זה. אפשר לעשות את זה בכמה שורות בפייתון, אם רוצים. אבל לא צריך לעבוד כל כך קשה. כל מה שצריך זה לקרוא את readme.txt.

הטענה השלישית היא כנראה החזקה מכולן. אצטט אותה כלשונה:


חישוב מתאם עם מספר סידורי במאגר כלשהו יכול להיות דווקא מועיל בשני היבטים שונים:
1. גילוי קשר עם סדר הרישום במאגר שלא היה ידוע.
2. במקרה שלא אמור להיות קשר עם הסדר, מספק אמדן די טוב לגובה המתאם שלא צריך לייחס לו משמעות, אפילו אם יצא מובהק.

במילים אחרות, חישוב מקדם המתאם של המספר הסידורי עם משתנה כלשהו, יכול להועיל בכך שהחישוב יראה אם יש או אין אינפורמציה על סדר (או על משהו אחר) במספר הסידורי. כך נדע האם הטענה לפיה במספר הסידורי יש גם אינפורמציה על סדר כלשהו (כפי שטענו אחדים) אכן נכונה. זו אכן היוריסטיקה שעובדת. בקובץ נתוני הסרטים, מקדם המתאם בין שנת היציאה לאור של הסרט ובין המספר הסידורי שלו הוא, דרך אגב, 0.019.

אבל לדעתי אין בהיוריסטיקה הזו הרבה תועלת. למה לבדוק אם המספר הסידורי מכיל אינפורמציה על שנת היציאה לאור, אם כבר יש לנו את הנתון של שנת היציאה לאור? הרי יש שתי אפשרויות: אפשרות אחת היא שנמצא שאין מתאם, ואז אין תועלת במספר הסידורי מעבר להיותו מזהה של תצפיות. אפשרות שניה היא שנמצא שיש מתאם, אבל זה לא יקדם אותנו לשום מקום. למה להשתמש במספר הסידורי שמכיל אינפורמציה חלקית (בהנחה הסבירה שהמתאם קטן מ-1), כאשר יש לנו משתנה עם האינפורמציה המלאה?

לסיכום: חישוב מקדם המתאם בין משתנה של מספר סידורי (ובכלל משתנה שמי כלשהו) הוא גם שגוי וגם חסר תועלת, ומהווה סימן אזהרה לסטטיסטיקה רעה.

 

מה אומרת הסטטיסטיקה, סטטיסטיקה רעה Tags:מתאם, סטטיסטיקה רעה

ניווט

Previous Post: מודלים ואלגוריתמים: מה ההבדל ומה הבעיה
Next Post: סטטיסטיקה: שבעת החטאים

Comments (6) on “למה זה לא רעיון טוב לחשב מתאם בין מספר סידורי לכל דבר בעצם”

  1. פינגבאק: השכנה השלישית – לא שומעים!
  2. ג׳קי הגיב:
    15 בדצמבר 2017 בשעה 11:49

    שלום יוסי,
    אהבתי מאוד את סידרת הרשומות האחרונות. מניסיוני במחקר
    ובתעשייה אתה צודק לחלוטין בעמדותייך, אני מופתע מכמות התגובות הנגדיות והטיעונים המושמעים. האם יש ספרים שדנים בנושאים אלו באופן דומה שאתה ממליץ לקרוא? (אני תמיד תוהה אלו שטחים מתים יש לי בניתוח תוצאות)

    הגב
    1. יוסי לוי הגיב:
      15 בדצמבר 2017 בשעה 12:46

      אני ממליץ להתחיל בספר Statistics מאת Freedman, Pisani and Purves.
      https://www.amazon.com/Statistics-4th-David-Freedman/dp/0393929728

      הגב
      1. ג׳קי הגיב:
        15 בדצמבר 2017 בשעה 14:43

        תודה!

        הגב
  3. נעם לבנת הגיב:
    15 בדצמבר 2017 בשעה 13:18

    יוסי שלום!
    ההתייחסות שלך לטענה השלישית (והרביעית), של יואב, איננה מספקת ואיננה משכנעת.
    יואב טען שתי טענות, אחת לחיוב ואחת לשלילה, לגבי התועלת שניתן להפיק מן החישוב.
    בטענתו הראשונה, יואב אמר שבדיקה כזו יכולה להצביע על קשר לא ידוע, בין המספר הסידורי לבין הרייטינג. אתה השבת שאין טעם לבדוק אם טמונה במספר הסידורי התאמה לסדר (ואר כך דייקת – שנת ההוצאה לאור) ומשם לרייטינג, כי כבר יש לנו מלוא המידע על שה”ל.
    אבל זה לא מה שיואב כתב. הוא בכלל לא הזכיר את הדוגמה הספציפית, החלשה, אותה תקפת, של שה”ל. נגיד שהקצאת המספרים הסידוריים ניתנה בהתאמה מלאה לרייטינג של הסרטים ברגע הקמת הדטהבייס, ואחר כך, במשך השנים, הרייטינג משתנה (מצד אחד, כי נוספים מצביעים) אך לא משנים את המספר הסידורי בד”ב, וגם נוספים סרטים חדשים ומקבלים מספר סידורי רצוף. במקרה כזה, לדוגמה, יש קשר מסוים בין השה”ל למספר הסידורי החל ממספר מסוים ואילך, וקשר אחר בין הרייטינג למה”ס מאותו מספר ומטה. הבדיקה תגלה זאת ותהיה בידינו אינדיקציה מסוימת לאופן שינוי הרייטינג (הצבעות הציבור) מנקודת זמן מסויימת ועד עתה.
    או, למשל, ייתכן שאנשים נוטים לתת ציון גבוה לסרטים שמספרם הסידורי נמוך יותר… גם זה מידע שניתן לחלץ את כיוונו מבדיקה כזו.
    בקיצור – לדעתי טענתו הראשונה של יואב חזקה.
    ולגבי טענתו השניה… ובכן, היא סותרת, ראש בראש, את הראשונה.
    כלומר – נגיד שנמצא מתאם מסוים, איך נדע אם לייחס לממצא משמעות או לא?

    הגב
    1. יוסי לוי הגיב:
      18 בדצמבר 2017 בשעה 12:33

      נועם, אמנם התייחסתי לדוגמה מסויימת, בל הטענה שלי היא כללית: גם אם יש מתאם בין שני משתנים, עדיף תמיד להשתמש במשתנה שמכיל יותר אינפורמציה. זה נכון במיוחד כאשר אחד המשתנים הוא מטבעו משתנה שמי (כמו מספר סידורי בדטהבייס), וזה נכון גם אם המספר הסידורי נקבע לפי סדר של משתנה אחר (אם כי זה ממש לא סביר).

      הגב

כתיבת תגובה לבטל

האימייל לא יוצג באתר. שדות החובה מסומנים *

אתר זה עושה שימוש באקיזמט למניעת הודעות זבל. לחצו כאן כדי ללמוד איך נתוני התגובה שלכם מעובדים.

  • תכנים נוספים בנסיכת המדעים
  • ערוץ היוטיוב של נסיכת המדעים 
  • נסיכת המדעים בפייסבוק
  • חפירות על סטטיסטיקה
  • תכנים מומלצים ברשת בנושאי סטטיסטיקה ו- Data Science
  • Privacy policy
  • מה אומרת הסטטיסטיקה
  • כלכלה וחברה
  • בריאות
  • ביוסטטיסטיקה
  • האנשים שמאחורי הסטטיסטיקה
  • נשים בסטטיסטיקה
  • סטטיסטיקה רעה
  • אותי זה מצחיק
  • בנימה אישית

Copyright © 2025 נסיכת המדעים.

Powered by PressBook WordPress theme

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish.Accept Read More
Privacy & Cookies Policy

Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
Necessary
Always Enabled
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Non-necessary
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
SAVE & ACCEPT