לפני כשבועיים הבאתי כאן דוגמה לסטטיסטיקה רעה, בה מרצה בקורס Data Science הדגימה כיצד מחשבים בפייתון מקדם מתאם. היא השתמשה בקובץ שהכיל נתונים על סרטים, וחישבה את מקדם המתאם בין המספר הסידורי של הסרט בבסיס הנתונים ובין הרייטינג הממוצע שלו. (( הרייטינג הממוצע הוא בעצמו יצור בעייתי מבחינה סטטיסטית, ואקדיש לו רשימה אחרת ))
לי ברור כי זו סטטיסטיקה רעה, אך היו כאלה שלא הסכימו איתי. לכן אסביר מה בדיוק הבעיה כאן, ואתייחס לטענות התומכות בחישוב של הגברת הנחמדה (( היא באמת נחמדה, בלי ציניות ))
כדי להבין מה קרה פה, צריך לחזור ליסודות – סולמות מדידה. כתבתי בעבר סקירה נרחבת בנושא. יישנם ארבעה סולמות מדידה, שניים מהם מכונים סולמות כמותיים, ושניים הם סולמות איכותיים. סולמות כמותיים, מטבעם, מודדים כמויות.
אני חושב שלא קשה להשתכנע כי המספר הסידורי של סרט בבסיס הנתונים אינו משתנה כמותי. סרט מספר 4800 בדטהבייס אינו פי שניים (( פי שניים מה בדיוק? )) מסרט מספר 2400. ההבדל (( איזה הבדל בדיוק? )) בין סרט מספר 2 לסרט מספר 4 אינו שווה להבדל בין סרט מספר 2400 לסרט מספר 2402. האם מישהו יכול לטעון אחרת, ולנמק את טענתו? אני חושב שלא. (( ובכל זאת לא אופתע אם מישהו יקום ויגיד שכן ))
מקדם המתאם חישבה המרצה הוא מקדם המתאם של פירסון. מקדם מתאם זה נועד למשתנים כמותיים. הוא קשור קשר הדוק למודל הרגרסיה הלינארית, שהצגתי בקצרה ברשימה קודמת. סוף פסוק. לכאורה.
אבל מה שברור לי לא ברור לכל אחד.
הטענה הראשונה שהועלתה כדי להצדיק את החישוב שערכה המרצה הנ”ל היא שאין שום בעיה, והחישוב רק נועד להדגים את חישוב מקדם המתאם.
האמת היא שאין לי מה לומר נגד טיעון כזה. אני חושב שלדברים שעושים צריכה להיות משמעות, בייחוד כאשר מדובר בקורס מבוא לדטה סיינס. דיברתי כאן באריכות לגבי ההבדלים בין מודלים ואלגוריתמים. המרצה הדגימה את הפעלת האלגוריתם בלי להתייחס למודל הסטטיסטי שעמד בבסיסו, ולדעתי זה לא נכון. המרצה אף הוסיפה חטא על פשע כאשר עברה הלאה בלי להתייחס בכלל לתוצאה שהתקבלה ולמשמעות שלה.
הטענה השניה שהועלתה היא שייתכן כי המספר הסידורי טומן בחובו אינפורמציה נוספת. ייתכן למשל, טענו, כי ככל שהמספר הסידורי קטן יותר, אז הסרט ישן יותר. במילים אחרות, נטען כי המספר הסידורי מבטא סדר בין הנתונים, ולא משמש לזיהוי בלבד.
זו בהחלט טענה מתוחכמת יותר ואכן יש מקרים שבהם מספר מזהה מייצג גם סדר, לפחות חלקי. דוגמאות אפשריות הם מספרי תעודת הזהות, מספרים אישיים בצה”ל, ואלי גם מספרי רישוי של מכוניות (( ככה זה היה בישראל, לפחות, עד סוף שנות ה-70 של המאה ה-20 ))
לכך יש לי שתי תשובות. ראשית, גם אם מספרי הזיהוי מכילים בתוכם אינפורמציה על סדר, הם עדיין לא משתנים כמותיים, ולכן השימוש במקדם המתאם של פירסון שגוי. יש מקדמי מתאם שפותחו עבור משתנים סודרים, הידוע שבהם הוא מקדם המתאם של ספירמן (( חבילת התכנה NumPy של פייתון לא מאפשרת לערוך חישוב כה מתוחכם ))
אבל לפני שרצים לחישוב מקדם מתאם, אפילו זה של ספירמן, צריך לבדוק האם ההנחה כי המספר המזהה של הסרט מכיל אינפורמציה על סדר היא נכונה. (( ואני לא רואה שום סיבה הגיונית להניח את זה מלכתחילה )) סטטיסטיקאי טוב אמור לבדוק את ההנחות, וגם דטה סיינטיסט (להבדיל מדטה-טכנאי) אמור לעשות את זה. לבדוק את הטענה זה קל. הנה הקישור לקובץ הנתונים (קובץ zip). מי שממש רוצה להיות בטוח יפתח מתוך הזיפ את הקובץ movies.csv. סרט מספר 1 הוא Toy story, משנת 1995. סרט מספר 80827 הוא Brown of Harvard משנת 1926. סרט מספר 131262 הוא Innocence משנת 2014. ולא צריך לעבוד קשה כדי לגלות את זה. אפשר לעשות את זה בכמה שורות בפייתון, אם רוצים. אבל לא צריך לעבוד כל כך קשה. כל מה שצריך זה לקרוא את readme.txt.
הטענה השלישית היא כנראה החזקה מכולן. אצטט אותה כלשונה:
חישוב מתאם עם מספר סידורי במאגר כלשהו יכול להיות דווקא מועיל בשני היבטים שונים:
1. גילוי קשר עם סדר הרישום במאגר שלא היה ידוע.
2. במקרה שלא אמור להיות קשר עם הסדר, מספק אמדן די טוב לגובה המתאם שלא צריך לייחס לו משמעות, אפילו אם יצא מובהק.
במילים אחרות, חישוב מקדם המתאם של המספר הסידורי עם משתנה כלשהו, יכול להועיל בכך שהחישוב יראה אם יש או אין אינפורמציה על סדר (או על משהו אחר) במספר הסידורי. כך נדע האם הטענה לפיה במספר הסידורי יש גם אינפורמציה על סדר כלשהו (כפי שטענו אחדים) אכן נכונה. זו אכן היוריסטיקה שעובדת. בקובץ נתוני הסרטים, מקדם המתאם בין שנת היציאה לאור של הסרט ובין המספר הסידורי שלו הוא, דרך אגב, 0.019.
אבל לדעתי אין בהיוריסטיקה הזו הרבה תועלת. למה לבדוק אם המספר הסידורי מכיל אינפורמציה על שנת היציאה לאור, אם כבר יש לנו את הנתון של שנת היציאה לאור? הרי יש שתי אפשרויות: אפשרות אחת היא שנמצא שאין מתאם, ואז אין תועלת במספר הסידורי מעבר להיותו מזהה של תצפיות. אפשרות שניה היא שנמצא שיש מתאם, אבל זה לא יקדם אותנו לשום מקום. למה להשתמש במספר הסידורי שמכיל אינפורמציה חלקית (בהנחה הסבירה שהמתאם קטן מ-1), כאשר יש לנו משתנה עם האינפורמציה המלאה?
לסיכום: חישוב מקדם המתאם בין משתנה של מספר סידורי (ובכלל משתנה שמי כלשהו) הוא גם שגוי וגם חסר תועלת, ומהווה סימן אזהרה לסטטיסטיקה רעה.
שלום יוסי,
אהבתי מאוד את סידרת הרשומות האחרונות. מניסיוני במחקר
ובתעשייה אתה צודק לחלוטין בעמדותייך, אני מופתע מכמות התגובות הנגדיות והטיעונים המושמעים. האם יש ספרים שדנים בנושאים אלו באופן דומה שאתה ממליץ לקרוא? (אני תמיד תוהה אלו שטחים מתים יש לי בניתוח תוצאות)
אני ממליץ להתחיל בספר Statistics מאת Freedman, Pisani and Purves.
https://www.amazon.com/Statistics-4th-David-Freedman/dp/0393929728
תודה!
יוסי שלום!
ההתייחסות שלך לטענה השלישית (והרביעית), של יואב, איננה מספקת ואיננה משכנעת.
יואב טען שתי טענות, אחת לחיוב ואחת לשלילה, לגבי התועלת שניתן להפיק מן החישוב.
בטענתו הראשונה, יואב אמר שבדיקה כזו יכולה להצביע על קשר לא ידוע, בין המספר הסידורי לבין הרייטינג. אתה השבת שאין טעם לבדוק אם טמונה במספר הסידורי התאמה לסדר (ואר כך דייקת – שנת ההוצאה לאור) ומשם לרייטינג, כי כבר יש לנו מלוא המידע על שה”ל.
אבל זה לא מה שיואב כתב. הוא בכלל לא הזכיר את הדוגמה הספציפית, החלשה, אותה תקפת, של שה”ל. נגיד שהקצאת המספרים הסידוריים ניתנה בהתאמה מלאה לרייטינג של הסרטים ברגע הקמת הדטהבייס, ואחר כך, במשך השנים, הרייטינג משתנה (מצד אחד, כי נוספים מצביעים) אך לא משנים את המספר הסידורי בד”ב, וגם נוספים סרטים חדשים ומקבלים מספר סידורי רצוף. במקרה כזה, לדוגמה, יש קשר מסוים בין השה”ל למספר הסידורי החל ממספר מסוים ואילך, וקשר אחר בין הרייטינג למה”ס מאותו מספר ומטה. הבדיקה תגלה זאת ותהיה בידינו אינדיקציה מסוימת לאופן שינוי הרייטינג (הצבעות הציבור) מנקודת זמן מסויימת ועד עתה.
או, למשל, ייתכן שאנשים נוטים לתת ציון גבוה לסרטים שמספרם הסידורי נמוך יותר… גם זה מידע שניתן לחלץ את כיוונו מבדיקה כזו.
בקיצור – לדעתי טענתו הראשונה של יואב חזקה.
ולגבי טענתו השניה… ובכן, היא סותרת, ראש בראש, את הראשונה.
כלומר – נגיד שנמצא מתאם מסוים, איך נדע אם לייחס לממצא משמעות או לא?
נועם, אמנם התייחסתי לדוגמה מסויימת, בל הטענה שלי היא כללית: גם אם יש מתאם בין שני משתנים, עדיף תמיד להשתמש במשתנה שמכיל יותר אינפורמציה. זה נכון במיוחד כאשר אחד המשתנים הוא מטבעו משתנה שמי (כמו מספר סידורי בדטהבייס), וזה נכון גם אם המספר הסידורי נקבע לפי סדר של משתנה אחר (אם כי זה ממש לא סביר).