פוסט זה עוסק בתחום שאני אוהב במיוחד: משתנים קטגוריים.
תזכורת: יש ארבעה סולמות מדידה, ומשתנים קטגוריים הם משתנים שנמדדים בשני סולמות המדידה התחתונים (אך לא נחותים).
הסולם הנמוך ביותר הוא סולם שמי/נומינלי, בו לערכים המספריים של הנתונים אין כל משמעות מספרית פרט לזיהוי המשתנה. דוגמה אופיינית היא מספרי החולצות של שחקני קבוצת ספורט. בעזרת המספר אנו יכולים לזהות את השחקן, אך השחקן שלובש את חולצה מספר 11 אינו בהכרח שחקן יותר טוב מהשחקן שלובש את חולצה מספר 10.
שלב אחד מעל הסולם השמי נמצא הסולם הסודר/אורדינלי. כאן יש לערכי המספריים משמעות מוגבלת: הערכים מבטאים סדר בין הנתונים, אך לא הפרשים או יחסים. משתנים כאלה מופעים בכל מיני שאלונים, אך לא רק שם. אם אתם נשאלים עד כמה אתם מסכימים עם משפט כלשהו, התשבות האפשריות הן: לא מסכים בכלל, לא מסכים, אין דעה, מסכים ומסכים בהחלט, התשובות נמדדות בסולם אורדינלי. ניתן לקודד את התשובות במספרים 1 עד 5 למשל, אך מי שמסכים ותשובתו מקודדת ב-4, אינו מסכים עם הטענה כפליים מזה שאינו מסכים עם הטענה ותשובתו מקודדת ב-2, אם כי למרבה הצער יש לא מעט אנשים שחושבים כך. (יש עוד הרבה בעיות בפרשנות של נתונים מהסולם הזה, אבל אני אעצור כאן).
לדעתי זהו תחום מרתק, ועבודת הדוקטורט שלי הייתה קשורה לתחום זה. כאן אי אפשר לחשב ממוצעים, סטיות תקן וכולי. צריך כלים אחרים, וצורת חשיבה אחרת. אחד הפרוייקטים שלקחתי על עצמי הוא ליצור שתעסוק במשתנים כאלה. אני מרשה לעצמי להפנות גם לפוסט נוסף שכתבתי על המריבה ההיסטורית בין קרל פירסון ותלמידו אדני יול שסבבה סביב השאלה כיצד לבדוק הם יש קשר בין שני משתנים קטגוריים.
בבלוג הוויזואליזציה נייטינגייל הופיע לא מזמן פוסט העוסק בהצגה ויזואלית של נתונים קטגוריים. מה שמוזר הוא שבפוסט לא הוזכרה דיאגרמת הפרחים המפורסמת של פלורנס נייטינגייל שמציגה שלושה משתנים קטגוריים שונים. הפוסט מתמקד בארבעה סוגי ויזואליזציה של משתנים קטגוריים (יש עוד), ואני מודה שאת אחד מהם לא הכרתי קודם, אם כי ניתן לראות בסוג דיאגרמה אחרת שהוצגה בפוסט כהכללה שלו. אני לא אכנס כאן לפרטים, אבל ממליץ לכם להיכנס, וגם אם לא תקראו את כל הפוסט, אני ממליץ לכם לצפות בדוגמאות היסטוריות של דיאגרמות sankey ו-sunburst מהמאה ה-19.
–
- התוכן של הפוסט הזה הופיע בניוזלטר של נסיכת המדעים. הרשמו ותקבלו עדכון חודשי על כל מה שקורה עכשיו בסטטיסטיקה: http://www.sci-princess.info/updates
שיטה מועילה נוספת לויזואליזציה של נתונים קטגוריים – גם בשימוש בשיווק ובהתנהגות צרכנים (אם כי מעט מדי לדעתי ביחס ליכולותיה לייצג ולאפשר ניתוחים, לאו דווקא של רמות מובהקוּת, אלא תְכַנִייִם ומשמעותיים) היא Correspondence Analysis המאפשרת יצירת מפות תפיסתיות – גם מורכבות ורבות-משתנים.
הי יוסי, רק שתדע שיש לפחות קורא אחד שמקפיד לבדוק את הבלוג מדי פעם בתקווה לפוסט חדש 🙂