חיפוש באתר

קישורים

RSS סטטיסטיקה ברשת

עמודים

קטגוריות

תגיות

ארכיב עבור 'סטטיסטיקה רעה'

למה זה לא רעיון טוב לחשב מתאם בין מספר סידורי לכל דבר בעצם

לפני כשבועיים הבאתי כאן דוגמה לסטטיסטיקה רעה, בה מרצה בקורס Data Science הדגימה כיצד מחשבים בפייתון מקדם מתאם. היא השתמשה בקובץ שהכיל נתונים על סרטים, וחישבה את מקדם המתאם בין המספר הסידורי של הסרט בבסיס הנתונים ובין הרייטינג הממוצע שלו.[1]

לי ברור כי זו סטטיסטיקה רעה, אך היו כאלה שלא הסכימו איתי. לכן אסביר מה בדיוק הבעיה כאן, ואתייחס לטענות התומכות בחישוב של הגברת הנחמדה[2]

כדי להבין מה קרה פה, צריך לחזור ליסודות – סולמות מדידה. כתבתי בעבר סקירה נרחבת בנושא. יישנם ארבעה סולמות מדידה, שניים מהם מכונים סולמות כמותיים, ושניים הם סולמות איכותיים. סולמות כמותיים, מטבעם, מודדים כמויות.

אני חושב שלא קשה להשתכנע כי המספר הסידורי של סרט בבסיס הנתונים אינו משתנה כמותי. סרט מספר 4800 בדטהבייס אינו פי שניים[3] מסרט מספר 2400. ההבדל[4] בין סרט מספר 2 לסרט מספר 4 אינו שווה להבדל בין סרט מספר 2400 לסרט מספר 2402. האם מישהו יכול לטעון אחרת, ולנמק את טענתו? אני חושב שלא.[5]

מקדם המתאם חישבה המרצה הוא מקדם המתאם של פירסון. מקדם מתאם זה נועד למשתנים כמותיים. הוא קשור קשר הדוק למודל הרגרסיה הלינארית, שהצגתי בקצרה ברשימה קודמת. סוף פסוק. לכאורה.

אבל מה שברור לי לא ברור לכל אחד.

הטענה הראשונה שהועלתה כדי להצדיק את החישוב שערכה המרצה הנ"ל היא שאין שום בעיה, והחישוב רק נועד להדגים את חישוב מקדם המתאם.

האמת היא שאין לי מה לומר נגד טיעון כזה. אני חושב שלדברים שעושים צריכה להיות משמעות, בייחוד כאשר מדובר בקורס מבוא לדטה סיינס. דיברתי כאן באריכות לגבי ההבדלים בין מודלים ואלגוריתמים. המרצה הדגימה את הפעלת האלגוריתם בלי להתייחס למודל הסטטיסטי שעמד בבסיסו, ולדעתי זה לא נכון. המרצה אף הוסיפה חטא על פשע כאשר עברה הלאה בלי להתייחס בכלל לתוצאה שהתקבלה ולמשמעות שלה.

הטענה השניה שהועלתה היא שייתכן כי המספר הסידורי טומן בחובו אינפורמציה נוספת. ייתכן למשל, טענו, כי ככל שהמספר הסידורי קטן יותר, אז הסרט ישן יותר. במילים אחרות, נטען כי המספר הסידורי מבטא סדר בין הנתונים, ולא משמש לזיהוי בלבד.

זו בהחלט טענה מתוחכמת יותר ואכן יש מקרים שבהם מספר מזהה מייצג גם סדר, לפחות חלקי. דוגמאות אפשריות הם מספרי תעודת הזהות, מספרים אישיים בצה"ל, ואלי גם מספרי רישוי של מכוניות[6]

לכך יש לי שתי תשובות. ראשית, גם אם מספרי הזיהוי מכילים בתוכם אינפורמציה על סדר, הם עדיין לא משתנים כמותיים, ולכן השימוש במקדם המתאם של פירסון שגוי. יש מקדמי מתאם שפותחו עבור משתנים סודרים, הידוע שבהם הוא מקדם המתאם של ספירמן[7]

אבל לפני ששרצים לחישוב מקדם מתאם, אפילו זה של ספירמן, צריך לבדוק האם ההנחה כי המספר המזהה של הסרט מכיל אינפורמציה על סדר היא נכונה[8] סטטיסטיקאי טוב אמור לבדוק את ההנחות, וגם דטה סיינטיסט (להבדיל מדטה-טכנאי) אמור לעשות את זה. לבדוק את הטענה זה קל. הנה הקישור לקובץ הנתונים (קובץ zip). מי שממש רוצה להיות בטוח יפתח מתוך הזיפ את הקובץ movies.csv. סרט מספר 1 הוא Toy story, משנת 1995. סרט מספר 80827 הוא Brown of Harvard משנת 1926. סרט מספר 131262 הוא Innocence משנת 2014. ולא צריך לעבוד קשה כדי לגלות את זה. אפשר לעשות את זה בכמה שורות בפייתון, אם רוצים. אבל לא צריך לעבוד כל כך קשה. כל מה שצריך זה לקרוא את readme.txt.

הטענה השלישית היא כנראה החזקה מכולן. אצטט אותה כלשונה:


חישוב מתאם עם מספר סידורי במאגר כלשהו יכול להיות דווקא מועיל בשני היבטים שונים:
1. גילוי קשר עם סדר הרישום במאגר שלא היה ידוע.
2. במקרה שלא אמור להיות קשר עם הסדר, מספק אמדן די טוב לגובה המתאם שלא צריך לייחס לו משמעות, אפילו אם יצא מובהק.

במילים אחרות, חישוב מקדם המתאם של המספר הסידורי עם משתנה כלשהו, יכול להועיל בכך שהחישוב יראה אם יש או אין אינפורמציה על סדר (או על משהו אחר) במספר הסידורי. כך נדע האם הטענה לפיה במספר הסידורי יש גם אינפורמציה על סדר כלשהו (כפי שטענו אחדים) אכן נכונה. זו אכן היוריסטיקה שעובדת. בקובץ נתוני הסרטים, מקדם המתאם בין שנת היציאה לאור של הסרט ובין המספר הסידורי שלו הוא, דרך אגב, 0.019.

אבל לדעתי אין בהיוריסטיקה הזו הרבה תועלת. למה לבדוק אם המספר הסידורי מכיל אינפורמציה על שנת היציאה לאור, אם כבר יש לנו את הנתון של שנת היציאה לאור? הרי יש שתי אפשרויות: אפשרות אחת היא שנמצא שאין מתאם, ואז אין תועלת במספר הסידורי מעבר להיותו מזהה של תצפיות. אפשרות שניה היא שנמצא שיש מתאם, אבל זה לא יקדם אותנו לשום מקום. למה להשתמש במספר הסידורי שמכיל אינפורמציה חלקית (בהנחה הסבירה שהמתאם קטן מ-1), כאשר יש לנו משתנה עם האינפורמציה המלאה?

לסיכום: חישוב מקדם המתאם בין משתנה של מספר סידורי (ובכלל משתנה שמי כלשהו) הוא גם שגוי וגם חסר תועלת, ומהווה סימן אזהרה לסטטיסטיקה רעה.

 


הערות
  1. הרייטינג הממוצע הוא בעצמו יצור בעייתי מבחינה סטטיסטית, ואקדיש לו רשימה אחרת []
  2. היא באמת נחמדה, בלי ציניות []
  3. פי שניים מה בדיוק? []
  4. איזה הבדל בדיוק? []
  5. ובכל זאת לא אופתע אם מישהו יקום ויגיד שכן []
  6. ככה זה היה בישראל, לפחות, עד סוף שנות ה-70 של המאה ה-20 []
  7. חבילת התכנה NumPy של פייתון לא מאפשרת לערוך חישוב כה מתוחכם []
  8. ואני לא רואה שום סיבה הגיונית להניח את זה מלכתחילה []

מודלים ואלגוריתמים: מה ההבדל ומה הבעיה

לאחרונה השתתפתי בכמה דיונים בפייסבוק שהגיעו למבוי סתום. ניסיתי להבין למה זה קורה ולבסוף הבנתי: אני דיברתי על מודלים והם דיברו על אלגוריתמים.

לכאורה לא צריכה להיות שום בעיה. מודל זה דבר אחד, אלגוריתם זה דבר אחר. אם תחפשו בגוגל מודל, לא תמצאו שום מקום שיטען כי מודל הוא אלגוריתם. גם ההיפך נכון. אז מה קורה כאן?

כדי להסביר למה אני מתכוון, יש צורך במספר שלבים. תחילה אתן הסבר קצר וכללי (ויש יאמרו: פשטני) מהו מודל ומהו אלגוריתם. אחר כך אסביר ביותר פירוט מהו מודל סטטיסטי, ואיך הוא מתקשר למושג האלגוריתם. לבסוף אסביר מנין נובע הבלבול בין שני המושגים, לפחות בהקשר הסטטיסטי, ואצביע על בעיה העולה מכך.

מהו מודל?

מודל הוא תיאור תיאורטי של תופעה מציאותית. המציאות היא בדרך כלל מורכבת, והמודל מנסה להתרכז בגורמים החשובים שבעזרתם אפשר לתאר את התופעה, לאפיין אותה, ובעיקר לחקור אותה. המודל כמובן אינו תיאור מדוייק לגמרי של המציאות, אבל הוא מספיק טוב כדי לתת תשובה אמינה לשאלות מעניינות. כל מודל מתבסס על הנחות. מודל טוב מסוגל להסביר תצפיות על המציאות ולחזות תצפיות עתידיות. מודל צריך להיות ניתן לפירוש, כלומר אינו קופסה שחורה. מודל טוב הינו חסכוני – כלומר פשוט ככל האפשר. מודל יכול להיות פיזי, למשל חלקיק הטס לו בתוך מאיץ חלקיקים, או עכבר – במדעי החיים או ברפואה. יש מודלים המבוטאים על ידי משוואות מתמטיות.

מהו אלגוריתם?

אלגוריתם הוא סדרה של הוראות לביצוע משימה מסויימת, כך שהמשימה תסתיים במספר סופי של צעדים. מתכון להכנת עוגה הוא אלגוריתם. כאשר למדתם בבית הספר (או ניסיתם ללמוד) חילוק ארוך, למדתם אלגוריתם. לכל אלגוריתם יש קלט. במקרה של הכנת עוגה, אלה החומרים שמשמים להכנתה: קמח, ביצים וכולי. אולם כאשר הדברים על אלגוריתמים מדברים בדרך כלל על אלגוריתמים מתמטיים, והקלט שלהם הוא בדרך כלל מספרים/נתונים. התוצר של האלגוריתם נקרא פלט. פלט יכול להיות למשל מנה של עוגה, או המנה המתקבלת כתוצאה של חילוק ארוך. כמו למודל, גם לאלגוריתמים יש הנחות, ויש גם תכונות, ואני לא אכנס כאן לפירוט מכיוון שידיעותיי בנושא מוגבלות.

מהו מודל סטטיסטי?

מודל סטטיסטי הוא מודל מתמטי הכולל בתוכו אלמנט מקרי. בדרך כלל המודל עוסק במדגם מתוך אוכלוסייה, ומתאר תכונות של האוכלוסייה וקשרים אפשריים ביניהם.

אתן כאן דוגמה למודל סטטיסטי פשוט, מודל הרגרסיה הלינארית. זהו אחד המודלים הפשוטים ביותר בסטטיסטיקה. יהיו נוסחאות, אך לא צריך להיבהל מהן. אלה רק אותיות וסימנים מתמטיים כמו חיבור וכפל. אסביר בדיוק ובפשטות מה זה כל דבר. הנה המודל:

למודל. (כשהייתי בשנה ב', כתבתי בעצמי תכנית מחשב כזו, בשפת פורטרן).

 

מה רואים כאן?

בשורה/נוסחה הראשונה יש אותיות לטיניות גדולות: X ו-Y. אלה הם המשתנים של המודל. המודל מנסה להסביר את הקשר בין המשתנים. X יכול להיות למשל המשקל של אדם, ו-Y יכול להיות הגובה שלו. אפנה את תשומת ליבכם לכך שהמודל מניח כי X ו-Y הם משתנים כמותיים ורציפים, למרות שזה לא כתוב במפורש בנוסחה. X ו-Y יכולים להיות משקל, גובה, גובה המשכורת, דברים כאלה, אבל לא מספר ההתקפים שהיו לחולה במשך שנה, לא מספר נעליים, ובטח לא מספר קו האוטובוס שעובר בשכונה.

נמשיך בהסבר: בנוסחאות יש גם אותיות יווניות קטנות: אלפא, ביתא, וגם סיגמה. אלה הם הפרמטרים של המודל. הם מתארים את הקשר בין המשתנים X ו-Y.

בעולם מושלם, אלפא וביתא לבדם היו מספיקים לתאר את הקשר בין X ל-Y. קח את המשקל של אדם בקילוגרמים (X), תכפיל אותו ב-0.5, תוסיף 136, ותקבל את הגובה שלו בסנטימטרים.[1] קשר כזה בין המשתנים נקרא "קשר לינארי". זוהי ההנחה השניה של המודל: בעולם מושלם, הקשר בין X ל-Y הוא לינארי.

אבל העולם אינו מושלם. בעולם מושלם הייתי צריך להתנשא לגובה של 188 ס"מ, אבל גובהי רק 180. האות e מבטאת את ההבדל בין העולם המושלם והעולם האמיתי – במקרה שלי 8 ס"מ.

אם יש לכם קובץ עם הרבה נתונים של משקל וגובה, יהיו לכם גם הרבה ערכים של e. המודל מניח כי אם תציירו גרף של כל הערכים של e תקבלו צורת פעמון – התפלגות הערכים של e היא נורמלית. ההנחה הזו – השלישית במודל שלנו, מתוארת בשורה השניה על ידי הסימן ~ והאות N. המודל מניח עוד הנחה על הפעמון: המרכז שלו, הממוצע של כל הערכים של e, נמצא ב-0. יהיו ערכים חיוביים של e, יהיו גם ערכים שליליים, והם יקזזו אחד את השני. הפרמטר סיגמה מבטא את צורת הפעמון. אם לסיגמה יש ערך גבוה יחסית, נקבל פעמון נמוך ורחב. זה אומר שיש הרבה ערכים של סיגמה שרחוקים מאפס. יש הרבה טעויות גדולות, לשני הכיוונים. אם לסיגמה יש ערך נמוך, הפעמון הוא גבוה וצר, כלומר רוב הטעויות הן קטנות וקרובות יחסית לאפס. ככל שסיגמה קרוב יותר לאפס, העולם "יותר מושלם". אם סיגמה שווה לאפס – זה אומר שאנחנו באמת בעולם מושלם (לא יקרה).

אציין שיש למודל הזה עוד הנחה אחת, אך היא יותר טכנית במהותה ולא אתאר אותה כאן.

עד כאן תיאור המודל.

נניח עכשיו כי יש לנו קובץ, ובו יש לנו נתונים על גובהם ומשקלם של מדגם של אנשים. אנחנו יכולים לשאול הרבה שאלות מעניינות. למשל: האם המודל של רגרסיה לינארית מתאים לנתונים? האם ההנחות של המודל מתקיימות? האם הקשר בין הגובה למשקל הוא לינארי? ואם לא, עד כמה הקשר קרוב לקשר לינארי? מהם הערכים של אלפא, ביתא וסיגמה? ועד כמה הם שונים באופן מובהק מאפס? ועוד הרבה שאלות אחרות. יש דרכים לקבל תשובות לשאלות האלה, כמובן לא בוודאות מלאה, שהרי מדובר כאן במדגם.

לערכים של אלפא ביתא וסיגמה, למשל, אפשר לקבל אומדנים. מייד יופיעו כאן נוסחאות לחישוב האומדנים לאלפא ולביתא. לא להיבהל, הן ממש לא חשובות לדיון שלנו, אני מציג אותן רק למקרה שמישהו יפקפק בקיומן. תסתכלו להן בעיניים ותעברו הלאה:

למודל. (כשהייתי בשנה ב', כתבתי בעצמי תכנית מחשב כזו, בשפת פורטרן).

 

מה שחשוב כאן זה להבין שהנוסחאות האלה מסבירות איך לקחת את הנתונים, שמסומנים על ידי x ו-y, ולבצע איתם חישובים שיתנו לנו אמדנים לערכים של אלפא וביתא. הנוסחאות האלה מגדירות אלגוריתם. הנתונים הם הקלט, האמדנים הם הפלט. אפשר לכתוב תכנית מחשב שתבצע את החישובים האלה עבורכם, ועוד הרבה חישובים אחרים, שיענו לשאלות אחרות שאפשר לשאול בקשר למודל. (כשהייתי בשנה ב', כתבתי בעצמי תכנית מחשב כזו, בשפת פורטרן).

ככלל, לכל מודל סטטיסטי מתלווים כמה אלגוריתמים, שמגדירים כיצד למצוא את התשובות לשאלות שאפשר לשאול על המודל.

מה בקשר להיפך? האם לכל אלגוריתם יש מודל שעומד בבסיסו (לא בהכרח סטטיסטי)? האמת היא שאני לא בטוח בתשובה. אני מזמין את מי שיודע (או חושב שהוא יודע) לענות לשאלה מעניינת זו.

אז מה הבעיה?

הבעיה הגדולה היא שהאלגוריתם עיוור למודל. הנוסחאות שהצגתי לחישוב האומדנים לאלפא וביתא "לא יודעות" שהן נובעות מהמודל, ולא איכפת להן אם ההנחות של המודל מתקיימות או לא. אתם יכולים, למשל, לקחת קובץ נתונים על שחקני כדורסל, להחליט ש-x הוא מספר הנעליים של שחקן, ו-y הוא מספר החולצה שלו. הנוסחאות יעבדו. תכנית המחשב לא תוציא הודעת שגיאה. פייתון לא יקרוס.

וזה נכון גם לאלגוריתמים אחרים. אתם יכולים גם לחשב את מקדם המתאם בין מספרי הנעליים של השחקנים ומספרי החולצה שלהם. או לחשב לכל שחקן את הממוצע של מספר החולצה ומספר הנעליים. נשמע מופרך? בפורום סטטיסטיקה והסתברות בפייסבוק היו כאלה חשבו שלחשב את מקדם המתאם בין המספר הסידורי של סרט בדטהבייס ובין הרייטינג הממוצע שלו זה בסדר גמור. ובפורום ML הסבירו לי שאין שום בעיה לשקלל את משקלו של אדם עם מנת המשכל שלו (אם רק עושים סקיילינג. אל תשכחו לעשות סקיילינג!). וכשטענתי שאין משמעות לשקלול של משקל הגוף ומנת המשכל, ענה לי סניור דטה סיינטיסט אחד כי "המשמעות אינה חשובה".

נכון שאפשר להריץ את כל האלגוריתמים האלה בלי להבין את המתמטיקה שעומדת בבסיסם. אפשר "לבנות מודל" – זאת אומרת, לבנות איזשהו אלגוריתם קצת יותר מסובך מאבני בניין של אלגוריתמים יותר פשוטים. אפשר לקחת את כל הנתונים ולזרוק אותם ל-xgboost . אני יודע שיש אנשים שעושים את זה, ומה איכפת להם? אם זה יביא לחברה שלהם עוד 30,000 דולר, זה מה שחשוב, ואני לא אומר שזה לא חשוב.

אני חושב שהמשמעות חשובה. אני חושב שאם אתה משתמש במודל, אתה צריך להבין מה הפירוש של המודל, לדעת מה ההנחות שעומדות בבסיסו, וכן, גם לדעת מה המגבלות שלו. ומי שלא מבין, ולא יודע, ולא איכפת לו, הוא מהנדס במקרה הטוב, טכנאי במקרה הפחות טוב, ובשום אופן לא מדען. במה שהוא עושה יש אכן הרבה דטה, אבל מעט מאוד סיינס. וצריך להכיר בזה. וכל אחד צריך לשאול את עצמו מה הוא באמת.


הערות
  1. את הערכים המספריים שנתתי כאן לאלפא וביתא חישבתי על פי קובץ הנתונים body, בו השתמשתי גם ברשימה על ה-PCA []

מחקר האוצר על "שכר המינימום ונזקיו" – 13 שנים מאוחר יותר

בשנת 2004 פירסם משרד האוצר מחקר על "שכר המינימום ונזקיו", ובו הזהירו חכמי המשרד מפני הקטסטרופה הכלכלית שתתרחש אם יועלה שכר המינימום. נזכרתי בעובדה הזו בעקבות ציוץ מתבדח בטוויטר . המחקר ההוא היה מופת של סטטיסטיקה רעה: "מדגם" מוטה בכוונה תחילה – נבחרו רק הנתונים שהתאימו לאג'נדה, בלבול בין מתאם לסיבתיות, שימוש במדדים בעייתיים, זריקת מספרים חסרי ביסוס והצגה מעוותת של הנתונים (המעוותים). תוכלו לחזור ולקרוא את כל הביקורת שלי על המחקר ההוא.

13 שנים מאוחר יותר, אני סבור שהקטסטרופה הכלכלית לא התרחשה. עסקים לא פשטו רגל בהמוניהם, האבטלה לא עלתה (ראש הממשלה מתגאה באבטלה הנמוכה), ובכלל הכלכלה "במצב מצויין" לפחות בנתוני המקרו (במיקרו זה כנראה סיפור אחר, אבל נעזוב את זה כרגע).

האם במבט לאחור אנשי משרד האוצר סבורים שמסקנות המחקר היו בעייתיות לכל הפחות? כן ולא.

מצד אחד, המחקר ההוא נגנז. בפוסט שלי מ-2004 היה לינק למחקר. הנה הוא שוב: http://www.mof.gov.il/research/skiraframe.htm. אל תטרחו ללחוץ. הלינק הזה מוביל עכשיו להודעת שגיאה. ניסיתי לחפש אותו בגוגל. אמנם לא מצאתי אותו, אבל כן מצאתי מחקר חדש! משנת 2016! "השפעת השינויים בשכר המינימום על התעסוקה והשכר
בישראל"! (קישור לקובץ pdf). קראתי (לא בעיון רב, אני מודה). [1]

מה מתברר?

המחקר חדש, השטיקים אותם שטיקים. שוב המדגם המוטה, שוב בלבול בין מתאם וסיבתיות, שוב שימוש במדדים בעיתיים, שוב הצגה מעוותת של הנתונים, ושוב אותה מסקנה. הקטסטרופה בדרך.

מה אין במחקר החדש? נכון מאוד – אין התייחסות למחקר הישן, וזה מאוד נוח, כי כך אין צורך להתייחס אליו ולדון בשאלות מטרידות, כמו למשל האם התחזיות של המחקר ההוא התממשו (הן לא).

סיכום בשתי מילים: זאב זאב


הערות
  1. עדכון: המחקר המקורי התגלה בארכיון הרשת: https://web.archive.org/web/20051103080421/http://mof.gov.il:80/research/skira11_2004/skira11_2004.pdf . תודה לאייל בר חיים! []

סטטיסטיקה רעה, דוגמה מספר 37095

הסרטון הבא לקוח מקורס מקוון ל-data science באמצעות תכנות פייתון של אוניברסיטת סן דייגו.

המרצה, פרופסור למדעי המחשב ממרכז ה-data science באוניברסיטה, רוצה להדגים איך מחשבים מקדם מתאם. את ההדגמה היא מבצעת על קובץ נתונים שמכיל פרטים על סרטים שונים לאורך השנים. בלי להתבלבל, היא לוקחת את המספר הסידורי של הסרט בקובץ הנתונים, movieId, ומחשבת את מקדם המתאם בינו ובין average_rating, הדירוג הממוצע של הסרט.[1] .

צפו:


הערות
  1. whatever it means []

סטטיסטיקה רעה, דוגמא מספר 34287

רק לפני כשבועיים כתבתי כאן שיש להקפיד על כך שהתוצאות של ניתוחים סטטיסטיים צריכות להיות לא רק מובהקות, אלא גם משמעותיות. הדוגמאות שנתתי שם היו מלאכותיות. למרבה הצער, יש גם דוגמאות אמיתיות לכך, והרבה. מייד אציג דוגמא כזו.

לפני כשבוע קראתי מאמר שכותרתו Methods to increase reproducibility in differential gene expression via meta-analysis  שהתפרסם בכתב העת Nucleic Acids Research בראשית 2017. לדעתי זה מאמר מאוד בעייתי מבחינת השימוש בשיטות סטטיסטיות והאינטרפרטציה של התוצאות שהתקבלו. יותר מכך, לדעתי אין במאמר ערך מוסף מדעי וראוי היה שלא יתפרסם כלל. אבל אני בוחר להתרכז רק בפרט אחד מתוך המאמר, למרות שיש בו די חומר לכמה רשימות.

בגדול, המאמר מנסה להשוות בין שיטות שונות לביצוע מטה-אנליזה, וכמו כן הכותבים מנסים לזהות גורמים המשפיעים על איכות המטה אנליזה. כדי להבין את מה שאכתוב כאן, מספיק לדעת שמטה-אנליזה היא דרך סטטיסטית  לצרף כמה מחקרים ביחד, כדי להגיע למסקנה כללית המאגדת בתוכה את המסקנות של המחקרים שנכללים באנליזה.[1]

בשלב מסויים הכותבים התייחסו לקבוצה של 14 מחקרים, וניסו ללמוד איך מספר המחקרים הנכללים במטה-אנליזה (שמסומן באות K) וגודל המדגם הכולל (סך מספר התצפיות בכל המחקרים הנכללים) המסומן באות N, משפיעים על רמת הדיוק (accuracy) של המטה-אנליזה.

לשם כך הם ביצעו את התרגיל הבא: הם בחרו תת קבוצה של 14 מחקרים (נניח מחקרים מספר 1, 2, 5, 7 ו-13) על פי קריטריונים שקבעו מראש, ביצעו מטה-אנליזה שתאגד את התוצאות של חמשת המחקרים, חישבו את רמת הדיוק, ורשמו את מספר המדגמים K, את גודל המדגם הכללי N, ואת רמת הדיוק שהתקבלה. אח"כ בחרו תת קבוצה אחרת של המחקרים (נניח מחקרים מספר 3, 6, 8, 9, 11, ו-14), ביצעו עוד מטה-אנליזה שאיגדה את התוצאות של ששת המחקרים האלה, ורשמו שוב את K, N, ואת רמת הדיוק. הם חזרו על התרגיל הזה בערך 7000 פעמים, על כל התת קבוצות האפשריות[2] .

כעת, כשהיו ידיהם נתונים על K, N, ורמת הדיוק של כל אחת מ-7000 המטה-אנליזות שביצעו, הם הריצו מודל רגרסיה שבו K ו-N הם המשתנים המסבירים, ורמת הדיוק היא המשתנה המוסבר.

הם ביצעו את כל הפרוצדורה ל-3 קבוצות של מחקרים שעסקו בשלוש מחלות שונות.

תוצאות הרגרסיה סוכמו בטבלה נאה. אני מביא כאן רק חלק מהטבלה, המתייחס למחקרים שעסקו בסרטן הריאה[3] :

בעיה ראשונה: רמת הדיוק היא מספר בין 0 ל-1, ולכן אחת ההנחות הבסיסיות של מודל הרגרסיה אינה מתקיימת. זה לא אומר, אגב, שההנחות האחרות כן מתקיימות. הם לא טרחו לדווח האם בדקו את ההנחות, ואם בדקו, הם לא דיווחו לאיזה מסקנה הגיעו.

התוצאות שמוצגות בטבלה הזו, וגם בשתי הטבלאות הנוספות מאוד משמחות לכאורה. כל ה-p-values "מאוד" מובהקים: הם קטנים מ-0.0000000000000002!. הטבלה הוצגה במאמר, הכותבים ציינו כי כל הערכים מובהקים ועברו הלאה.

בואו ננסה להבין מה אומרות התוצאות.

נסתכל תחילה בערכו (Estimate) של החותך (או האיבר החופשי של המודל) – ה- Intercept. ערכו הוא 0.564. זה הערך שינבא המודל אם N שווה ל-0 וגם K שווה ל-0. אם N ו-K שווים שניהם ל-0, פירוש הדבר שכלל לא נערכה מטה-אנליזה. כלומר, לפי המודל, אפשר להגיע לרמת דיוק של 56.4% בלי נתונים כלל. אולי אני חוטא קצת באקסטרפולציה, אבל לפי המוסבר במאמר נכללו באנליזה גם N-ים ו-K-ים קטנים מאוד, כך שלחותך בהחלט יש משמעות.

נעבור כעת למקדם של K. ערכו 0.0449. המשמעות שלו: אם נגדיל את K ב-1, רמת הדיוק תגדל ב-4.5% בערך. זה נשמע סביר.

מה קורה עם המקדם של N? ערכו הוא -0.000222. שימו לב שהמקדם שלילי, כלומר, אם גודל המדגם יגדל, רמת הדיוק תקטן. לא יודע מה קורה אצלכם, אבל זה הרגע בו אמורים להישרף לכם הפיוזים. בסך הכל היו בחקרי סרטן הריאה כ-1300 תצפיות. לפי המודל, התצפיות האלה הורידו את רמת הדיוק שלה המטה-אנליזה ב-29%.

מה קרה כאן? זה מה שקורה כשמשתמשים בשיטה הסטטיסטית הלא נכונה בלי להקדיש לכך מחשבה ובלי לבדוק אם ההנחות שבבסיס השיטה מתקיימות. אחת ההנחות של מודל הרגרסיה הלינארית היא שלמשתנה המוסבר יש התפלגות נורמלית, לפחות בקירוב. זה בבירור לא מתקיים כאן – רמת הדיוק נעה בין 0 ל-1. הנחה נוספת שצריכה להתקיים היא שיש קשר לינארי בין המשתנה המוסבר והמשתנים המסבירים. שימו לב כי בתחתית הטבלה מופיע מקדם המתאם המשוקלל של הרגרסיה (Adjusted R-square). ערכו הוא 0.34, לכל הדעות ערך נמוך המבטא קשר לינארי מאוד רופף בין המשתנים. יש עוד שתי הנחות שצריכות להתקיים, אם כי בשלב הזה כבר לא משנה אם הן התקיימו או לא.

והמסקנה הרגילה: אין להשתמש בשיטות סטטיסטיות אם לא מבינים היטב את הרעיון העומד מאחוריהן.


הערות
  1. למעשה יש הרבה שיטות סטטיסטיות למטה-אנליזה. השיטה הספציפית בה השתמשו כותבי המאמר לא רלוונטית לדיון. []
  2. התרגיל הזה הוא הכללה של שיטה סטטיסטית הידועה בשם JackKnife []
  3. Lung adenocarcinoma   []