חיפוש באתר

קישורים

RSS סטטיסטיקה ברשת

עמודים

קטגוריות

תגיות

סטטיסטיקה רעה, דוגמא מספר 34287

רק לפני כשבועיים כתבתי כאן שיש להקפיד על כך שהתוצאות של ניתוחים סטטיסטיים צריכות להיות לא רק מובהקות, אלא גם משמעותיות. הדוגמאות שנתתי שם היו מלאכותיות. למרבה הצער, יש גם דוגמאות אמיתיות לכך, והרבה. מייד אציג דוגמא כזו.

לפני כשבוע קראתי מאמר שכותרתו Methods to increase reproducibility in differential gene expression via meta-analysis  שהתפרסם בכתב העת Nucleic Acids Research בראשית 2017. לדעתי זה מאמר מאוד בעייתי מבחינת השימוש בשיטות סטטיסטיות והאינטרפרטציה של התוצאות שהתקבלו. יותר מכך, לדעתי אין במאמר ערך מוסף מדעי וראוי היה שלא יתפרסם כלל. אבל אני בוחר להתרכז רק בפרט אחד מתוך המאמר, למרות שיש בו די חומר לכמה רשימות.

בגדול, המאמר מנסה להשוות בין שיטות שונות לביצוע מטה-אנליזה, וכמו כן הכותבים מנסים לזהות גורמים המשפיעים על איכות המטה אנליזה. כדי להבין את מה שאכתוב כאן, מספיק לדעת שמטה-אנליזה היא דרך סטטיסטית  לצרף כמה מחקרים ביחד, כדי להגיע למסקנה כללית המאגדת בתוכה את המסקנות של המחקרים שנכללים באנליזה.[1]

בשלב מסויים הכותבים התייחסו לקבוצה של 14 מחקרים, וניסו ללמוד איך מספר המחקרים הנכללים במטה-אנליזה (שמסומן באות K) וגודל המדגם הכולל (סך מספר התצפיות בכל המחקרים הנכללים) המסומן באות N, משפיעים על רמת הדיוק (accuracy) של המטה-אנליזה.

לשם כך הם ביצעו את התרגיל הבא: הם בחרו תת קבוצה של 14 מחקרים (נניח מחקרים מספר 1, 2, 5, 7 ו-13) על פי קריטריונים שקבעו מראש, ביצעו מטה-אנליזה שתאגד את התוצאות של חמשת המחקרים, חישבו את רמת הדיוק, ורשמו את מספר המדגמים K, את גודל המדגם הכללי N, ואת רמת הדיוק שהתקבלה. אח"כ בחרו תת קבוצה אחרת של המחקרים (נניח מחקרים מספר 3, 6, 8, 9, 11, ו-14), ביצעו עוד מטה-אנליזה שאיגדה את התוצאות של ששת המחקרים האלה, ורשמו שוב את K, N, ואת רמת הדיוק. הם חזרו על התרגיל הזה בערך 7000 פעמים, על כל התת קבוצות האפשריות[2] .

כעת, כשהיו ידיהם נתונים על K, N, ורמת הדיוק של כל אחת מ-7000 המטה-אנליזות שביצעו, הם הריצו מודל רגרסיה שבו K ו-N הם המשתנים המסבירים, ורמת הדיוק היא המשתנה המוסבר.

הם ביצעו את כל הפרוצדורה ל-3 קבוצות של מחקרים שעסקו בשלוש מחלות שונות.

תוצאות הרגרסיה סוכמו בטבלה נאה. אני מביא כאן רק חלק מהטבלה, המתייחס למחקרים שעסקו בסרטן הריאה[3] :

בעיה ראשונה: רמת הדיוק היא מספר בין 0 ל-1, ולכן אחת ההנחות הבסיסיות של מודל הרגרסיה אינה מתקיימת. זה לא אומר, אגב, שההנחות האחרות כן מתקיימות. הם לא טרחו לדווח האם בדקו את ההנחות, ואם בדקו, הם לא דיווחו לאיזה מסקנה הגיעו.

התוצאות שמוצגות בטבלה הזו, וגם בשתי הטבלאות הנוספות מאוד משמחות לכאורה. כל ה-p-values "מאוד" מובהקים: הם קטנים מ-0.0000000000000002!. הטבלה הוצגה במאמר, הכותבים ציינו כי כל הערכים מובהקים ועברו הלאה.

בואו ננסה להבין מה אומרות התוצאות.

נסתכל תחילה בערכו (Estimate) של החותך (או האיבר החופשי של המודל) – ה- Intercept. ערכו הוא 0.564. זה הערך שינבא המודל אם N שווה ל-0 וגם K שווה ל-0. אם N ו-K שווים שניהם ל-0, פירוש הדבר שכלל לא נערכה מטה-אנליזה. כלומר, לפי המודל, אפשר להגיע לרמת דיוק של 56.4% בלי נתונים כלל. אולי אני חוטא קצת באקסטרפולציה, אבל לפי המוסבר במאמר נכללו באנליזה גם N-ים ו-K-ים קטנים מאוד, כך שלחותך בהחלט יש משמעות.

נעבור כעת למקדם של K. ערכו 0.0449. המשמעות שלו: אם נגדיל את K ב-1, רמת הדיוק תגדל ב-4.5% בערך. זה נשמע סביר.

מה קורה עם המקדם של N? ערכו הוא -0.000222. שימו לב שהמקדם שלילי, כלומר, אם גודל המדגם יגדל, רמת הדיוק תקטן. לא יודע מה קורה אצלכם, אבל זה הרגע בו אמורים להישרף לכם הפיוזים. בסך הכל היו בחקרי סרטן הריאה כ-1300 תצפיות. לפי המודל, התצפיות האלה הורידו את רמת הדיוק שלה המטה-אנליזה ב-29%.

מה קרה כאן? זה מה שקורה כשמשתמשים בשיטה הסטטיסטית הלא נכונה בלי להקדיש לכך מחשבה ובלי לבדוק אם ההנחות שבבסיס השיטה מתקיימות. אחת ההנחות של מודל הרגרסיה הלינארית היא שלמשתנה המוסבר יש התפלגות נורמלית, לפחות בקירוב. זה בבירור לא מתקיים כאן – רמת הדיוק נעה בין 0 ל-1. הנחה נוספת שצריכה להתקיים היא שיש קשר לינארי בין המשתנה המוסבר והמשתנים המסבירים. שימו לב כי בתחתית הטבלה מופיע מקדם המתאם המשוקלל של הרגרסיה (Adjusted R-square). ערכו הוא 0.34, לכל הדעות ערך נמוך המבטא קשר לינארי מאוד רופף בין המשתנים. יש עוד שתי הנחות שצריכות להתקיים, אם כי בשלב הזה כבר לא משנה אם הן התקיימו או לא.

והמסקנה הרגילה: אין להשתמש בשיטות סטטיסטיות אם לא מבינים היטב את הרעיון העומד מאחוריהן.


הערות
  1. למעשה יש הרבה שיטות סטטיסטיות למטה-אנליזה. השיטה הספציפית בה השתמשו כותבי המאמר לא רלוונטית לדיון. []
  2. התרגיל הזה הוא הכללה של שיטה סטטיסטית הידועה בשם JackKnife []
  3. Lung adenocarcinoma   []

2 תגובות ל“סטטיסטיקה רעה, דוגמא מספר 34287”

  • תגובה מאת חנן
    תאריך 9 בדצמבר 2017 07:13

    "אחת ההנחות של מודל הרגרסיה הלינארית היא שלמשתנה המוסבר יש התפלגות נורמלית, לפחות בקירוב".
    זה פשוט לא נכון.

    מזעור שגיאה ריבועית שקולה ל max likelihood אם הרעש (לא התצפית) הוא נורמאלי.

    • תגובה מאת יוסי לוי
      תאריך 9 בדצמבר 2017 17:50

      אני מניח שציבור הקוראים יצטרך להחליט אם להאמין לי או לך

תגובה