p-hacking ((אשמח להצעות לתרגום לעברית)) היא הפרקטיקה של חתירה לתוצאה מובהקת, ובאמירה פופולרית “לענות את הנתונים עד שיודו”. לעיתים הדבר נעשה מחוסר מודעות, ולעיתים בכוונה תחילה.
יש הרבה דרכים להגיע לתוצאה מובהקת. אפשר לנסות לנתח את הנתונים בכל מיני שיטות סטטיסטיות. אפשר לאסוף נתונים, לנתח אותם, ואז לפרסם אם מתקבלת תוצאה מובהקת, ואם לא, לאסוף עוד נתונים בתקווה שהתוצאה תהפוך למובהקת. אפשר לבדוק הרבה השערות, בייחוד אם אוספים נתונים על הרבה משתנים. ככל שבודקים יותר השערות, עולה הסיכוי כי לפחות אחת מהן תהיה מובהקת. אם משתמשים במודל רגרסיה כלשהו אפשר להוסיף למודל משתנים מסבירים (covariates) או להסיר אותם, עד שמתקבלת תוצאה מובהקת. אפשר לנסות מספר טרנספורמציות של המשתנים בתקווה שתתקבל תוצאה מובהקת. אפשר גם לזרוק מהנתונים תצפיות “לא מתאימות”, לאחר הניתוח הראשוני של הנתונים. אפשר כמובן, לצרף כמה שיטות יחד, ואף לנסות את כולן.
אי אפשר להכחיש את קיומה של התופעה, בייחוד בתחום המחקר האקדמי, שם קיים לחץ על החוקרים לפרסם תוצאות מובהקות (( שגם צריכות להיות משמעותיות, אבל בעניין הזה כבר דנו )) כדי להתקדם בתוך המערכת האקדמית. יש הטוענים כי התופעה קיימת במידה מסויימת גם במגזר העסקי, שם עלול להיות לחץ על עובדים להשביע את רצון ההנהלה או הלקוחות. עם זאת, קשה להשיג נתונים מהם יהיה אפשר לעמוד על היקף הבעיה במגזר העסקי, וזאת בניגוד למה שקורה במחקר האקדמי.
אולם לפני שנתאר את היקף הבעיה, נראה מספר דוגמאות.
האם ידעתם ששוקולד מריר הוא תוסף תזונה בריא שתורם לירידה במשקל? הנה לינק למחקר שנערך בגרמניה שהוכיח זאת. נערך ניסוי קליני, ובו, לאחר בדיקה של ההיסטוריה הרפואית שלהם, מילוי שאלון רפואי וביצוע מספר בדיקות, חולקו הנבדקים לשלוש קבוצות באופן אקראי. קבוצה אחת הושמה לטיפול של דיאטה דלת פחמימות. הקבוצה השנייה הושמה אף היא לדיאטה דלת פחמימות, אך גם הונחתה לאכול כ-40 גרם שוקולד מריר בכל יום. הקבוצה השלישית הייתה קבוצת הביקורת. הנבדקים בקבוצה זו הונחו להמשיך בהרגלי התזונה שלהם ללא כל שינוי. הנבדקים שקלו את עצמם כל יום ודיווחו את המשקל לעורכי הניסוי. הניסוי נמשך 21 יום, ובסופם חזרו הנבדקים אל עורכי הניסוי, מילאו שוב את השאלון הרפואי וחזרו על הבדיקות שעשו בתחילת הניסוי.
התוצאות? בקבוצת הביקורת שינוי המשקל הממוצע היה בערך 0, כצפוי. בשתי הקבוצות האחרות הייתה ירידת משקל ממוצעת של כ-2.3 ק”ג. בקבוצת השוקולד קצב הירידה במשקל (כפי שהתבטא בדיווחים היומיים) היה מהיר יותר בכ-10%. בקבוצת השוקולד נצפתה גם ירידה משמעותית ברמת הכולסטרול!
מה קרה פה? מי שהציץ בלינק כבר יודע שהמחקר תוכנן מראש כך שיביא ליתרון של קבוצת השוקולד על פני הקבוצות האחרות. קודם כל, מספר המשתתפים במחקר היה 16, 5 גברים ו-11 נשים. לכן בכל קבוצה היו 5-6 נבדקים. במדגם קטן יש שונות גבוהה, וכתוצאה מכך צפויות להתקבל תוצאות קיצוניות. זהו חוק המספרים הקטנים. כמו כן, נבדקו בניסוי הזה 18 משתנים שונים. אם רמת המובהקות (כלומר ההסתברות לתוצאה חיובית שגויה) של כל בדיקה היא 5%, ההסתברות כי תתקבל במקרה תוצאה חיובית היא מעל ל-60%.
המחקר הזה תוכנן מראש כדי לספק הדגמה לסרט דוקומנטרי על מדע-זבל בתעשיית הדיאטות. כל התרגיל שנעשה כאן הובא לידיעת הצופים כהמחשה לתוקף המפוקפק של ה-“תוצאות המוכחות מדעית” שמבטיחים יצרני דיאטות למיניהם.
עוד הדגמה ל-p-hacking ניתנה בכתב העת Psychological Science. בניסוי, שערכו החוקרים סימונס, נלסון וסימונסון (קישור למאמר – קובץ pdf), היו שתי קבוצות נבדקים. לאחר מילוי שאלון, קבוצה אחת האזינה לשיר When I’m Sixty Four של הביטלס. הקבוצה השנייה נאלצה להאזין ל-Kalimba (ההאזנה לא מומלצת, ומייד תראו מדוע). לאחר ההאזנה כל נבדק התבקש למסור לחוקרים את תאריך הלידה שלו ואת גילו של אביו. נערך ניתוח ANCOVA בו המשתנה המוסבר היה גיל הנבדק, והמשתנים המסבירים היו גיל האב, והשיר לו האזין כל נבדק. התקבלה תוצאה מובהקת. ממוצע הגיל המותאם (adjusted) של הנבדקים בקבוצת הביטלס היה 20.1 שנה, ובקבוצת הקלימבה הגיל הממוצע היה 21.5 (p-value=0.040). האזנה לביטלס גורמת לאנשים להיות צעירים יותר. אני מדגיש: הנבדקים בקבוצת הביטלס לא הרגישו צעירים יותר. הם היו ממש צעירים יותר!
גם כאן עורכי המחקר חשפו את ה”סוד”. המחקר נערך במספר שלבים. בכל פעם גוייסו למחקר 10 סטודנטים, הנתונים נותחו, ואז הוחלט אם להגדיל את גודל המדגם ב-10 נבדקים נוספים. כמו כן, פרט לתאריכי הלידה של הנבדקים וגילי האבות, נאספו עוד נתונים רבים אחרים, ונערכו ניתוחים רבים, עם כל מיני משתנים מוסברים ומשתנים מסבירים. הם היו חייבים למצוא משהו, עם כל הגמישות המחקרית שהרשו לעצמם. המאמר נועד, כמובן, לשמש כתמרור אזהרה לבעיות שנגרמות כאשר חוקרים מרשים לעצמם יותר מדי דרגות חופש. סימונס ועמיתיו הציעו שש דרישות שכל מחקר צריך לקיים, וארבע הנחיות לשופטים המחליטים האם מחקרים שמוצעים לכתב העת אכן ראויים לפרסום. אפרט את הדרישות וההנחיות ברשימה אחרת בהמשך סדרה זו.
אבל יש גם דוגמאות אמיתיות.
אנדרו גלמן מתאר בעיה של p-hacking על ידי בדיקת השערות מרובות ((ביחד עם בעיות אחרות)) במאמר במגזין Slate. במאמר בכתב העת Psychological Science מדווחים החוקרים ביל וטרייסי כי נשים נוטות ללבוש בגדים אדומים או ורודים כאשר הן בשיא הפוריות (במהלך המחזור החודשי). מתברר כי בשאלון הוצעו 9 צבעים שונים מהן הנבדקות נתבקשו לבחור צבע אחד. החוקרים דיווחו כי הצבעים האחרים לא היו מובהקים סטטיסטית. בנוסף לכך, היו שתי הגדרות שונות לשיא הפוריות: ימים 0-5 של המחזור וימים 15-28. מכאן עולה כי הם בדקו 18 השערות שונות. ההסתברות לקבל לפחות תוצאה אחת מובהקת היא קצת יותר מ-60%. האם הדבר נעשה בכוונה או מחוסר מודעות? אין לדעת. מצד שני, המחקר הזה לא גורם לנזק.
בעיה של p-hacking תעלה ככל הנראה גם ממחקר ה-PURE. מדובר במחקר ענק שכבר הניב מספר מאמרים, ויניב בוודאי עוד. סביר להניח שתוצאות לא מובהקות לא יפורסמו. (בעיה זו ידועה כאפקט המגירה). כאן יש סכנה כי יפורסמו המלצות רפואיות בלתי אחראיות שיזכו לכותרות סנסציוניות בעיתונות (כמו ההמלצה לצרוך שומנים), וכמובן שתהיה לכך השפעה על בריאות הציבור.
עד כמה הבעיה חמורה? החוקרים יואנידס, סטנלי ודוקוליאגוס דיווחו בכתב העת היוקרתי Economic Journal באוקטובר 2017 כי בדקו כ-6700 מחקרים אקונומטריים. ליותר ממחציתם לא הייתה עוצמה סטטיסטית מספיקה, בלשון המעטה: העוצמה החציונית הייתה 18%. במילים אחרות, גדלי המדגמים היו קטנים מדי. חוק המספרים הקטנים פועל שוב: במדגמים קטנים יש יותר שונות, יותר תוצאות קיצוניות, וכשעורכים הרבה מחקרים קטנים מקבלים הרבה תוצאות מובהקות. נשיא אוניברסיטת דיוק, קמפבל הארווי, שהינו גם נשיא האיגוד האמריקני לכלכלה פיננסית, התריע בהרצאתו בינואר 2017 על התפשטות תופעת ה-p-hacking בתחום הכלכלה הפיננסית, וזאת גם במגזר העסקי. כאן יש סכנה שהפרקטיקה תתפשט מהמחקר אל היישומים, ותגרום לתוצאות פיננסיות הרות אסון.
החוקרים הד, הולמן, לנפיר, קאהן וג’ניוס ניסו לבדוק עד כמה התופעה של p-hacking נפוצה בתחום מדעי החיים ומהן ההשלכות הנובעות מכך. בעזרת שימוש בשיטות של text-mining במאגר PubMed, ועל ידי שימוש בכלי p-curve הם הגיעו למסקנה כי התופעה של p-hacking על ידי איסוף נתונים עד שמתקבלת תוצאה מובהקת נפוצה למדי. החדשות הטובות הן שלדעתם התופעה אינה משפיעה ככל הנראה באופן דרסטי על מסקנות מדעיות המתקבלות על ידי מטה-אנליזה.
גם בתחום הפסיכולוגיה המצב לא מזהיר. במחקר שפורסם ב-2012 על ידי ג’ון, לוונשטיין ופרלק, פנו השלושה ישירות אל כ-6000 חוקרים אקדמיים בתחום, וביקשו מהם לענות על שאלון שעסק בפרקטיקות מחקריות .כ-2100 חוקרים נענו, אך 700 מהם ענו רק על חלק מהשאלון. התוצאות עגומות: כ-65% הודו כי הם לא פירטו את כל משתני המחקר במאמר שביקשו לפרסם. קרוב ל-60% החליטו לאסוף עוד נתונים לאחר שניתחו את הנתונים שנאספו. כ-27% לא דיווחו על כל פרטי תכנון הניסוי. כ-20% הפסיקו לאסוף נתונים במהלך הניסוי כאשר התברר להם כי בנתונים החלקיים יש תוצאות מובהקות. מעל ל-20% עיגלו את ה-p-value (למשל דווחו על ערך של 0.054 כקטן מ-5%). כמחצית מהמשיבים דיווחו באופן סלקטיבי רק על מה ש-“עבד”. כ-40% השמיטו תצפיות מבסיס הנתונים לאחר שבדקו את ההשפעה של השמטת הנתונים על התוצאות. כ-30% דיווחו במאמרים על תוצאות בלתי צפויות כאילו הן נחזו בתחילת המחקר. עם זאת, רק אחוזים בודדים הודו כי טענו שהתוצאות אינן מושפעות ממשתנים דמוגרפיים כאשר לא היו בטוחים בכך, או כאשר אכן ידעו כי יש השפעה כזו. כאחוז מהמשיבים הודו כי זייפו נתונים.
ברגולציה של התעשייה הפרמצבטית יש, לעומת זאת, הנחיות ברורות למניעת p-hacking, לפחות בשלבי הפיתוח. רמת המובהקות (ההסתברות לדחייה מוטעית של השערת האפס) במקרה של השערות מרובות נשמרת בקפידה. אין אפשרות לאסוף נתונים עד לקבלת תוצאה מובהקת. תהליך איסוף הנתונים מוגדר מראש ויש למלא אותו בקפדנות. אמנם ניתן בתנאים מסויימים להביט בנתונים שנאספו במהלך הניסוי (תהליך זה נקרא ניתוח ביניים – interim analysis), אך רק אם האפשרות הזו צויינה מראש בפרוטוקול הניסוי, והניתוח נעשה באופן שההסתברות לטעות מסוג ראשון לא תעלה על הערך המותר של 5%. יתר על כן, כדי למנוע הטיות, ניתוח הביניים נעשה על ידי ועדה בלתי תלויה המורכבת מאנשי מקצוע שאינם עובדים בחברת התרופות. ההנחה היא כי אנשים אלה לא יסכנו את יוקרתם המקצועית למען האינטרס של החברה. לחברה נמסרת רק השורה התחתונה של הניתוח (בדרך כלל המלצה להמשיך את הניסוי כמתוכנן או להפסיק אותו בטרם עת).
בשלבי המחקר, לעומת זאת, אפשרות של p-hacking בהחלט קיימת. זה עלול לנבוע מהשערות מרובות, למשל כאשר נבחנות מולקולות רבות בעלות פוטנציאל תרפויטי, ומעוניינים לגלות את המולקולה “הטובה ביותר”. כמו במחקר אקדמי, יש בהחלט גם בחברות התרופות (ובחברות מסחריות בכלל) אנשי מחקר שמעוניינים להציג הישגים, גם במחיר של חתירה לתוצאה מובהקת.
לסיכום, תמונת המצב היא עגומה. זוהי כנראה הבעיה הקשה ביותר בקרב המשתמשים בסטטיסטיקה, וללא ספק יש לבעיה זו חלק נכבד במשבר השחזוריות העובר כעת על הקהילה המדעית.
אני מקווה שהקוראים שלי ילמדו ממה שתואר כאן מה אסור לעשות במחקר, ולא יאמצו את הפרקטיקות הבעייתיות שתוארו כאן.
רשימות נוספות בסדרה:
אני חושב שהמצב קשה אבל לא עד כדי כך עגום כמו שמתארים אותו. לפחות בפסיכולוגיה, אני יודע שכבר נעשו צעדים רבים לפתור את הבעיות שאתה מציג, כולל שימוש ברישום מוקדם של המחקר והניתוחים הסטטיסטיים, ואי הגבלה על פרוט השיטה והתוצאות (חלק מהבעיות שתארת שבו חוקרים לא מתארים את כל המשתנים או הניתוחים שנעשו, או את כל שלבי המחקר נובע במידה רבה מחוסר עניין של כתבי העת לפרסם דברים כאלו, בעיקר משיקולי מקום). גם יותר ויותר נפוץ היום לפרסם את הנתונים הגולמיים אונליין. במצב אידיאלי, חוקר אחד יאסוף את הנתונים וחוקר שני ינתח אותם עצמאית. זה לא ראלי, אבל בכתבי עת מרכזיים בפסיכולוגיה יש היום יועצים סטטיסטיים בכירים, וגם יש כתב עת חדש שעוסק רק בשיטות מחקר ורפליקציות.
בסך הכל, כל הבעיות הללו פתירות ויש מוכנות לפתור אותן. יש יותר מחקרים שמנסים לשחזר מחקרים אחרים, דבקים פחות. נכחתי אגב בהרצאה של סימונסון ואחד הדברים המעניינים שהוא אמר (וגם הוכיח את זה) היה קשור למורכבות הניתוחים הסטטיסטיים. ככל שהניתוח מורכב יותר, כזה שמערב רגרסיות וpath analysis לדוגמא, הרבה מהאפקטים שנמצאים הם מלאכותיים. יש היום נטייה לערוך ניתוחים מורכבים והוא הציע לדבוק בניתוחים פשוטים יותר כי כך הסיכוי לגלות אפקטים אמיתיים גדול יותר.
הצעה לשם בעברית: מיבהוק (הפיכת משהו למובהק).
לכאורה הפתרון המתבקש במקרים “חשודים” כאלה הוא לחזור על הניסוי המובהק-לכאורה. אם התוצאה המובהקת התקבלה מסיבות כאלה, התוצאה לא תשתחזר.
כמובן שיש מקרים שבהם חזרה על הניסוי תהיה בעייתית (יקרה מדי, או אפילו בלתי אפשרית לגמרי), ואז אין ברירה אלא להיזהר מדברים כאלה מראש.
דני, הבעייה היא שיש מעט מאוד תמריצים לערוך ניסוי מאשש. במחקר רגיל (אני לא מדבר על אישור תרופות), חוקרים מעוניינים לגלות משהו חדש ומסעיר כי זה מה שכתבי העת רוצים לפרסם. מחקר ששיחזר מחקר אחר לא מעניין או לפחות לא עניין עד לאחרונה. כיום, בחלק מהתחומים יש הכרה בצורך בשיחזורים ויש מאמצים משותפים של חוקרים לשחזר תוצאות מרכזיות. יש גם כתבי עת ואתרים שמוקדשים לכך.
אחת ההצעות שהועלו הוא לעודד שיחזורים כאלו בקרב סטודנטים כחלק מפרויקט כיתתי או סמינר (כמובן במקרים שזה אפשרי וזול).
לדעתי , צריך לחייב בהרבה מקרים לפרסם את מאגר הנתונים וקוד שמפיק את הנתונים האלה , כך שכדאי לבדוק את התוצאות רק צריך לעיין בקוד. זה לא מבזבז הרבה זמן בהשוואה לזמן המושקע במחקר.
= שיבהוק