חיפוש באתר

קישורים

עמודים

קטגוריות

ארכיב עבור 'סטטיסטיקה רעה'

איך לא ללמד חשיבה סטטיסטית

גברת נחמדה, בעלת רצון עז להבין את מה שמלמדים אותה באוניברסיטה (או מנסים ללמד), העלתה אתמול לקבוצת סטטיסטיקה והסתברות בפייסבוק מספר שאלות שניתנו במבחנים בסטטיסטיקה. די מהר התברר שבשאלה אחת הייתה טעות גסה, והשאלות האחרות, איך לומר, היו בעייתיות, לפחות בעיני. שאלתי אותה איפה היא לומדת, והיא ענתה שמדובר בקורס "חשיבה סטטיסטית לפסיכולוגים". עיון מהיר בפרופיל שלה העלה כי היא לומדת באוניברסיטה העברית[1].

כמה מילים על חשיבה סטטיסטית

כאן צריך להתקיים דיון בשאלה מהי חשיבה סטטיסטית ואיך מלמדים אותה. ברשותכם אני אדחה את הדיון הזה למועד אחר. אציין רק שחשיבה סטטיסטית זה דבר קשה, שלא בא בטבעיות כמעט לאף אחד (כולל אותי). שני פסיכולוגים מהאוניברסיטה העברית, דניאל כהנמן ועמוס טברסקי, הוכיחו כבר בסוף שנות השישים כי בני האדם אינם "סטטיסטיקאים טבעיים", וחשיבה סטטיסטית אינה אינטואיטיבית. ללמד חשיבה סטטיסטית זה עוד יותר קשה ומסובך, אם כי לא בלתי אפשרי (ואני רוצה להפנות את הקוראים המתעניינים בכך לספרם של עמוס טברסקי וורדה ליברמן, "חשיבה ביקורתית"). אני בספק האם ניתן ללמד חשיבה סטטיסטית בקורס של כמה שעות בסמסטר אחד.

כפי שכבר ניתן להבין מדבריי עד כה, אני חושב שהשאלות שהיא העלתה (כאמור שאלות שניתנו במבחנים של הקורס הזה) אינן בודקות שום מימד של חשיבה, אלא יכולות של חישובים ולהטוטים בנוסחאות. אולי זה לגיטימי להתמקד בנוסחאות וחישובים במסגרת קורס בסיסי בסטטיסטיקה (אני חושב שלא) אבל זו לא חשיבה סטטיסטית.

איך לא בודקים יכולות של חשיבה סטטיסטית

ועכשיו בואו ננתח את השאלה שממש הרגיזה אותי:

ובכן, מה יש לנו כאן? מנהל בית ספר שנתוני הציון הממוצע וסטיית התקן בכיתה מסויימת לא מתאימים לאג'נדה שלו. הפתרון של המנהל הוא לעוות את הנתונים[2]. מחבר השאלה מציע למנהל הזה ארבע אופציות: בשתיים מהן מוסיפים לנתונים נתון נוסף של תלמידה מכיתה אחרת שקיבלה ציון גבוה מהממוצע (יש שתי אפשרויות כי המנהל גם רוצה להקטין את השונות, הרי בכל זאת מתיימרים לדבר על חשיבה סטטיסטית). בשתי האופציות האחרות משמיטים מנתוני הכיתה את הציון של תלמיד או תלמידה עם ציון נמוך מהממוצע.

אני חושב שהשאלה הזו ממצה את כל מה שרע בפרקטיקות של אנשים, חוקרים או אחרים, שמשתמשים בסטטיסטיקה ללא שמץ של הבנה או יושרה. כתבתי סדרה של שבעה פוסטים על סטטיסטיקה רעה, והנה שבע שורות שלוקחות את כל מה שכתבתי בהליכה.

מצד שני, באופן אבסורדי, דווקא כאן יש סוג של חשיבה סטטיסטית (אמנם בהקשר רע, אבל בכל זאת חשיבה). אבל השאלה לא בודקת את יכולות החשיבה של הסטודנטים, אלא לכל היותר מציגה בצורה מוגבלת את יכולת החשיבה הסטטיסטית של מחבר השאלה[3]. הוא אכן מבין, או לפחות יודע, שככל שממוצע הציונים גבוה יותר וסטיית התקן נמוכה יותר, כך העדות לטובת שיטת הלימוד החדשה חזקה יותר[4]. אבל הוא אומר את זה במפורש לסטודנטים: צריך ממוצע יותר גבוה וסטיית תקן יותר קטנה. מה שנשאר לסטודנטים לעשות זה רק לערוך ארבעה חישובים[5] חסרי טעם.

איך בכל זאת אפשר לבדוק יכולות של חשיבה סטטיסטית

כותב השאלה ממש לא מבין איך לברר את היכולת החשיבתית הזאת אצל הסטודנטים בצורה ישירה, ללא התעסקות בחישובים, וללא הצגה של סטטיסטיקה רעה. הוא היה יכול, למשל, להציע לסטודנטים את ארבע האפשרויות בלי לומר להם שהשאיפה היא לממוצע יותר גבוה עם סטיית תקן יותר קטנה. זה היה בודק האם הסטודנטים בוחרים באפשרות הנכונה ללא הנחיה. עם זאת, הלגיטימיות שניתנת כאן להונאה באמצעות שפצור הנתונים עדיין נשארת.

יש גם אפשרות אחרת: להציג נתוני ממוצע וסטיית תקן של ארבע כיתות היפותטיות, ולשאול איזה נתונים היפותטיים מבטאים עדות חזקה יותר ליעילותה של השיטה החדשה. כך הוא ניתן האם הסטודנטים אכן יודעים להעריך את העדויות על פי הממוצע וסטיית התקן, ללא חישובים, וללא הסיפור המזעזע[6] על המנהל הבלתי מרוצה.

אבל בשביל זה צריך חשיבה סטטיסטית.


הערות
  1. שהיא ה-alma mater שלי []
  2. ביטוי מכובס ל-"לשקר" []
  3. אני מקווה שהיכולות שלו גבוהות יותר, אי אפשר לשפוט את היכולות שלו על סמך מה שכתוב בשאלה אחת []
  4. אם כי איפה קבוצת הביקורת? []
  5. אמנם לא מסובכים []
  6. אין כאן שום ציניות []

סטטיסטיקה רעה: לא לתת מדד לאי ודאות

נתונים סטטיסטיים מבוססים בדרך כלל על מדגמים, ובמדגמים, גם מדגמים מייצגים, יש אלמנט של אי ודאות. עד כמה ניתן לסמוך על התוצאות המתקבלות מהמדגם? את זה אפשר לכמת, ולתת מדד למידת אי הודאות של התוצאות המדווחות.

הנה דוגמא מלאכותית אבל קלאסית: במקום עבודה מסויים השכר הממוצע הוא 10400 ₪. יפה, לא? בטח טוב לעבוד שם. אבל עיון יותר מעמיק בנתונים מעלה כי יש 9 עובדים שכל אחד מהם מרוויח 6000 ₪ בחודש, בעוד שהמנהל לוקח הייתה בכל חודש 50000 ₪. מי שיעשה חשבון יגלה כי סטיית התקן של השכר במפעל היא 13200 ₪. הדוגמא הזו מחשבת את הממוצע וסטיית התקן מתוך הנתונים (המלאכותיים) המלאים, ובדרך כלל מיועדת להדגים את רגישותו של הממוצע לערכים קיצוניים, אך סטיית התקן נותנת לנו מושג עד כמה אפשר לסמוך על הנתון הממוצע.  אם למשל אומר לכם כי במפעל אחר השכר הממוצע גם שם שווה ל-10400 ₪, אבל סטיית התקן היא 1200 ₪, יהיה לכם מידע יותר ודאי על רמות השכר במפעל הזה. תוכלו להסיק כי פערי השכר במפעל הזה קטנים יותר מאשר במפעל הראשון.[1]

בספרות המדעית בדרך כלל לא חוטאים את החטא הזה. העורכים של כתבי העת המדעיים כמעט תמיד דורשים לצרף לאומדנים המתפרסמים מדד לאי-ודאות, בדרך כלל סטיית תקן או רווח סמך.

עם זאת, זיהיתי שני תחומים שבהם מרבים לפרסם אמדנים כגון ממוצעים או חציונים ללא מדדים לאי הודאות.

התחום הראשון הוא העיתונות. חיפוש מהיר בגוגל באתרים של 5 עיתונים גדולים[2] הראה כי המילה "ממוצע" מופיע פעמים רבות בידיעות שהתפרסמו בשנה האחרונה. החיפוש אחרי "סטיית תקן" (לאורך כל השנים) כמעט ולא העלה ממצאים. חיפוש אחרי "רווח סמך" (שוב, לאורך כל השנים)  באתרים הנ"ל העלה תוצאה בודדת[3] . עם זאת, שני העיתונים הכלכליים מפרסמים את סטיות התקן עבור נתונים כלכליים שוטפים (מסחר בבורסה ומסחר במטבע חוץ). כמו כן, כאשר מתפרסמים בעיתונות סקרים למיניהם, מפורסמת יחד עימם טעות הדגימה, וטוב שכך.

התחום השני הרבה יותר בעייתי. מדובר בפרסומים רשמיים של נתונים סטטיסטיים על ידי המדינה, בראש ובראשונה על ידי הלשכה המרכזית לסטטיסטיקה (אך גם על ידי מוסדות נוספים, כגון הביטוח הלאומי, בנק ישראל, ומשרדי ממשלה שונים). כתבתי כאן בעבר על הבעייתיות שיש בפרסום השכר הממוצע שהלמ"ס מפרסמת מדי חודש. זה היה ב-2004. מה השתנה מאז? כלום. בשנתון הסטטיסטי לישראל יש נתונים על גבי נתונים (הנה למשל פרק שוק העבודה מתוך שנתון 2016 – קובץ pdf) . מופיעים שם לוחות על גבי לוחות. סטיות תקן או רווחי סמך? יוק. מי שמבין קצת סטטיסטיקה ורוצה לערוך חישובים יכול אמנם לקבל אומדנים למדדי אי-וודאות  כך למשל, פירקתי פעם את נתוני התפלגות השכר לפי עשירונים שפירסמה הלמ"ס כדי לאמוד את קטגוריית השכר השכיחה, כלומר "כמה משתכרים הרוב". באופן דומה הייתי יכול לאמוד גם את סטיית התקן של התפלגות השכר. אוסיף ואומר כי הבעיה שבפרסומי הלמ"ס אינה רק בעיה סטטיסטית חמורה אלא גם בעיה ציבורית חמורה: מדובר כאן בחוסר שקיפות ובמקרים מסויימים גם בהטעיית הציבור.


רשימות נוספות בסדרה:


הערות
  1. בדוגמא הזו 9 עובדים מרוויחים 10000 ₪ בחודש, המנהל מרוויח 14000 ₪ []
  2. ידיעות אחרונות – Ynet, מעריב/מקור ראשון –nrg, הארץ, דה-מרקר וגלובס []
  3. סקירה בגלובס על ספר של חיים שפירא, בשנת 2015 []

סטטיסטיקה רעה: לא לתכנן

"לקרוא לסטטיסטיקאי לאחר שהניסוי התבצע זה כמו לבקש ממנו לבצע ניתוח שלאחר המוות. לכל היותר הוא יוכל לומר מה הייתה סיבת המוות" – רונלד פישר.

כשמדברים בסטטיסטיקה על תכנון, מדברים בדרך כלל על תכנון ניסויים.[1] קשה להביא דוגמאות למקרים של כשלים בתכנון ניסויים, כי הכשלים בדרך כלל מובילים לכישלון, וכישלונות בדרך כלל נזרקים לפח האשפה. הכישלונות עלולים להיות צורבים. זה לא נעים לראות ניסוי קליני שנכשל (אם כי במקרים כאלה יש בדרך כלל סיבות רבות לכישלון, מעבר לבעייתיות אפשרית בתכנון הסטטיסטי). כשל וכישלון בניסוי במעבדה עלול להוביל להחמצה של תגלית חשובה, או להשקעה מיותרת. מתכנון לקוי של ניסויים עלולים לנבוע תהליכי ייצור לא אופטימליים, וגם החלטות שיווקיות לא נכונות. יכולות להיות גם השלכות בטיחותיות (רכב אוטונומי, מישהו?) או השלכות על בריאות הציבור.

לא אדון כאן בכל התורה המורכבת של תכנון ניסויים. כדי לראות את קצה קצהו של הקרחון יש צורך בקורס שלם. אתם מוזמנים לעיין במצגת שלי שעוסקת בנושא תכנון הניסויים בזעיר אנפין, בעיקר מנקודת המבט של התעשייה הפרמצבטית.

בגדול, התהליך של תכנון ניסוי כולל מספר רב של שלבים, וביניהם: החלטה על מטרת הניסוי, החלטה אלו פרטים יהוו את אוכלוסיית הניסוי (חיות? ואם כן, איזה חיה? בני אדם? תרביות תאים? ריאקציות כימיות? גולשים באתר? תצלומים שיש לזהות בהם תבניות, כגון האם רואים בתצלום חתול?), לקבוע מה יהיו משתני הניסוי, לבדוק האם יש אפשרות ליחסי גומלין בין משתני הניסוי, להחליט איזו תגובה או תגובות ימדדו, להחליט איזו אינפורמציה לאסוף מעבר למשתני הניסוי ומשתני התגובה (למשל משתני בסיס, או משתנים מתערבים (confounding) פוטנציאליים שעשויים להשפיע גם על המשתנה התלוי – התגובה, וגם על משתני הניסוי), להחליט איך לאסוף את האינפורמציה, לקבוע את דרך הבקרה של הניסוי, להחליט האם תהיה סמיות, לקבוע היכן ומתי ייערך הניסוי ומי יבצע אותו, לקבוע את גודל המדגם, להחליט האם לבצע רנדומיזציה, ואם כן איך, לצפות תרחישים אפשריים למהלך הניסוי ולהחליט מראש כיצד להתמודד איתם, לתכנן את הניסוי כך שיאפשר הסקת מסקנות כלליות (external validity), להחליט על השיטות הסטטיסטיות שבעזרתן ינותחו הנתונים של הניסוי[2], ועוד הרבה החלטות אחרות.

בכל אחת מההחלטות שצריך לקבל בתהליך התכנון יש פוטנציאל לכשל או לכשלים, ותאמינו לי, ראיתי את כולם. אתמקד כאן רק במספר כשלים עיקריים.

כשל הגדול מכולם הוא, כמובן, להתחיל את הניסוי לפני שיש תשובות ברורות לכל השאלות האלה, ולפני שהתקבלו כל ההחלטות.[3] גם אם התקבלו כל ההחלטות הרלוונטיות, יש לפרט אותן בפרוטוקול הניסוי, אותו יש לכתוב, שוב, לפני תחילת הניסוי. הפרוטוקול הוא חלק מהתכנון.

הכשל העיקרי השני הוא גודל מדגם לא מתאים. גודל מדגם אמור להיקבע על ידי לקיחה בחשבון של מספר גורמים: ההסתברויות הרצויות לטעויות (False Positive  ו-False Negative), איזה גודל אפקט ייחשב למשמעותי, ומה רמת אי הודאות הצפויה, כלומר השונות של הנתונים שייאספו. כמו כן, יש לקחת בחשבון כמובן את השיטה בה ייערך הניסוי[4]. מניסיוני, הבעיה העיקרית היא בהערכת השונות. לחוקרים לא תהיה בעיה להגיד מה ההסתברויות לטעות המקובלות עליהם[5], ולאחר לחץ פיזי מתון גם יאמרו לך מה לדעתם ייחשב לאפקט משמעותי. לגבי הערכת השונות יש אכן בעיה שהסטטיסטיקאי צריך להתמודד איתה. לעיתים השונות נקבעת על ידי הפרמטר[6]. במקרים אחרים יש לערוך מחקר בפרסומים אודות ניסויים דומים בספרות המדעית. האפשרות הטובה ביותר היא להשתמש בנתונים של ניסויים דומים קודמים שביצע אותו החוקר.

בקביעת גודל המדגם (ולא רק שם) יש לשקול גם שיקולים אתיים. למשל, ניסוי בחיות (וגם בבני אדם, בעצם) ייחשב ללא אתי אם גודל המדגם קטן מדי ולכן בעל עצמה סטטיסטית נמוכה – חייהן של החיות יוקרבו לשווא. יש דרכים סטטיסטיות להקטין את מספר החיות בהן ישתמשו בניסוי, וסטטיסטיקאי טוב יוכל להמליץ עליהן.

הכשל העיקרי השלישי הוא התעלמות מאינטראקציות – כלומר התעלמות מיחסי הגומלין בין המשתנים השונים. זהו כשל נפוץ ביותר, וראיתי אותו מתרחש במספר רב של יישומים.

הנה דוגמא (מלאכותית) פשוטה אך ארוכה.

שיטת המחקר העוברת בין הדורות של החוקרים המדעיים היא OFAT, כלומר One Factor At a Time. בכל קובעים את ערכם של כל המשתנים העשויים להשפיע על התוצאה פרט למשתנה אחד, שאת ערכו משנים. מה לא בסדר?

מהנדס כימיה רוצה לכוונן שני גורמים המשפיעים על התפוקה של תהליך כלשהו: משך הזמן של הריאקציה, שיכול לנוע בין 60 ל-180 דקות, והטמפרטורה בה היא מתבצעת, שיכולה לנוע בין 21 ל-25 מעלות. הוא עורך סדרה של 5 ריאקציות בהן הטמפרטורה קבועה על 22.5 מעלות, ובודק את ההשפעה של משכי זמן שונים על התהליך. הוא מגיע למסקנה כי התפוקה הגבוהה ביותר, כ-75 גרם, מתקבלת כאשר משך זמן הריאקציה היה 130 דקות.

 

עכשיו המהנדס שלנו עורך סדרה שניה של עוד 5 ריאקציות, בהן משך זמן הריאקציה קבוע ל-130 דקות, ובודק את התפוקה בטמפרטורות שונות. תוצאת הניסויים: התפוקה הגבוהה ביותר, גם כאן כ-75 גרם, כאשר הטמפרטורה היא 22.5 מעלות.

 

המסקנה של המהנדס: תהליך הייצור האופטימלי הינו כאשר טמפרטורת הריאקציה היא 22.5 מעלות ומשך הזמן של הריאקציה הוא 130 דקות, והתפוקה המקסימלית היא כ-75 גרם. האם המסקנה נכונה? ייתכן מאוד שלא, כיוון שסביר מאוד להניח כי יש יחסי גומלין בין המשתנים.

בדוגמא שלנו המצב הוא כפי שהגרף הבא מראה. התפוקה תהיה מקסימלית כאשר הטמפרטורה היא 25.5 מעלות, ומשך הזמן הוא כ-70 דקות. התפוקה בתנאים האלה תהיה כ-91 גרם, שיפור של למעלה מ-20%.

 

אילו נועץ המהנדס בסטטיסטיקאי טוב, הוא היה מציע לו לערוך סדרה של ארבע ריאקציות, בהם ישתנו גם הטמפרטורה וגם משך הזמן של הריאקציה. הריאקציה הראשונה, למשל, תהיה בטמפרטורה של 22 מעלות ומשך הזמן יהיה 120 דקות, הריאקציה השנייה תהיה גם היא בטמפרטורה של 22 מעלות אך עם משך זמן של 150 דקות, וכן הלאה. תכנון כזה יראה, בתנאי הדוגמא, כי הורדת משך הזמן ביחד עם העלאת הטמפרטורה מגדילה את התפוקה.

 

שימו לב גם כי התהליך של המהנדס היה בזבזני: הוא ביצע 10 ריאקציות והגיע לתוצאה פחות טובה ממה שיכול היה לעשות בארבע ריאקציות בלבד. את התכנון שהציע הסטטיסטיקאי ניתן להכליל למספר רב יותר של משתנים[7]

כשל נוסף ובעייתי מאוד, הוא שינוי תנאי הניסוי במהלכו, וכן, זה קורה הרבה פעמים. אמנם אפשר לשנות את תנאי הניסוי בתנאים מסויימים, אך יש להגדיר מראש בפרוטוקול הניסוי באלו מצבים אפשר לשנות את תנאי הניסוי, איזה שינוי יבוצע (אם יבוצע), ומהם הקריטריונים לפיהם ייקבע האם יש לבצע את השינוי. כמובן שיש לקחת בחשבון את ההשלכות של שינוי כזה על שאר הפרמטרים של הניסוי.

לסיכום, תכנון ניסוי הוא דבר מסובך, ויש להיעזר באנשי מקצוע במהלך התכנון (סטטיסטיקאי, ובדרך כלל גם אנשי מקצוע נוספים). תכנון לקוי יוביל במקרה הטוב לבזבוז משאבים, ובדרך כלל לתוצאות חמורות בהרבה.

 


רשימות נוספות בסדרה:


הערות
  1. תכנון איסוף הנתונים ותכנון הניתוח הסטטיסטי הם חלק מתהליך תכנון הניסוי. []
  2. בהנחה שלא מתכננים לבצע p-hacking, כמובן []
  3. זה קורה באמת. ראו את הרשימה שלי על הסטטיסטיקה בתעשייה. []
  4. כגון: שתי קבוצות מקבילות, תכנון של לפני-אחרי, וכדומה []
  5. אפס, כמובן []
  6. לדוגמא, אם מדברים על תדירות של אירועים בתהליך פואסון, אז השונות נגזרת ישירות מהתדירות המשוערת []
  7. אני תכננתי פעם ניסוי עם 8 משתנים, כאשר לכל משתנה יש שתי רמות אפשריות, סה"כ 256 אפשרויות, אם אכן מנסים את כל האפשרויות. יש דרכים לצמצם את מספר האפשרויות, אם מוכנים לוותר על חלק מהאינפורמציה, כמו למשל אינטראקציות מסדר גבוה []

סטטיסטיקה רעה: מדגם לא מייצג

הסטטיסטיקה מבוססת על מדגמים. מדגם לא מייצג מוביל בדרך כלל להטיה בנתונים הנאספים ולמסקנות שאינן תקפות.

לרוב אין זה מעשי לאסוף את כל הנתונים הדרושים למחקר מסויים[1], ולכן יש להסתפק במדגם – כלומר בנתונים חלקיים. המדגם צריך לאפשר הסקה לגבי כלל הנתונים. אם המדגם אכן מאפשר זאת, המדגם הוא מייצג. מדגם לא מייצג, ברוב המקרים, לא מאפשר הסקה אמינה.

במקום לתת הסברים טכניים, אציג כאן מספר דוגמאות. רובן עוסקות בסקרים, אך הבעיות עלולות לצוץ בכל מיני יישומים אחרים (למשל דגימה של מוצרים מפס הייצור לצורך בקרת איכות, או ביצוע AB testing בקרב משתמשים, למשל עלי ידי הכללה של משתמשים חדשים בלבד).

נתחיל בסקרי בחירות. שתי דוגמאות מפורסמות הן סקרי הבחירות לנשיאות ארצות הברית ב-1936 (רוזוולט נגד לנדון) וב-1948 (טרומן נגד דיואי) .

ב-1936 ערך העיתון Literary Digest סקר שהקיף 2.4 מיליון משתתפים. זהו הסקר הגדול ביותר שנערך אי פעם. למעשה נשלחו 10 מיליון שאלונים, אך רק רבע מהנמענים השיבו. הסקר חזה ניצחון מוחץ ללנדון, אך רוזוולט הוא זה שנבחר. התברר שהמדגם לא היה מייצג. במדגם היו שתי בעיות. השאלונים נשלחו לאנשים שהופיעו ברשימות של חברי מועדונים ו/או בספרי טלפונים. ב-1936, רוב מוחלט של האנשים האלה היו עשירים. הסקר דגם אנשים עשירים באופן שיטתי. אנשים עשירים תמכו בלנדון. העניים, שהיו רבים יותר מן העשירים, תמכו ברוזוולט. בעיה נוספת בסקר הייתה שכשלושה רבעים מהאנשים אליהם נשלחו השאלונים לא השיבו. האנשים שלא השיבו שונים מאלה שהשיבו (הם הרי לא השיבו). ייתכן מאוד כי הם נבדלו מהמשיבים גם בהעדפותיהם הפוליטיות.

יש לציין כי סקרים קודמים שהעיתון ערך בשיטה זו חזו את המנצחים בבחירות, למרות שהמדגמים לא היו מייצגים[2]. זה קרה מכיוון שהנושאים המרכזיים בבחירות קודמות היו מדיניים ולא כלכליים, ובנושאים אלה אין הבדלים מהותיים בין עניים ועשירים.

מסקנה חשובה מהסקר של 1936: מדגם גדול לא עוזר להתגבר על הטיה באיסוף הנתונים. להיפך – הוא מעצים את ההטיה.

עם זאת, היה מי שחזה היטב את התוצאות ששל הבחירות האלה – ג'ורג' גאלופ, והוא עשה זו בעזרת מדגם של 50,000 נסקרים בלבד. גאלופ השתמש בשיטת דגימה שנקראת Quota Sampling. הסוקרים שלו יצאו לשטח וראיינו בעלי זכות בחירה. כך נמנע חלק גדול מבעיית חוסר ההשבה. כמו כן, הסוקרים קיבלו הוראות מדוייקות איך לדגום את המרואיינים. למשל, סוקר שנשלח לראיין 13 איש, הונחה לראיין 7 גברים ו-6 נשים. את 7 הגברים היה עליו לבחור כך ש-3 מהם יהיו מתחת לגיל 40 ו-4 מעל גיל 40, וכולי. כך קיבל גאלופ מדגם שייצג את אוכלוסיית הבוחרים בכל הפרמטרים שלפיהם נבנתה תכנית הדגימה: מין, גיל ופרמטרים נוספים. השיטה הזו עבדה יפה עד 1948. ב-1948 חזה גאלופ, על פי השיטה הזו, כי בבחירות לנשיאות המועמד הרפובליקני, דיואי, יביס את המועמד הדמוקרטי, טרומן. טרומן ניצח. מה קרה פה? הוראות הדגימה לא כללו פילוח לפי העדפה מפלגתית – הרי זה מה שהסקר ניסה לחזות. התברר כי לסוקרים היה הרבה יותר נוח לדגום רפובליקאים (בלי שיהיו מודעים לכך, כמובן). הסקר היה מוטה לטובת הרפובליקאים.

מה קרה בבחירות 2016, בהן הסקרים והמודלים חזו כי הילארי קלינטון תנצח את טראמפ בבחירות לנשיאות?[3] התשובה עדיין לא ברורה. החיזוי נעשה על פי מודלים ששקללו מספר רב של סקרי בחירות, מעין מטה-אנליזה. המודלים האלה פותחו לקראת בחירות 2012, וחזו בדייקנות את נצחונו של אובמה על רומני. הם כשלו ב-2016. יש ויכוח בין המומחים האם המודל היה מוטה כבר ב-2012, וחזה את ניצחון אובמה למרות ההטיה, או שמא המודל נפל קורבן להטיה ספציפית ב-2016.

ראינו קודם בעיה בסקר שנגרמה, בין השאר, כיוון שרוב הנסקרים הפוטנציאליים לא השיבו לשאלות הסקר. יכולה להיות גם בעיה הפוכה – אנשים שנלהבים להשיב לסקר. כך, למשל, קרה לבעלת הטור אן לנדרס, ששאלה את קוראיה שהינם הורים לילדים שאלה פשוטה: "לו הייתם חיים שוב את חייכם, האם שוב הייתם מביאים ילדים לעולם?" (קישור לקובץ pdf). היא קיבלה כ-10000 תגובות לסקר. 70% אמרו שלא. בסקר דומה שנערך על ידי המגזין Good Housekeeping, מספר חודשים לאחר מכן, שיעור משיבי ה-"לא" היה 95%. אני חושב שכאן ברור שהמדגם לא מייצג. סביר להניח שציבור הקוראים אינו מייצג את כל האוכלוסייה (מדובר בטור במדור שמיועד לנשים, ובמגזין לנשים). כמו כן, המשיבים לסקר לא נדגמו מתוך האוכלוסייה הכללית. הם בחרו להשיב לסקר. ייתכן מאוד כי בעלי הדיעה הקיצונית, משיבי ה-"לא", היו נלהבים יותר להשיב לסקר.

דוגמה היסטורית נוספת – מחקריו של אלפרד קינזי על מיניות האדם. אני חושב שאין חולק על כך שקינזי היה פורץ דרך במחקר תחום שנחשב בזמנו לטאבו. גם ממצאיו האיכותניים עדיין נחשבים כמשמעותיים, גם כאשר עברו יותר מ-60 שנה מאז פירסם את הדו"ח שלו על מיניות האדם. עם זאת, שיטות המחקר שלו היו שנויות במחלוקת, בלשון המעטה. אני אתייחס כאן רק למחקר הכמותי שביצע. קינזי הכיר בקיומה של הומוסקסואליות, גם אצל גברים וגם אצל נשים, ואף הבחין כי מדובר ברצף, ובנה סולם בן 7 דרגות, כך שרמת הנטייה המינית של כל אדם מבוטאת על ידי דרגה בסולם, שעדיין נמצא בשימוש. שאלה מעניינת, עד עצם היום הזה, היא איזה אחוז מהאוכלוסייה נמצא בכל שלב של הסולם? הנמצאים בשתי הדרגות של הסולם נחשבים כהומוסקסואלים (או לסביות). קינזי הגיע למסקנה כי  13% מהנשים ו-7% מהגברים נמצאים בדרגות האלה.[4] אולם המדגם של קינזי לא היה מייצג, ככל הנראה במודע. היה בו ייצוג יתר לאסירים ולזונות ממין זכר. גם העובדה כי רוב הנסקרים (והנסקרות) שלו היו מתנדבים הפחיתה מרמת הייצוג של הסקרים שלו. עקב כך, ממצאיו הכמותיים שנויים במחלוקת.

הדוגמה האחרונה שאביא היא מהמחקר שפירסם משרד האוצר בשנת 2004 על מה שכינה "שכר המינימום ונזקיו". החלק הכמותי/אקונומטרי של המחקר עסק בנתונים מתקופה של 11 שנים, מ-1993 ל-2003, וזאת למרות ששכר המינימום הונהג בישראל בראשית שנות ה-70. ה-"מדגם" שלהם לא מייצג, וזה נעשה במודע. החוקרים[5] הסבירו כי "תקופת המדגם נבחרה כך שלא תכלול את השינויים המבניים הגדולים שהתרחשו בתחילת שנות ה-90". במילים אחרת, הם התעלמו במכוון מתקופה של כ-20 שנה בהן היה נהוג שכר מינימום, ומהתובנות שעשויות לעלות מהנתונים הכלכליים של התקופה ההיא. אפשר לחשוב על הרבה סיבות נוספות לבחירה שלהם, מלבד הסיבה שהם סיפקו. לא אכנס כאן לספקולציות. כמו כן, עדיין לא ניתן לקבוע בבירור האם הם צדקו במסקנותיהם. שכר המינימום כמעט ולא השתנה באופן ריאלי בין 2004 ל-2014. עם זאת, מאז 2014 חלה עליה ריאלית משמעותית בשכר המינימום, והאסונות שנחזו בדו"ח (שהיו אמורים להיות מיידיים) עדיין לא אירעו.

אז איך עורכים מדגם לא מייצג?

נסביר תחילה איך עורכים מדגם מייצג, כפי שמלמדים בקורס הבסיסי בדגימה בשנה ג' של לימודי הסטטיסטיקה. קודם כל צריכים לערוך רשימה של כל המועמדים להיכלל במדגם. זוהי מסגרת הדגימה. כעת אפשר לבחור את שיטת הדגימה.

הבסיס לכל השיטות היא דגימה הסתברותית – לכל פרט באוכלוסייה נקבעת ההסתברות כי ייכלל במדגם.

הדרך הפשוטה ביותר היא לערוך מדגם מקרי פשוט – לכל הפרטים יש את אותה ההסתברות להיכלל במדגם. כדי לקבוע מי יידגם, מכניסים לתוך כובע גדול פתקים, כשלכל פרט באוכלוסייה יש פתק עליו כתוב השם (או מזהה אחר) הפרט. מערבבים היטב את כל הפתקים, ומוציאים מהכובע מספר פתקים על פי גודל המדגם הדרוש. אפשר, כמובן, לבצע את התהליך הזה באופן ממוחשב.

יש וריאציות יותר מתקדמות. אם האוכלוסייה מתחלקת למספר שכבות אשר שונות זו מזו באופן מהותי (למשל דתיים וחילוניים), אפשר לבצע מדגם נפרד בתוך כל שכבה ולאחר מכן לשקלל את התוצאות. אם לעומת זאת, האוכלוסייה מורכבת מאשכולות אשר לא שונים זה מזה באופן מהותי (דוגמה היפותטית: אוכלוסיית הקיבוצים), אפשר לדגום רק מספר אשכולות (קיבוצים) מתוך רשימת הקיבוצים, ובעזרת מודל מתמטי לא מורכב להסיק ממדגם זה על האוכלוסייה כולה.

אבל יש גם דרכים לקבל מדגם לא מייצג. ציינתי חלק מהן בדוגמאות שהבאתי. אציין כמה מהשיטות הפופולריות.

המקרה הנפוץ הוא להשתמש במסגרת דגימה השונה באופן מהותי מהאוכלוסייה הנחקרת. זה עשוי לקרות בטעות, כפי שקרה בסקר הבחירות בארה"ב ב-1936, או במודע, כפי שנעשה במחקר המדובר של משרד האוצר. מסגרת דגימה לא ראויה עלולה לגרום לייצוג יתר של חלק מהאוכלוסייה, וייצוג חסר של חלקים אחרים. ייתכן גם כי יידגמו פרטים שאינם נכללים באוכלוסייה (למשל, נער בן 16 העונה לסוקר טלפוני לשאלה בעד מי יצביע בבחירות הקרובות).

גם כאשר בונים היטב את מסגרת הדגימה, המדגם שמתקבל עשוי להיות מוטה ובלתי מייצג עקב שיעורי השתתפות נמוכים של הנדגמים במדגם עצמו.

מדגם נוחות, בו החוקר בוחר את המדגם באופן הנוח לו (למשל, חוקר באוניברסיטה שבמחקר שלו משתתפים הסטודנטים שלו) הוא מתכון כמעט בטוח למדגם לא מייצג.

שליחת שאלונים לכל מי שאפשר (כמו בבחירות 1936 בארצות הברית) גורמת בדרך כלל גם היא לחוסר ייצוג. לפרטים שונים באוכלוסייה יש הסתברויות שונות להכללות במדגם, אולם איש אינו יודע מה ההסתברויות האלה, ולכן אין אפשרות סבירה לסיכום התוצאות.

מדגם המבוסס על מתנדבים יביא גם הוא לחוסר ייצוג, כפי שלמדנו מהמקרה של אן לנדרס. אנשים המעוניינים להיות חלק מהמדגם (נניח, מוכנים להשיב לסקר כלשהו) שונים באופן מהותי מאלה שאינם מעוניינים. זו בעיה די שכיחה בטכניקה של הפצת שאלונים באינטרנט, למשל.

המתודולוגיה של הפצת שאלונים (כיום בעיקר דרך האינטרנט) כאשר מצורפת אליהם הבקשה "אנא שתפו עם חבריכם" ידועה בשם "מדגם כדור השלג". מספר ראשוני קטן של נדגמים מפיצים את השאלון בקרב חבריהם, ואלה בתורם מפיצים את השאלון הלאה. התוצאה: הנדגמים יהיו כולם שייכים לרשת חברתית מסויימת, שקרוב לוודאי תהיה שונה באופן מהותי מכלל האוכלוסייה ולא תייצג אותה.

לסיכום – יש להחליט על הדרך בה ייאספו הנתונים שישמשו לאחר מכן כבסיס לניתוח סטטיסטי בכובד ראש, וזאת כדי להמנע מהכשלים והבעיות שנימנו כאן. מדגם לא מייצג יוביל כמעט תמיד לתוצאות לא תקפות.

 


רשימות נוספות בסדרה:


הערות
  1. למשל נתוני השכר של כל אזרחי מדינת ישראל []
  2. גם אז הם דגמו יותר עשירים באופן שיטתי []
  3. טראמפ ניצח, לידיעת מי שהדחיק []
  4. הנתון הידוע, הטוען כי שיעור ההומוסקסואלים ו/או לסביות באוכלוסייה הוא 10%, הגיע מחישוב הממוצע של 7 ו-13 []
  5. שלא היו מספיק אמיצים כדי לחתום על המחקר בשמם []

סטטיסטיקה רעה: p-Hacking

p-hacking[1] היא הפרקטיקה של חתירה לתוצאה מובהקת, ובאמירה פופולרית "לענות את הנתונים עד שיודו". לעיתים הדבר נעשה מחוסר מודעות, ולעיתים בכוונה תחילה.

יש הרבה דרכים להגיע לתוצאה מובהקת. אפשר לנסות לנתח את הנתונים בכל מיני שיטות סטטיסטיות. אפשר לאסוף נתונים, לנתח אותם, ואז לפרסם אם מתקבלת תוצאה מובהקת, ואם לא, לאסוף עוד נתונים בתקווה שהתוצאה תהפוך למובהקת. אפשר לבדוק הרבה השערות, בייחוד אם אוספים נתונים על הרבה משתנים. ככל שבודקים יותר השערות, עולה הסיכוי כי לפחות אחת מהן תהיה מובהקת. אם משתמשים במודל רגרסיה כלשהו אפשר להוסיף למודל משתנים מסבירים (covariates) או להסיר אותם, עד שמתקבלת תוצאה מובהקת. אפשר לנסות מספר טרנספורמציות של המשתנים בתקווה שתתקבל תוצאה מובהקת. אפשר גם לזרוק מהנתונים תצפיות "לא מתאימות", לאחר הניתוח הראשוני של הנתונים. אפשר כמובן, לצרף כמה שיטות יחד, ואף לנסות את כולן.

אי אפשר להכחיש את קיומה של התופעה, בייחוד בתחום המחקר האקדמי, שם קיים לחץ על החוקרים לפרסם תוצאות מובהקות[2] כדי להתקדם בתוך המערכת האקדמית. יש הטוענים כי התופעה קיימת במידה מסויימת גם במגזר העסקי, שם עלול להיות לחץ על עובדים להשביע את רצון ההנהלה או הלקוחות. עם זאת, קשה להשיג נתונים מהם יהיה אפשר לעמוד על היקף הבעיה במגזר העסקי, וזאת בניגוד למה שקורה במחקר האקדמי.

אולם לפני שנתאר את היקף הבעיה, נראה מספר דוגמאות.

האם ידעתם ששוקולד מריר הוא תוסף תזונה בריא שתורם לירידה במשקל? הנה לינק למחקר שנערך בגרמניה שהוכיח זאת. נערך ניסוי קליני, ובו, לאחר בדיקה של ההיסטוריה הרפואית שלהם, מילוי שאלון רפואי וביצוע מספר בדיקות, חולקו הנבדקים לשלוש קבוצות באופן אקראי. קבוצה אחת הושמה לטיפול של דיאטה דלת פחמימות. הקבוצה השנייה הושמה אף היא לדיאטה דלת פחמימות, אך גם הונחתה לאכול כ-40 גרם שוקולד מריר בכל יום. הקבוצה השלישית הייתה קבוצת הביקורת. הנבדקים בקבוצה זו הונחו להמשיך בהרגלי התזונה שלהם ללא כל שינוי. הנבדקים שקלו את עצמם כל יום ודיווחו את המשקל לעורכי הניסוי. הניסוי נמשך 21 יום, ובסופם חזרו הנבדקים אל עורכי הניסוי, מילאו שוב את השאלון הרפואי וחזרו על הבדיקות שעשו בתחילת הניסוי.

התוצאות? בקבוצת הביקורת שינוי המשקל הממוצע היה בערך 0, כצפוי. בשתי הקבוצות האחרות הייתה ירידת משקל ממוצעת של כ-2.3 ק"ג. בקבוצת השוקולד קצב הירידה במשקל (כפי שהתבטא בדיווחים היומיים) היה מהיר יותר בכ-10%. בקבוצת השוקולד נצפתה גם ירידה משמעותית ברמת הכולסטרול!

מה קרה פה? מי שהציץ בלינק כבר יודע שהמחקר תוכנן מראש כך שיביא ליתרון של קבוצת השוקולד על פני הקבוצות האחרות. קודם כל, מספר המשתתפים במחקר היה 16, 5 גברים ו-11 נשים. לכן בכל קבוצה היו 5-6 נבדקים. במדגם קטן יש שונות גבוהה, וכתוצאה מכך צפויות להתקבל תוצאות קיצוניות. זהו חוק המספרים הקטנים. כמו כן, נבדקו בניסוי הזה 18 משתנים שונים. אם רמת המובהקות (כלומר ההסתברות לתוצאה חיובית שגויה) של כל בדיקה היא 5%, ההסתברות כי תתקבל במקרה תוצאה חיובית היא מעל ל-60%.

המחקר הזה תוכנן מראש כדי לספק הדגמה לסרט דוקומנטרי על מדע-זבל בתעשיית הדיאטות. כל התרגיל שנעשה כאן הובא לידיעת הצופים כהמחשה לתוקף המפוקפק של ה-"תוצאות המוכחות מדעית" שמבטיחים יצרני דיאטות למיניהם.

עוד הדגמה ל-p-hacking ניתנה בכתב העת Psychological Science. בניסוי, שערכו החוקרים סימונס, נלסון וסימונסון (קישור למאמר – קובץ pdf),  היו שתי קבוצות נבדקים. לאחר מילוי שאלון, קבוצה אחת האזינה לשיר When I'm Sixty Four של הביטלס. הקבוצה השנייה נאלצה להאזין ל-Kalimba (ההאזנה לא מומלצת, ומייד תראו מדוע). לאחר ההאזנה כל נבדק התבקש למסור לחוקרים את תאריך הלידה שלו ואת גילו של אביו. נערך ניתוח ANCOVA בו המשתנה המוסבר היה גיל הנבדק, והמשתנים המסבירים היו גיל האב, והשיר לו האזין כל נבדק. התקבלה תוצאה מובהקת. ממוצע הגיל המותאם (adjusted) של הנבדקים בקבוצת הביטלס היה 20.1 שנה, ובקבוצת הקלימבה הגיל הממוצע היה 21.5 (p-value=0.040). האזנה לביטלס גורמת לאנשים להיות צעירים יותר. אני מדגיש: הנבדקים בקבוצת הביטלס לא הרגישו צעירים יותר. הם היו ממש צעירים יותר!

גם כאן עורכי המחקר חשפו את ה"סוד". המחקר נערך במספר שלבים. בכל פעם גוייסו למחקר 10 סטודנטים, הנתונים נותחו, ואז הוחלט אם להגדיל את גודל המדגם ב-10 נבדקים נוספים. כמו כן, פרט לתאריכי הלידה של הנבדקים וגילי האבות, נאספו עוד נתונים רבים אחרים, ונערכו ניתוחים רבים, עם כל מיני משתנים מוסברים ומשתנים מסבירים. הם היו חייבים למצוא משהו, עם כל הגמישות המחקרית שהרשו לעצמם. המאמר נועד, כמובן, לשמש כתמרור אזהרה לבעיות שנגרמות כאשר חוקרים מרשים לעצמם יותר מדי דרגות חופש. סימונס ועמיתיו הציעו שש דרישות שכל מחקר צריך לקיים, וארבע הנחיות לשופטים המחליטים האם מחקרים שמוצעים לכתב העת אכן ראויים לפרסום. אפרט את הדרישות וההנחיות ברשימה אחרת בהמשך סדרה זו.

אבל יש גם דוגמאות אמיתיות.

אנדרו גלמן מתאר בעיה של p-hacking על ידי בדיקת השערות מרובות[3] במאמר במגזין Slate. במאמר בכתב העת Psychological Science מדווחים החוקרים ביל וטרייסי כי נשים נוטות ללבוש בגדים אדומים או ורודים כאשר הן בשיא הפוריות (במהלך המחזור החודשי). מתברר כי בשאלון הוצעו 9 צבעים שונים מהן הנבדקות נתבקשו לבחור צבע אחד. החוקרים דיווחו כי הצבעים האחרים לא היו מובהקים סטטיסטית. בנוסף לכך, היו שתי הגדרות שונות לשיא הפוריות: ימים 0-5 של המחזור וימים 15-28. מכאן עולה כי הם בדקו 18 השערות שונות. ההסתברות לקבל לפחות תוצאה אחת מובהקת היא קצת יותר מ-60%. האם הדבר נעשה בכוונה או מחוסר מודעות? אין לדעת. מצד שני, המחקר הזה לא גורם לנזק.

בעיה של p-hacking תעלה ככל הנראה גם ממחקר ה-PURE. מדובר במחקר ענק שכבר הניב מספר מאמרים, ויניב בוודאי עוד. סביר להניח שתוצאות לא מובהקות לא יפורסמו. (בעיה זו ידועה כאפקט המגירה). כאן יש סכנה כי יפורסמו המלצות רפואיות בלתי אחראיות שיזכו לכותרות סנסציוניות בעיתונות (כמו ההמלצה לצרוך שומנים), וכמובן שתהיה לכך השפעה על בריאות הציבור.

עד כמה הבעיה חמורה? החוקרים יואנידס, סטנלי ודוקוליאגוס דיווחו בכתב העת היוקרתי Economic Journal באוקטובר 2017 כי בדקו כ-6700 מחקרים אקונומטריים. ליותר ממחציתם לא הייתה עוצמה סטטיסטית מספיקה, בלשון המעטה: העוצמה החציונית הייתה 18%. במילים אחרות, גדלי המדגמים היו קטנים מדי. חוק המספרים הקטנים פועל שוב: במדגמים קטנים יש יותר שונות, יותר תוצאות קיצוניות, וכשעורכים הרבה מחקרים קטנים מקבלים הרבה תוצאות מובהקות. נשיא אוניברסיטת דיוק, קמפבל הארווי, שהינו גם נשיא האיגוד האמריקני לכלכלה פיננסית, התריע בהרצאתו בינואר 2017 על התפשטות תופעת ה-p-hacking בתחום הכלכלה הפיננסית, וזאת גם במגזר העסקי. כאן יש סכנה שהפרקטיקה תתפשט מהמחקר אל היישומים, ותגרום לתוצאות פיננסיות הרות אסון.

החוקרים הד, הולמן, לנפיר, קאהן וג'ניוס ניסו לבדוק עד כמה התופעה של p-hacking נפוצה בתחום מדעי החיים ומהן ההשלכות הנובעות מכך.  בעזרת שימוש בשיטות של text-mining במאגר PubMed, ועל ידי שימוש בכלי p-curve הם הגיעו למסקנה כי התופעה של p-hacking  על ידי איסוף נתונים עד שמתקבלת תוצאה מובהקת נפוצה למדי. החדשות הטובות הן שלדעתם התופעה אינה משפיעה ככל הנראה באופן דרסטי על מסקנות מדעיות המתקבלות על ידי מטה-אנליזה.

גם בתחום הפסיכולוגיה המצב לא מזהיר. במחקר שפורסם ב-2012 על ידי ג'ון, לוונשטיין ופרלק, פנו השלושה ישירות אל כ-6000 חוקרים אקדמיים בתחום, וביקשו מהם לענות על שאלון שעסק בפרקטיקות מחקריות .כ-2100 חוקרים נענו, אך 700 מהם ענו רק על חלק מהשאלון. התוצאות עגומות: כ-65% הודו כי הם לא פירטו את כל משתני המחקר במאמר שביקשו לפרסם. קרוב ל-60% החליטו לאסוף עוד נתונים לאחר שניתחו את הנתונים שנאספו. כ-27% לא דיווחו על כל פרטי תכנון הניסוי. כ-20% הפסיקו לאסוף נתונים במהלך הניסוי כאשר התברר להם כי בנתונים החלקיים יש תוצאות מובהקות. מעל ל-20% עיגלו את ה-p-value (למשל דווחו על ערך של 0.054 כקטן מ-5%). כמחצית מהמשיבים דיווחו באופן סלקטיבי רק על מה ש-"עבד". כ-40% השמיטו תצפיות מבסיס הנתונים לאחר שבדקו את ההשפעה של השמטת הנתונים על התוצאות. כ-30% דיווחו במאמרים על תוצאות בלתי צפויות כאילו הן נחזו בתחילת המחקר. עם זאת, רק אחוזים בודדים הודו כי טענו שהתוצאות אינן מושפעות ממשתנים דמוגרפיים כאשר לא היו בטוחים בכך, או כאשר אכן ידעו כי יש השפעה כזו. כאחוז מהמשיבים הודו כי זייפו נתונים.

ברגולציה של התעשייה הפרמצבטית יש, לעומת זאת, הנחיות ברורות למניעת p-hacking, לפחות בשלבי הפיתוח. רמת המובהקות (ההסתברות לדחייה מוטעית של השערת האפס) במקרה של השערות מרובות נשמרת בקפידה. אין אפשרות לאסוף נתונים עד לקבלת תוצאה מובהקת. תהליך איסוף הנתונים מוגדר מראש ויש למלא אותו בקפדנות. אמנם ניתן בתנאים מסויימים להביט בנתונים שנאספו במהלך הניסוי (תהליך זה נקרא ניתוח ביניים – interim analysis), אך רק אם האפשרות הזו צויינה מראש בפרוטוקול הניסוי, והניתוח נעשה באופן שההסתברות לטעות מסוג ראשון לא תעלה על הערך המותר של 5%. יתר על כן, כדי למנוע הטיות, ניתוח הביניים נעשה על ידי ועדה בלתי תלויה המורכבת מאנשי מקצוע שאינם עובדים בחברת התרופות. ההנחה היא כי אנשים אלה לא יסכנו את יוקרתם המקצועית למען האינטרס של החברה. לחברה נמסרת רק השורה התחתונה של הניתוח (בדרך כלל המלצה להמשיך את הניסוי כמתוכנן או להפסיק אותו בטרם עת).

בשלבי המחקר, לעומת זאת, אפשרות של p-hacking בהחלט קיימת. זה עלול לנבוע מהשערות מרובות, למשל כאשר נבחנות מולקולות רבות בעלות פוטנציאל תרפויטי, ומעוניינים לגלות את המולקולה "הטובה ביותר". כמו במחקר אקדמי, יש בהחלט גם בחברות התרופות (ובחברות מסחריות בכלל) אנשי מחקר שמעוניינים להציג הישגים, גם במחיר של חתירה לתוצאה מובהקת.

לסיכום, תמונת המצב היא עגומה. זוהי כנראה הבעיה הקשה ביותר בקרב המשתמשים בסטטיסטיקה, וללא ספק יש לבעיה זו חלק נכבד במשבר השחזוריות העובר כעת על הקהילה המדעית.

אני מקווה שהקוראים שלי ילמדו ממה שתואר כאן מה אסור לעשות במחקר, ולא יאמצו את הפרקטיקות הבעייתיות שתוארו כאן.


רשימות נוספות בסדרה:


הערות
  1. אשמח להצעות לתרגום לעברית []
  2. שגם צריכות להיות משמעותיות, אבל בעניין הזה כבר דנו []
  3. ביחד עם בעיות אחרות []