חיפוש באתר

קישורים

RSS סטטיסטיקה ברשת

עמודים

קטגוריות

תגיות

ארכיב עבור 'מה אומרת הסטטיסטיקה'

סטטיסטיקה רעה: לא לתכנן

"לקרוא לסטטיסטיקאי לאחר שהניסוי התבצע זה כמו לבקש ממנו לבצע ניתוח שלאחר המוות. לכל היותר הוא יוכל לומר מה הייתה סיבת המוות" – רונלד פישר.

כשמדברים בסטטיסטיקה על תכנון, מדברים בדרך כלל על תכנון ניסויים.[1] קשה להביא דוגמאות למקרים של כשלים בתכנון ניסויים, כי הכשלים בדרך כלל מובילים לכישלון, וכישלונות בדרך כלל נזרקים לפח האשפה. הכישלונות עלולים להיות צורבים. זה לא נעים לראות ניסוי קליני שנכשל (אם כי במקרים כאלה יש בדרך כלל סיבות רבות לכישלון, מעבר לבעייתיות אפשרית בתכנון הסטטיסטי). כשל וכישלון בניסוי במעבדה עלול להוביל להחמצה של תגלית חשובה, או להשקעה מיותרת. מתכנון לקוי של ניסויים עלולים לנבוע תהליכי ייצור לא אופטימליים, וגם החלטות שיווקיות לא נכונות. יכולות להיות גם השלכות בטיחותיות (רכב אוטונומי, מישהו?) או השלכות על בריאות הציבור.

לא אדון כאן בכל התורה המורכבת של תכנון ניסויים. כדי לראות את קצה קצהו של הקרחון יש צורך בקורס שלם. אתם מוזמנים לעיין במצגת שלי שעוסקת בנושא תכנון הניסויים בזעיר אנפין, בעיקר מנקודת המבט של התעשייה הפרמצבטית.

בגדול, התהליך של תכנון ניסוי כולל מספר רב של שלבים, וביניהם: החלטה על מטרת הניסוי, החלטה אלו פרטים יהוו את אוכלוסיית הניסוי (חיות? ואם כן, איזה חיה? בני אדם? תרביות תאים? ריאקציות כימיות? גולשים באתר? תצלומים שיש לזהות בהם תבניות, כגון האם רואים בתצלום חתול?), לקבוע מה יהיו משתני הניסוי, לבדוק האם יש אפשרות ליחסי גומלין בין משתני הניסוי, להחליט איזו תגובה או תגובות ימדדו, להחליט איזו אינפורמציה לאסוף מעבר למשתני הניסוי ומשתני התגובה (למשל משתני בסיס, או משתנים מתערבים (confounding) פוטנציאליים שעשויים להשפיע גם על המשתנה התלוי – התגובה, וגם על משתני הניסוי), להחליט איך לאסוף את האינפורמציה, לקבוע את דרך הבקרה של הניסוי, להחליט האם תהיה סמיות, לקבוע היכן ומתי ייערך הניסוי ומי יבצע אותו, לקבוע את גודל המדגם, להחליט האם לבצע רנדומיזציה, ואם כן איך, לצפות תרחישים אפשריים למהלך הניסוי ולהחליט מראש כיצד להתמודד איתם, לתכנן את הניסוי כך שיאפשר הסקת מסקנות כלליות (external validity), להחליט על השיטות הסטטיסטיות שבעזרתן ינותחו הנתונים של הניסוי[2], ועוד הרבה החלטות אחרות.

בכל אחת מההחלטות שצריך לקבל בתהליך התכנון יש פוטנציאל לכשל או לכשלים, ותאמינו לי, ראיתי את כולם. אתמקד כאן רק במספר כשלים עיקריים.

כשל הגדול מכולם הוא, כמובן, להתחיל את הניסוי לפני שיש תשובות ברורות לכל השאלות האלה, ולפני שהתקבלו כל ההחלטות.[3] גם אם התקבלו כל ההחלטות הרלוונטיות, יש לפרט אותן בפרוטוקול הניסוי, אותו יש לכתוב, שוב, לפני תחילת הניסוי. הפרוטוקול הוא חלק מהתכנון.

הכשל העיקרי השני הוא גודל מדגם לא מתאים. גודל מדגם אמור להיקבע על ידי לקיחה בחשבון של מספר גורמים: ההסתברויות הרצויות לטעויות (False Positive  ו-False Negative), איזה גודל אפקט ייחשב למשמעותי, ומה רמת אי הודאות הצפויה, כלומר השונות של הנתונים שייאספו. כמו כן, יש לקחת בחשבון כמובן את השיטה בה ייערך הניסוי[4]. מניסיוני, הבעיה העיקרית היא בהערכת השונות. לחוקרים לא תהיה בעיה להגיד מה ההסתברויות לטעות המקובלות עליהם[5], ולאחר לחץ פיזי מתון גם יאמרו לך מה לדעתם ייחשב לאפקט משמעותי. לגבי הערכת השונות יש אכן בעיה שהסטטיסטיקאי צריך להתמודד איתה. לעיתים השונות נקבעת על ידי הפרמטר[6]. במקרים אחרים יש לערוך מחקר בפרסומים אודות ניסויים דומים בספרות המדעית. האפשרות הטובה ביותר היא להשתמש בנתונים של ניסויים דומים קודמים שביצע אותו החוקר.

בקביעת גודל המדגם (ולא רק שם) יש לשקול גם שיקולים אתיים. למשל, ניסוי בחיות (וגם בבני אדם, בעצם) ייחשב ללא אתי אם גודל המדגם קטן מדי ולכן בעל עצמה סטטיסטית נמוכה – חייהן של החיות יוקרבו לשווא. יש דרכים סטטיסטיות להקטין את מספר החיות בהן ישתמשו בניסוי, וסטטיסטיקאי טוב יוכל להמליץ עליהן.

הכשל העיקרי השלישי הוא התעלמות מאינטראקציות – כלומר התעלמות מיחסי הגומלין בין המשתנים השונים. זהו כשל נפוץ ביותר, וראיתי אותו מתרחש במספר רב של יישומים.

הנה דוגמא (מלאכותית) פשוטה אך ארוכה.

שיטת המחקר העוברת בין הדורות של החוקרים המדעיים היא OFAT, כלומר One Factor At a Time. בכל קובעים את ערכם של כל המשתנים העשויים להשפיע על התוצאה פרט למשתנה אחד, שאת ערכו משנים. מה לא בסדר?

מהנדס כימיה רוצה לכוונן שני גורמים המשפיעים על התפוקה של תהליך כלשהו: משך הזמן של הריאקציה, שיכול לנוע בין 60 ל-180 דקות, והטמפרטורה בה היא מתבצעת, שיכולה לנוע בין 21 ל-25 מעלות. הוא עורך סדרה של 5 ריאקציות בהן הטמפרטורה קבועה על 22.5 מעלות, ובודק את ההשפעה של משכי זמן שונים על התהליך. הוא מגיע למסקנה כי התפוקה הגבוהה ביותר, כ-75 גרם, מתקבלת כאשר משך זמן הריאקציה היה 130 דקות.

 

עכשיו המהנדס שלנו עורך סדרה שניה של עוד 5 ריאקציות, בהן משך זמן הריאקציה קבוע ל-130 דקות, ובודק את התפוקה בטמפרטורות שונות. תוצאת הניסויים: התפוקה הגבוהה ביותר, גם כאן כ-75 גרם, כאשר הטמפרטורה היא 22.5 מעלות.

 

המסקנה של המהנדס: תהליך הייצור האופטימלי הינו כאשר טמפרטורת הריאקציה היא 22.5 מעלות ומשך הזמן של הריאקציה הוא 130 דקות, והתפוקה המקסימלית היא כ-75 גרם. האם המסקנה נכונה? ייתכן מאוד שלא, כיוון שסביר מאוד להניח כי יש יחסי גומלין בין המשתנים.

בדוגמא שלנו המצב הוא כפי שהגרף הבא מראה. התפוקה תהיה מקסימלית כאשר הטמפרטורה היא 25.5 מעלות, ומשך הזמן הוא כ-70 דקות. התפוקה בתנאים האלה תהיה כ-91 גרם, שיפור של למעלה מ-20%.

 

אילו נועץ המהנדס בסטטיסטיקאי טוב, הוא היה מציע לו לערוך סדרה של ארבע ריאקציות, בהם ישתנו גם הטמפרטורה וגם משך הזמן של הריאקציה. הריאקציה הראשונה, למשל, תהיה בטמפרטורה של 22 מעלות ומשך הזמן יהיה 120 דקות, הריאקציה השנייה תהיה גם היא בטמפרטורה של 22 מעלות אך עם משך זמן של 150 דקות, וכן הלאה. תכנון כזה יראה, בתנאי הדוגמא, כי הורדת משך הזמן ביחד עם העלאת הטמפרטורה מגדילה את התפוקה.

 

שימו לב גם כי התהליך של המהנדס היה בזבזני: הוא ביצע 10 ריאקציות והגיע לתוצאה פחות טובה ממה שיכול היה לעשות בארבע ריאקציות בלבד. את התכנון שהציע הסטטיסטיקאי ניתן להכליל למספר רב יותר של משתנים[7]

כשל נוסף ובעייתי מאוד, הוא שינוי תנאי הניסוי במהלכו, וכן, זה קורה הרבה פעמים. אמנם אפשר לשנות את תנאי הניסוי בתנאים מסויימים, אך יש להגדיר מראש בפרוטוקול הניסוי באלו מצבים אפשר לשנות את תנאי הניסוי, איזה שינוי יבוצע (אם יבוצע), ומהם הקריטריונים לפיהם ייקבע האם יש לבצע את השינוי. כמובן שיש לקחת בחשבון את ההשלכות של שינוי כזה על שאר הפרמטרים של הניסוי.

לסיכום, תכנון ניסוי הוא דבר מסובך, ויש להיעזר באנשי מקצוע במהלך התכנון (סטטיסטיקאי, ובדרך כלל גם אנשי מקצוע נוספים). תכנון לקוי יוביל במקרה הטוב לבזבוז משאבים, ובדרך כלל לתוצאות חמורות בהרבה.

 


רשימות נוספות בסדרה:


הערות
  1. תכנון איסוף הנתונים ותכנון הניתוח הסטטיסטי הם חלק מתהליך תכנון הניסוי. []
  2. בהנחה שלא מתכננים לבצע p-hacking, כמובן []
  3. זה קורה באמת. ראו את הרשימה שלי על הסטטיסטיקה בתעשייה. []
  4. כגון: שתי קבוצות מקבילות, תכנון של לפני-אחרי, וכדומה []
  5. אפס, כמובן []
  6. לדוגמא, אם מדברים על תדירות של אירועים בתהליך פואסון, אז השונות נגזרת ישירות מהתדירות המשוערת []
  7. אני תכננתי פעם ניסוי עם 8 משתנים, כאשר לכל משתנה יש שתי רמות אפשריות, סה"כ 256 אפשרויות, אם אכן מנסים את כל האפשרויות. יש דרכים לצמצם את מספר האפשרויות, אם מוכנים לוותר על חלק מהאינפורמציה, כמו למשל אינטראקציות מסדר גבוה []

סטטיסטיקה רעה: מדגם לא מייצג

הסטטיסטיקה מבוססת על מדגמים. מדגם לא מייצג מוביל בדרך כלל להטיה בנתונים הנאספים ולמסקנות שאינן תקפות.

לרוב אין זה מעשי לאסוף את כל הנתונים הדרושים למחקר מסויים[1], ולכן יש להסתפק במדגם – כלומר בנתונים חלקיים. המדגם צריך לאפשר הסקה לגבי כלל הנתונים. אם המדגם אכן מאפשר זאת, המדגם הוא מייצג. מדגם לא מייצג, ברוב המקרים, לא מאפשר הסקה אמינה.

במקום לתת הסברים טכניים, אציג כאן מספר דוגמאות. רובן עוסקות בסקרים, אך הבעיות עלולות לצוץ בכל מיני יישומים אחרים (למשל דגימה של מוצרים מפס הייצור לצורך בקרת איכות, או ביצוע AB testing בקרב משתמשים, למשל עלי ידי הכללה של משתמשים חדשים בלבד).

נתחיל בסקרי בחירות. שתי דוגמאות מפורסמות הן סקרי הבחירות לנשיאות ארצות הברית ב-1936 (רוזוולט נגד לנדון) וב-1948 (טרומן נגד דיואי) .

ב-1936 ערך העיתון Literary Digest סקר שהקיף 2.4 מיליון משתתפים. זהו הסקר הגדול ביותר שנערך אי פעם. למעשה נשלחו 10 מיליון שאלונים, אך רק רבע מהנמענים השיבו. הסקר חזה ניצחון מוחץ ללנדון, אך רוזוולט הוא זה שנבחר. התברר שהמדגם לא היה מייצג. במדגם היו שתי בעיות. השאלונים נשלחו לאנשים שהופיעו ברשימות של חברי מועדונים ו/או בספרי טלפונים. ב-1936, רוב מוחלט של האנשים האלה היו עשירים. הסקר דגם אנשים עשירים באופן שיטתי. אנשים עשירים תמכו בלנדון. העניים, שהיו רבים יותר מן העשירים, תמכו ברוזוולט. בעיה נוספת בסקר הייתה שכשלושה רבעים מהאנשים אליהם נשלחו השאלונים לא השיבו. האנשים שלא השיבו שונים מאלה שהשיבו (הם הרי לא השיבו). ייתכן מאוד כי הם נבדלו מהמשיבים גם בהעדפותיהם הפוליטיות.

יש לציין כי סקרים קודמים שהעיתון ערך בשיטה זו חזו את המנצחים בבחירות, למרות שהמדגמים לא היו מייצגים[2]. זה קרה מכיוון שהנושאים המרכזיים בבחירות קודמות היו מדיניים ולא כלכליים, ובנושאים אלה אין הבדלים מהותיים בין עניים ועשירים.

מסקנה חשובה מהסקר של 1936: מדגם גדול לא עוזר להתגבר על הטיה באיסוף הנתונים. להיפך – הוא מעצים את ההטיה.

עם זאת, היה מי שחזה היטב את התוצאות ששל הבחירות האלה – ג'ורג' גאלופ, והוא עשה זו בעזרת מדגם של 50,000 נסקרים בלבד. גאלופ השתמש בשיטת דגימה שנקראת Quota Sampling. הסוקרים שלו יצאו לשטח וראיינו בעלי זכות בחירה. כך נמנע חלק גדול מבעיית חוסר ההשבה. כמו כן, הסוקרים קיבלו הוראות מדוייקות איך לדגום את המרואיינים. למשל, סוקר שנשלח לראיין 13 איש, הונחה לראיין 7 גברים ו-6 נשים. את 7 הגברים היה עליו לבחור כך ש-3 מהם יהיו מתחת לגיל 40 ו-4 מעל גיל 40, וכולי. כך קיבל גאלופ מדגם שייצג את אוכלוסיית הבוחרים בכל הפרמטרים שלפיהם נבנתה תכנית הדגימה: מין, גיל ופרמטרים נוספים. השיטה הזו עבדה יפה עד 1948. ב-1948 חזה גאלופ, על פי השיטה הזו, כי בבחירות לנשיאות המועמד הרפובליקני, דיואי, יביס את המועמד הדמוקרטי, טרומן. טרומן ניצח. מה קרה פה? הוראות הדגימה לא כללו פילוח לפי העדפה מפלגתית – הרי זה מה שהסקר ניסה לחזות. התברר כי לסוקרים היה הרבה יותר נוח לדגום רפובליקאים (בלי שיהיו מודעים לכך, כמובן). הסקר היה מוטה לטובת הרפובליקאים.

מה קרה בבחירות 2016, בהן הסקרים והמודלים חזו כי הילארי קלינטון תנצח את טראמפ בבחירות לנשיאות?[3] התשובה עדיין לא ברורה. החיזוי נעשה על פי מודלים ששקללו מספר רב של סקרי בחירות, מעין מטה-אנליזה. המודלים האלה פותחו לקראת בחירות 2012, וחזו בדייקנות את נצחונו של אובמה על רומני. הם כשלו ב-2016. יש ויכוח בין המומחים האם המודל היה מוטה כבר ב-2012, וחזה את ניצחון אובמה למרות ההטיה, או שמא המודל נפל קורבן להטיה ספציפית ב-2016.

ראינו קודם בעיה בסקר שנגרמה, בין השאר, כיוון שרוב הנסקרים הפוטנציאליים לא השיבו לשאלות הסקר. יכולה להיות גם בעיה הפוכה – אנשים שנלהבים להשיב לסקר. כך, למשל, קרה לבעלת הטור אן לנדרס, ששאלה את קוראיה שהינם הורים לילדים שאלה פשוטה: "לו הייתם חיים שוב את חייכם, האם שוב הייתם מביאים ילדים לעולם?" (קישור לקובץ pdf). היא קיבלה כ-10000 תגובות לסקר. 70% אמרו שלא. בסקר דומה שנערך על ידי המגזין Good Housekeeping, מספר חודשים לאחר מכן, שיעור משיבי ה-"לא" היה 95%. אני חושב שכאן ברור שהמדגם לא מייצג. סביר להניח שציבור הקוראים אינו מייצג את כל האוכלוסייה (מדובר בטור במדור שמיועד לנשים, ובמגזין לנשים). כמו כן, המשיבים לסקר לא נדגמו מתוך האוכלוסייה הכללית. הם בחרו להשיב לסקר. ייתכן מאוד כי בעלי הדיעה הקיצונית, משיבי ה-"לא", היו נלהבים יותר להשיב לסקר.

דוגמה היסטורית נוספת – מחקריו של אלפרד קינזי על מיניות האדם. אני חושב שאין חולק על כך שקינזי היה פורץ דרך במחקר תחום שנחשב בזמנו לטאבו. גם ממצאיו האיכותניים עדיין נחשבים כמשמעותיים, גם כאשר עברו יותר מ-60 שנה מאז פירסם את הדו"ח שלו על מיניות האדם. עם זאת, שיטות המחקר שלו היו שנויות במחלוקת, בלשון המעטה. אני אתייחס כאן רק למחקר הכמותי שביצע. קינזי הכיר בקיומה של הומוסקסואליות, גם אצל גברים וגם אצל נשים, ואף הבחין כי מדובר ברצף, ובנה סולם בן 7 דרגות, כך שרמת הנטייה המינית של כל אדם מבוטאת על ידי דרגה בסולם, שעדיין נמצא בשימוש. שאלה מעניינת, עד עצם היום הזה, היא איזה אחוז מהאוכלוסייה נמצא בכל שלב של הסולם? הנמצאים בשתי הדרגות של הסולם נחשבים כהומוסקסואלים (או לסביות). קינזי הגיע למסקנה כי  13% מהנשים ו-7% מהגברים נמצאים בדרגות האלה.[4] אולם המדגם של קינזי לא היה מייצג, ככל הנראה במודע. היה בו ייצוג יתר לאסירים ולזונות ממין זכר. גם העובדה כי רוב הנסקרים (והנסקרות) שלו היו מתנדבים הפחיתה מרמת הייצוג של הסקרים שלו. עקב כך, ממצאיו הכמותיים שנויים במחלוקת.

הדוגמה האחרונה שאביא היא מהמחקר שפירסם משרד האוצר בשנת 2004 על מה שכינה "שכר המינימום ונזקיו". החלק הכמותי/אקונומטרי של המחקר עסק בנתונים מתקופה של 11 שנים, מ-1993 ל-2003, וזאת למרות ששכר המינימום הונהג בישראל בראשית שנות ה-70. ה-"מדגם" שלהם לא מייצג, וזה נעשה במודע. החוקרים[5] הסבירו כי "תקופת המדגם נבחרה כך שלא תכלול את השינויים המבניים הגדולים שהתרחשו בתחילת שנות ה-90". במילים אחרת, הם התעלמו במכוון מתקופה של כ-20 שנה בהן היה נהוג שכר מינימום, ומהתובנות שעשויות לעלות מהנתונים הכלכליים של התקופה ההיא. אפשר לחשוב על הרבה סיבות נוספות לבחירה שלהם, מלבד הסיבה שהם סיפקו. לא אכנס כאן לספקולציות. כמו כן, עדיין לא ניתן לקבוע בבירור האם הם צדקו במסקנותיהם. שכר המינימום כמעט ולא השתנה באופן ריאלי בין 2004 ל-2014. עם זאת, מאז 2014 חלה עליה ריאלית משמעותית בשכר המינימום, והאסונות שנחזו בדו"ח (שהיו אמורים להיות מיידיים) עדיין לא אירעו.

אז איך עורכים מדגם לא מייצג?

נסביר תחילה איך עורכים מדגם מייצג, כפי שמלמדים בקורס הבסיסי בדגימה בשנה ג' של לימודי הסטטיסטיקה. קודם כל צריכים לערוך רשימה של כל המועמדים להיכלל במדגם. זוהי מסגרת הדגימה. כעת אפשר לבחור את שיטת הדגימה.

הבסיס לכל השיטות היא דגימה הסתברותית – לכל פרט באוכלוסייה נקבעת ההסתברות כי ייכלל במדגם.

הדרך הפשוטה ביותר היא לערוך מדגם מקרי פשוט – לכל הפרטים יש את אותה ההסתברות להיכלל במדגם. כדי לקבוע מי יידגם, מכניסים לתוך כובע גדול פתקים, כשלכל פרט באוכלוסייה יש פתק עליו כתוב השם (או מזהה אחר) הפרט. מערבבים היטב את כל הפתקים, ומוציאים מהכובע מספר פתקים על פי גודל המדגם הדרוש. אפשר, כמובן, לבצע את התהליך הזה באופן ממוחשב.

יש וריאציות יותר מתקדמות. אם האוכלוסייה מתחלקת למספר שכבות אשר שונות זו מזו באופן מהותי (למשל דתיים וחילוניים), אפשר לבצע מדגם נפרד בתוך כל שכבה ולאחר מכן לשקלל את התוצאות. אם לעומת זאת, האוכלוסייה מורכבת מאשכולות אשר לא שונים זה מזה באופן מהותי (דוגמה היפותטית: אוכלוסיית הקיבוצים), אפשר לדגום רק מספר אשכולות (קיבוצים) מתוך רשימת הקיבוצים, ובעזרת מודל מתמטי לא מורכב להסיק ממדגם זה על האוכלוסייה כולה.

אבל יש גם דרכים לקבל מדגם לא מייצג. ציינתי חלק מהן בדוגמאות שהבאתי. אציין כמה מהשיטות הפופולריות.

המקרה הנפוץ הוא להשתמש במסגרת דגימה השונה באופן מהותי מהאוכלוסייה הנחקרת. זה עשוי לקרות בטעות, כפי שקרה בסקר הבחירות בארה"ב ב-1936, או במודע, כפי שנעשה במחקר המדובר של משרד האוצר. מסגרת דגימה לא ראויה עלולה לגרום לייצוג יתר של חלק מהאוכלוסייה, וייצוג חסר של חלקים אחרים. ייתכן גם כי יידגמו פרטים שאינם נכללים באוכלוסייה (למשל, נער בן 16 העונה לסוקר טלפוני לשאלה בעד מי יצביע בבחירות הקרובות).

גם כאשר בונים היטב את מסגרת הדגימה, המדגם שמתקבל עשוי להיות מוטה ובלתי מייצג עקב שיעורי השתתפות נמוכים של הנדגמים במדגם עצמו.

מדגם נוחות, בו החוקר בוחר את המדגם באופן הנוח לו (למשל, חוקר באוניברסיטה שבמחקר שלו משתתפים הסטודנטים שלו) הוא מתכון כמעט בטוח למדגם לא מייצג.

שליחת שאלונים לכל מי שאפשר (כמו בבחירות 1936 בארצות הברית) גורמת בדרך כלל גם היא לחוסר ייצוג. לפרטים שונים באוכלוסייה יש הסתברויות שונות להכללות במדגם, אולם איש אינו יודע מה ההסתברויות האלה, ולכן אין אפשרות סבירה לסיכום התוצאות.

מדגם המבוסס על מתנדבים יביא גם הוא לחוסר ייצוג, כפי שלמדנו מהמקרה של אן לנדרס. אנשים המעוניינים להיות חלק מהמדגם (נניח, מוכנים להשיב לסקר כלשהו) שונים באופן מהותי מאלה שאינם מעוניינים. זו בעיה די שכיחה בטכניקה של הפצת שאלונים באינטרנט, למשל.

המתודולוגיה של הפצת שאלונים (כיום בעיקר דרך האינטרנט) כאשר מצורפת אליהם הבקשה "אנא שתפו עם חבריכם" ידועה בשם "מדגם כדור השלג". מספר ראשוני קטן של נדגמים מפיצים את השאלון בקרב חבריהם, ואלה בתורם מפיצים את השאלון הלאה. התוצאה: הנדגמים יהיו כולם שייכים לרשת חברתית מסויימת, שקרוב לוודאי תהיה שונה באופן מהותי מכלל האוכלוסייה ולא תייצג אותה.

לסיכום – יש להחליט על הדרך בה ייאספו הנתונים שישמשו לאחר מכן כבסיס לניתוח סטטיסטי בכובד ראש, וזאת כדי להמנע מהכשלים והבעיות שנימנו כאן. מדגם לא מייצג יוביל כמעט תמיד לתוצאות לא תקפות.

 


רשימות נוספות בסדרה:


הערות
  1. למשל נתוני השכר של כל אזרחי מדינת ישראל []
  2. גם אז הם דגמו יותר עשירים באופן שיטתי []
  3. טראמפ ניצח, לידיעת מי שהדחיק []
  4. הנתון הידוע, הטוען כי שיעור ההומוסקסואלים ו/או לסביות באוכלוסייה הוא 10%, הגיע מחישוב הממוצע של 7 ו-13 []
  5. שלא היו מספיק אמיצים כדי לחתום על המחקר בשמם []

סטטיסטיקה רעה: לקבל את השערת האפס

בתהליך הסטטיסטי של בדיקת השערות מוצבות זו מול זו שתי השערות. ההשערה הבסיסית, המכונה השערת האפס, מתארת את הידע הקיים (ידע מדעי או אחר), ומולה ניצבת השערה אלטרנטיבית, המייצגת תיאוריה חדשה. כדי להוכיח כי התיאוריה החדשה נכונה, על החוקר להציג ראיות מובהקות ומשמעותיות שיביאו לדחיית השערת האפס לטובת ההשערה האלטרנטיבית.

מה קורה אם אין ראיות מובהקות? האם ניתן להסיק מכך שהשערת האפס נכונה? ממש לא. הטענה כי השערת האפס נכונה רק בגלל שלא הצלחנו להפריך אותה היא כשל לוגי הידוע בשם "אד איגנורנטיאם" – טיעון מן הבורות. וכפי שאמר קארל סאגאן: "Absence of evidence is not evidence of absence"[1] . כאשר אין עדויות לטובת התיאוריה החדשה, עדיין אי אפשר לראות בכך עדות לנכונות התיאוריה הישנה.

 

 

 

 

 

מה צריך לעשות כדי להראות כי השערת האפס נכונה? יש להחליף בין ההשערות. הפרוצדורה הזו נפוצה בתעשייה פרמצבטית. כדי להראות כי תרופה נתונה שקולה לתרופה אחרת (במובן שמוגדר מראש, כמו אפקט קליני, או במקרים של תרופה גנרית, פרמטרים פרמקוקינטיים), יש לערוך ניסוי bioequivalence – שקילות ביולוגית. השערת האפס מניחה כי התרופות שונות זו מזו, ומטרת הניסוי היא, כמו תמיד, להביא עדויות סטטיסטיות נגד השערת האפס, ואם השערת האפס נדחית ניתן לקבל את הקביעה כי שתי התרופות שקולות.

למרות שתוצאות לא מובהקות בדרך כלל לא מתפרסמות, עדיין תוכלו למצוא את הכשל הזה במקומות רבים, ומישהו אפילו טען כי הדבר לגיטימי[2]. חיפוש בגוגל אחרי הביטוי "There was no difference"  באתר https://www.ncbi.nlm.nih.gov  מצא כ-1000 מאמרים שהתפרסמו החל מ-2010 ועד סוף 2017 שהכילו בתוכם את הביטוי הזה, וברבים מהם צורף לטענה p-value, שערכו כמובן גדול מ-5%. אין לדעת מתי החוקרים מרימים ידיים כאשר לא הצליחו לדחות את השערת האפס, ומסיקים כי היא נכונה. השאלה החשובה היא אם הם מושכים את הכתפיים מכיוון שממילא הם לא מייחסים לכך משמעות, או קופצים למסקנות על סמך ההנחה המוטעית כי כישלונם לדחות את השערת האפס מבטא עובדה בעלת משמעות.

כישלון לדחות את השערת האפס יכול לנבוע מגורמים רבים: תכנון לא נכון של הניסוי, עצמה סטטיסטית נמוכה, או אפקט קטן ובלתי משמעותי. קשה בדרך כלל לדעת מהי הסיבה. עם זאת, אפשר (ולא קשה) לתכנן ניסוי בצורה טובה, ובעל עצמה מספקת כדי לדחות את השערת (או השערות) האפס שהינן בעלות חשיבות.

לסיכום: כישלון לדחות את השערת האפס לא מוכיח כי היא נכונה. אנחנו אמנם ממשיכים להאמין כי היא נכונה, כיוון שהיא מייצגת את הידע הקיים, אבל יש כמובן הבדל גדול בין הוכחה לאמונה.


רשימות נוספות בסדרה:


הערות
  1. אני לא מצליח לתרגם אמירה קולעת זו לעברית בצורה מניה את הדעת []
  2. קישור למאמר משנת 1995 []

סטטיסטיקה רעה: אי אבחנה בין מתאם לסיבתיות

בנושא המתאם והסיבתיות דנתי רבות[1]. יש הרבה דוגמאות משעשעות: מתאם בין יבוא לימונים לבטיחות בדרכיםבין צבעה של מכונית והסיכוי כי תהיה מעורבת בתאונת דרכים, ובין מחזורי הירח ומחירי המניות. קוריוזים כאלה בדרך כלל לא גורמים נזק[2]. אף אחד לא יציע להטיל מגבלות על יבוא לימונים, או לצבוע מכוניות שחורות בצבע אחר. למעוניינים יש אתר שלם וספר שעוסק בכך.

ברשותכם אעבור לדוגמאות יותר רציניות.

דוגמא מפורסמת קשורה לגדול הסטטיסטיקאים, רונלד פישר, שהיה מעשן כבד. באמצע שנות החמישים של המאה העשרים, התגלו המתאמים הראשונים בין העישון ובין הסיכוי לחלות בסרטן הריאות. תלמידיו של פישר פנו אליו, וביקשו ממנו שינסה לעשן פחות למען בריאותו. הם נימקו את בקשתם במתאם הסטטיסטי שזה עתה התגלה. פישר דחה אותם, בנימוק שהמתאם עצמו אינו מראה סיבה ותוצאה, ואף הביע את דעתו זו בכתב העת החשוב Nature. ייתכן, אמר פישר, כי מחלת הסרטן גורמת בשלב הראשון של המחלה לצורך בניקוטין, המתבטא בכך שהחולה מעשן, ורק אחר כך מתפתחים הגידולים. פישר נפטר בשנת 1962. רק בשנות השבעים של המאה העשרים הוכיחו המדענים כי צריכה מוגברת של ניקוטין אכן גורמת לעליית הסיכון לחלות בסרטן הריאות.

טענה אחרת שהועלתה היא כי צמחונות אצל נערות בגיל ההתבגרות גורמת לאנורקסיה, וזאת על סמך מתאם גבוה בין שתי התופעות. ניתוח יותר זהיר הראה כי אורח חיים צמחוני לכשעצמו לא בהכרח גורם לאנורקסיה, אך בשילוב עם גורמי סיכון נוספים המחלה עלולה להתפתח.

הסקת סיבתיות עקב קיומו של מתאם עלולה בקלות להגיע לאבדן חיי אדם. הדוגמא המפורסמת ביותר (ואחת המזיקות ביותר) היא הטענה שחיסונים גורמים לאוטיזם, וזאת על פי מחקר גרוע במיוחד[3]. מאמר מאת אנדרו וייקפילד[4] , שפורסם בכתב העת Lancet בשנת 1998, הראה מתאם בין מתן חיסון MMR לילדים ובין אבחון אוטיזם אצל ילדים שחוסנו. זה הספיק כדי להצית תנועה רחבה של התנגדות לחיסונים, שקיימת עד היום. אי מתן חיסונים מוביל להתפרצות מגיפות ולמקרי מוות שהיו יכולים להימנע.

ב-2010 התפרסם מחקר שמצא כי צריכת חומצות שומניות כגון אומגה 3 יכולה להפחית את הסיכון להתקף לב. הטענה התבססה על מספר מחקרים תצפיתיים, וכן מספר ניסויי מעבדה. התברר כי לחומצות שומניות יש תכונות אנטי דלקתיות, וכי יש מתאם שלילי בין רמת הצריכה שלהן ובין רמת הטריגליצרידים בדם. כמו כן יש מתאם בין שלילי בין רמת הטריגליצרידים ובין הסיכון להתקף לב. מכאן הדרך קצרה להשערה כי צריכת חומצות שומניות תוביל להורדת הסיכון להתקף לב. זו תיאוריה יפה, אך היא מבוססת על מתאמים. היא התבררה כלא נכונה. בשנת 2013 התפרסמו התוצאות של מחקר קליני מבוקר, בו המטופלים צרכו, על פי הקצאה רנדומלית, שמן דגים (העשיר באומגה 3) או פלסבו. המחקר הראה כי אין עדות לאפקט חיובי של צריכת שמן דגים.

הדוגמא הטריה ביותר היא המחקר PURE, שתוצאותיו החלו להתפרסם לפני מספר חודשים. בין היתר, טענו החוקרים כי "יש מתאם גבוה בין צריכה גבוהה של פחמימות לשיעורי התמותה, בעוד שצריכת שומנים קשורה לשיעורי תמותה נמוכים". במחקר יש בעיות מתודולוגיות רבות המעמידות בספק רב את עצם קיומו של המתאמים המתוארים, אולם זה לא הפריע לעיתונים לצאת בכותרות כמו "שומן מפחית את הסיכון לתמותה", "שומן לא מזיק, הבעיה עם פחמימות", ו-"תזונה דלת שומן מעלה סיכון למוות מוקדם". שוב, פרשנות מוטעית של מתאם רשלני עלולה להביא להגברה של צריכת שומן, שתוביל לשיעורי תמותה גבוהים יותר ממחלות לב ומחלות נוספות.

כפי שכתב סטיבן ג'יי גולד בספרו The Mismeasure of Man: "ההנחה חסרת התוקף לפיה ממתאם נובעת סיבתיות היא ככל הנראה אחת מתוך שתיים או שלוש השגיאות החמורות ביותר והנפוצות ביותר בשיקול הדעת האנושי".


רשימות נוספות בסדרה:


הערות
  1. זה היה הפוסט הראשון שהופיע בנסיכת המדעים! []
  2. אם כי עלולים להיגרם הפסדים כספיים למי שישקיע את כספו על פי מחזורי הירח []
  3. שתוצאותיו התבררו לאחר מכן כמזוייפות, אבל גם אם היו אמיתיות לא היה ניתן להסיק מהן דבר []
  4. שהיה ד"ר לרפואה עד שרישיונו נשלל []

סטטיסטיקה רעה: פרשנות לא נכונה של ה-p-value ואי הבחנה בין תוצאות מובהקות לתוצאות משמעותיות

כבר הסברתי כאן באריכות מהו ה-p-value, ומה הוא לא. לא אחזור כאן על כל הפרשנויות המוטעות למשמעותו של ה-p-value, אך אציין את המובן מאליו – פרשנות לא נכונה של ה-p-value והתרכזות בלעדית בשאלה האם תוצאה היא מובהקת או לא, מהווה סטטיסטיקה רעה שעלולה להביא לתוצאות חמורות.

האיגוד האמריקני לסטטיסטיקה (ASA) פירסם בראשית 2016 הצהרה בדבר המובהקות הסטטיסטית ו-p-values ,[1] ובה מפורטים שישה עקרונות שישפרו את הביצוע והפרשנות של מחקרים כמותיים. ASA מציינים כי ה-p-value אמנם מספק הערכה עד כמה הנתונים אינם עולים בקנה אחד עם מודל סטטיסטי ספציפי, אך אינו מודד את ההסתברות כי השערת האפס נכונה[2] או את ההסתברות כי התוצאות התקבלו במקרה. ASA מבהירים כי אין להסיק מסקנות מדעיות, או לקבל החלטות עסקיות או החלטות בדבר מדיניות על סמך ה-p-value בלבד. ה-p-value  לכשעצמו אינו מדד טוב של ראיות (evidence) בעד או נגד השערה או מודל. וכמובן, מובהקות סטטיסטית אינה מעידה או מודדת את גודלו של האפקט הנצפה או חשיבותו.

הבאתי כאן בעבר מספר דוגמאות היפותטיות ואמיתיות בדבר פרשנות לקויה של p-values, והתעלמות מהמשמעות של האפקט הנצפה או חשיבותו. חברת תרופות עלולה להיאחז בתוצאה מובהקת של ניסוי קליני כדי להחליט על המשך הפיתוח של תרופה חסרת תועלת ולבזבז מאות מיליוני דולרים. חוקרים מכובדים פרסמו תוצאות מובהקות של מודל רגרסיה שהריצו, בלי להתייחס לכך שאין משמעות מעשית לתוצאות וגרוע מכך, לא שמו לב כי אחת התוצאות היא אבסורדית. חוקרים אחרים הגיעו למסקנה המובהקת כי במשפחות שבהן שלושה בנים, ההסתברות שהילד הרביעי יהיה גם הוא בן גבוהה יותר. המשמעות של התוצאה היא שכל שנתיים נולד בן אחד יותר ממה שהיה "צריך" להיות אילו ההסתברות לבן רביעי לא הייתה שונה, כלומר ההבדל בין ההסתברות התיאורטית וההסתברות הנצפית ללידת בן רביעי לא היה משמעותי.

אבל הבעיה היא ככל הנראה רחבה יותר וקיימת במחקרים בתחומים רבים.

ב-1996, החוקרים מקלוסקי וזיליאק בדקו 182 מחקרים שהתפרסמו בכתב העת American Economic Review בשנות ה-80 של המאה העשרים והשתמשו ברגרסיה ככלי ניתוח סטטיסטי. הם מצאו כי 70% מהמחקרים לא הבדילו בין מובהקות סטטיסטית למשמעות כלכלית. השניים מציינים גם כי ספרי הלימוד בכלכלה לא דנים בהבדל בין תוצאה מובהקת לתוצאה משמעותית.[3]  הם חזרו על המחקר כעבור עשר שנים, ומצאו כי לא חל שיפור. מתוך 137 מחקרים שפורסמו בשנות ה-90, 82% לא הבחינו בין מובהקות סטטיסטית ומשמעות כלכלית. מאחר ולכלכלנים יש השפעה רבה על החלטות בדבר מדיניות ציבורית, לסטטיסטיקה רעה כזו יש השפעה ישירה על כל אחד מאיתנו.

גם בתחום כלכלת הבריאות יש בעיה. הבלוגר סם ווטסון, אחד הכותבים בבלוג העוסק בכלכלת בריאות, סקר[4] את גיליון מאי 2017 של כתב העת Health Economics. בתשעת המאמרים שהופיעו בגיליון, הוא מצא שמונה מקרים בהם השתמשו ב-p-value באופן בלעדי כדי לקבוע האם קיים אפקט. וכאשר מיישמים סטטיסטיקה רעה לקביעת מדיניות ציבורית בתחום הבריאות, יש לכך השפעה על חיי אדם.

לסיכום: ה-p-value הוא כלי יעיל לבדיקת מובהקות סטטיסטית, כאשר שיטת ניתוח הנתונים ורמת המובהקות של הניתוח נקבעות מראש. עם זאת, ה-p-value אינו מדד טוב לטיבם של הנתונים (ראיות), לגודלו של האפקט הנצפה, משמועות או חשיבותו.

נסיים בדבריו של רון וסרשטיין: “The p-value was never intended to be a substitute for scientific reasoning" – ה-p-value מעולם לא נועד להיות תחליף לחשיבה מדעית.


רשימות נוספות בסדרה:


הערות
  1. קישור לקובץ pdf []
  2. אין דבר כזה []
  3. המצב בספרי הלימוד בסטטיסטיקה אינו טוב יותר, לצערי []
  4. אמנם באופן לא שיטתי []