חיפוש באתר

קישורים

RSS סטטיסטיקה ברשת

עמודים

קטגוריות

תגיות

סטטיסטיקה רעה: לקבל את השערת האפס

בתהליך הסטטיסטי של בדיקת השערות מוצבות זו מול זו שתי השערות. ההשערה הבסיסית, המכונה השערת האפס, מתארת את הידע הקיים (ידע מדעי או אחר), ומולה ניצבת השערה אלטרנטיבית, המייצגת תיאוריה חדשה. כדי להוכיח כי התיאוריה החדשה נכונה, על החוקר להציג ראיות מובהקות ומשמעותיות שיביאו לדחיית השערת האפס לטובת ההשערה האלטרנטיבית.

מה קורה אם אין ראיות מובהקות? האם ניתן להסיק מכך שהשערת האפס נכונה? ממש לא. הטענה כי השערת האפס נכונה רק בגלל שלא הצלחנו להפריך אותה היא כשל לוגי הידוע בשם "אד איגנורנטיאם" – טיעון מן הבורות. וכפי שאמר קארל סאגאן: "Absence of evidence is not evidence of absence"[1] . כאשר אין עדויות לטובת התיאוריה החדשה, עדיין אי אפשר לראות בכך עדות לנכונות התיאוריה הישנה.

 

 

 

 

 

מה צריך לעשות כדי להראות כי השערת האפס נכונה? יש להחליף בין ההשערות. הפרוצדורה הזו נפוצה בתעשייה פרמצבטית. כדי להראות כי תרופה נתונה שקולה לתרופה אחרת (במובן שמוגדר מראש, כמו אפקט קליני, או במקרים של תרופה גנרית, פרמטרים פרמקוקינטיים), יש לערוך ניסוי bioequivalence – שקילות ביולוגית. השערת האפס מניחה כי התרופות שונות זו מזו, ומטרת הניסוי היא, כמו תמיד, להביא עדויות סטטיסטיות נגד השערת האפס, ואם השערת האפס נדחית ניתן לקבל את הקביעה כי שתי התרופות שקולות.

למרות שתוצאות לא מובהקות בדרך כלל לא מתפרסמות, עדיין תוכלו למצוא את הכשל הזה במקומות רבים, ומישהו אפילו טען כי הדבר לגיטימי[2]. חיפוש בגוגל אחרי הביטוי "There was no difference"  באתר https://www.ncbi.nlm.nih.gov  מצא כ-1000 מאמרים שהתפרסמו החל מ-2010 ועד סוף 2017 שהכילו בתוכם את הביטוי הזה, וברבים מהם צורף לטענה p-value, שערכו כמובן גדול מ-5%. אין לדעת מתי החוקרים מרימים ידיים כאשר לא הצליחו לדחות את השערת האפס, ומסיקים כי היא נכונה. השאלה החשובה היא אם הם מושכים את הכתפיים מכיוון שממילא הם לא מייחסים לכך משמעות, או קופצים למסקנות על סמך ההנחה המוטעית כי כישלונם לדחות את השערת האפס מבטא עובדה בעלת משמעות.

כישלון לדחות את השערת האפס יכול לנבוע מגורמים רבים: תכנון לא נכון של הניסוי, עצמה סטטיסטית נמוכה, או אפקט קטן ובלתי משמעותי. קשה בדרך כלל לדעת מהי הסיבה. עם זאת, אפשר (ולא קשה) לתכנן ניסוי בצורה טובה, ובעל עצמה מספקת כדי לדחות את השערת (או השערות) האפס שהינן בעלות חשיבות.

לסיכום: כישלון לדחות את השערת האפס לא מוכיח כי היא נכונה. אנחנו אמנם ממשיכים להאמין כי היא נכונה, כיוון שהיא מייצגת את הידע הקיים, אבל יש כמובן הבדל גדול בין הוכחה לאמונה.


רשימות נוספות בסדרה:


הערות
  1. אני לא מצליח לתרגם אמירה קולעת זו לעברית בצורה מניה את הדעת []
  2. קישור למאמר משנת 1995 []

סטטיסטיקה ופיתוח תרופות לכיתה ג

בבית הספר של ילדיי התקיים הבוקר "יום ההורה המעשיר", במסגרתו הגיעו הורים והעבירו שיעורים בכל מיני נושאים מעניינים. אני, כמובן, העברתי שיעור על סטטיסטיקה ופיתוח תרופות, לתלמידי כיתה ג.

למעוניינים, מצגת השיעור נמצאת כאן.

 

סטטיסטיקה רעה: אי אבחנה בין מתאם לסיבתיות

בנושא המתאם והסיבתיות דנתי רבות[1]. יש הרבה דוגמאות משעשעות: מתאם בין יבוא לימונים לבטיחות בדרכיםבין צבעה של מכונית והסיכוי כי תהיה מעורבת בתאונת דרכים, ובין מחזורי הירח ומחירי המניות. קוריוזים כאלה בדרך כלל לא גורמים נזק[2]. אף אחד לא יציע להטיל מגבלות על יבוא לימונים, או לצבוע מכוניות שחורות בצבע אחר. למעוניינים יש אתר שלם וספר שעוסק בכך.

ברשותכם אעבור לדוגמאות יותר רציניות.

דוגמא מפורסמת קשורה לגדול הסטטיסטיקאים, רונלד פישר, שהיה מעשן כבד. באמצע שנות החמישים של המאה העשרים, התגלו המתאמים הראשונים בין העישון ובין הסיכוי לחלות בסרטן הריאות. תלמידיו של פישר פנו אליו, וביקשו ממנו שינסה לעשן פחות למען בריאותו. הם נימקו את בקשתם במתאם הסטטיסטי שזה עתה התגלה. פישר דחה אותם, בנימוק שהמתאם עצמו אינו מראה סיבה ותוצאה, ואף הביע את דעתו זו בכתב העת החשוב Nature. ייתכן, אמר פישר, כי מחלת הסרטן גורמת בשלב הראשון של המחלה לצורך בניקוטין, המתבטא בכך שהחולה מעשן, ורק אחר כך מתפתחים הגידולים. פישר נפטר בשנת 1962. רק בשנות השבעים של המאה העשרים הוכיחו המדענים כי צריכה מוגברת של ניקוטין אכן גורמת לעליית הסיכון לחלות בסרטן הריאות.

טענה אחרת שהועלתה היא כי צמחונות אצל נערות בגיל ההתבגרות גורמת לאנורקסיה, וזאת על סמך מתאם גבוה בין שתי התופעות. ניתוח יותר זהיר הראה כי אורח חיים צמחוני לכשעצמו לא בהכרח גורם לאנורקסיה, אך בשילוב עם גורמי סיכון נוספים המחלה עלולה להתפתח.

הסקת סיבתיות עקב קיומו של מתאם עלולה בקלות להגיע לאבדן חיי אדם. הדוגמא המפורסמת ביותר (ואחת המזיקות ביותר) היא הטענה שחיסונים גורמים לאוטיזם, וזאת על פי מחקר גרוע במיוחד[3]. מאמר מאת אנדרו וייקפילד[4] , שפורסם בכתב העת Lancet בשנת 1998, הראה מתאם בין מתן חיסון MMR לילדים ובין אבחון אוטיזם אצל ילדים שחוסנו. זה הספיק כדי להצית תנועה רחבה של התנגדות לחיסונים, שקיימת עד היום. אי מתן חיסונים מוביל להתפרצות מגיפות ולמקרי מוות שהיו יכולים להימנע.

ב-2010 התפרסם מחקר שמצא כי צריכת חומצות שומניות כגון אומגה 3 יכולה להפחית את הסיכון להתקף לב. הטענה התבססה על מספר מחקרים תצפיתיים, וכן מספר ניסויי מעבדה. התברר כי לחומצות שומניות יש תכונות אנטי דלקתיות, וכי יש מתאם שלילי בין רמת הצריכה שלהן ובין רמת הטריגליצרידים בדם. כמו כן יש מתאם בין שלילי בין רמת הטריגליצרידים ובין הסיכון להתקף לב. מכאן הדרך קצרה להשערה כי צריכת חומצות שומניות תוביל להורדת הסיכון להתקף לב. זו תיאוריה יפה, אך היא מבוססת על מתאמים. היא התבררה כלא נכונה. בשנת 2013 התפרסמו התוצאות של מחקר קליני מבוקר, בו המטופלים צרכו, על פי הקצאה רנדומלית, שמן דגים (העשיר באומגה 3) או פלסבו. המחקר הראה כי אין עדות לאפקט חיובי של צריכת שמן דגים.

הדוגמא הטריה ביותר היא המחקר PURE, שתוצאותיו החלו להתפרסם לפני מספר חודשים. בין היתר, טענו החוקרים כי "יש מתאם גבוה בין צריכה גבוהה של פחמימות לשיעורי התמותה, בעוד שצריכת שומנים קשורה לשיעורי תמותה נמוכים". במחקר יש בעיות מתודולוגיות רבות המעמידות בספק רב את עצם קיומו של המתאמים המתוארים, אולם זה לא הפריע לעיתונים לצאת בכותרות כמו "שומן מפחית את הסיכון לתמותה", "שומן לא מזיק, הבעיה עם פחמימות", ו-"תזונה דלת שומן מעלה סיכון למוות מוקדם". שוב, פרשנות מוטעית של מתאם רשלני עלולה להביא להגברה של צריכת שומן, שתוביל לשיעורי תמותה גבוהים יותר ממחלות לב ומחלות נוספות.

כפי שכתב סטיבן ג'יי גולד בספרו The Mismeasure of Man: "ההנחה חסרת התוקף לפיה ממתאם נובעת סיבתיות היא ככל הנראה אחת מתוך שתיים או שלוש השגיאות החמורות ביותר והנפוצות ביותר בשיקול הדעת האנושי".


רשימות נוספות בסדרה:


הערות
  1. זה היה הפוסט הראשון שהופיע בנסיכת המדעים! []
  2. אם כי עלולים להיגרם הפסדים כספיים למי שישקיע את כספו על פי מחזורי הירח []
  3. שתוצאותיו התבררו לאחר מכן כמזוייפות, אבל גם אם היו אמיתיות לא היה ניתן להסיק מהן דבר []
  4. שהיה ד"ר לרפואה עד שרישיונו נשלל []

סטטיסטיקה רעה: פרשנות לא נכונה של ה-p-value ואי הבחנה בין תוצאות מובהקות לתוצאות משמעותיות

כבר הסברתי כאן באריכות מהו ה-p-value, ומה הוא לא. לא אחזור כאן על כל הפרשנויות המוטעות למשמעותו של ה-p-value, אך אציין את המובן מאליו – פרשנות לא נכונה של ה-p-value והתרכזות בלעדית בשאלה האם תוצאה היא מובהקת או לא, מהווה סטטיסטיקה רעה שעלולה להביא לתוצאות חמורות.

האיגוד האמריקני לסטטיסטיקה (ASA) פירסם בראשית 2016 הצהרה בדבר המובהקות הסטטיסטית ו-p-values ,[1] ובה מפורטים שישה עקרונות שישפרו את הביצוע והפרשנות של מחקרים כמותיים. ASA מציינים כי ה-p-value אמנם מספק הערכה עד כמה הנתונים אינם עולים בקנה אחד עם מודל סטטיסטי ספציפי, אך אינו מודד את ההסתברות כי השערת האפס נכונה[2] או את ההסתברות כי התוצאות התקבלו במקרה. ASA מבהירים כי אין להסיק מסקנות מדעיות, או לקבל החלטות עסקיות או החלטות בדבר מדיניות על סמך ה-p-value בלבד. ה-p-value  לכשעצמו אינו מדד טוב של ראיות (evidence) בעד או נגד השערה או מודל. וכמובן, מובהקות סטטיסטית אינה מעידה או מודדת את גודלו של האפקט הנצפה או חשיבותו.

הבאתי כאן בעבר מספר דוגמאות היפותטיות ואמיתיות בדבר פרשנות לקויה של p-values, והתעלמות מהמשמעות של האפקט הנצפה או חשיבותו. חברת תרופות עלולה להיאחז בתוצאה מובהקת של ניסוי קליני כדי להחליט על המשך הפיתוח של תרופה חסרת תועלת ולבזבז מאות מיליוני דולרים. חוקרים מכובדים פרסמו תוצאות מובהקות של מודל רגרסיה שהריצו, בלי להתייחס לכך שאין משמעות מעשית לתוצאות וגרוע מכך, לא שמו לב כי אחת התוצאות היא אבסורדית. חוקרים אחרים הגיעו למסקנה המובהקת כי במשפחות שבהן שלושה בנים, ההסתברות שהילד הרביעי יהיה גם הוא בן גבוהה יותר. המשמעות של התוצאה היא שכל שנתיים נולד בן אחד יותר ממה שהיה "צריך" להיות אילו ההסתברות לבן רביעי לא הייתה שונה, כלומר ההבדל בין ההסתברות התיאורטית וההסתברות הנצפית ללידת בן רביעי לא היה משמעותי.

אבל הבעיה היא ככל הנראה רחבה יותר וקיימת במחקרים בתחומים רבים.

ב-1996, החוקרים מקלוסקי וזיליאק בדקו 182 מחקרים שהתפרסמו בכתב העת American Economic Review בשנות ה-80 של המאה העשרים והשתמשו ברגרסיה ככלי ניתוח סטטיסטי. הם מצאו כי 70% מהמחקרים לא הבדילו בין מובהקות סטטיסטית למשמעות כלכלית. השניים מציינים גם כי ספרי הלימוד בכלכלה לא דנים בהבדל בין תוצאה מובהקת לתוצאה משמעותית.[3]  הם חזרו על המחקר כעבור עשר שנים, ומצאו כי לא חל שיפור. מתוך 137 מחקרים שפורסמו בשנות ה-90, 82% לא הבחינו בין מובהקות סטטיסטית ומשמעות כלכלית. מאחר ולכלכלנים יש השפעה רבה על החלטות בדבר מדיניות ציבורית, לסטטיסטיקה רעה כזו יש השפעה ישירה על כל אחד מאיתנו.

גם בתחום כלכלת הבריאות יש בעיה. הבלוגר סם ווטסון, אחד הכותבים בבלוג העוסק בכלכלת בריאות, סקר[4] את גיליון מאי 2017 של כתב העת Health Economics. בתשעת המאמרים שהופיעו בגיליון, הוא מצא שמונה מקרים בהם השתמשו ב-p-value באופן בלעדי כדי לקבוע האם קיים אפקט. וכאשר מיישמים סטטיסטיקה רעה לקביעת מדיניות ציבורית בתחום הבריאות, יש לכך השפעה על חיי אדם.

לסיכום: ה-p-value הוא כלי יעיל לבדיקת מובהקות סטטיסטית, כאשר שיטת ניתוח הנתונים ורמת המובהקות של הניתוח נקבעות מראש. עם זאת, ה-p-value אינו מדד טוב לטיבם של הנתונים (ראיות), לגודלו של האפקט הנצפה, משמועות או חשיבותו.

נסיים בדבריו של רון וסרשטיין: “The p-value was never intended to be a substitute for scientific reasoning" – ה-p-value מעולם לא נועד להיות תחליף לחשיבה מדעית.


רשימות נוספות בסדרה:


הערות
  1. קישור לקובץ pdf []
  2. אין דבר כזה []
  3. המצב בספרי הלימוד בסטטיסטיקה אינו טוב יותר, לצערי []
  4. אמנם באופן לא שיטתי []

מה הסיכוי שקולך ישפיע אם תצביעי בבחירות (ג)

לפני מספר שנים כתבתי כאן שלוש רשימות על הסיכוי שקול בודד ישפיע על התוצאות של הבחירות. (למה להצביע ומה הסיכוי שקולך ישפיעמה הסיכוי שקולך ישפיע אם תצביעי בבחירותמה הסיכוי שקולך ישפיע בבחירות – המשך דיון).

היום ראיתי בפייסבוק קישור לידיעה שהעלה יובל אילון. מסתבר שבבחירות לבית הנבחרים של מדינת וירג'יניה, שנערכו שלשום, הביסה המתמודדת הדמוקרטית את המתמודד הרפובליקני בהפרש של… קול אחד: 11608 מול 11607.