מדענים אובססיביים כלפיו. עורכי כתבי עת לא יפרסמו מאמרים אם הוא לא יופיע בהם. החלטות של מאות מיליוני דולרים מתקבלות על פיו. ובכל זאת, רק מתי מעט מבינים אותו. זהו ה-“p-value”. אותו מספר קסם חורץ גורלות המתלווה כמעט לכל ניתוח סטטיסטי.
הזכרתי אותו ברשימה שכתבתי על הניסוי הקליני לחיסון נגד נגיף ה-HIV. ה-p-value, איך לא, היה הנתון העיקרי שפורסם בהודעה הראשונה על תוצאות אותו ניסוי. הוא הגיע עד לוול-סטריט גו’רנל. הוול סטריט ג’ורנל ציין, בכתבה על אותו הניסוי. כי ה-p-value הוא “ההסתברות כי התוצאה התקבלה במקרה” (“Probability that the result is due to chance “) . זה לא נכון. בהמשך אסביר כיצד לחשב את ההסתברות הזו, אבל לפני כן אנסה להסביר מהו באמת אותו p-value, ומהי משמעותו.
אתחיל בקצת רקע, לטובת מי שלא קרא את הרשימה “בין שתי טעויות” (או מי שלא זוכר מה כתוב שם). בבסיסה של כל בעיית החלטה סטטיסטית עומדות שתי השערות (hypotheses). ההשערה הבסיסית, המכונה גם “השערת האפס” מבטאת את האמונה (המדעית) המקובלת. בימי גלילאו, השערת אפס טיפוסית יכולה להיות “השמש מסתובבת סביב הארץ”. בניסוי הקליני לחיסון נגד נגיף ה-HIV השערת האפס היא “החיסון הנסיוני לא מפחית את הסיכוי להדבק בנגיף”. ואם נעבור לאנלוגיה של עולם המשפט, הרי שבמדינות מתוקנות מניחים כי אדם המואשם בפשע ועומד לדין הינו זכאי עד שתוכח אשמתו, כלומר השערת האפס של השופט אומרת כי “הנאשם זכאי”.
מול השערת האפס ניצבת תמיד ההשערה האלטרנטיבית. בהקשר המדעי, השערה זו מבטאת תיאוריה חדשה שמועמדת לדחוק את התיאוריה הישנה. גלילאו הציע את ההשערה האלטרנטיבית “הארץ מסתובבת סביב השמש”. עורכי הניסוי הקליני הנ”ל הציגו את ההשערה האלטרנטיבית כי “החיסון הנסיוני מפחית את הסיכוי להדבק בנגיף”, והתובע מציג בפני השופט את ההשערה האלטרנטיבית כי “הנאשם אשם”.
אלא אם אתה הומיאופת, עליך להציג טיעונים משכנעים בעד ההשערה האלטרנטיבית שלך. (גם הומיאופתים צריכים לעשות זאת, למעשה, אבל אף אחד כבר לא מצפה מהם). כדי להביא להרשעת הנאשם, התובע צריך להציג בפני השופט עדויות שישכנעו אותו, מעבר לספק סביר, כי הנאשם אכן ביצע את הפשע המיוחס לו. מה זה “מעבר לספק סביר”? כל אחד קובע את הרף שלו לעצמו, ואגיד על כך כמה מלים בהמשך. אם אדם מואשם בשוד תחנת דלק, למשל, יכול השופט להחליט כי ירשיע את הנאשם אם יופיעו בפניו שני עדי ראיה שיעידו כי הנאשם הוא אכן השודד. שופט מחמיר יותר אולי ידרוש שלושה עדים, וגם הוכחה כי הכסף נמצא בידי הנאשם, ושופט אחר אולי יסתפק בוידאו של מצלמת האבטחה. זה לא ממש משנה. העיקר הוא שיש השערות, עדויות, וכלל החלטה קבוע מראש.
כדי להביא את הדיון לפסים מדויקים יותר, אשתמש בדוגמא מלאכותית. כוכב הדוגמא שלנו הוא חקלאי שמגדל למחייתו עדר פרות חולבות. הפרות נכנסות מדי פעם להריון (אחסוך מכם את הפרטים). חלקן ממליטות עגלים וחלקן עגלות. החקלאי שלנו מעדיף כמובן כי פרותיו ימליטו עגלות נקבות, שיצטרפו בבוא הימים למערך ייצור החלב, והן לכן רווחיות יותר מעגלים זכרים. אולם מי ששולטת בהתפלגות המינים בהמלטות היא אמא טבע, הדואגת לכך שההסתברות להמלטת נקבה בכל הריון היא 0.5.
והנה, כיום בהיר אחד מגיע לחווה סוכן נוסע, המציע לחקלאי שלנו לרכוש שיקוי פלא, שיעלה את ההסתברות להמלטת נקבה מ-0.5 ל-0.9 אצל כל פרה שתלגום ממנו. כדי לשכנע את הרפתן הספקן, מציע הסוכן הצעה שאין לסרב לה: “קח נא בקבוק אחד, והשקה בו 20 פרות. לאחר מכן המתן וראה כמה המלטות נקבה יהיו בקרב 20 פרות אלה. אם לא תהיה מרוצה. כספך יוחזר לך”. הדוד משה מסכים לבצע את הניסוי. יש לו השערת אפס: “ההסתברות להמלטת נקבה היא 0.5” והשערה אלטרנטיבית: “ההסתברות להמלטת נקבה היא 0.9”. כיוון שהוא זוכר היטב את שיעורי המבוא לסטטיסטיקה שלמד בפקולטה לחקלאות (היי, אמרתי שזאת דוגמא מלאכותית!), הוא יודע לבנות כלל החלטה על פי הלמה של ניימן ופירסון, ומחליט לדחות את השערת האפס לטובת ההשערה האלטרנטיבית אם ב-20 ההמלטות יהיו 15 המלטות נקבה או יותר.
במלים אחרות, החקלאי החליט כי העדות הדרושה לדחיית השערת האפס לטובת האלטרנטיבה היא המלטת של 15 (או יותר) נקבות. אם יהיו 15 המלטות נקבה הוא ישתכנע ביעילותו של שיקוי הפלא. אם יהיו 16, או 17 או אף יותר, הוא בודאי ישתכנע.
החקלאי יכול לנסח את כלל ההחלטה שלו בצורה אחרת, אך שקולה. בהנתן עדות כלשהי (עדות כאן היא מספר המלטות הנקבה) הוא ישאל את עצמו: בהנחה שהשיקוי הוא תרמית, מה ההסתברות כי הייתה מתקבלת עדות זו שוב, או אף עדות משכנעת יותר? למשל, אם אכן צפה בהמלטת 15 נקבות מתוך 20, זו אולי עדות משכנעת, אך תוצאה של 16, 17, או יותר, היא עדות משכנעת יותר. אם השיקוי הוא תרמית, וההסתברות להמלטת נקבה נותרה 0.5, אז אפשר לחשב כי ההסתברות להמלטת 15 נקבות או יותר היא 0.0207. זוהי הסתברות קטנה למדי. אם ההסתברות לקבל תוצאה יותר משכנעת ממה שקיבלנו היא קטנה, הרי שהתוצאה שלנו היא משכנעת דיה.
ההסתברות לקבלת עדות דומה או חזקה יותר מהעדות שנצפתה, בהנחה שהשערת האפס נכונה, היא ה-p-value המפורסם.
ה-p-value, לעומת זאת, אינו ההסתברות כי התוצאה התקבלה במקרה, כאשר אני מניח כי הכוונה המבוטאת במילה “במקרה” היא “בהנחה שהשערת האפס נכונה”. קל לראות מדוע זה כך. בדוגמא המלאכותית שלנו, ה-p-value הוא ההסתברות כי היו 15 או יותר המלטות נקבה מתוך 20. ההסתברות שהתוצאה של 15 המלטות נקבה תתקבל, אם ההסתברות להמלטת נקבה היא 0.5, היא לעומת זאת 0.0148.
ומה ההסתברות כי התוצאה שהתקבלה בניסוי הקליני לחיסון נגד איידס “is due to chance”?. כזכור השתתפו בניסוי הנ”ל 16395 מתנדבים, מתוכם ל-125 זוהו כנשאי נגיף HIV: 51 מבין 8197 נבדקים שקיבלו את החיסון הנסיוני, ו-74 מבין 8198 המתנדבים שקיבלו חיסון דמה. תארו לכם כד ובתוכו 16395 כדורים, מתוכם 8197 כדורים ירוקים, והשאר אדומים. אם תשלפו מהכד 125 כדורים, מה ההסתברות כי בדיוק 51 מתוכם יהיו ירוקים? זוהי בדיוק ההסתברות כי תוצאות הניסוי הנ”ל התקבלה במקרה, כלומר: אין לחיסון שנבדק אפקט חיסוני אמיתי. החישוב דומה לחישוב הסתברויות הזכיה בלוטו. זהו מודל הסתברותי היפר-גאומטרי. החשבון פשוט, ובזכות המחשבון הזה גם החישוב לא מסובך. ההסתברות היא 0.0085, שונה מה-p-value שפורסם, 0.039.
חשוב לכתוב מסמכים אינפורמטיביים כאלה.
פתחתי את הרשומה בשמחה ובתקווה שעד לסופה אצליח סוף סוף להבין מה הוא אותו p-value מפורסם. הגעתי לסופה מאוכזב. אני לא בטוח שבאמת הצלחתי להבין.
האם ערך p מבטא את ההסתברות האקראית של הופעת תוצאה משכנעת יותר מהתוצאה בפועל שתשכנע אותנו להחליף את השערת האפס בהשערה החלופית?
אם אכן כך, איזה ערך p הוא מספיק קטן כדי לשכנע אותנו?
כמו־כן, איך בוחרים את התוצאה המשכנעת יותר ממנה גוזרים את ערך p?
האם ערך p מבטא את ההסתברות האקראית של הופעת תוצאה משכנעת יותר מהתוצאה בפועל שתשכנע אותנו להחליף את השערת האפס בהשערה החלופית?
אכן כן.
אם אכן כך, איזה ערך p הוא מספיק קטן כדי לשכנע אותנו?
זו שאלה מצויינת. אני מתכוון לכתוב על כך רשימה נפרדת. הערך המקובל כיום הוא 0.05.
כמו־כן, איך בוחרים את התוצאה המשכנעת יותר ממנה גוזרים את ערך p?
זה כבר עניין יותר תיאורטי שמעוגן למעשה בלמה של ניימן ופירסון.
מוסיף לשאול (מצטער אם זה היה מוסבר ברור)
למה נבחר 0.05 האם לפעמים משתמשים במספרים אחרים
הערך של 0.05 הוא שרירותי. אין מניעה להשתמש בערכים אחרים. ארחיב על כך ברשימת המשך.
לפי ההגדרה שאני מכיר (וויקיפדיה, כמו גם עורכי המאמרים שלי מסכימים), p-value זו ההסתברות לקבל תחת השערת האפס תוצאה זהה או חזקה מזו שנצפתה בפועל. חלק השיוויון חסר בהגדרה שנתת בפוסט.
כלומר החקלאי שלך דרש רמת מובהקות של 0.02 בקירוב, ולא 0.0148.
http://en.wikipedia.org/wiki/P-value
העניין של שוויון חלש או מוחלט הוא טכני במהותו. העקרון הוא אותו עקרון.
אתה צודק בכך שהחקלאי דרש רמת מובהקות של 2% בערך. שום דבר לא קדוש ב-5%.
מה זה שיוויון חלש או מוחלט?
ורציתי לשאול – למה בעצם לשאול “מה ההסתברות לקבל תוצאה עוד יותר משכנעת” (16 פרות ומעלה), ולא “מה ההסתברות לקבל את התוצאה הזו או תוצאה משכנעת יותר” (15 פרות ומעלה)?
תגובה לדובי וגם לדני:
כתבתי “שיוויון חלש או מוחלט” והתכוונתי לכתוב אי שוויון חזק (גדול ממש) או חלש (גדול או שווה).
בהתפלגויות רציפות זה לא משנה אם לוקחים אי שוויון חזק או חלש. בהתפלגויות בדידות, כמו ההתפלגות הבינומית,שבה השתמשתי כדוגמא, זה משנה. אכן, כפי שדובי ודני העירו, השאלה הנכונה היא “מה ההסתברות לקבל את התוצאה הזו או תוצאה משכנעת יותר” .
עם זאת, הדיון העקרוני לא משתנה.
אוקיי, עכשיו הכל מסתדר לי. תודה. אבל זה הופך את הדיון לעניין טכני, ולא מהותי. כלומר, אני חושב שברור לכולם שהכוונה של הוול סטריט ג’ורנל לא הייתה “מה הסיכוי בדיוק בדיוק לתוצאה הזאת”, אלא “מה הסיכוי לתוצאה כזאת טובה (קל וחומר תוצאה טובה יותר)”.
למגיבים התמהים. אנסה את כוחי: הרעיון הוא לחשב מה הסיכוי שתתקבל התוצאה שקיבלתם במחקר והיה אם השערת המחקר שלכם אינה נכונה.
במקרה של החקלאי, יש לחשב את הסיכוי שתתקבל התוצאה 15 פרות נקבות, בהנחה שההסתברות להולדת פרה נקבה היא חצי (כלומר השערת המחקר, ששיקוי הפלא משפיע על מין הילוד, אינה נכונה).
לפי הנחה זו, רוב הפעמים יהיו 10 פרות ו-10 פרים. 11 פרות ו-9 פרים תהיה תוצאה יותר נדירה, אבל עדיין שכיחה. וכך הלאה, עד שמגיעים לתוצאה שהיא מתחת ל-5% סיכוי. במקרה דנן, נדמה לי שקל לחשב את ההסתברות בעזרת המחשבון שנמצא כאן: http://home.ubalt.edu/ntsbarsh/Business-stat/otherapplets/pvalues.htm#rbinorm
הסיכוי לקבל 15 המלטות של נקבה הוא 2%, והסיכוי לקבל 14 הוא 5.7%. עולם המדע החליט באופן שרירותי ש-5% הוא הסיכוי שישכנע שאכן השערה האפס (ההשערה האומרת כי השערת המחקר שלכם אינה נכונה) אינה נכונה. כלומר, שבעזרת השיקוי שהוצע לחקלאי אכן נוצר מצב שונה מהמצב הקיים ללא הטיפול.
.
אגב, אם תתקבל תוצאה של 15 המלטות, אז המסקנה מכך היא שהשיקוי באמת גורם לכך שיהיו יותר נקבות מזכרים, אבל לא בטוח שהוא גורם לכך שעל כל 5 פרים יהיו 15 פרות. למשל, אם למעשה השיקוי גורם לכך שעל כל 8 פרים יש 12 פרות, עדיין ישנה הסתברות של 12% שייצאו 15 פרות מתוך 20 לידות שנדגמו באופן מקרי.
.
עוד אגב, הגיוני להיות מוטרדים מכך שעולם המדע מקבל תוצאות שיש להן הסתברות של 5% לקרות אפילו אם השערת המחקר אינה נכונה. הרי זה אומר שעל כל 20 מחקרים יש אחד שנראה כאילו הוא הוכיח שהשערת המחקר נכונה, למרות שבעצם היא אינה נכונה. אפשר להקטין מעט את הטירדה הזו בעזרת הידיעה שעולם המדע בדרך-כלל לא מקבל תוצאות לפני שהשתחזר בניסוי נוסף, ושממצאים חשובים במיוחד נבחנים שוב ושוב כי הם מעניינים מספיק כדי להוביל למחקרי המשך שגם בודקים שוב את הממצא המקורי. כמובן, סיינטיפיק ידיעות, מעריב והארץ ששים לפרסם תוצאות של מחקרים, גם ללא שחזור, אבל מילא.
והבעיה שתיארת בסוף דבריך מובילה לאפקט המגירה – אם תממן מספיק מחקרים, אחד מהם בסוף יוכיח את מה שאתה רוצה להוכיח. מכיוון שזה גם המאמר היחיד שיצליח להתפרסם (כי כל השאר לא מוכיחים כלום), הרי שהרקורד של הפרסומים המדעיים הוא מטבעו בעייתי.
מסכים בהחלט.
תודה, עכשיו זה ברור הרבה יותר.
יוסי כתב: “למגיבים התמהים. אנסה את כוחי: הרעיון הוא לחשב מה הסיכוי שתתקבל התוצאה שקיבלתם במחקר והיה אם השערת המחקר שלכם אינה נכונה.
במקרה של החקלאי, יש לחשב את הסיכוי שתתקבל התוצאה 15 פרות נקבות, בהנחה שההסתברות להולדת פרה נקבה היא חצי (כלומר השערת המחקר, ששיקוי הפלא משפיע על מין הילוד, אינה נכונה).”
אבהיר ואמר כי אותו יוסי שכתב דברים אלה אינו אני. כמו כן, אין לי ברירה אלא לציין כי אותו יוסי טעה באותו מקום שבו טעה הוול סטריט ג’ורנל.
דוקא לא הערה סטטיסטית: ממה שאני יודעת הומאופתיה ורפלקסולוגיה הם שני התחומים היחידים ברפואה האלטרנטיבית שכן הוכח שהן עובדות.
את יודעת לא נכון. לא יודע לגבי רפלקסולוגיה (יש לה יתרונות, אבל לא כל כך הרבה כמו שחסידיה מתארים), אבל הומיאופתיה זה שטויות – מספיק להסתכל באופן הפעולה המתואר שלהם כדי להבין את זה.
לא רק שלהומיאופתיה אין ביסוס מדעי, ההומיאופתים עצמם טוענים כי הם אינם צריכים להיות כפופים לכללים המקובלים במדע. עייני בתגובות לרימות שלי על ההומיאופתיה בבלוג זה.
מה שיוסי כתב נכון אבל חשוב גם לציין שערכו של הp-value באקדמיה יורד. היום יש נטייה גוברת והולכת להשתמש בסטטיסטיקה בייסיאנית ואם לא בייסיאנית להשתמש במדדים אחרים משלימים לp-value. למשל, יש את p-rep שנותן מידע לגבי הסיכוי לשחזר הת תוצאות הניסוי באותם תנאים. המדד הכי חשוב שמתייחסים אליו היום הוא גודל אפקטים (יש כמה כאלו, למשל d של כוהן). אין כמעט התייחסות קדושה להאם הp-value הוא פחות מ0.05 או לא. כלומר, גם ערך של נניח .0.08 יכול להיות משמעותי במקרים רבים ומדווחים עליו. צריך לזכור שקיימת גם הבעייה ההפוכה של עוצמות מבחן נמוכות מדי בחלק גדול מהמחקרים. זה מוביל לגניזה של מחקרים שיכלו להיות בעלי ערך רק בגלל מדגמים קטנים מדי (אבל לא רק).
אני לא ממש יכול להעיד מקרוב מה קורה באקדמיה, כי אני מחוץ לעולם הזה כבר יותר מ-10 שנים.
אכן, יש עליה מסויימת בשימוש בסטטיסטיקה בייסיאנית, אולם היא טומנת בחובה בעיות אחרות, ולדעתי החסרונות עולים על היתרונות.
אני מסכים עם זאת כי ה-p-value הוא כלי מוגבל, אבל פישר עצמו (שפיתח אותו) היה מודע היטב למגבלות ואף הזהיר מפני אינטרפרטציה לא נכונה שלו. מקווה לכתוב על כך ברשימת המשך.
ובעניין הקדושה: בסביבה אני פועל היום – הרגולציה של תעשיית התרופות, קרי FDA ו-EMEA, ה-p-value הינו ערך מקודש בהחלט, ועליו קמים ונופלים פרוייקטים שלמים. טוב או לא, זו המציאות.
אין שום ספר שיש הבדלים גדולים בין התחומים ובצדק. באקדמיה, במקרים רבים, עדיף לפרסם ממצאים לא חד משמעיים רק כדי שאחרים יוכלו לבחון אותם ולנסות לשחזרם או להציע דרכים אחרות להסתכל על הנושא. ברפואה, חייבים כללים נוקשים ומחמירים מתי עדות נחשבת לעדות מהימנה ועדיף לטעות על הצד הבטוח. כלומר עדיף לא לפתח תרופות שיש סיכוי מסוים שהן לא יעילות למרות שהתוצאות רומזות אחרת כי הנזקים האפשריים עצומים. כלומר עדיף טעות מסוג שני (false negative). זו הסיבה שהרבה מחקרים רפואיים משתמשים בp value של 1% במקרים רבים.
אז מהו הp value בניסוי עם הפרות ? האם זה
p(n>= 16 ) = 0.0059
או היחס בין המספר הזה לבין p(n= 15 ) ?
ומה הקשר בין אלו לבין טענת היצרן כי הסיכוי לנקבה הוא 0.9 ?
ההשערה האלטרנטיבית (הסיכוי לנקבה הוא 0.9 ) לא מתבטאת בחישבים של כלל ההחלטה וה-p-value. עם זאת, יש לה משמעות בקביעה של עוצמת המבחן הסטטיסטי.
אני מתחילה לתהות האם כל הבילבול אינו נובע מחוסר הבנת הקשר בין הטעות מסוג ראשון (ממנה נגזר למיטב הבנתי כלל ההחלטה) לבין ערך ה P המתקבל בפועל אחרי שנאספו הנתונים בניסוי.
בקורס מבוא לסטטיסטיקה (לפסיכולוגים) שלמדתי לפני שנים רבות, הטענה היתה שערך ה P האמיתי אינו משנה ושכל מה שחשוב לחוקר הוא ההסתברות שלא דחה את השערת האפס בטעות. P<0.05 מבטיח שההסתברות הזו לא עולה על 5%.
בעיניים לא סטטיסטיות, המרחק בין לדחות את השערת האפס בטעות ובמקרה הוא לא כל כך גדול.
תודה על הרשימה ועל הבלוג המרתק!
את עלית בדיוק על הנקודה הנכונה. אני מסיק מזה שתי מסקנות: (1) את בהחלט זוכרת את מה שלמדת בקורס (2) המרצה שלך היה מצויין. מותר לשאול מי הוא היה?
היא היתה. ד”ר אנדריאה ברגר מהמחלקה למדעי ההתנהגות באוניברסיטת בן גוריון.
איני סטטיסטיקאי. ייתכן ואגלה בורות.בכל זאת קיימת אי בהירות בניסוח. אסביר:
מחד נטען:ההסתברות לקבלת עדות דומה או חזקה יותר מהעדות שנצפתה, בהנחה שהשערת האפס נכונה, היא ה-p-value המפורסם.
מאידך נאמר: ה-p-value, לעומת זאת, אינו ההסתברות כי התוצאה התקבלה במקרה, כאשר אני מניח כי הכוונה המבוטאת במילה “במקרה” היא “בהנחה שהשערת האפס נכונה”.
אם אחליף את המילה מקרה בכוונה שלו, הטיעון השני אומר למעשה:
ה- p-value , לעומת זאת, אינו הסתברות כי התוצאה התקבלה בהנחה שהשערת האפס נכונה. שתי הטענות, הראשונה כפי שנאמרה והשניה כפי שנרשמה על ידי נראת סותרות אחת לשניה. אני מניח שלא הבנתי את הטיעון.
אהלן..
אפשר הסבר למה ההסתברות להמלטת 15 נקבות או יותר היא 0.0207? (חישוב ידני כמובן)
תודה..
היי יוסי! חיפשתי באינטרנט מקורות בנוגע ל P-VALUE ופתאום נתקלתי בבלוג שלך! אשמח אם תוכל לעזור לי להבין מה עושים כאשר נתון לי בפלט האלפא הפוסטריורית לעומת אלפלא של 0.05. על סמך מה אני דוחה את השערת האפס כאשר:
1. המבחן הוא חד זנבי
2. המבחן הוא דו זנבי והביטא שווה לאפס
3. המבחן הוא דו זנבי והביטא שווה למספר (נגיד 1)
אשמח לתשובה לגבי זה !(:
הבנתי שבמבחן חד זנבי יש לחלק את ה P-VALUE.?