חיפוש באתר

קישורים

תגים

בחירות ביוסטטיסטיקה בייסבול בנימה אישית בריאות גרפים דו"ח העוני דילמת האסירים הומיאופתיה הימורים היסטוריה המלצות המשפטים הגדולים של הסטטיסטיקה הסתברות השכלה גבוהה חברה חינוך חשבון יישומים כלכלה מדע מונטי הול מחקרים מירב ארלוזורוב ממוצע מצחיק משרד האוצר מתאם מתמטיקה ניהול סיכונים ניסויים קליניים סטטיסטיקה ספורט ספרים סקרים עיוות נתונים קבלת החלטות שטרסלר שכר שכר לימוד תאונות דרכים תורת המשחקים תחזיות תקשורת p-value

RSS סטטיסטיקה שאספתי ברשת

ארכיב עבור תגית p-value

מה ה-P-value הוא לא?

ברשימה קודמת הסברתי מהו ה-p-value, אותו ערך מיסטי שאיש כמדומה אינו יכול לחיות חיים שלמים בלעדיו. אחזור ואומר, לטובת מי שלא זוכר, כי בניסוי מבוקר המלווה בבדיקת השערות סטטיסטיות, הp-value הוא ההסתברות כי בניסוי חוזר תתקבל עדות לדחיית השערת האפס שהינה משכנעת לפחות כמו העדות שהתקבלה בניסוי הנוכחי, וכל זאת תחת ההנחה כי השערת האפס נכונה.

לאחר שנערך הניסוי והתקבל ה-p-value, מה עושים איתו? בקורסים של מבוא לסטטיסטיקה למיניהם נהוג ללמד כי אם ה-p-value קטן מ-5% אז דוחים את השערת האפס לטובת ההשערה האלטרנטיבית, ואם הוא גדול מ-5% אז לא דוחים את השערת האפס (ההסתברות כי יהיה שווה בדיוק ל-5% היא, תיאורטית, 0). אפשר להראות כי הכלל הזה שקול לכלל ההחלטה המתקבל מהלמה של ניימן ופירסון (בין שתי טעויות), אם רמת המובהקות שנקבעה מראש לבדיקת ההשערות היא 5% (למה 5%? על כך בשיעור ההיסטוריה הקרוב). עם זאת, אני וחברי למקצוע נתקלים פעמים רבות בפרשנויות שגויות למושג ה-p-value ולערכיו. רשימה זו תסקור חלק מהפרשנויות האלה ותנסה להסביר מדוע הן שגויות. הרשימה מתבססת בחלקה על הערך של p-value בויקיפדיה (באנגלית),  ועל מאמרם של שטרן וסמית: "Sifting the evidence—what's wrong with significance tests?".

ה-p-value אינו ההסתברות כי השערת האפס נכונה. אני שומע את הפרשנות הזו לעתים קרובות: "יצא p-value של 2%, ולכן יש רק 2% סיכוי שאין הבדל בין הקבוצות". אבל זה פשוט לא נכון. ה-p-value הוא פונקציה של תוצאות הניסוי שערכנו. בין הקבוצות יש הבדל או שאין הבדל, וקיומו או אי קיומו של ההבדל הזה, או במלים יותר פורמליות, נכונותה או אי נכונותה של השערת האפס, אינו תלוי בתוצאות הניסוי שערכנו. אם השערת האפס נכונה, אז ההסתברות שהיא נכונה היא 1, ואם לא, אז ההסתברות היא 0. ה-p-value רק מבטא את חוזקן של העדויות שאספנו נגד נכונותה של השערת האפס. באותו אופן, 1 פחות ה-p-value אינה ההסתברות כי ההשערה האלטרנטיבית נכונה. (לפני שתגיבו: הסטטיסטיקה הבייסיאנית מאפשרת השמת הסתברויות להשערות, אולם יש לכך מחיר כבד).

ה-p-value אינו ההסתברות כי תוצאות הניסוי התקבלו "במקרה". כבר התייחסתי לכך ברשימה הקודמת שהבהירה את הפרשנות הלא נכונה שנתן הוול-סטריט ג'ורנל ל-p-value של הניסוי לחיסון לוירוס HIV. הראיתי כי ניתן לחשב את ההסתברות לקבלת תוצאת הניסוי בהנחה שהשערת האפס נכונה, והסתברות זו שונה תמיד מה-p-value על פי עצם הגדרתו.

באופן דומה, ה-p-value אינה ההסתברות כי בחזרה על הניסוי תתקבל אותה תוצאה כמותית (לדוגמא, בניסוי הפרות שתיארתי ברשימה הקודמת, ה-p-value שחושב שם אינו ההסתברות כי בניסוי חוזר יהיו שוב 15 המלטות נקבה).

ערכים נמוכים של ה-p-value אינם "מוכיחים" כי השערת האפס נכונה. זכרו כי ה-p-value מחושב תחת ההנחה כי השערת האפס נכונה, אז איך בדיוק הוא יכול "להוכיח" את ההנחה שעליה הוא מתבסס?

ה-p-value אינו ההסתברות לדחיה מוטעית של השערת האפס. ההסתברות לדחיה מוטעית של השערת האפס אמורה להקבע מראש לפני עריכת הניסוי, וממנה נגזר כלל ההחלטה לדחיית השערת האפס על פי הלמה של ניימן ופירסון.

באופן דומה, ה-p-value אינו ההסתברות כי בחזרה על הניסוי תתקבל אותה תוצאה איכותית (השערת האפס תידחה שוב, או תתקבל שוב). ההסתברות לדחיה (או קבלה) חוזרת של השערת האפס בניסוי חוזר נגזרת מרמת המובהקות והעוצמה של המבחן הסטטיסטי, מהמצב האמיתי (כלומר מנכונותה של השערת האפס או ההשערה האלטרנטיבית), וכן מפרמטרים נוספים.

p-value הקרוב בערכו לרמת המובהקות (בדרך כלל 5%) אינו מעמיד בספק את ההחלטה המתקבלת. אם מקבלים p-value של 0.048 למשל, פירוש הדבר כי תוצאות הניסוי סיפקו עדות מספקת כדי לדחות את השערת האפס (אם רמת המובהקות הנדרשת היא אכן 5%), ולכן דינה להידחות, ובאותו אופן p-value של 0.052 פירושו כי תוצאות הניסוי אינן מהוות עדות מספקת לדחיית השערת האפס. טענה כמו "הערך של ה-p-value מובהק, אבל גבולי…" הינה בעייתית, כיוון שהיא למעשה נסיון לשנות את כלל ההחלטה בדיעבד, לאחר שהניסוי בוצע ותוצאותיו התקבלו. בדרך כלל טענות כאלה נשמעות כאשר התוצאות אינן מתיישבות עם האמונות של האדם שמנסה לפרש את תוצאת הניסוי ("התוצאות מראות שהטיפול שנתנו עוזר בדיוק כמו שתיית מים, אבל אני יודע שזה עוזר לרפא את המחלה הזו…").

באופן דומה, p-value שערכו נמוך במיוחד (או גבוה במיוחד) אינו מחזק יותר את ההחלטה המתקבלת, ובמלים אחרות – p-value נמוך יותר אינו "דוחה יותר" את השערת האפס. אמנם ערך נמוך יותר של p-value אומר כי ישנן עדויות רבות יותר לדחיית השערת האפס, ובכל זאת, זה לא משנה אם דוחים את השערת האפס עם p-value של 0.048 או 0.001. השורה התחתונה היא אותה שורה: או שדוחים או שלא. כדי לחדד את הנקודה, אביא כאן את הדוגמא ששמעתי פעם ממורי ורבי, פרופ' צבי גילולה. ברשימה הקודמת הבאתי אנלוגיה מעולם המשפט. תיארתי מצב בו אדם מואשם בשוד תחנת דלק, ומספר שופטים היפותטיים שלכל אחד מהם כלל החלטה אחר לפיו יקבע אם הנאשם אשם.שופט אחד יכול להחליט כי ירשיע את הנאשם אם יופיעו בפניו שני עדי ראיה שיעידו כי הנאשם הוא אכן השודד. שופט מחמיר יותר  ידרוש שלושה עדים, וגם הוכחה כי הכסף נמצא בידי הנאשם, ושופט אחר אולי יסתפק בוידאו של מצלמת האבטחה. עכשיו תארו לכם שני שודדי תחנות דלק. אחד מהם שדד את תחנת הדלק בתל-מונד, ושני עדי ראיה הופיעו בבית המשפט והעידו כי אכן ביצע את השוד. השודד השני בחר לשדוד דווקא את תחנת הדלק שליד אצטדיון טדי בירושלים, במוצאי שבת, כאשר זה עתה מכבי חיפה ניצחה את בית"ר ירושלים שלוש אפס, ועשרים אלף איש יצאו מהאצטדיון, ראו את השוד, וכולם מוכנים לבוא לבית המשפט ולהעיד נגדו, כי השודד אוהד הפועל. האם השודד השני אשם יותר מהשודד הראשון?

ואחרון חביב: ערכו של ה-p-value אינו מעיד על גודל האפקט או חשיבותו. אפקט (הבדל בין הקבוצות) נמוך יכול להיות מובהק, ואפקט גבוה יכול להיות לא מובהק. אפקט מובהק יכול להיות בלתי משמעותי בהקשר בו נערך הניסוי (וחלק מקוראיי תהו ברשימה על הניסוי לחיסון נגד HIV האם האפקט המובהק שגילה הניסוי הוא גם משמעותי מבחינה קלינית). אפקט לא מובהק יכול להיות משמעותי – זה קורה הרבה בניסויים קליניים בשלב II. כל האפשרויות קיימות.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

מהו p-value?

מדענים אובססיביים כלפיו. עורכי כתבי עת לא יפרסמו מאמרים אם הוא לא יופיע בהם. החלטות של מאות מיליוני דולרים מתקבלות על פיו. ובכל זאת, רק מתי מעט מבינים אותו. זהו ה-"p-value". אותו מספר קסם חורץ גורלות המתלווה כמעט לכל ניתוח סטטיסטי.

הזכרתי אותו ברשימה שכתבתי על הניסוי הקליני לחיסון נגד נגיף ה-HIV. ה-p-value, איך לא, היה הנתון העיקרי שפורסם בהודעה הראשונה על תוצאות אותו ניסוי. הוא הגיע עד לוול-סטריט גו'רנל. הוול סטריט ג'ורנל ציין, בכתבה על אותו הניסוי. כי ה-p-value  הוא "ההסתברות כי התוצאה התקבלה במקרה" ("Probability that the result is due to chance ")  . זה לא נכון. בהמשך אסביר כיצד לחשב את ההסתברות הזו, אבל לפני כן אנסה להסביר מהו באמת אותו p-value, ומהי משמעותו.

אתחיל בקצת רקע, לטובת מי שלא קרא את הרשימה "בין שתי טעויות" (או מי שלא זוכר מה כתוב שם). בבסיסה של כל בעיית החלטה סטטיסטית עומדות שתי השערות (hypotheses). ההשערה הבסיסית, המכונה גם "השערת האפס" מבטאת את האמונה (המדעית) המקובלת. בימי גלילאו, השערת אפס טיפוסית יכולה להיות "השמש מסתובבת סביב הארץ". בניסוי הקליני לחיסון נגד נגיף ה-HIV השערת האפס היא "החיסון הנסיוני לא מפחית את הסיכוי להדבק בנגיף". ואם נעבור לאנלוגיה של עולם המשפט, הרי שבמדינות מתוקנות מניחים כי אדם המואשם בפשע ועומד לדין הינו זכאי עד שתוכח אשמתו, כלומר השערת האפס של השופט אומרת כי "הנאשם זכאי".

מול השערת האפס ניצבת תמיד ההשערה האלטרנטיבית. בהקשר המדעי, השערה זו מבטאת תיאוריה חדשה שמועמדת לדחוק את התיאוריה הישנה. גלילאו הציע את ההשערה האלטרנטיבית "הארץ מסתובבת סביב השמש". עורכי הניסוי הקליני הנ"ל הציגו את ההשערה האלטרנטיבית כי "החיסון הנסיוני מפחית את הסיכוי להדבק בנגיף", והתובע מציג בפני השופט את ההשערה האלטרנטיבית כי "הנאשם אשם".

אלא אם אתה הומיאופת, עליך להציג טיעונים משכנעים בעד ההשערה האלטרנטיבית שלך. (גם הומיאופתים צריכים לעשות זאת, למעשה, אבל אף אחד כבר לא מצפה מהם). כדי להביא להרשעת הנאשם, התובע צריך להציג בפני השופט עדויות שישכנעו אותו, מעבר לספק סביר, כי הנאשם אכן ביצע את הפשע המיוחס לו. מה זה "מעבר לספק סביר"? כל אחד קובע את הרף שלו לעצמו, ואגיד על כך כמה מלים בהמשך. אם אדם מואשם בשוד תחנת דלק, למשל, יכול השופט להחליט כי ירשיע את הנאשם אם יופיעו בפניו שני עדי ראיה שיעידו כי הנאשם הוא אכן השודד. שופט מחמיר יותר אולי ידרוש שלושה עדים, וגם הוכחה כי הכסף נמצא בידי הנאשם, ושופט אחר אולי יסתפק בוידאו של מצלמת האבטחה. זה לא ממש משנה. העיקר הוא שיש השערות, עדויות, וכלל החלטה קבוע מראש.

כדי להביא את הדיון לפסים מדויקים יותר, אשתמש בדוגמא מלאכותית. כוכב הדוגמא שלנו הוא חקלאי שמגדל למחייתו עדר פרות חולבות. הפרות נכנסות מדי פעם להריון (אחסוך מכם את הפרטים). חלקן ממליטות עגלים וחלקן עגלות. החקלאי שלנו מעדיף כמובן כי פרותיו ימליטו עגלות נקבות, שיצטרפו בבוא הימים למערך ייצור החלב, והן לכן רווחיות יותר מעגלים זכרים. אולם מי ששולטת בהתפלגות המינים בהמלטות היא אמא טבע, הדואגת לכך שההסתברות להמלטת נקבה בכל הריון היא 0.5.

והנה, כיום בהיר אחד מגיע לחווה סוכן נוסע, המציע לחקלאי שלנו לרכוש שיקוי פלא, שיעלה את ההסתברות להמלטת נקבה מ-0.5 ל-0.9 אצל כל פרה שתלגום ממנו. כדי לשכנע את הרפתן הספקן, מציע הסוכן הצעה שאין לסרב לה: "קח נא בקבוק אחד, והשקה בו 20 פרות. לאחר מכן המתן וראה כמה המלטות נקבה יהיו בקרב 20 פרות אלה. אם לא תהיה מרוצה. כספך יוחזר לך". הדוד משה מסכים לבצע את הניסוי. יש לו השערת אפס: "ההסתברות להמלטת נקבה היא 0.5" והשערה אלטרנטיבית: "ההסתברות להמלטת נקבה היא 0.9". כיוון שהוא זוכר היטב את שיעורי המבוא לסטטיסטיקה שלמד בפקולטה לחקלאות (היי, אמרתי שזאת דוגמא מלאכותית!), הוא יודע לבנות כלל החלטה על פי הלמה של ניימן ופירסון, ומחליט לדחות את השערת האפס לטובת ההשערה האלטרנטיבית אם ב-20 ההמלטות יהיו 15 המלטות נקבה או יותר.

במלים אחרות, החקלאי החליט כי העדות הדרושה לדחיית השערת האפס לטובת האלטרנטיבה היא המלטת של 15 (או יותר) נקבות. אם יהיו 15 המלטות נקבה הוא ישתכנע ביעילותו של שיקוי הפלא. אם יהיו 16, או 17 או אף יותר, הוא בודאי ישתכנע.

החקלאי יכול לנסח את כלל ההחלטה שלו בצורה אחרת, אך שקולה. בהנתן עדות כלשהי (עדות כאן היא מספר המלטות הנקבה) הוא ישאל את עצמו: בהנחה שהשיקוי הוא תרמית, מה ההסתברות כי הייתה מתקבלת עדות זו שוב, או אף עדות משכנעת יותר? למשל, אם אכן צפה בהמלטת 15 נקבות מתוך 20, זו אולי עדות משכנעת, אך תוצאה של 16, 17, או יותר, היא עדות משכנעת יותר. אם השיקוי הוא תרמית, וההסתברות להמלטת נקבה נותרה 0.5, אז אפשר לחשב כי ההסתברות להמלטת 15 נקבות או יותר היא 0.0207. זוהי הסתברות קטנה למדי. אם ההסתברות לקבל תוצאה יותר משכנעת ממה שקיבלנו היא קטנה, הרי שהתוצאה שלנו היא משכנעת דיה.

ההסתברות לקבלת עדות דומה או חזקה יותר מהעדות שנצפתה, בהנחה שהשערת האפס נכונה, היא ה-p-value המפורסם.

ה-p-value, לעומת זאת, אינו ההסתברות כי התוצאה התקבלה במקרה, כאשר אני מניח כי הכוונה המבוטאת במילה "במקרה" היא "בהנחה שהשערת האפס נכונה". קל לראות מדוע זה כך. בדוגמא המלאכותית שלנו, ה-p-value  הוא ההסתברות כי היו 15 או יותר המלטות נקבה מתוך 20. ההסתברות שהתוצאה של 15 המלטות נקבה תתקבל, אם ההסתברות להמלטת נקבה היא 0.5, היא לעומת זאת 0.0148.

ומה ההסתברות כי התוצאה שהתקבלה בניסוי הקליני לחיסון נגד איידס "is due to chance"?. כזכור השתתפו בניסוי הנ"ל 16395 מתנדבים, מתוכם ל-125 זוהו כנשאי נגיף HIV: 51 מבין 8197 נבדקים שקיבלו את החיסון הנסיוני, ו-74 מבין 8198 המתנדבים שקיבלו חיסון דמה. תארו לכם כד ובתוכו 16395 כדורים, מתוכם 8197 כדורים ירוקים, והשאר אדומים. אם תשלפו מהכד 125 כדורים, מה ההסתברות כי בדיוק 51 מתוכם יהיו ירוקים? זוהי בדיוק ההסתברות כי תוצאות הניסוי הנ"ל התקבלה במקרה, כלומר: אין לחיסון שנבדק אפקט חיסוני אמיתי. החישוב דומה לחישוב הסתברויות הזכיה בלוטו. זהו מודל הסתברותי היפר-גאומטרי. החשבון פשוט, ובזכות המחשבון הזה גם החישוב לא מסובך. ההסתברות היא 0.0085, שונה מה-p-value שפורסם, 0.039.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

חיסון נגד איידס באופק?

לא ברור.

מתברר שבתאילנד נערך לאחרונה ניסוי קליני שנועד לבדוק את יעילותו של חיסון אפשרי נגד איידס. לי נודע כל הסיפור מהניוזלטר המצויין "Chance News" (זה כבר בכלל אתר ויקי), שהביא שני אייטמים בנושא בגליון האחרון שלו (הנה הראשון והנה השני). צ'אנס ניוז דיווח על ידיעה בוול סטריט ג'ורנל, וידיעה בסיינס מגזין. כמו כן מצאתי (נדמה לי דרך דלישס) ראיון עם פרופ' ויקטור דה-גרוטולה, יו"ר המחלקה לביוסטטיסטיקה בביה"ס לבריאות הציבור באוניברסיטת הארוורד. הראיון נערך בעקבות הפרסום על תוצאות הניסוי הנ"ל, ועסק בעיקר במושג ה-p-value ומשמעותו – נושא שאדון בו ברשימה אחרת בעתיד. ברשימה הזו אתרכז בניסוי הקליני ומשמעות התוצאות.

נתחיל בתיאור הניסוי. תכנון הניסוי הוא קלאסי: המשתתפים בניסוי מחולקים באופן אקראי לשתי קבוצות. קבוצה אחת מקבלת את החיסון הנסיוני. לחברי הקבוצה השניה מוזרק חיסון דמה – מי מלח. כעבור 3 שנים, בודקים לכמה מהמשתתפים בכל קבוצה יש תוצאה חיובית בבדיקת HIV.  מדובר בניסוי גדול למדי (לפחות במושגים שלי) – סה"כ השתתפו בו כ-16,000 איש, כולם בתאילנד. עם זאת, איני יודע מה גודל המדגם הדרוש לניסוי כזה, כיוון שאיני יודע מהו שיעור ההדבקות באיידס בתאילנד. עם זאת אציין כי בניסוי הקליני שבדק את החיסון של סאלק נגד מחלת הפוליו, שנערך בארה"ב ב-1954, היו כ-400,000 משתתפים (את הפרט הזה מצאתי בעותק הישן שלי של ספרו של להמן, אני מניח שניתן למצוא אותם אי-שם ברשת).

והנה התוצאות שפורסמו: מבין 8197 מתנדבים שקיבלו את החיסון הנסיוני, 51 בכל זאת הראו תוצאה חיובית בבדיקת HIV, כלומר כ-0.6%. לעומת זאת, מבין 8198 מתנדבים שקיבלו את חיסון הדמה, 74 הראו תוצאה חיובית בבדיקת HIV, כ-0.9%. מכאן, שהחיסון הנסיוני הקטין את שיעור ההדבקות בכשליש. האם זו תוצאה משמעותית מבחינה קלינית? האם ייתכן כי רק במקרה התקבלה תוצאה כזו, ואין קשר בין הטיפול שקיבלו החולים (חיסון נסיוני או פלסבו) לבין ההדבקות או אי-הדבקות באיידס?

לשם כך נערך מבחן סטטיסטי, ובסיינס מגזין (וגם בוול סטריט ג'ורנל) פורסמה השורה התחתונה שלו: p=0.039. ה-p (הידוע גם בשם p-value) הוא ההסתברות כי בניסוי דומה יתקבלו תוצאות "משכנעות" יותר אם החיסון לא יעיל במניעת ההדבקות*. מכיוון שמקובל לראות בערכי p  הנמוכים מ-0.05 ערכים מובהקים סטטיסטית, הרי שהשורה התחתונה אומרת כי התוצאה שהתקבלה מובהקת סטטיסטית, והניסוי מספק עדות ליעילותו של החיסון הנסיוני. הסטטיסטיקאי פול אלפר, שכתב את הידיעה בצ'אנס ניוז, חישב אמנם כי ערך ה-p, על פי מבחן פישר, הוא דווקא 0.048 (לפי החישוב שלי, הערך 0.039 התקבל ממבחן חי-בריבוע, וערכתי את דף הויקי בצ'אנס ניוז בהתאם – אני אחראי לפלט תכנת SAS המופיע שם, ועוד), אבל גם ערך זה נמוך ממספר הקסם 0.05, כלומר גם לפי אלפר התוצאות מובהקות סטטיסטית.

הבעיה היא שאי אפשר לרוץ ל-FDA רק עם p-value. יש צורך בניתוחים נוספים.

הנתונים שהובאו עד כה מכונים בז'ארגון המקצועי "נתוני ITT". ITT פירושו "Intent To Treat". נתונים אלה כוללים את התוצאות של כל המתנדבים שנכללו בניסוי, כולל אלה שלא עמדו בכל התנאים של הניסוי (למשל, לא קיבלו את כל הזריקות שהיו אמורים לקבל, לא הופיעו לחלק מבדיקות המעקב, נטלו תרופות אסורות במהלך הניסוי, וכדומה). אם "זורקים" את הנתונים של המתנדבים האלה מהאנליזה, נשארים רק  המתונים של החולים שעמדו בכל התנאים של פרוטוקול הניסוי – "נתוני PP" (כאשר PP פירושו Per Protocol). בעוד שבנתוני ה-ITT היו בסך הכל 125 זיהומי HIV (51+74), הרי שבקרב המתנדבים שעמדו בתנאי הפרוטוקול (כלומר בנתוני ה-PP) היו 86 זיהומים בלבד. בשאלות לדיון פול אלפר טען (בשאלה לדיון מספר 1) כי ניתן לבצע חישוב לאחור (reverse engineering) ולמצוא כי בקבוצת הניסוי היו 36 זיהומים ובקבוצת הפלסבו היו 50 זיהומים, אך הוא הניח (מבלי לציין במפורש, אני ערכתי את השאלה לדיון) כי בשתי קבוצות הטיפול היה אותו מספר של חולים גם בנתוני ה-PP. אולם, במקרה כזה ה- p-valueשמתקבל הוא 0.13 ולא 0.16. לכן, המסקנה היא כי באוכלוסיית ה-PP לא היו גדלי הקבוצות שווים.

העובדה כי תוצאות ה-PP אינן מובהקות סטטיסטית לא צריכה להטריד. התוצאות הקובעות הן תוצאות ה-ITT, ותוצאות ה-PP רק צריכות להראות אפקט דומה לזה שנצפה בנתוני ה-ITT. השאלה המעניינת היא האם אפקט של 26% הוא מספיק "דומה" לאפקט של 31.2%. (למה תוצאות ה-ITT הן הקובעות ולא תוצאות ה-PP? שאלה מצוינת. התשובה אולי תבוא ברשימה אחרת אי שם בעתיד).

מה כן צריך להטריד בתוצאות הניסוי הזה? הפרטים שלא פורסמו, מן הסתם. למשל: אנו יודעים כי המתנדבים שלא עמדו בתנאי פרוטוקול הניסוי לא התחלקו שווה בשווה בין הקבוצות. כמה מתנדבים בכלל לא עמדו בתנאי הפרוטוקול? מדוע? מה הייתה החלוקה בין הקבוצות? מה גרם לחלוקה הלא שווה? האם היו תופעות לוואי משמעותיות בקרב המתנדבים שקיבלו את החיסון הנסיוני? האם שיעור תופעות הלוואי בקבוצת הניסוי גבוה משמעותית משיעורן בקבוצת הפלסבו? ניתוח של תופעות הלוואי יאפשר לקבוע האם התועלת שבחיסון הנסיוני עולה על הנזק האפשרי שהוא עלול לגרום.

וכמובן, השאלה שיש לשאול בכל מחקר מדעי: האם תוצאת הניסוי הזה ניתנת לשחזור? כדי לענות על כך, יש צורך לערוך ניסוי קליני נוסף. זוהי דרישה בסיסית של ה-FDA מכל חברת תרופות המבקשת לאשר טיפול רפואי חדש.

אני לא יודע את התשובות לכל השאלות האלה. לכן, אני לא יכול לקבוע האם התוצאות שפורסמו נותנות תקווה כי בעתיד הקרוב יהיה חיסון נגד נגיף ה-HIV. כתבתי את הרשימה הזו בחשש מה. ייתכן מאוד שמתנגדי החיסונים למיניהם ינסו לאמץ  את הדברים שכתבתי כ"הוכחה" לאי-יעילות החיסונים, אינטרסים של חברות התרופות וכל הבלה בלה הרגיל.  כדי להסיר ספק, אני מדגיש כאן כי זו לא כוונתי. לשאלות שנשארו פתוחות בעקבות הקריאה של הידיעה הראשונית אודות תוצאות הניסוי הזה יש תשובות, ואני בטוח כי אם התוצאות יוגשו ל-FDA כדי לרשום את החיסון, הן יישאלו וייענו (ה-FDA ישאל את עורכי הניסוי עוד הרבה שאלות קשות אחרות, תאמינו לי).


* הוול סטריט ג'ורנל ציין כי ה-p-value הוא "ההסתברות כי התוצאה התקבלה במקרה" ("Probability that the result is due to chance "). זה לא נכון. אני מתכוון להסביר את הנושא ברשימה בעתיד הקרוב.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו