ארכיב עבור תגית ביוסטטיסטיקה
מה ה-P-value הוא לא?
ברשימה קודמת הסברתי מהו ה-p-value, אותו ערך מיסטי שאיש כמדומה אינו יכול לחיות חיים שלמים בלעדיו. אחזור ואומר, לטובת מי שלא זוכר, כי בניסוי מבוקר המלווה בבדיקת השערות סטטיסטיות, הp-value הוא ההסתברות כי בניסוי חוזר תתקבל עדות לדחיית השערת האפס שהינה משכנעת לפחות כמו העדות שהתקבלה בניסוי הנוכחי, וכל זאת תחת ההנחה כי השערת האפס נכונה.
לאחר שנערך הניסוי והתקבל ה-p-value, מה עושים איתו? בקורסים של מבוא לסטטיסטיקה למיניהם נהוג ללמד כי אם ה-p-value קטן מ-5% אז דוחים את השערת האפס לטובת ההשערה האלטרנטיבית, ואם הוא גדול מ-5% אז לא דוחים את השערת האפס (ההסתברות כי יהיה שווה בדיוק ל-5% היא, תיאורטית, 0). אפשר להראות כי הכלל הזה שקול לכלל ההחלטה המתקבל מהלמה של ניימן ופירסון (בין שתי טעויות), אם רמת המובהקות שנקבעה מראש לבדיקת ההשערות היא 5% (למה 5%? על כך בשיעור ההיסטוריה הקרוב). עם זאת, אני וחברי למקצוע נתקלים פעמים רבות בפרשנויות שגויות למושג ה-p-value ולערכיו. רשימה זו תסקור חלק מהפרשנויות האלה ותנסה להסביר מדוע הן שגויות. הרשימה מתבססת בחלקה על הערך של p-value בויקיפדיה (באנגלית), ועל מאמרם של שטרן וסמית: "Sifting the evidence—what's wrong with significance tests?".
ה-p-value אינו ההסתברות כי השערת האפס נכונה. אני שומע את הפרשנות הזו לעתים קרובות: "יצא p-value של 2%, ולכן יש רק 2% סיכוי שאין הבדל בין הקבוצות". אבל זה פשוט לא נכון. ה-p-value הוא פונקציה של תוצאות הניסוי שערכנו. בין הקבוצות יש הבדל או שאין הבדל, וקיומו או אי קיומו של ההבדל הזה, או במלים יותר פורמליות, נכונותה או אי נכונותה של השערת האפס, אינו תלוי בתוצאות הניסוי שערכנו. אם השערת האפס נכונה, אז ההסתברות שהיא נכונה היא 1, ואם לא, אז ההסתברות היא 0. ה-p-value רק מבטא את חוזקן של העדויות שאספנו נגד נכונותה של השערת האפס. באותו אופן, 1 פחות ה-p-value אינה ההסתברות כי ההשערה האלטרנטיבית נכונה. (לפני שתגיבו: הסטטיסטיקה הבייסיאנית מאפשרת השמת הסתברויות להשערות, אולם יש לכך מחיר כבד).
ה-p-value אינו ההסתברות כי תוצאות הניסוי התקבלו "במקרה". כבר התייחסתי לכך ברשימה הקודמת שהבהירה את הפרשנות הלא נכונה שנתן הוול-סטריט ג'ורנל ל-p-value של הניסוי לחיסון לוירוס HIV. הראיתי כי ניתן לחשב את ההסתברות לקבלת תוצאת הניסוי בהנחה שהשערת האפס נכונה, והסתברות זו שונה תמיד מה-p-value על פי עצם הגדרתו.
באופן דומה, ה-p-value אינה ההסתברות כי בחזרה על הניסוי תתקבל אותה תוצאה כמותית (לדוגמא, בניסוי הפרות שתיארתי ברשימה הקודמת, ה-p-value שחושב שם אינו ההסתברות כי בניסוי חוזר יהיו שוב 15 המלטות נקבה).
ערכים נמוכים של ה-p-value אינם "מוכיחים" כי השערת האפס נכונה. זכרו כי ה-p-value מחושב תחת ההנחה כי השערת האפס נכונה, אז איך בדיוק הוא יכול "להוכיח" את ההנחה שעליה הוא מתבסס?
ה-p-value אינו ההסתברות לדחיה מוטעית של השערת האפס. ההסתברות לדחיה מוטעית של השערת האפס אמורה להקבע מראש לפני עריכת הניסוי, וממנה נגזר כלל ההחלטה לדחיית השערת האפס על פי הלמה של ניימן ופירסון.
באופן דומה, ה-p-value אינו ההסתברות כי בחזרה על הניסוי תתקבל אותה תוצאה איכותית (השערת האפס תידחה שוב, או תתקבל שוב). ההסתברות לדחיה (או קבלה) חוזרת של השערת האפס בניסוי חוזר נגזרת מרמת המובהקות והעוצמה של המבחן הסטטיסטי, מהמצב האמיתי (כלומר מנכונותה של השערת האפס או ההשערה האלטרנטיבית), וכן מפרמטרים נוספים.
p-value הקרוב בערכו לרמת המובהקות (בדרך כלל 5%) אינו מעמיד בספק את ההחלטה המתקבלת. אם מקבלים p-value של 0.048 למשל, פירוש הדבר כי תוצאות הניסוי סיפקו עדות מספקת כדי לדחות את השערת האפס (אם רמת המובהקות הנדרשת היא אכן 5%), ולכן דינה להידחות, ובאותו אופן p-value של 0.052 פירושו כי תוצאות הניסוי אינן מהוות עדות מספקת לדחיית השערת האפס. טענה כמו "הערך של ה-p-value מובהק, אבל גבולי…" הינה בעייתית, כיוון שהיא למעשה נסיון לשנות את כלל ההחלטה בדיעבד, לאחר שהניסוי בוצע ותוצאותיו התקבלו. בדרך כלל טענות כאלה נשמעות כאשר התוצאות אינן מתיישבות עם האמונות של האדם שמנסה לפרש את תוצאת הניסוי ("התוצאות מראות שהטיפול שנתנו עוזר בדיוק כמו שתיית מים, אבל אני יודע שזה עוזר לרפא את המחלה הזו…").
באופן דומה, p-value שערכו נמוך במיוחד (או גבוה במיוחד) אינו מחזק יותר את ההחלטה המתקבלת, ובמלים אחרות – p-value נמוך יותר אינו "דוחה יותר" את השערת האפס. אמנם ערך נמוך יותר של p-value אומר כי ישנן עדויות רבות יותר לדחיית השערת האפס, ובכל זאת, זה לא משנה אם דוחים את השערת האפס עם p-value של 0.048 או 0.001. השורה התחתונה היא אותה שורה: או שדוחים או שלא. כדי לחדד את הנקודה, אביא כאן את הדוגמא ששמעתי פעם ממורי ורבי, פרופ' צבי גילולה. ברשימה הקודמת הבאתי אנלוגיה מעולם המשפט. תיארתי מצב בו אדם מואשם בשוד תחנת דלק, ומספר שופטים היפותטיים שלכל אחד מהם כלל החלטה אחר לפיו יקבע אם הנאשם אשם.שופט אחד יכול להחליט כי ירשיע את הנאשם אם יופיעו בפניו שני עדי ראיה שיעידו כי הנאשם הוא אכן השודד. שופט מחמיר יותר ידרוש שלושה עדים, וגם הוכחה כי הכסף נמצא בידי הנאשם, ושופט אחר אולי יסתפק בוידאו של מצלמת האבטחה. עכשיו תארו לכם שני שודדי תחנות דלק. אחד מהם שדד את תחנת הדלק בתל-מונד, ושני עדי ראיה הופיעו בבית המשפט והעידו כי אכן ביצע את השוד. השודד השני בחר לשדוד דווקא את תחנת הדלק שליד אצטדיון טדי בירושלים, במוצאי שבת, כאשר זה עתה מכבי חיפה ניצחה את בית"ר ירושלים שלוש אפס, ועשרים אלף איש יצאו מהאצטדיון, ראו את השוד, וכולם מוכנים לבוא לבית המשפט ולהעיד נגדו, כי השודד אוהד הפועל. האם השודד השני אשם יותר מהשודד הראשון?
ואחרון חביב: ערכו של ה-p-value אינו מעיד על גודל האפקט או חשיבותו. אפקט (הבדל בין הקבוצות) נמוך יכול להיות מובהק, ואפקט גבוה יכול להיות לא מובהק. אפקט מובהק יכול להיות בלתי משמעותי בהקשר בו נערך הניסוי (וחלק מקוראיי תהו ברשימה על הניסוי לחיסון נגד HIV האם האפקט המובהק שגילה הניסוי הוא גם משמעותי מבחינה קלינית). אפקט לא מובהק יכול להיות משמעותי – זה קורה הרבה בניסויים קליניים בשלב II. כל האפשרויות קיימות.
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 24 בנובמבר, 2009. נושאים: ביוסטטיסטיקה, מה אומרת הסטטיסטיקה.
תגובות: 2
| טראקבק
מהו p-value?
מדענים אובססיביים כלפיו. עורכי כתבי עת לא יפרסמו מאמרים אם הוא לא יופיע בהם. החלטות של מאות מיליוני דולרים מתקבלות על פיו. ובכל זאת, רק מתי מעט מבינים אותו. זהו ה-"p-value". אותו מספר קסם חורץ גורלות המתלווה כמעט לכל ניתוח סטטיסטי.
הזכרתי אותו ברשימה שכתבתי על הניסוי הקליני לחיסון נגד נגיף ה-HIV. ה-p-value, איך לא, היה הנתון העיקרי שפורסם בהודעה הראשונה על תוצאות אותו ניסוי. הוא הגיע עד לוול-סטריט גו'רנל. הוול סטריט ג'ורנל ציין, בכתבה על אותו הניסוי. כי ה-p-value הוא "ההסתברות כי התוצאה התקבלה במקרה" ("Probability that the result is due to chance ") . זה לא נכון. בהמשך אסביר כיצד לחשב את ההסתברות הזו, אבל לפני כן אנסה להסביר מהו באמת אותו p-value, ומהי משמעותו.
אתחיל בקצת רקע, לטובת מי שלא קרא את הרשימה "בין שתי טעויות" (או מי שלא זוכר מה כתוב שם). בבסיסה של כל בעיית החלטה סטטיסטית עומדות שתי השערות (hypotheses). ההשערה הבסיסית, המכונה גם "השערת האפס" מבטאת את האמונה (המדעית) המקובלת. בימי גלילאו, השערת אפס טיפוסית יכולה להיות "השמש מסתובבת סביב הארץ". בניסוי הקליני לחיסון נגד נגיף ה-HIV השערת האפס היא "החיסון הנסיוני לא מפחית את הסיכוי להדבק בנגיף". ואם נעבור לאנלוגיה של עולם המשפט, הרי שבמדינות מתוקנות מניחים כי אדם המואשם בפשע ועומד לדין הינו זכאי עד שתוכח אשמתו, כלומר השערת האפס של השופט אומרת כי "הנאשם זכאי".
מול השערת האפס ניצבת תמיד ההשערה האלטרנטיבית. בהקשר המדעי, השערה זו מבטאת תיאוריה חדשה שמועמדת לדחוק את התיאוריה הישנה. גלילאו הציע את ההשערה האלטרנטיבית "הארץ מסתובבת סביב השמש". עורכי הניסוי הקליני הנ"ל הציגו את ההשערה האלטרנטיבית כי "החיסון הנסיוני מפחית את הסיכוי להדבק בנגיף", והתובע מציג בפני השופט את ההשערה האלטרנטיבית כי "הנאשם אשם".
אלא אם אתה הומיאופת, עליך להציג טיעונים משכנעים בעד ההשערה האלטרנטיבית שלך. (גם הומיאופתים צריכים לעשות זאת, למעשה, אבל אף אחד כבר לא מצפה מהם). כדי להביא להרשעת הנאשם, התובע צריך להציג בפני השופט עדויות שישכנעו אותו, מעבר לספק סביר, כי הנאשם אכן ביצע את הפשע המיוחס לו. מה זה "מעבר לספק סביר"? כל אחד קובע את הרף שלו לעצמו, ואגיד על כך כמה מלים בהמשך. אם אדם מואשם בשוד תחנת דלק, למשל, יכול השופט להחליט כי ירשיע את הנאשם אם יופיעו בפניו שני עדי ראיה שיעידו כי הנאשם הוא אכן השודד. שופט מחמיר יותר אולי ידרוש שלושה עדים, וגם הוכחה כי הכסף נמצא בידי הנאשם, ושופט אחר אולי יסתפק בוידאו של מצלמת האבטחה. זה לא ממש משנה. העיקר הוא שיש השערות, עדויות, וכלל החלטה קבוע מראש.
כדי להביא את הדיון לפסים מדויקים יותר, אשתמש בדוגמא מלאכותית. כוכב הדוגמא שלנו הוא חקלאי שמגדל למחייתו עדר פרות חולבות. הפרות נכנסות מדי פעם להריון (אחסוך מכם את הפרטים). חלקן ממליטות עגלים וחלקן עגלות. החקלאי שלנו מעדיף כמובן כי פרותיו ימליטו עגלות נקבות, שיצטרפו בבוא הימים למערך ייצור החלב, והן לכן רווחיות יותר מעגלים זכרים. אולם מי ששולטת בהתפלגות המינים בהמלטות היא אמא טבע, הדואגת לכך שההסתברות להמלטת נקבה בכל הריון היא 0.5.
והנה, כיום בהיר אחד מגיע לחווה סוכן נוסע, המציע לחקלאי שלנו לרכוש שיקוי פלא, שיעלה את ההסתברות להמלטת נקבה מ-0.5 ל-0.9 אצל כל פרה שתלגום ממנו. כדי לשכנע את הרפתן הספקן, מציע הסוכן הצעה שאין לסרב לה: "קח נא בקבוק אחד, והשקה בו 20 פרות. לאחר מכן המתן וראה כמה המלטות נקבה יהיו בקרב 20 פרות אלה. אם לא תהיה מרוצה. כספך יוחזר לך". הדוד משה מסכים לבצע את הניסוי. יש לו השערת אפס: "ההסתברות להמלטת נקבה היא 0.5" והשערה אלטרנטיבית: "ההסתברות להמלטת נקבה היא 0.9". כיוון שהוא זוכר היטב את שיעורי המבוא לסטטיסטיקה שלמד בפקולטה לחקלאות (היי, אמרתי שזאת דוגמא מלאכותית!), הוא יודע לבנות כלל החלטה על פי הלמה של ניימן ופירסון, ומחליט לדחות את השערת האפס לטובת ההשערה האלטרנטיבית אם ב-20 ההמלטות יהיו 15 המלטות נקבה או יותר.
במלים אחרות, החקלאי החליט כי העדות הדרושה לדחיית השערת האפס לטובת האלטרנטיבה היא המלטת של 15 (או יותר) נקבות. אם יהיו 15 המלטות נקבה הוא ישתכנע ביעילותו של שיקוי הפלא. אם יהיו 16, או 17 או אף יותר, הוא בודאי ישתכנע.
החקלאי יכול לנסח את כלל ההחלטה שלו בצורה אחרת, אך שקולה. בהנתן עדות כלשהי (עדות כאן היא מספר המלטות הנקבה) הוא ישאל את עצמו: בהנחה שהשיקוי הוא תרמית, מה ההסתברות כי הייתה מתקבלת עדות זו שוב, או אף עדות משכנעת יותר? למשל, אם אכן צפה בהמלטת 15 נקבות מתוך 20, זו אולי עדות משכנעת, אך תוצאה של 16, 17, או יותר, היא עדות משכנעת יותר. אם השיקוי הוא תרמית, וההסתברות להמלטת נקבה נותרה 0.5, אז אפשר לחשב כי ההסתברות להמלטת 15 נקבות או יותר היא 0.0207. זוהי הסתברות קטנה למדי. אם ההסתברות לקבל תוצאה יותר משכנעת ממה שקיבלנו היא קטנה, הרי שהתוצאה שלנו היא משכנעת דיה.
ההסתברות לקבלת עדות דומה או חזקה יותר מהעדות שנצפתה, בהנחה שהשערת האפס נכונה, היא ה-p-value המפורסם.
ה-p-value, לעומת זאת, אינו ההסתברות כי התוצאה התקבלה במקרה, כאשר אני מניח כי הכוונה המבוטאת במילה "במקרה" היא "בהנחה שהשערת האפס נכונה". קל לראות מדוע זה כך. בדוגמא המלאכותית שלנו, ה-p-value הוא ההסתברות כי היו 15 או יותר המלטות נקבה מתוך 20. ההסתברות שהתוצאה של 15 המלטות נקבה תתקבל, אם ההסתברות להמלטת נקבה היא 0.5, היא לעומת זאת 0.0148.
ומה ההסתברות כי התוצאה שהתקבלה בניסוי הקליני לחיסון נגד איידס "is due to chance"?. כזכור השתתפו בניסוי הנ"ל 16395 מתנדבים, מתוכם ל-125 זוהו כנשאי נגיף HIV: 51 מבין 8197 נבדקים שקיבלו את החיסון הנסיוני, ו-74 מבין 8198 המתנדבים שקיבלו חיסון דמה. תארו לכם כד ובתוכו 16395 כדורים, מתוכם 8197 כדורים ירוקים, והשאר אדומים. אם תשלפו מהכד 125 כדורים, מה ההסתברות כי בדיוק 51 מתוכם יהיו ירוקים? זוהי בדיוק ההסתברות כי תוצאות הניסוי הנ"ל התקבלה במקרה, כלומר: אין לחיסון שנבדק אפקט חיסוני אמיתי. החישוב דומה לחישוב הסתברויות הזכיה בלוטו. זהו מודל הסתברותי היפר-גאומטרי. החשבון פשוט, ובזכות המחשבון הזה גם החישוב לא מסובך. ההסתברות היא 0.0085, שונה מה-p-value שפורסם, 0.039.
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 12 בנובמבר, 2009. נושאים: ביוסטטיסטיקה, מה אומרת הסטטיסטיקה.
תגובות: 26
| טראקבק
חיסון נגד איידס באופק?
לא ברור.
מתברר שבתאילנד נערך לאחרונה ניסוי קליני שנועד לבדוק את יעילותו של חיסון אפשרי נגד איידס. לי נודע כל הסיפור מהניוזלטר המצויין "Chance News" (זה כבר בכלל אתר ויקי), שהביא שני אייטמים בנושא בגליון האחרון שלו (הנה הראשון והנה השני). צ'אנס ניוז דיווח על ידיעה בוול סטריט ג'ורנל, וידיעה בסיינס מגזין. כמו כן מצאתי (נדמה לי דרך דלישס) ראיון עם פרופ' ויקטור דה-גרוטולה, יו"ר המחלקה לביוסטטיסטיקה בביה"ס לבריאות הציבור באוניברסיטת הארוורד. הראיון נערך בעקבות הפרסום על תוצאות הניסוי הנ"ל, ועסק בעיקר במושג ה-p-value ומשמעותו – נושא שאדון בו ברשימה אחרת בעתיד. ברשימה הזו אתרכז בניסוי הקליני ומשמעות התוצאות.
נתחיל בתיאור הניסוי. תכנון הניסוי הוא קלאסי: המשתתפים בניסוי מחולקים באופן אקראי לשתי קבוצות. קבוצה אחת מקבלת את החיסון הנסיוני. לחברי הקבוצה השניה מוזרק חיסון דמה – מי מלח. כעבור 3 שנים, בודקים לכמה מהמשתתפים בכל קבוצה יש תוצאה חיובית בבדיקת HIV. מדובר בניסוי גדול למדי (לפחות במושגים שלי) – סה"כ השתתפו בו כ-16,000 איש, כולם בתאילנד. עם זאת, איני יודע מה גודל המדגם הדרוש לניסוי כזה, כיוון שאיני יודע מהו שיעור ההדבקות באיידס בתאילנד. עם זאת אציין כי בניסוי הקליני שבדק את החיסון של סאלק נגד מחלת הפוליו, שנערך בארה"ב ב-1954, היו כ-400,000 משתתפים (את הפרט הזה מצאתי בעותק הישן שלי של ספרו של להמן, אני מניח שניתן למצוא אותם אי-שם ברשת).
והנה התוצאות שפורסמו: מבין 8197 מתנדבים שקיבלו את החיסון הנסיוני, 51 בכל זאת הראו תוצאה חיובית בבדיקת HIV, כלומר כ-0.6%. לעומת זאת, מבין 8198 מתנדבים שקיבלו את חיסון הדמה, 74 הראו תוצאה חיובית בבדיקת HIV, כ-0.9%. מכאן, שהחיסון הנסיוני הקטין את שיעור ההדבקות בכשליש. האם זו תוצאה משמעותית מבחינה קלינית? האם ייתכן כי רק במקרה התקבלה תוצאה כזו, ואין קשר בין הטיפול שקיבלו החולים (חיסון נסיוני או פלסבו) לבין ההדבקות או אי-הדבקות באיידס?
לשם כך נערך מבחן סטטיסטי, ובסיינס מגזין (וגם בוול סטריט ג'ורנל) פורסמה השורה התחתונה שלו: p=0.039. ה-p (הידוע גם בשם p-value) הוא ההסתברות כי בניסוי דומה יתקבלו תוצאות "משכנעות" יותר אם החיסון לא יעיל במניעת ההדבקות*. מכיוון שמקובל לראות בערכי p הנמוכים מ-0.05 ערכים מובהקים סטטיסטית, הרי שהשורה התחתונה אומרת כי התוצאה שהתקבלה מובהקת סטטיסטית, והניסוי מספק עדות ליעילותו של החיסון הנסיוני. הסטטיסטיקאי פול אלפר, שכתב את הידיעה בצ'אנס ניוז, חישב אמנם כי ערך ה-p, על פי מבחן פישר, הוא דווקא 0.048 (לפי החישוב שלי, הערך 0.039 התקבל ממבחן חי-בריבוע, וערכתי את דף הויקי בצ'אנס ניוז בהתאם – אני אחראי לפלט תכנת SAS המופיע שם, ועוד), אבל גם ערך זה נמוך ממספר הקסם 0.05, כלומר גם לפי אלפר התוצאות מובהקות סטטיסטית.
הבעיה היא שאי אפשר לרוץ ל-FDA רק עם p-value. יש צורך בניתוחים נוספים.
הנתונים שהובאו עד כה מכונים בז'ארגון המקצועי "נתוני ITT". ITT פירושו "Intent To Treat". נתונים אלה כוללים את התוצאות של כל המתנדבים שנכללו בניסוי, כולל אלה שלא עמדו בכל התנאים של הניסוי (למשל, לא קיבלו את כל הזריקות שהיו אמורים לקבל, לא הופיעו לחלק מבדיקות המעקב, נטלו תרופות אסורות במהלך הניסוי, וכדומה). אם "זורקים" את הנתונים של המתנדבים האלה מהאנליזה, נשארים רק המתונים של החולים שעמדו בכל התנאים של פרוטוקול הניסוי – "נתוני PP" (כאשר PP פירושו Per Protocol). בעוד שבנתוני ה-ITT היו בסך הכל 125 זיהומי HIV (51+74), הרי שבקרב המתנדבים שעמדו בתנאי הפרוטוקול (כלומר בנתוני ה-PP) היו 86 זיהומים בלבד. בשאלות לדיון פול אלפר טען (בשאלה לדיון מספר 1) כי ניתן לבצע חישוב לאחור (reverse engineering) ולמצוא כי בקבוצת הניסוי היו 36 זיהומים ובקבוצת הפלסבו היו 50 זיהומים, אך הוא הניח (מבלי לציין במפורש, אני ערכתי את השאלה לדיון) כי בשתי קבוצות הטיפול היה אותו מספר של חולים גם בנתוני ה-PP. אולם, במקרה כזה ה- p-valueשמתקבל הוא 0.13 ולא 0.16. לכן, המסקנה היא כי באוכלוסיית ה-PP לא היו גדלי הקבוצות שווים.
העובדה כי תוצאות ה-PP אינן מובהקות סטטיסטית לא צריכה להטריד. התוצאות הקובעות הן תוצאות ה-ITT, ותוצאות ה-PP רק צריכות להראות אפקט דומה לזה שנצפה בנתוני ה-ITT. השאלה המעניינת היא האם אפקט של 26% הוא מספיק "דומה" לאפקט של 31.2%. (למה תוצאות ה-ITT הן הקובעות ולא תוצאות ה-PP? שאלה מצוינת. התשובה אולי תבוא ברשימה אחרת אי שם בעתיד).
מה כן צריך להטריד בתוצאות הניסוי הזה? הפרטים שלא פורסמו, מן הסתם. למשל: אנו יודעים כי המתנדבים שלא עמדו בתנאי פרוטוקול הניסוי לא התחלקו שווה בשווה בין הקבוצות. כמה מתנדבים בכלל לא עמדו בתנאי הפרוטוקול? מדוע? מה הייתה החלוקה בין הקבוצות? מה גרם לחלוקה הלא שווה? האם היו תופעות לוואי משמעותיות בקרב המתנדבים שקיבלו את החיסון הנסיוני? האם שיעור תופעות הלוואי בקבוצת הניסוי גבוה משמעותית משיעורן בקבוצת הפלסבו? ניתוח של תופעות הלוואי יאפשר לקבוע האם התועלת שבחיסון הנסיוני עולה על הנזק האפשרי שהוא עלול לגרום.
וכמובן, השאלה שיש לשאול בכל מחקר מדעי: האם תוצאת הניסוי הזה ניתנת לשחזור? כדי לענות על כך, יש צורך לערוך ניסוי קליני נוסף. זוהי דרישה בסיסית של ה-FDA מכל חברת תרופות המבקשת לאשר טיפול רפואי חדש.
אני לא יודע את התשובות לכל השאלות האלה. לכן, אני לא יכול לקבוע האם התוצאות שפורסמו נותנות תקווה כי בעתיד הקרוב יהיה חיסון נגד נגיף ה-HIV. כתבתי את הרשימה הזו בחשש מה. ייתכן מאוד שמתנגדי החיסונים למיניהם ינסו לאמץ את הדברים שכתבתי כ"הוכחה" לאי-יעילות החיסונים, אינטרסים של חברות התרופות וכל הבלה בלה הרגיל. כדי להסיר ספק, אני מדגיש כאן כי זו לא כוונתי. לשאלות שנשארו פתוחות בעקבות הקריאה של הידיעה הראשונית אודות תוצאות הניסוי הזה יש תשובות, ואני בטוח כי אם התוצאות יוגשו ל-FDA כדי לרשום את החיסון, הן יישאלו וייענו (ה-FDA ישאל את עורכי הניסוי עוד הרבה שאלות קשות אחרות, תאמינו לי).
* הוול סטריט ג'ורנל ציין כי ה-p-value הוא "ההסתברות כי התוצאה התקבלה במקרה" ("Probability that the result is due to chance "). זה לא נכון. אני מתכוון להסביר את הנושא ברשימה בעתיד הקרוב.
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 7 בנובמבר, 2009. נושאים: ביוסטטיסטיקה, בריאות, מדע.
תגובות: 7
| טראקבק
כשלים סטטיסטיים אפשריים בניסויים קליניים – סקירת ספרות
כפי שכתבתי בהקדמה לסדרת הרשימות הזו, הופתעתי לגלות כי יש מעט מאוד פרסומים בנושא זה. ברשימה זו אסקור את המעט שמצאתי. אם מי מהקוראים מכיר או נתקל בעוד פרסומים בנושא, אשמח לקבל הפניה.
המשך הרשימה עלול להיות סתום בעיני חלק מהקוראים. לא להבהל – אני אסביר את הכל ברשימות הבאות בסדרה.
בשנת 2000 פרסמו Assmann, Pocock, Enos ו- Kasten מאמר שכותרתו "Subgroup analysis and other (mis)uses of baseline data in clinical trials" בכתב העת היוקרתי The Lancet. הם בחנו 50 מאמרים שמציגים תוצאות מניסויים קליניים, ופורסמו בארבעה כתבי עת מובילים בתקופה של שלושה חודשים בשנת 1997., ובחנו את האופן בו הוצגו ונותחו נתוני הבסיס (baseline data) של הניסויים האלה., וכן את הדרך בו השתמשו בנתונים אלה לפילוח אוכלוסיית הניסוי (subgrouping). המסקנות של קסטן ועמיתיה עגומות: מחצית המחקרים השתמשו בשיטות סטטיסטיות"לא מתאימות"; שני שליש מהמחקרים דיווחו תוצאות לגבי תתי-אוכלוסיות, שוב ללא שימוש במבחנים סטטיסטיים מתאימים. הארבעה פרסמו גם סקירה טכנית יותר של ממצאיהם המיועדת לסטטיסטיקאים בכתב העת Statistics in Medicine בשנת 2002.
Zlowodzki, Jönsson, ו- Bhandariפרסמו ב-2005 מאמר שכותרתו "Common Pitfalls in the Conduct of Clinical Research". הם מתייחסים שם למחלקה רחבה של מחקריים קליניים, ובפרט לניסויים קליניים מבוקרים. הכשלים האפשריים שהם מונים בניסוי קליני מבוקר הם: חוסר סמיות (lack of blinding), כשלים ברנדומיזציה, השמטת חולים שלא סיימו את הניסוי (dropouts) מניתוח הנתונים, עצמה סטטיסטית נמוכה עקב מדגם קטן מדי, והגדלת הטעות מהסוג הראשון עקב בדיקת השערות מרובות וניתוח משתנים מרובים.
Helberg פרסם ברשת מאמר שכותרתו "Pitfalls of Data Analysis", עם כותרת המשנה "How to Avoid Lies and Damned Lies". הלברג לא עוסק בניסויים קליניים אלא מתייחס לנושא באופן כללי. המאמר שלו מזכיר בסגנונו את הספר הקלאסי של דארל האף "How to lie with statistics", שגם נכלל ברשימת המקורות שלו. בין הכשלים שהוא מונה: הטיה עקב דגימה לא נכונה, חוסר תקפות של הנחות המודל הסטטיסטי, עצמה נמוכה, בדיקת השערות מרובות, טעויות מדידה. הוא מקדיש חלק שלם במאמר לכשלים בפירוש התוצאות של המחקר, ובפרט: ההבדל בין משמעות סטטיסטית למשמעות מעשית, אי התייחסות לדיוק התוצאות (הן במובן של precision והן במובן של accuracy), והפרשנות של מתאם כסיבתיות. בנוסף, הוא מביא דוגמאות להצגות גרפיות מטעות.
Strasak, Zaman, Pfeiffer, Gobel ו- Ulmerפרסמו ב-2007 מאמר שכותרת ו"Statistical errors in medical research – a review of common pitfalls" (הקישור לקובץ pdf). בעבודתם הם סקרו עשרות מאמרים שפורסמו בכתבי עת שונים, וזיהו בסך הכל 47 סוגי כשלים שונים. הם מיינו את הכשלים לחמש קבוצות לפי שלבי המחקר הרפואי: תכנון המחקר, ניתוח הנתונים, תיעוד המחקר, הצגת הנתונים, ופירוש התוצאות (interpretation). החלוקה הראשונית שלהם משמשת כבסיס לסדרת הרשימות הזו.
Young התייחס ב-2007 לעבודה של Strasak ועמיתיו במאמר שכותרתו "Statistical errors in medical research – a chronic disease?" (קישור לקובץ pdf), והוסיף תובנות משלו, בעיקר לגבי שלב ניתוח הנתונים. הוא אמנם משבח את עבודתם, אך מסתייג מקביעתם כי "אין צורך לקרוא ספרי לימוד שלמים בנושא הסטטיסטיקה". הוא מציין, ובצדק, כי "קריאה של טקסטים בסטטיסטיקה בהחלט שווה את המאמץ", וישנם ספרי לימוד שאינם כה קשים לקריאה.
הנושא של משמעות סטטיסטית מול משמעות קלינית הוא נושא כאוב למדי. לעיתים ניתן לגלות במחקר אפקט כלשהו מובהק סטטיסטית, אך האם יש לו גם משמעות מבחינה קלינית/רפואית? לא תמיד. בפגישת עבודה שהייתה לי ולעמיתיי לפני מספר חודשים עם פרופ טום פלמינג, מבכירי הסטטיסטיקאים של דורנו, הוא אמר (ציטוט חופשי מהזכרון): "מטרת הניסוי הקליני אינו השגת אפקט מובהק סטטיסטית, אלא השגת עדות סטטיסטית לאפקט משמעותי מבחינה קלינית". הדברים האלה ברורים לכל ביוסטטיסטיקאי, אך לא תמיד לחוקרים. לשמחתי, גיליתי מספר לא מועט של התייחסויות לנושא. פירוש מיידי של אפקט מובהק סטטיסטית כאפקט משמעותי מבחינה קלינית הוא לא רק כשל באינטרפרטציה. זה מעיד גם על כשל בשלב התכנון של הניסוי, וגם על כשל בניתוח של כלל הנתונים שהצטברו. שני דיונים טובים בנושא ניתן למצוא במצגת של Pazdur מ-FDA (זמינה ברשת בלינק הזה), וגם במאמר שפרסם בכתב העת The Oncologist איש FDA נוסף, Kane, ב-2008, שכותרתו "The Clinical Significance of Statistical Significance".
עוד ראוי לציין בסקירה קצרה זו את השקפים מסדרת הרצאות בביוסטטיסטיקה לקהל הרחב שניתנו על ידי המרצים באוניברסיטת ג'ונס הופקינס, שכבר דיווחתי עליהם לפני מספר שבועות.
הרשימות הקודמות בסדרה
- כשלים סטטיסטיים אפשריים בניסויים קליניים – הקדמה
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 20 ביולי, 2009. נושאים: ביוסטטיסטיקה, מדע.
תגובות: 4
| טראקבק
לינק: סדרת הרצאות בביוסטטיסטיקה – אוניברסיטת ג'ונס הופקינס
לינק שגיליתי רק השבוע: שקפים מסדרת הרצאות בביוסטטיסטיקה לקהל הרחב שניתנו על ידי המרצים באוניברסיטת ג'ונס הופקינס. למי שמעוניין לדעת איך להציג נתונים בצורה גרועה, איך לבחור את המודל הלא נכון, ועוד. ברור שאני ממליץ, לא?
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 27 ביוני, 2009. נושאים: ביוסטטיסטיקה.
תגובות: 4
| טראקבק