ארכיב עבור 'ביוסטטיסטיקה'

האם אפשר להשתמש במדגם של שלושה חולים?

כפי שסיפרתי ברשימה הקודמת, הנחיתי בכנס האיגוד הישראלי לסטטיסטיקה האחרון פאנל שנשא את הכותרת "סטטיסטיקה בשטח". הפאנל ביקש לעמוד על הקשיים העומדים בפני הסטטיסטיקאי היישומי שצריך לעבוד מול לקוחות, ולהציג אותם בפני הקהל בכנס. הקשיים רבים ומגוונים, וכוללים בעיות בתקשורת, ציפיות בלתי ריאליות מהסטטיסטיקאי, ולעיתים (נדירות, אני שמח לציין) גם בעיות אתיות.למעוניינים בדעתי בנושא, התייחסתי אליו כבר לפני ארבע שנים, ברשימה "הסטטיסטיקה בתעשייה – לאן?"

כפתיח לדיון הקרנתי סרטון קצר, הממחיש את רוב הבעיות שנדונו בפאנל. שתי הדמויות בסרטון הם ביוסטטיסטיקאי וחוקר, המדברים בשתי שפות שונות לחלוטין. לבקשת הקהל, הנה הוא:

מהלימון ועד הקופקסון – מצגת

היום נתתי במועדון קשישים בתל-אביב הרצאה שנשאה את הכותרת: "מהלימון ועד הקופקסון – קיצור תולדות הנסויים הקליניים", לחיצה על הקישור תפתח קובץ pdf של מצגת ההרצאה. אני מקווה לכתוב אחלק מהדברים בצורת רשימה מסודרת כאן בבלוג בעתיד הקרוב. חלק מהדברים כבר מוכרים לכם, ומבוססים על הרשימה "הסטטיסטיקה שהצילה חיים – סיפורה של פלורנס נייטינגייל" שהתפרסמה כאן בעבר.

מה ה-P-value הוא לא?

ברשימה קודמת הסברתי מהו ה-p-value, אותו ערך מיסטי שאיש כמדומה אינו יכול לחיות חיים שלמים בלעדיו. אחזור ואומר, לטובת מי שלא זוכר, כי בניסוי מבוקר המלווה בבדיקת השערות סטטיסטיות, הp-value הוא ההסתברות כי בניסוי חוזר תתקבל עדות לדחיית השערת האפס שהינה משכנעת לפחות כמו העדות שהתקבלה בניסוי הנוכחי, וכל זאת תחת ההנחה כי השערת האפס נכונה.

לאחר שנערך הניסוי והתקבל ה-p-value, מה עושים איתו? בקורסים של מבוא לסטטיסטיקה למיניהם נהוג ללמד כי אם ה-p-value קטן מ-5% אז דוחים את השערת האפס לטובת ההשערה האלטרנטיבית, ואם הוא גדול מ-5% אז לא דוחים את השערת האפס (ההסתברות כי יהיה שווה בדיוק ל-5% היא, תיאורטית, 0). אפשר להראות כי הכלל הזה שקול לכלל ההחלטה המתקבל מהלמה של ניימן ופירסון (בין שתי טעויות), אם רמת המובהקות שנקבעה מראש לבדיקת ההשערות היא 5% (למה 5%? על כך בשיעור ההיסטוריה הקרוב). עם זאת, אני וחברי למקצוע נתקלים פעמים רבות בפרשנויות שגויות למושג ה-p-value ולערכיו. רשימה זו תסקור חלק מהפרשנויות האלה ותנסה להסביר מדוע הן שגויות. הרשימה מתבססת בחלקה על הערך של p-value בויקיפדיה (באנגלית),  ועל מאמרם של שטרן וסמית: "Sifting the evidence—what's wrong with significance tests?".

ה-p-value אינו ההסתברות כי השערת האפס נכונה. אני שומע את הפרשנות הזו לעתים קרובות: "יצא p-value של 2%, ולכן יש רק 2% סיכוי שאין הבדל בין הקבוצות". אבל זה פשוט לא נכון. ה-p-value הוא פונקציה של תוצאות הניסוי שערכנו. בין הקבוצות יש הבדל או שאין הבדל, וקיומו או אי קיומו של ההבדל הזה, או במלים יותר פורמליות, נכונותה או אי נכונותה של השערת האפס, אינו תלוי בתוצאות הניסוי שערכנו. אם השערת האפס נכונה, אז ההסתברות שהיא נכונה היא 1, ואם לא, אז ההסתברות היא 0. ה-p-value רק מבטא את חוזקן של העדויות שאספנו נגד נכונותה של השערת האפס. באותו אופן, 1 פחות ה-p-value אינה ההסתברות כי ההשערה האלטרנטיבית נכונה. (לפני שתגיבו: הסטטיסטיקה הבייסיאנית מאפשרת השמת הסתברויות להשערות, אולם יש לכך מחיר כבד).

ה-p-value אינו ההסתברות כי תוצאות הניסוי התקבלו "במקרה". כבר התייחסתי לכך ברשימה הקודמת שהבהירה את הפרשנות הלא נכונה שנתן הוול-סטריט ג'ורנל ל-p-value של הניסוי לחיסון לוירוס HIV. הראיתי כי ניתן לחשב את ההסתברות לקבלת תוצאת הניסוי בהנחה שהשערת האפס נכונה, והסתברות זו שונה תמיד מה-p-value על פי עצם הגדרתו.

באופן דומה, ה-p-value אינה ההסתברות כי בחזרה על הניסוי תתקבל אותה תוצאה כמותית (לדוגמא, בניסוי הפרות שתיארתי ברשימה הקודמת, ה-p-value שחושב שם אינו ההסתברות כי בניסוי חוזר יהיו שוב 15 המלטות נקבה).

ערכים נמוכים של ה-p-value אינם "מוכיחים" כי השערת האפס נכונה. זכרו כי ה-p-value מחושב תחת ההנחה כי השערת האפס נכונה, אז איך בדיוק הוא יכול "להוכיח" את ההנחה שעליה הוא מתבסס?

ה-p-value אינו ההסתברות לדחיה מוטעית של השערת האפס. ההסתברות לדחיה מוטעית של השערת האפס אמורה להקבע מראש לפני עריכת הניסוי, וממנה נגזר כלל ההחלטה לדחיית השערת האפס על פי הלמה של ניימן ופירסון.

באופן דומה, ה-p-value אינו ההסתברות כי בחזרה על הניסוי תתקבל אותה תוצאה איכותית (השערת האפס תידחה שוב, או תתקבל שוב). ההסתברות לדחיה (או קבלה) חוזרת של השערת האפס בניסוי חוזר נגזרת מרמת המובהקות והעוצמה של המבחן הסטטיסטי, מהמצב האמיתי (כלומר מנכונותה של השערת האפס או ההשערה האלטרנטיבית), וכן מפרמטרים נוספים.

p-value הקרוב בערכו לרמת המובהקות (בדרך כלל 5%) אינו מעמיד בספק את ההחלטה המתקבלת. אם מקבלים p-value של 0.048 למשל, פירוש הדבר כי תוצאות הניסוי סיפקו עדות מספקת כדי לדחות את השערת האפס (אם רמת המובהקות הנדרשת היא אכן 5%), ולכן דינה להידחות, ובאותו אופן p-value של 0.052 פירושו כי תוצאות הניסוי אינן מהוות עדות מספקת לדחיית השערת האפס. טענה כמו "הערך של ה-p-value מובהק, אבל גבולי…" הינה בעייתית, כיוון שהיא למעשה נסיון לשנות את כלל ההחלטה בדיעבד, לאחר שהניסוי בוצע ותוצאותיו התקבלו. בדרך כלל טענות כאלה נשמעות כאשר התוצאות אינן מתיישבות עם האמונות של האדם שמנסה לפרש את תוצאת הניסוי ("התוצאות מראות שהטיפול שנתנו עוזר בדיוק כמו שתיית מים, אבל אני יודע שזה עוזר לרפא את המחלה הזו…").

באופן דומה, p-value שערכו נמוך במיוחד (או גבוה במיוחד) אינו מחזק יותר את ההחלטה המתקבלת, ובמלים אחרות – p-value נמוך יותר אינו "דוחה יותר" את השערת האפס. אמנם ערך נמוך יותר של p-value אומר כי ישנן עדויות רבות יותר לדחיית השערת האפס, ובכל זאת, זה לא משנה אם דוחים את השערת האפס עם p-value של 0.048 או 0.001. השורה התחתונה היא אותה שורה: או שדוחים או שלא. כדי לחדד את הנקודה, אביא כאן את הדוגמא ששמעתי פעם ממורי ורבי, פרופ' צבי גילולה. ברשימה הקודמת הבאתי אנלוגיה מעולם המשפט. תיארתי מצב בו אדם מואשם בשוד תחנת דלק, ומספר שופטים היפותטיים שלכל אחד מהם כלל החלטה אחר לפיו יקבע אם הנאשם אשם.שופט אחד יכול להחליט כי ירשיע את הנאשם אם יופיעו בפניו שני עדי ראיה שיעידו כי הנאשם הוא אכן השודד. שופט מחמיר יותר  ידרוש שלושה עדים, וגם הוכחה כי הכסף נמצא בידי הנאשם, ושופט אחר אולי יסתפק בוידאו של מצלמת האבטחה. עכשיו תארו לכם שני שודדי תחנות דלק. אחד מהם שדד את תחנת הדלק בתל-מונד, ושני עדי ראיה הופיעו בבית המשפט והעידו כי אכן ביצע את השוד. השודד השני בחר לשדוד דווקא את תחנת הדלק שליד אצטדיון טדי בירושלים, במוצאי שבת, כאשר זה עתה מכבי חיפה ניצחה את בית"ר ירושלים שלוש אפס, ועשרים אלף איש יצאו מהאצטדיון, ראו את השוד, וכולם מוכנים לבוא לבית המשפט ולהעיד נגדו, כי השודד אוהד הפועל. האם השודד השני אשם יותר מהשודד הראשון?

ואחרון חביב: ערכו של ה-p-value אינו מעיד על גודל האפקט או חשיבותו. אפקט (הבדל בין הקבוצות) נמוך יכול להיות מובהק, ואפקט גבוה יכול להיות לא מובהק. אפקט מובהק יכול להיות בלתי משמעותי בהקשר בו נערך הניסוי (וחלק מקוראיי תהו ברשימה על הניסוי לחיסון נגד HIV האם האפקט המובהק שגילה הניסוי הוא גם משמעותי מבחינה קלינית). אפקט לא מובהק יכול להיות משמעותי – זה קורה הרבה בניסויים קליניים בשלב II. כל האפשרויות קיימות.

מהו p-value?

מדענים אובססיביים כלפיו. עורכי כתבי עת לא יפרסמו מאמרים אם הוא לא יופיע בהם. החלטות של מאות מיליוני דולרים מתקבלות על פיו. ובכל זאת, רק מתי מעט מבינים אותו. זהו ה-"p-value". אותו מספר קסם חורץ גורלות המתלווה כמעט לכל ניתוח סטטיסטי.

הזכרתי אותו ברשימה שכתבתי על הניסוי הקליני לחיסון נגד נגיף ה-HIV. ה-p-value, איך לא, היה הנתון העיקרי שפורסם בהודעה הראשונה על תוצאות אותו ניסוי. הוא הגיע עד לוול-סטריט גו'רנל. הוול סטריט ג'ורנל ציין, בכתבה על אותו הניסוי. כי ה-p-value  הוא "ההסתברות כי התוצאה התקבלה במקרה" ("Probability that the result is due to chance ")  . זה לא נכון. בהמשך אסביר כיצד לחשב את ההסתברות הזו, אבל לפני כן אנסה להסביר מהו באמת אותו p-value, ומהי משמעותו.

אתחיל בקצת רקע, לטובת מי שלא קרא את הרשימה "בין שתי טעויות" (או מי שלא זוכר מה כתוב שם). בבסיסה של כל בעיית החלטה סטטיסטית עומדות שתי השערות (hypotheses). ההשערה הבסיסית, המכונה גם "השערת האפס" מבטאת את האמונה (המדעית) המקובלת. בימי גלילאו, השערת אפס טיפוסית יכולה להיות "השמש מסתובבת סביב הארץ". בניסוי הקליני לחיסון נגד נגיף ה-HIV השערת האפס היא "החיסון הנסיוני לא מפחית את הסיכוי להדבק בנגיף". ואם נעבור לאנלוגיה של עולם המשפט, הרי שבמדינות מתוקנות מניחים כי אדם המואשם בפשע ועומד לדין הינו זכאי עד שתוכח אשמתו, כלומר השערת האפס של השופט אומרת כי "הנאשם זכאי".

מול השערת האפס ניצבת תמיד ההשערה האלטרנטיבית. בהקשר המדעי, השערה זו מבטאת תיאוריה חדשה שמועמדת לדחוק את התיאוריה הישנה. גלילאו הציע את ההשערה האלטרנטיבית "הארץ מסתובבת סביב השמש". עורכי הניסוי הקליני הנ"ל הציגו את ההשערה האלטרנטיבית כי "החיסון הנסיוני מפחית את הסיכוי להדבק בנגיף", והתובע מציג בפני השופט את ההשערה האלטרנטיבית כי "הנאשם אשם".

אלא אם אתה הומיאופת, עליך להציג טיעונים משכנעים בעד ההשערה האלטרנטיבית שלך. (גם הומיאופתים צריכים לעשות זאת, למעשה, אבל אף אחד כבר לא מצפה מהם). כדי להביא להרשעת הנאשם, התובע צריך להציג בפני השופט עדויות שישכנעו אותו, מעבר לספק סביר, כי הנאשם אכן ביצע את הפשע המיוחס לו. מה זה "מעבר לספק סביר"? כל אחד קובע את הרף שלו לעצמו, ואגיד על כך כמה מלים בהמשך. אם אדם מואשם בשוד תחנת דלק, למשל, יכול השופט להחליט כי ירשיע את הנאשם אם יופיעו בפניו שני עדי ראיה שיעידו כי הנאשם הוא אכן השודד. שופט מחמיר יותר אולי ידרוש שלושה עדים, וגם הוכחה כי הכסף נמצא בידי הנאשם, ושופט אחר אולי יסתפק בוידאו של מצלמת האבטחה. זה לא ממש משנה. העיקר הוא שיש השערות, עדויות, וכלל החלטה קבוע מראש.

כדי להביא את הדיון לפסים מדויקים יותר, אשתמש בדוגמא מלאכותית. כוכב הדוגמא שלנו הוא חקלאי שמגדל למחייתו עדר פרות חולבות. הפרות נכנסות מדי פעם להריון (אחסוך מכם את הפרטים). חלקן ממליטות עגלים וחלקן עגלות. החקלאי שלנו מעדיף כמובן כי פרותיו ימליטו עגלות נקבות, שיצטרפו בבוא הימים למערך ייצור החלב, והן לכן רווחיות יותר מעגלים זכרים. אולם מי ששולטת בהתפלגות המינים בהמלטות היא אמא טבע, הדואגת לכך שההסתברות להמלטת נקבה בכל הריון היא 0.5.

והנה, כיום בהיר אחד מגיע לחווה סוכן נוסע, המציע לחקלאי שלנו לרכוש שיקוי פלא, שיעלה את ההסתברות להמלטת נקבה מ-0.5 ל-0.9 אצל כל פרה שתלגום ממנו. כדי לשכנע את הרפתן הספקן, מציע הסוכן הצעה שאין לסרב לה: "קח נא בקבוק אחד, והשקה בו 20 פרות. לאחר מכן המתן וראה כמה המלטות נקבה יהיו בקרב 20 פרות אלה. אם לא תהיה מרוצה. כספך יוחזר לך". הדוד משה מסכים לבצע את הניסוי. יש לו השערת אפס: "ההסתברות להמלטת נקבה היא 0.5" והשערה אלטרנטיבית: "ההסתברות להמלטת נקבה היא 0.9". כיוון שהוא זוכר היטב את שיעורי המבוא לסטטיסטיקה שלמד בפקולטה לחקלאות (היי, אמרתי שזאת דוגמא מלאכותית!), הוא יודע לבנות כלל החלטה על פי הלמה של ניימן ופירסון, ומחליט לדחות את השערת האפס לטובת ההשערה האלטרנטיבית אם ב-20 ההמלטות יהיו 15 המלטות נקבה או יותר.

במלים אחרות, החקלאי החליט כי העדות הדרושה לדחיית השערת האפס לטובת האלטרנטיבה היא המלטת של 15 (או יותר) נקבות. אם יהיו 15 המלטות נקבה הוא ישתכנע ביעילותו של שיקוי הפלא. אם יהיו 16, או 17 או אף יותר, הוא בודאי ישתכנע.

החקלאי יכול לנסח את כלל ההחלטה שלו בצורה אחרת, אך שקולה. בהנתן עדות כלשהי (עדות כאן היא מספר המלטות הנקבה) הוא ישאל את עצמו: בהנחה שהשיקוי הוא תרמית, מה ההסתברות כי הייתה מתקבלת עדות זו שוב, או אף עדות משכנעת יותר? למשל, אם אכן צפה בהמלטת 15 נקבות מתוך 20, זו אולי עדות משכנעת, אך תוצאה של 16, 17, או יותר, היא עדות משכנעת יותר. אם השיקוי הוא תרמית, וההסתברות להמלטת נקבה נותרה 0.5, אז אפשר לחשב כי ההסתברות להמלטת 15 נקבות או יותר היא 0.0207. זוהי הסתברות קטנה למדי. אם ההסתברות לקבל תוצאה יותר משכנעת ממה שקיבלנו היא קטנה, הרי שהתוצאה שלנו היא משכנעת דיה.

ההסתברות לקבלת עדות דומה או חזקה יותר מהעדות שנצפתה, בהנחה שהשערת האפס נכונה, היא ה-p-value המפורסם.

ה-p-value, לעומת זאת, אינו ההסתברות כי התוצאה התקבלה במקרה, כאשר אני מניח כי הכוונה המבוטאת במילה "במקרה" היא "בהנחה שהשערת האפס נכונה". קל לראות מדוע זה כך. בדוגמא המלאכותית שלנו, ה-p-value  הוא ההסתברות כי היו 15 או יותר המלטות נקבה מתוך 20. ההסתברות שהתוצאה של 15 המלטות נקבה תתקבל, אם ההסתברות להמלטת נקבה היא 0.5, היא לעומת זאת 0.0148.

ומה ההסתברות כי התוצאה שהתקבלה בניסוי הקליני לחיסון נגד איידס "is due to chance"?. כזכור השתתפו בניסוי הנ"ל 16395 מתנדבים, מתוכם ל-125 זוהו כנשאי נגיף HIV: 51 מבין 8197 נבדקים שקיבלו את החיסון הנסיוני, ו-74 מבין 8198 המתנדבים שקיבלו חיסון דמה. תארו לכם כד ובתוכו 16395 כדורים, מתוכם 8197 כדורים ירוקים, והשאר אדומים. אם תשלפו מהכד 125 כדורים, מה ההסתברות כי בדיוק 51 מתוכם יהיו ירוקים? זוהי בדיוק ההסתברות כי תוצאות הניסוי הנ"ל התקבלה במקרה, כלומר: אין לחיסון שנבדק אפקט חיסוני אמיתי. החישוב דומה לחישוב הסתברויות הזכיה בלוטו. זהו מודל הסתברותי היפר-גאומטרי. החשבון פשוט, ובזכות המחשבון הזה גם החישוב לא מסובך. ההסתברות היא 0.0085, שונה מה-p-value שפורסם, 0.039.

חיסון נגד איידס באופק?

לא ברור.

מתברר שבתאילנד נערך לאחרונה ניסוי קליני שנועד לבדוק את יעילותו של חיסון אפשרי נגד איידס. לי נודע כל הסיפור מהניוזלטר המצויין "Chance News" (זה כבר בכלל אתר ויקי), שהביא שני אייטמים בנושא בגליון האחרון שלו (הנה הראשון והנה השני). צ'אנס ניוז דיווח על ידיעה בוול סטריט ג'ורנל, וידיעה בסיינס מגזין. כמו כן מצאתי  ראיון עם פרופ' ויקטור דה-גרוטולה, יו"ר המחלקה לביוסטטיסטיקה בביה"ס לבריאות הציבור באוניברסיטת הארוורד. הראיון נערך בעקבות הפרסום על תוצאות הניסוי הנ"ל, ועסק בעיקר במושג ה-p-value ומשמעותו – נושא שאדון בו ברשימה אחרת בעתיד. ברשימה הזו אתרכז בניסוי הקליני ומשמעות התוצאות.

נתחיל בתיאור הניסוי. תכנון הניסוי הוא קלאסי: המשתתפים בניסוי מחולקים באופן אקראי לשתי קבוצות. קבוצה אחת מקבלת את החיסון הנסיוני. לחברי הקבוצה השניה מוזרק חיסון דמה – מי מלח. כעבור 3 שנים, בודקים לכמה מהמשתתפים בכל קבוצה יש תוצאה חיובית בבדיקת HIV.  מדובר בניסוי גדול למדי (לפחות במושגים שלי) – סה"כ השתתפו בו כ-16,000 איש, כולם בתאילנד. עם זאת, איני יודע מה גודל המדגם הדרוש לניסוי כזה, כיוון שאיני יודע מהו שיעור ההדבקות באיידס בתאילנד. עם זאת אציין כי בניסוי הקליני שבדק את החיסון של סאלק נגד מחלת הפוליו, שנערך בארה"ב ב-1954, היו כ-400,000 משתתפים (את הפרט הזה מצאתי בעותק הישן שלי של ספרו של להמן, אני מניח שניתן למצוא אותם אי-שם ברשת).

והנה התוצאות שפורסמו: מבין 8197 מתנדבים שקיבלו את החיסון הנסיוני, 51 בכל זאת הראו תוצאה חיובית בבדיקת HIV, כלומר כ-0.6%. לעומת זאת, מבין 8198 מתנדבים שקיבלו את חיסון הדמה, 74 הראו תוצאה חיובית בבדיקת HIV, כ-0.9%. מכאן, שהחיסון הנסיוני הקטין את שיעור ההדבקות בכשליש. האם זו תוצאה משמעותית מבחינה קלינית? האם ייתכן כי רק במקרה התקבלה תוצאה כזו, ואין קשר בין הטיפול שקיבלו החולים (חיסון נסיוני או פלסבו) לבין ההדבקות או אי-הדבקות באיידס?

לשם כך נערך מבחן סטטיסטי, ובסיינס מגזין (וגם בוול סטריט ג'ורנל) פורסמה השורה התחתונה שלו: p=0.039. ה-p (הידוע גם בשם p-value) הוא ההסתברות כי בניסוי דומה יתקבלו תוצאות "משכנעות" יותר אם החיסון לא יעיל במניעת ההדבקות*. מכיוון שמקובל לראות בערכי p  הנמוכים מ-0.05 ערכים מובהקים סטטיסטית, הרי שהשורה התחתונה אומרת כי התוצאה שהתקבלה מובהקת סטטיסטית, והניסוי מספק עדות ליעילותו של החיסון הנסיוני. הסטטיסטיקאי פול אלפר, שכתב את הידיעה בצ'אנס ניוז, חישב אמנם כי ערך ה-p, על פי מבחן פישר, הוא דווקא 0.048 (לפי החישוב שלי, הערך 0.039 התקבל ממבחן חי-בריבוע, וערכתי את דף הויקי בצ'אנס ניוז בהתאם – אני אחראי לפלט תכנת SAS המופיע שם, ועוד), אבל גם ערך זה נמוך ממספר הקסם 0.05, כלומר גם לפי אלפר התוצאות מובהקות סטטיסטית.

הבעיה היא שאי אפשר לרוץ ל-FDA רק עם p-value. יש צורך בניתוחים נוספים.

הנתונים שהובאו עד כה מכונים בז'ארגון המקצועי "נתוני ITT". ITT פירושו "Intent To Treat". נתונים אלה כוללים את התוצאות של כל המתנדבים שנכללו בניסוי, כולל אלה שלא עמדו בכל התנאים של הניסוי (למשל, לא קיבלו את כל הזריקות שהיו אמורים לקבל, לא הופיעו לחלק מבדיקות המעקב, נטלו תרופות אסורות במהלך הניסוי, וכדומה). אם "זורקים" את הנתונים של המתנדבים האלה מהאנליזה, נשארים רק  המתונים של החולים שעמדו בכל התנאים של פרוטוקול הניסוי – "נתוני PP" (כאשר PP פירושו Per Protocol). בעוד שבנתוני ה-ITT היו בסך הכל 125 זיהומי HIV (51+74), הרי שבקרב המתנדבים שעמדו בתנאי הפרוטוקול (כלומר בנתוני ה-PP) היו 86 זיהומים בלבד. בשאלות לדיון פול אלפר טען (בשאלה לדיון מספר 1) כי ניתן לבצע חישוב לאחור (reverse engineering) ולמצוא כי בקבוצת הניסוי היו 36 זיהומים ובקבוצת הפלסבו היו 50 זיהומים, אך הוא הניח (מבלי לציין במפורש, אני ערכתי את השאלה לדיון) כי בשתי קבוצות הטיפול היה אותו מספר של חולים גם בנתוני ה-PP. אולם, במקרה כזה ה- p-valueשמתקבל הוא 0.13 ולא 0.16. לכן, המסקנה היא כי באוכלוסיית ה-PP לא היו גדלי הקבוצות שווים.

העובדה כי תוצאות ה-PP אינן מובהקות סטטיסטית לא צריכה להטריד. התוצאות הקובעות הן תוצאות ה-ITT, ותוצאות ה-PP רק צריכות להראות אפקט דומה לזה שנצפה בנתוני ה-ITT. השאלה המעניינת היא האם אפקט של 26% הוא מספיק "דומה" לאפקט של 31.2%. (למה תוצאות ה-ITT הן הקובעות ולא תוצאות ה-PP? שאלה מצוינת. התשובה אולי תבוא ברשימה אחרת אי שם בעתיד).

מה כן צריך להטריד בתוצאות הניסוי הזה? הפרטים שלא פורסמו, מן הסתם. למשל: אנו יודעים כי המתנדבים שלא עמדו בתנאי פרוטוקול הניסוי לא התחלקו שווה בשווה בין הקבוצות. כמה מתנדבים בכלל לא עמדו בתנאי הפרוטוקול? מדוע? מה הייתה החלוקה בין הקבוצות? מה גרם לחלוקה הלא שווה? האם היו תופעות לוואי משמעותיות בקרב המתנדבים שקיבלו את החיסון הנסיוני? האם שיעור תופעות הלוואי בקבוצת הניסוי גבוה משמעותית משיעורן בקבוצת הפלסבו? ניתוח של תופעות הלוואי יאפשר לקבוע האם התועלת שבחיסון הנסיוני עולה על הנזק האפשרי שהוא עלול לגרום.

וכמובן, השאלה שיש לשאול בכל מחקר מדעי: האם תוצאת הניסוי הזה ניתנת לשחזור? כדי לענות על כך, יש צורך לערוך ניסוי קליני נוסף. זוהי דרישה בסיסית של ה-FDA מכל חברת תרופות המבקשת לאשר טיפול רפואי חדש.

אני לא יודע את התשובות לכל השאלות האלה. לכן, אני לא יכול לקבוע האם התוצאות שפורסמו נותנות תקווה כי בעתיד הקרוב יהיה חיסון נגד נגיף ה-HIV. כתבתי את הרשימה הזו בחשש מה. ייתכן מאוד שמתנגדי החיסונים למיניהם ינסו לאמץ  את הדברים שכתבתי כ"הוכחה" לאי-יעילות החיסונים, אינטרסים של חברות התרופות וכל הבלה בלה הרגיל.  כדי להסיר ספק, אני מדגיש כאן כי זו לא כוונתי. לשאלות שנשארו פתוחות בעקבות הקריאה של הידיעה הראשונית אודות תוצאות הניסוי הזה יש תשובות, ואני בטוח כי אם התוצאות יוגשו ל-FDA כדי לרשום את החיסון, הן יישאלו וייענו (ה-FDA ישאל את עורכי הניסוי עוד הרבה שאלות קשות אחרות, תאמינו לי).


* הוול סטריט ג'ורנל ציין כי ה-p-value הוא "ההסתברות כי התוצאה התקבלה במקרה" ("Probability that the result is due to chance "). זה לא נכון. אני מתכוון להסביר את הנושא ברשימה בעתיד הקרוב.

על ניסויים בבעלי חיים

מי שעוקב אחרי בטוויטר כבר ראה את ההפניות שלי לסדרה של שלושה פוסטים בבלוג של רועי צזנה שעסקו בסוגיית הניסויים בבעלי החיים. לטובת המעטים מבינכם שעדיין לא עוקבים אחרי (סתם…) הנה סקירה קצרה של שלושה פוסטים אלה, שצזנה כתב בעקבות קורס בנושא שלקח במסגרת לימודיו בטכניון.

בפוסט הראשון שפרסם מסכם צזנה את הרצאתו של ד"ר ירון בר-אל, סגן מנהל המרכז הרפואי רמב"ם וכירורג לב במקצועו, שניסה לסקור על קצה המזלג את ההיסטוריה של הפילוסופיה הנוגעת לזכויות בעלי החיים. בין היתר מובאות שם דעתם של (מחבר/י) התנ"ך,אריסטו, בודהה, הרמב"ם, תומאס אקווינס ודקארט. כל החבורה המכובדת הזו, פרט לבודהה, אגב, אינה שוללת קיום ניסויים בבעלי חיים.

בפוסט השני מביא צזנה את דעתם של הדוגלים ב"זכויות בעלי החיים", ובראשם פיטר סינגר וטום ריגן, ותוהה מה יהיו ההשלכות של אימוץ דעתם על חיינו אנו.

בפוסט האחרון בסדרה עונה צזנה לטיעון העיקרי של המתנגדים לניסויים בבעלי חיים, לפיו ניסויים כאלה ממילא אינם מביאים תועלת מדעית, באמצעות סקירה הסטורית של התפתחות מדעי החיים, החל מגילוי מחזור הדם, המשך בהמצאת החיסון הראשון (לאבעבועות שחורות) ואלה שבאו בעקבותיו, ועד לפיתוחם של מסתמי לב משוכללים. כמו כן  סוקר צזנה בקצרה אלטרנטיבות (לא מספקות, עדיין) לניסויים כאלה, מביא את הקריטריונים לפיהם מחליטים מתי ניסוי בבעלי חיים הוא נחוץ, ומתאר את מנגנוני האכיפה הקיימים כיום למניעת ניסויים לא נחוצים בבעלי חיים.

בהזדמנות זו אני מפנה את הקוראים גם לרשימה שפרסמתי בינואר 2008 שעסקה בשיקולים הסטטיסטיים בתכנון ניסויים בבעלי חיים, והתבססה על הרצאה שנתתי בפני ועדת האתיקה של הפקולטה לרפואה באוניברסיטה העברית.

כשלים סטטיסטיים אפשריים בניסויים קליניים – סקירת ספרות

כפי שכתבתי בהקדמה לסדרת הרשימות הזו, הופתעתי לגלות כי יש מעט מאוד פרסומים בנושא זה. ברשימה זו אסקור את המעט שמצאתי. אם מי מהקוראים מכיר או נתקל בעוד פרסומים בנושא, אשמח לקבל הפניה.

המשך הרשימה עלול להיות סתום בעיני חלק מהקוראים. לא להבהל – אני אסביר את הכל ברשימות הבאות בסדרה.

בשנת 2000 פרסמו  Assmann, Pocock,  Enos ו- Kasten מאמר שכותרתו "Subgroup analysis and other (mis)uses of baseline data in clinical trials" בכתב העת היוקרתי The Lancet. הם בחנו 50 מאמרים שמציגים תוצאות מניסויים קליניים, ופורסמו בארבעה כתבי עת מובילים בתקופה של שלושה חודשים בשנת 1997., ובחנו את האופן בו הוצגו ונותחו נתוני הבסיס (baseline data) של הניסויים האלה., וכן את הדרך בו השתמשו בנתונים אלה לפילוח אוכלוסיית הניסוי (subgrouping). המסקנות של קסטן ועמיתיה עגומות: מחצית המחקרים השתמשו בשיטות סטטיסטיות"לא מתאימות"; שני שליש מהמחקרים דיווחו תוצאות לגבי תתי-אוכלוסיות, שוב ללא שימוש במבחנים סטטיסטיים מתאימים. הארבעה פרסמו גם סקירה טכנית יותר של ממצאיהם המיועדת לסטטיסטיקאים בכתב העת Statistics in Medicine בשנת 2002.

Zlowodzki, Jönsson, ו-  Bhandariפרסמו ב-2005 מאמר שכותרתו "Common Pitfalls in the Conduct of Clinical Research". הם מתייחסים שם למחלקה רחבה של מחקריים קליניים, ובפרט לניסויים קליניים מבוקרים. הכשלים האפשריים שהם מונים בניסוי קליני מבוקר הם: חוסר סמיות (lack of blinding), כשלים ברנדומיזציה, השמטת חולים שלא סיימו את הניסוי (dropouts) מניתוח הנתונים, עצמה סטטיסטית נמוכה עקב מדגם קטן מדי, והגדלת הטעות מהסוג הראשון עקב בדיקת השערות מרובות וניתוח משתנים מרובים.

Helberg פרסם ברשת מאמר שכותרתו "Pitfalls of Data Analysis", עם כותרת המשנה "How to Avoid Lies and Damned Lies". הלברג לא עוסק בניסויים קליניים אלא מתייחס לנושא באופן כללי. המאמר שלו מזכיר בסגנונו את הספר הקלאסי של דארל האף "How to lie with statistics", שגם נכלל ברשימת המקורות שלו. בין הכשלים שהוא מונה: הטיה עקב דגימה לא נכונה, חוסר תקפות של הנחות המודל הסטטיסטי, עצמה נמוכה, בדיקת השערות מרובות, טעויות מדידה. הוא מקדיש חלק שלם במאמר לכשלים בפירוש התוצאות של המחקר, ובפרט: ההבדל בין משמעות סטטיסטית למשמעות מעשית, אי התייחסות לדיוק התוצאות (הן במובן של precision  והן במובן של accuracy), והפרשנות של מתאם כסיבתיות. בנוסף, הוא מביא דוגמאות להצגות גרפיות מטעות.

Strasak, Zaman, Pfeiffer, Gobel ו- Ulmerפרסמו ב-2007 מאמר שכותרת ו"Statistical errors in medical research – a review of common pitfalls" (הקישור לקובץ pdf). בעבודתם הם סקרו עשרות מאמרים שפורסמו בכתבי עת שונים, וזיהו בסך הכל 47 סוגי כשלים שונים. הם מיינו את הכשלים לחמש קבוצות לפי שלבי המחקר הרפואי: תכנון המחקר, ניתוח הנתונים, תיעוד המחקר, הצגת הנתונים, ופירוש התוצאות (interpretation). החלוקה הראשונית שלהם משמשת כבסיס לסדרת הרשימות הזו.

Young התייחס ב-2007 לעבודה של Strasak ועמיתיו במאמר שכותרתו "Statistical errors in medical research – a chronic disease?" (קישור לקובץ pdf), והוסיף תובנות משלו, בעיקר לגבי שלב ניתוח הנתונים. הוא אמנם משבח את עבודתם, אך מסתייג מקביעתם כי "אין צורך לקרוא ספרי לימוד שלמים בנושא הסטטיסטיקה". הוא מציין, ובצדק, כי "קריאה של טקסטים בסטטיסטיקה  בהחלט שווה את המאמץ", וישנם ספרי לימוד שאינם כה קשים לקריאה.

הנושא של משמעות סטטיסטית מול משמעות קלינית הוא נושא כאוב למדי. לעיתים ניתן לגלות במחקר אפקט כלשהו מובהק סטטיסטית, אך האם יש לו גם משמעות מבחינה קלינית/רפואית? לא תמיד. בפגישת עבודה שהייתה לי ולעמיתיי לפני מספר חודשים עם פרופ טום פלמינג, מבכירי הסטטיסטיקאים של דורנו, הוא אמר (ציטוט חופשי מהזכרון): "מטרת הניסוי הקליני אינו השגת אפקט מובהק סטטיסטית, אלא השגת עדות סטטיסטית לאפקט משמעותי מבחינה קלינית". הדברים האלה ברורים לכל ביוסטטיסטיקאי, אך לא תמיד לחוקרים. לשמחתי, גיליתי מספר לא מועט של התייחסויות לנושא. פירוש מיידי של אפקט מובהק סטטיסטית כאפקט משמעותי מבחינה קלינית הוא לא רק כשל באינטרפרטציה. זה מעיד גם על כשל בשלב התכנון של הניסוי, וגם על כשל בניתוח של כלל הנתונים שהצטברו.  שני דיונים טובים בנושא ניתן למצוא במצגת של Pazdur מ-FDA (זמינה ברשת בלינק הזה), וגם במאמר שפרסם בכתב העת The Oncologist  איש FDA נוסף, Kane, ב-2008, שכותרתו "The Clinical Significance of Statistical Significance".

עוד  ראוי לציין בסקירה קצרה זו את השקפים מסדרת הרצאות בביוסטטיסטיקה לקהל הרחב שניתנו על ידי המרצים באוניברסיטת ג'ונס הופקינס, שכבר דיווחתי עליהם לפני מספר שבועות.

הרשימות הקודמות בסדרה

כשלים סטטיסטיים אפשריים בניסויים קליניים – הקדמה

לינק: סדרת הרצאות בביוסטטיסטיקה – אוניברסיטת ג'ונס הופקינס

לינק שגיליתי רק השבוע: שקפים מסדרת הרצאות בביוסטטיסטיקה לקהל הרחב שניתנו על ידי המרצים באוניברסיטת ג'ונס הופקינס. למי שמעוניין לדעת איך להציג נתונים בצורה גרועה, איך לבחור את המודל הלא נכון, ועוד. ברור שאני ממליץ, לא?

השרדות: איך אפשר לדעת מה יהיה?

בעקבות הערתו של עופר לרשימה בה נתתי לינק למצגת ההרצאה שלי בכנס האחרון של האיגוד הישראלי לסטטיסטיקה, אני מפרסם כאן הסבר כללי ולא טכני שמיועד לקהל הרחב על הנושא בו עסקה ההרצאה. אני חייב להתריע בפני הקוראים כי מדובר ברשימה ארוכה מהרגיל, ולמרות כל מאמצי ייתכן מאוד שהיא עדיין לא מספיק ברורה עבור הקהל הרחב (אני מקווה מאוד שכן). בכל מקרה, אני שמח לפתוח כאן חלון אל העולם שבו אני פועל.

אחד הנושאים שמעניינים אותי הוא ניתוח השרדות, ותכנון של ניסויים קליניים לבדיקת אפקט של טיפול תרופתי על ההשרדות.

מה זה אומר? במחלות רבות, משך הזמן שעובר עד להתרחשותו של אירוע קליני מסויים (ומוגדר מאש) מהווה אינדיקציה לחומרת המחלה. במחלות כמו סרטן ו-ALS (הידועה גם בשם "מחלת לו גריג", החולה המפורסם ביותר כיום במחלה זו הוא הפיזיקאי סטיבן הוקינג) האירוע הוא בדרך כלל מוות. בטרשת נפוצה, מחלה שמעניינת אותי במיוחד, אירוע כזה יכול להיות התקף נוירולוגי או הדרדרות ביכולות הפיזיות (על פי סולם ה-EDSS). מסיבות מובנות יש עניין לבדוק האם טיפול תרופתי (קיים או חדש) , יכול להאריך את משך הזמן הממוצע עד לאירוע, או, במילים אחרות, להקטין את קצב התרחשות האירועים.

איך בודקים את זה? אפשר כמובן לקחת קבוצת חולים, לתת לחלק מהם את התרופה שאנו רוצים לבחון ולחלק מהם טיפול ביקורת (פלסבו או הטיפול הסטנדרטי המקובל), ולהמתין עד שכל אחד מהחולים יעבור את האירוע שבו מתעניינים. אז נוכל להשוות את משך הזמן הממוצע עד להתרחשות האירוע בקבוצה אחת עם מקבילו מהקבוצה השניה. ניסוי כזה הוא בעייתי מאוד. הוא עלול להמשך זמן רב מאוד, ולמעשה משכו אינו מוגדר מראש. לכך יש השלכות מעשיות ואתיות כאחד. איזה חברת תרופות תתחיל ניסוי שלא ידוע מראש מה יהיה משכו ומה תהיה עלותו? איזה חולה יסכים להסתכן בטיפול בפלסבו לזמן בלתי מוגבל.

אפשר לתכנן את הניסוי באופן אחר: נמתין פרק זמן מסויים, קבוע מראש, נניח שנה. חלק מהחולים יעברו בפרק זמן זה את האירוע הקליני, ועבורם נדע בדיוק את משך הזמן שעבר מתחילת הטיפול ועד האירוע. שאר החולים לא יחוו את האירוע, ועבורם לא נדע את משך הזמן המדויק עד התרחשות האירוע, אבל כן נדע כי הוא ארוך משנה. מתברר שהאינפורמציה הזו מספיקה כדי לאמוד את משך הזמן הממוצע על לאירוע וכן לקבוע האם יש הבדלים בין שתי קבוצות הטיפול. יותר מכך, אפשר לקבוע מראש את גודל המדגם הדרוש כדי לזהות הבדל באופן מובהק סטטיסטית.

גודל המדגם הדרוש קשור ישירות למספר האירועים הצפויים להתרחש במהלך הניסוי, והקשר הוא דרך ההנחות לפיהן הניסוי מתוכנן. באחד השקפים הבאתי דוגמא שבה משך הזמן הממוצע עד לאירוע בחולים הלא מטופלים הוא בערך שש שנים, ורוצים לבדוק האם טיפול כלשהו מאריך את משך הזמן הממוצע ל-8 שנים בערך. חישבתי ומצאתי כי מדגם של 1000 חולים, שיטופלו במשך שנתיים, יספק עצמה סטטיסטית של 83% לזיהוי הבדל מובהק בין הקבוצות. אם מניחים בנוסף כי הסיכון לאירוע הוא קבוע לאורך הזמן, אפשר לחשב ולמצוא כי בתנאים האלה בערך 30% מהחולים הלא מטופלים (כלומר, מהחולים המטופלים בפלסבו) יעברו אירוע, כלומר 150 חולים בערך. לעומת זאת, רק 22% מהחולים המטופלים בטיפול הנסיוני אמורים לעבור אירוע (אם התרופה באמת עובדת), כלומר רק 110 מבין 500 החולים המטופלים יעברו את האירוע. לכן, בסופו של דבר אנו אמורים לצפות ב-260 אירועים. אפשר לעשות את החשבון הזה גם מהסוף להתחלה: תחילה לחשב כי יש צורך לצפות ב-260 אירועים כדי להגיע לעצמה הסטטיסטית הדרושה, ומשם לקבוע את גודל המדגם (1000 חולים).

המשמעות של כל הדיון האחרון: אם במהלך הניסוי ייצפה מספר קטן יותר של אירועים מכל סיבה שהיא, אזי העצמה הסטטיסטית של הניסוי תהיה נמוכה יותר. ולכן, השאלה שמדירה את שנת הסטטיסטיקאי (וכל צוות הפרויקט, בעצם) היא: האם בסוף הניסוי נגיע למספר האירועים הרצוי?

בואו נעבור לרגע ללוגיסטיקה של הניסוי הקליני. ברור לחלוטין כי אי אפשר לגייס בבת אחת 1000 חולים שיסכימו להשתתף בניסוי ויתחילו כולם את הטיפול באותו יום. גיוס של כמות כה גדולה של חולים יכול לארוך זמן רב. נניח שמשך הגיוס הוא שנה וחצי, כלומר בממוצע מצטרפים לניסוי בכל יום  כשני חולים ( 1.828 חולים, למתעניינים). פירוש הדבר הוא שאחרי שנה ורבע יהיו בתוך הניסוי כ-830 חולים. הראשון בהם כבר מטופל שנה ורבע, האחרון שהצטרף לניסוי התחיל את הטיפול זה עתה. מכאן מקבלים כי משך זמן הטיפול הממוצע לחולה בנקודת זמן זו הוא 0.625 שנים (כשבעה וחצי חודשים). חלק מהחולים האלה כבר עברו מן הסתם את האירוע הקליני בו אנו מתעניינים. נניח שעד עתה אירעו בסך הכל 60 אירועים. ובכן – האם בקצב הזה נגיע אל 260 האירועים הדרושים להצלחת הניסוי? איך נוכל לדעת זאת, כאשר איננו יודעים איזה טיפול מקבל כל אחד מהחולים?

בגלל השאלה הזו, גבירותיי ורבותיי, אני לא ישן טוב בלילה. אם אינכם יודעים, ניסויים קליניים משרים קונצנזוס. אם הניסוי מסתיים בהצלחה, אזי יש תמימות דעים בשאלה מי אחראי להצלחה. כל אחד חושב שהכל רק בזכותו. לעומת זאת, אם הניסוי מסתיים בכשלון, גם אז יש תמימות דעים: כולם מאשימים את הסטטיסטיקאי. ולכן, אחד מתפקידיו החשובים של הסטטיסטיקאי הוא לעקוב אחרי הנתונים המצטברים במהלך הניסוי ולהתריע על כל בעיה שהוא יכול לזהות.

אך איך אפשר לנסות להעריך כמה חולים ישרדו עד סוף הניסוי וכמה יעברו את האירוע?

יש תשובה נאיבית לשאלה הזו. כאמור, יש בניסוי כרגע 830 חולים עם משך טיפול ממוצע של 0.625 שנים, כלומר עד עתה צפינו במשך הניסוי ב-520 (830×0.625) שנות טיפול בערך. אנו מצפים בסך הכל לצפות ב-2000 שנות טיפול (1000×2), כלומר עד עכשיו צפינו ב-26% בערך מסך החשיפה הצפויה לטיפול. אם מספר האירועים פרופורציוני לסך החשיפה, הרי ש-60 האירועים שבהם צפינו עד כה מהווים 26% ממספר האירועים הצפוי, ולכן בסך הכל צפויים כ-230 אירועים בסוף הניסוי. לא טוב, אבל יש מה לעשות: אפשר להגדיל את המדגם ולגייס עוד 127 חולים מעבר ל-1000 שתכננו (תרגיל: איך הגעתי ל-127?). אבל האם ההנחה לפיה מספר האירועים פרופורציוני לחשיפה נכונה?

כאשר כתבתי את החלק הסטטיסטי של פרוטוקול אחד הניסויים הקליניים שהחברה בה אני עובד עורכת, התלבטתי רבות בשאלה הזו. הפתרון הנאיבי שתיארתי זה עתה, נראה לי, איך לומר, נאיבי. הקדשתי מחשבה לנושא ומצאתי פתרון שונה. התייעצות עם פרופ' פול פייגין מהטכניון הביאה לפתרון שמבוסס על גישה אחרת, ובסופו של דבר זה הפתרון שנכלל בפרוטוקול.

חלף זמן מה, ושינוי ארגוני בחברה שינה את מבנה ההנהלה, וכך נתבקש סטטיסטיקאי העובד בשלוחת החברה בארה"ב, ד"ר יויי שו לחוות את דעתו על הפרוטוקול. אותו סטטיסטיקאי, הפנה אותי לשני מאמרים שפרסם הסטטיסטיקאי האנגלי ג'ון וויטהד, בהם גם הוא ניסה לענות על השאלה הזו. במאמר שפרסם וייטהד בשנת 2001 הוא הציע מתווה לחיזוי מספר האירועים הצפויים בסוף ניסוי כזה, על סמך הנתונים החלקיים שקיימים במהלך הניסוי: משך הזמן שבו כל חולה מטופל, האם החולה עבר אירוע, ואם כן, מתי, אך מבלי לדעת באיזה טיפול מטופל כל חולה (בהתאם לעקרון הסמיות הכפולה שעומד בבסיס כל ניסוי קליני). במתווה של וייטהד יש שלושה שלבים. תחילה יש לאמוד את קצב האירועים הכללי באוכלוסיית הניסוי, שהוא עירוב של קצב האירועים באוכלוסיית החולים המטופלים בתרופה הנסיונית וקצב האירועים באוכלוסיית חולי הפלסבו. בשלב השני יש להפריד באופן כלשהו את הקצב הכללי לשני הקצבים של שני הקבוצות, תוך הסתמכות על ההנחות ששימשו לתכנון הניסוי. לאחר ההפרדה, אפשר לחשב את מספר האירועים הצפוי מתוצאות השלב השני.

נשמע כמו תכנית טובה, והשלב הראשון והשלישי פשוטים למדי, אבל איך מיישמים את השלב השני? את זה וייטהד הסביר במאמר נוסף שפרסם בשנת 2001, עם שותפים. הפתרון שהוא הציע שונה משני הפתרונות ששקלתי בעת כתיבת הפרוטוקול. אבל החדשות המשמחות מבחינתי הן ששני הפתרונות ששקלתי משתלבים היטב במתווה של וייטהד, והם פתרונות קבילים על פי המאמר.

מאחר ויש בידנו שלושה יישומים אפשריים, עלתה השאלה האם יש עוד דרכים ליישם את המתווה של וייטהד? מסתבר שכן. התייעצות עם פרופ' דוד צוקר מהאוניברסיטה העברית הניבה פתרון שהוא הרחבה של הפתרון המקורי שלי, והתייעצות עם ד"ר עפרה ברנט שעובדת יחד איתי הביאה לפתרון אפשרי נוסף. הדרך שהציע ד"ר שו התגלתה כשקולה לזו שמופיעה בפרוטוקול.

עכשיו, כשבידי 5 גישות אפשריות לאמידת מספר האירועים הצפוי בסוף הניסוי, השאלה הבאה שעלתה ברורה מאליה: איזו גישה היא הטובה ביותר? אני יכול, כמובן, לערוך את החישובים על פי 5 הגישות, ולהמתין לסוף הניסוי. דרך מהירה יותר היא לערוך סימולציה של ניסוי קליני, בתנאים שונים, ולראות איזה גישה חוזה את מספר האירועים באופן הטוב ביותר.

בחרתי לערוך סימולציה של הניסוי שתיארתי קודם: 1000 חולים, בשתי קבוצות טיפול, כאשר משך הטיפול הוא שנתיים, ומשך גיוס החולים הוא שנה וחצי, כך שמשך הניסוי ממועד גיוס החולה הראשון ועד סיום הטיפול של החולה האחרון הוא 3.5 שנים. הסימולציה קבעה לכל חולה את משך הזמן עד לאירוע באמצעות התפלגות וויבול (הסבר מייד). אם משך הזמן שהוגרל היה גדול משנתיים, החולה נחשב כשורד. כמו כן, חישבתי את הזמן הקלנדרי של האירוע, ואם הוא התרחש במשך השנה ורבע הראשונות של הניסוי, הוא נחשב כאירוע שצפיתי בו לצורך חיזוי מספר האירועים בסוף הניסוי.

מהי התפלגות וויבול? זוהי התפלגות סטטיסטית גמישה למדי, שמקובלת כמודל טוב עבור נתוני השרדות. להתפלגות זו שני פרמטרים. האחד מבטא את הסיכון של החולה לעבור אירוע קליני (מסומן באות היוונית ביתא במצגת). כאשר ביתא נתון, הפרמטר השני מאפשר לבטא את הסיכוי שחולה ישרוד עד נקודת זמן מסויימת (כלומר, לא יעבור אירוע קליני במשך תקופה מסויימת).

ערכו של הפרמטר ביתא משקף את אופי המחלה. תארו לכם רופא, חולה וסטטיסטיקאי שנפגשים יחד (ברכבת, או בבית המשפט, לא ממש חשוב איפה). החולה מספר כי הוא כבר X שנים במצבו הנוכחי, ולכן הוא אופטימי, מאמין כי מצבו ימשיך להישאר יציב, ובמלים אחרות, הוא מאמין כי ככל שחולף הזמן, הסיכון להחמרה במחלתו הולך וקטן. הרופא ממהר לצנן את התלהבותו, ואומר לא כי אם עבר הרבה זמן ללא הדרדרות, זהו אות לכך שהאירוע הקליני הולך וקרב. כלומר, הרופא מאמין כי הסיכון להחמרה במחלה הולך וגדל עם הזמן. הסטטיסטיקאי עובד בחברת תרופות, ראה אלפי נתונים של אלפי חולים, ולכן הוא מחייך לעצמו. הנתונים שראה מעידים, לדעתו, כי הסיכון הוא קבוע לאורך זמן, ומשך הזמן בו החולה נמצא במצב יציב לא מעלה ולא מוריד. (במחלת הטרשת הנפוצה זה כנראה נכון). ערכו של הפרמטר ביתא קובע את כיוון הסיכון: עולה (ביתא גדול מ-1), יורד (ביתא קטן מ-1) או קבוע לאורך זמן (ביתא שווה אחד). לכן ערכתי סימולציות למצבים בהם ערכי ביתא הם 0.5, 1 ו-2. הניסוי תוכנן בהנחה של סיכון קבוע לאורך זמן (ביתא=1).

הפרמטר השני, גאמא, מבטא את הקצב בו מתרחשים האירועים, ובעזרתו ניתן לבטא את אחוז החולים שישרדו (לא יעברו אירוע קליני)  במשך שתי שנות הטיפול. הניסוי תוכנן בהנחה ש-70% מהחולים המטופלים בפלסבו ישרדו, וערכתי סימולציות לשלושה מצבים: 70% שורדים, 60% שורדים (אוכלוסיה "פעילה" – פחות שורדים, יותר אירועים קליניים) וגם 80% שורדים (אוכלוסיה לא פעילה).

בסך הכל ערכתי לכן סימולציות של תשעה תרחישים אפשריים, שאחד מהם הוא התרחיש בו הנחות התכנון מתקיימות. הנה התוצאות של התרחיש הזה:

תוצאות הסימולציה

בציר האופקי מופיעות 6 נקודות: Actual הוא מספר האירועים בפועל בסוף הניסוי, Naïve הוא מספר האירועים החזוי על פי הגישה הנאיבית, וכן הלאה. (ML היא הגישה שציינתי בפרוטוקול הניסוי). בציר האנכי מופיע מספר האירועים החזוי בסוף הניסוי (תוצאות מ-500 הרצות של הסימולציה). הקו האפקי מסמן את 260 האירועים הדרושים. הגרפים האדומים הם דיאגרמות קופסא (box plots) שפותחו על ידי ג'ון טוקי (מספר 9 ברשימת 15 הסטטיסטיקאים הגדולים). הקצה העליון של כל מלבן מסמן את הרבעון העליון של הנתונים, הקצה התחתון מסמן את הרבעון התחתון, והקו שבאמצע המלבן מסמן את החציון. סימן ה-+ מסמן את הממוצע.

מהגרף הזה לומדים שני דברים. ראשית, כל השיטות נותנות תוצאות דומות,בממוצע. שנית, אם ההנחות לפיהן הניסוי תוכנן אכן נכונות, אז אין מה לדאוג.

אולם שמונת התרחישים האחרים פחות מרגיעים (מי שמעוניין להתעמק בהם מופנה אל המצגת). עדיין נראה כי כל חמשת השיטות נותנות תוצאות דומות בדרך כלל (עם כמה חריגות, שעדיין לא ברורה לי משמעותן). זה אומר שהשיטה הנאיבית היא לא כל כך נאיבית, או שמא השיטות המתוחכמות גם הן נאיביות למדי. אמנם, אם ההנחה של סיכון קבוע תקפה, אז השיטות חוזות באופן לא רע את מספר האירועים בניסוי (הניתוח שערכתי עד כה הוא פשטני ויש מקום לניתוח יותר מעמיק שבכוונתי לערוך), אבל במקרים האחרים הניבויים סוטים מהתוצאה האמיתית וחושפים אותנו לסיכונים. כרגיל בסטטיסטיקה יש שתי טעויות אפשריות. טעות אפשרית אחת היא ניבוי חסר של מספר האירועים הצפוי. עקב כך, ייתכן כי יוחלט להגדיל את המדגם (כלומר לגייס עוד חולים לניסוי, ולהאריך את משך הניסוי ועלותו) ללא צורך. ניבוי עודף של מספר האירועים עלול להביא להמשך הניסוי ללא שינוי, ורק בסופו יתברר כי לא התרחשו מספיק אירועים והניסוי נכשל עקב כך.

מה הלאה? לאחר ההרצאה שאל אותי פרופ' דוד שטיינברג מאוניברסיטת תל-אביב האם ניתן לבדוק אם הנחות הניסוי תקפות במהלך הניסוי. עניתי כי אני חושב שלא, אבל אחר כך עלה בדעתי רעיון שאולי יאפשר בדיקה האם הסיכון עולה, יורד או קבוע במהלך הניסוי, וזאת על ידי הרחבת הגישות שבדקתי לאמידה של מספר פרמטרים (במלים אחרות, אני רוצה לאמוד בו זמנית גם את מספר האירועים הצפוי וגם את הפרמטר ביתא). תיאורטית זה לא מסובך. טכנית זה ידרוש מקסימיזציה של פונקציה לא לינארית של שני משתנים, דבר שדורש קצת עבודה. מקווה שאוכל לעשות אותה מתישהו.

מצגת ההרצאה בכנס האיגוד לסטטיסטיקה 2009

למעוניינים, מצגת ההרצאה שנתתי היום בכנס האיגוד הישראלי לסטטיסטיקה ניתנת להורדה (בפורמט pdf) על ידי לחיצה על הלינק הזההסבר לא טכני לקהל הרחב על הנושא נמצא כאן.