• חיפוש באתר

    קישורים

    עמודים

    RSS סטטיסטיקה ברשת

    תגים

    ארכיב עבור תגית ניסויים קליניים

    חיסון נגד איידס באופק?

    לא ברור.

    מתברר שבתאילנד נערך לאחרונה ניסוי קליני שנועד לבדוק את יעילותו של חיסון אפשרי נגד איידס. לי נודע כל הסיפור מהניוזלטר המצויין "Chance News" (זה כבר בכלל אתר ויקי), שהביא שני אייטמים בנושא בגליון האחרון שלו (הנה הראשון והנה השני). צ'אנס ניוז דיווח על ידיעה בוול סטריט ג'ורנל, וידיעה בסיינס מגזין. כמו כן מצאתי (נדמה לי דרך דלישס) ראיון עם פרופ' ויקטור דה-גרוטולה, יו"ר המחלקה לביוסטטיסטיקה בביה"ס לבריאות הציבור באוניברסיטת הארוורד. הראיון נערך בעקבות הפרסום על תוצאות הניסוי הנ"ל, ועסק בעיקר במושג ה-p-value ומשמעותו – נושא שאדון בו ברשימה אחרת בעתיד. ברשימה הזו אתרכז בניסוי הקליני ומשמעות התוצאות.

    נתחיל בתיאור הניסוי. תכנון הניסוי הוא קלאסי: המשתתפים בניסוי מחולקים באופן אקראי לשתי קבוצות. קבוצה אחת מקבלת את החיסון הנסיוני. לחברי הקבוצה השניה מוזרק חיסון דמה – מי מלח. כעבור 3 שנים, בודקים לכמה מהמשתתפים בכל קבוצה יש תוצאה חיובית בבדיקת HIV.  מדובר בניסוי גדול למדי (לפחות במושגים שלי) – סה"כ השתתפו בו כ-16,000 איש, כולם בתאילנד. עם זאת, איני יודע מה גודל המדגם הדרוש לניסוי כזה, כיוון שאיני יודע מהו שיעור ההדבקות באיידס בתאילנד. עם זאת אציין כי בניסוי הקליני שבדק את החיסון של סאלק נגד מחלת הפוליו, שנערך בארה"ב ב-1954, היו כ-400,000 משתתפים (את הפרט הזה מצאתי בעותק הישן שלי של ספרו של להמן, אני מניח שניתן למצוא אותם אי-שם ברשת).

    והנה התוצאות שפורסמו: מבין 8197 מתנדבים שקיבלו את החיסון הנסיוני, 51 בכל זאת הראו תוצאה חיובית בבדיקת HIV, כלומר כ-0.6%. לעומת זאת, מבין 8198 מתנדבים שקיבלו את חיסון הדמה, 74 הראו תוצאה חיובית בבדיקת HIV, כ-0.9%. מכאן, שהחיסון הנסיוני הקטין את שיעור ההדבקות בכשליש. האם זו תוצאה משמעותית מבחינה קלינית? האם ייתכן כי רק במקרה התקבלה תוצאה כזו, ואין קשר בין הטיפול שקיבלו החולים (חיסון נסיוני או פלסבו) לבין ההדבקות או אי-הדבקות באיידס?

    לשם כך נערך מבחן סטטיסטי, ובסיינס מגזין (וגם בוול סטריט ג'ורנל) פורסמה השורה התחתונה שלו: p=0.039. ה-p (הידוע גם בשם p-value) הוא ההסתברות כי בניסוי דומה יתקבלו תוצאות "משכנעות" יותר אם החיסון לא יעיל במניעת ההדבקות*. מכיוון שמקובל לראות בערכי p  הנמוכים מ-0.05 ערכים מובהקים סטטיסטית, הרי שהשורה התחתונה אומרת כי התוצאה שהתקבלה מובהקת סטטיסטית, והניסוי מספק עדות ליעילותו של החיסון הנסיוני. הסטטיסטיקאי פול אלפר, שכתב את הידיעה בצ'אנס ניוז, חישב אמנם כי ערך ה-p, על פי מבחן פישר, הוא דווקא 0.048 (לפי החישוב שלי, הערך 0.039 התקבל ממבחן חי-בריבוע, וערכתי את דף הויקי בצ'אנס ניוז בהתאם – אני אחראי לפלט תכנת SAS המופיע שם, ועוד), אבל גם ערך זה נמוך ממספר הקסם 0.05, כלומר גם לפי אלפר התוצאות מובהקות סטטיסטית.

    הבעיה היא שאי אפשר לרוץ ל-FDA רק עם p-value. יש צורך בניתוחים נוספים.

    הנתונים שהובאו עד כה מכונים בז'ארגון המקצועי "נתוני ITT". ITT פירושו "Intent To Treat". נתונים אלה כוללים את התוצאות של כל המתנדבים שנכללו בניסוי, כולל אלה שלא עמדו בכל התנאים של הניסוי (למשל, לא קיבלו את כל הזריקות שהיו אמורים לקבל, לא הופיעו לחלק מבדיקות המעקב, נטלו תרופות אסורות במהלך הניסוי, וכדומה). אם "זורקים" את הנתונים של המתנדבים האלה מהאנליזה, נשארים רק  המתונים של החולים שעמדו בכל התנאים של פרוטוקול הניסוי – "נתוני PP" (כאשר PP פירושו Per Protocol). בעוד שבנתוני ה-ITT היו בסך הכל 125 זיהומי HIV (51+74), הרי שבקרב המתנדבים שעמדו בתנאי הפרוטוקול (כלומר בנתוני ה-PP) היו 86 זיהומים בלבד. בשאלות לדיון פול אלפר טען (בשאלה לדיון מספר 1) כי ניתן לבצע חישוב לאחור (reverse engineering) ולמצוא כי בקבוצת הניסוי היו 36 זיהומים ובקבוצת הפלסבו היו 50 זיהומים, אך הוא הניח (מבלי לציין במפורש, אני ערכתי את השאלה לדיון) כי בשתי קבוצות הטיפול היה אותו מספר של חולים גם בנתוני ה-PP. אולם, במקרה כזה ה- p-valueשמתקבל הוא 0.13 ולא 0.16. לכן, המסקנה היא כי באוכלוסיית ה-PP לא היו גדלי הקבוצות שווים.

    העובדה כי תוצאות ה-PP אינן מובהקות סטטיסטית לא צריכה להטריד. התוצאות הקובעות הן תוצאות ה-ITT, ותוצאות ה-PP רק צריכות להראות אפקט דומה לזה שנצפה בנתוני ה-ITT. השאלה המעניינת היא האם אפקט של 26% הוא מספיק "דומה" לאפקט של 31.2%. (למה תוצאות ה-ITT הן הקובעות ולא תוצאות ה-PP? שאלה מצוינת. התשובה אולי תבוא ברשימה אחרת אי שם בעתיד).

    מה כן צריך להטריד בתוצאות הניסוי הזה? הפרטים שלא פורסמו, מן הסתם. למשל: אנו יודעים כי המתנדבים שלא עמדו בתנאי פרוטוקול הניסוי לא התחלקו שווה בשווה בין הקבוצות. כמה מתנדבים בכלל לא עמדו בתנאי הפרוטוקול? מדוע? מה הייתה החלוקה בין הקבוצות? מה גרם לחלוקה הלא שווה? האם היו תופעות לוואי משמעותיות בקרב המתנדבים שקיבלו את החיסון הנסיוני? האם שיעור תופעות הלוואי בקבוצת הניסוי גבוה משמעותית משיעורן בקבוצת הפלסבו? ניתוח של תופעות הלוואי יאפשר לקבוע האם התועלת שבחיסון הנסיוני עולה על הנזק האפשרי שהוא עלול לגרום.

    וכמובן, השאלה שיש לשאול בכל מחקר מדעי: האם תוצאת הניסוי הזה ניתנת לשחזור? כדי לענות על כך, יש צורך לערוך ניסוי קליני נוסף. זוהי דרישה בסיסית של ה-FDA מכל חברת תרופות המבקשת לאשר טיפול רפואי חדש.

    אני לא יודע את התשובות לכל השאלות האלה. לכן, אני לא יכול לקבוע האם התוצאות שפורסמו נותנות תקווה כי בעתיד הקרוב יהיה חיסון נגד נגיף ה-HIV. כתבתי את הרשימה הזו בחשש מה. ייתכן מאוד שמתנגדי החיסונים למיניהם ינסו לאמץ  את הדברים שכתבתי כ"הוכחה" לאי-יעילות החיסונים, אינטרסים של חברות התרופות וכל הבלה בלה הרגיל.  כדי להסיר ספק, אני מדגיש כאן כי זו לא כוונתי. לשאלות שנשארו פתוחות בעקבות הקריאה של הידיעה הראשונית אודות תוצאות הניסוי הזה יש תשובות, ואני בטוח כי אם התוצאות יוגשו ל-FDA כדי לרשום את החיסון, הן יישאלו וייענו (ה-FDA ישאל את עורכי הניסוי עוד הרבה שאלות קשות אחרות, תאמינו לי).


    * הוול סטריט ג'ורנל ציין כי ה-p-value הוא "ההסתברות כי התוצאה התקבלה במקרה" ("Probability that the result is due to chance "). זה לא נכון. אני מתכוון להסביר את הנושא ברשימה בעתיד הקרוב.

    כינוס הפתיחה החגיגי של העמותה לקידום המחקר והניסויים הקליניים בישראל

    העמותה הזו אמנם נתמכת על ידי גורם מסחרי (חברת ביופורום), אבל זה לא אומר שהיא פסולה מלכתחילה – אני מכיר חלק מהאנשים בביופורום והם בהחלט מקצועיים. אמנם לא החלטתי אם אשתתף בכנס הזה, אבל תוכלו להסיק שאם טרחתי לפרסם את דבר קיומו כאן, אני בהחלט מייחס חשיבות לקיומו.

    למעוניינים בפרטים, הנה לינק לדף הבית של העמותה והכנס.

    כשלים סטטיסטיים אפשריים בניסויים קליניים – סקירת ספרות

    כפי שכתבתי בהקדמה לסדרת הרשימות הזו, הופתעתי לגלות כי יש מעט מאוד פרסומים בנושא זה. ברשימה זו אסקור את המעט שמצאתי. אם מי מהקוראים מכיר או נתקל בעוד פרסומים בנושא, אשמח לקבל הפניה.

    המשך הרשימה עלול להיות סתום בעיני חלק מהקוראים. לא להבהל – אני אסביר את הכל ברשימות הבאות בסדרה.

    בשנת 2000 פרסמו  Assmann, Pocock,  Enos ו- Kasten מאמר שכותרתו "Subgroup analysis and other (mis)uses of baseline data in clinical trials" בכתב העת היוקרתי The Lancet. הם בחנו 50 מאמרים שמציגים תוצאות מניסויים קליניים, ופורסמו בארבעה כתבי עת מובילים בתקופה של שלושה חודשים בשנת 1997., ובחנו את האופן בו הוצגו ונותחו נתוני הבסיס (baseline data) של הניסויים האלה., וכן את הדרך בו השתמשו בנתונים אלה לפילוח אוכלוסיית הניסוי (subgrouping). המסקנות של קסטן ועמיתיה עגומות: מחצית המחקרים השתמשו בשיטות סטטיסטיות"לא מתאימות"; שני שליש מהמחקרים דיווחו תוצאות לגבי תתי-אוכלוסיות, שוב ללא שימוש במבחנים סטטיסטיים מתאימים. הארבעה פרסמו גם סקירה טכנית יותר של ממצאיהם המיועדת לסטטיסטיקאים בכתב העת Statistics in Medicine בשנת 2002.

    Zlowodzki, Jönsson, ו-  Bhandariפרסמו ב-2005 מאמר שכותרתו "Common Pitfalls in the Conduct of Clinical Research". הם מתייחסים שם למחלקה רחבה של מחקריים קליניים, ובפרט לניסויים קליניים מבוקרים. הכשלים האפשריים שהם מונים בניסוי קליני מבוקר הם: חוסר סמיות (lack of blinding), כשלים ברנדומיזציה, השמטת חולים שלא סיימו את הניסוי (dropouts) מניתוח הנתונים, עצמה סטטיסטית נמוכה עקב מדגם קטן מדי, והגדלת הטעות מהסוג הראשון עקב בדיקת השערות מרובות וניתוח משתנים מרובים.

    Helberg פרסם ברשת מאמר שכותרתו "Pitfalls of Data Analysis", עם כותרת המשנה "How to Avoid Lies and Damned Lies". הלברג לא עוסק בניסויים קליניים אלא מתייחס לנושא באופן כללי. המאמר שלו מזכיר בסגנונו את הספר הקלאסי של דארל האף "How to lie with statistics", שגם נכלל ברשימת המקורות שלו. בין הכשלים שהוא מונה: הטיה עקב דגימה לא נכונה, חוסר תקפות של הנחות המודל הסטטיסטי, עצמה נמוכה, בדיקת השערות מרובות, טעויות מדידה. הוא מקדיש חלק שלם במאמר לכשלים בפירוש התוצאות של המחקר, ובפרט: ההבדל בין משמעות סטטיסטית למשמעות מעשית, אי התייחסות לדיוק התוצאות (הן במובן של precision  והן במובן של accuracy), והפרשנות של מתאם כסיבתיות. בנוסף, הוא מביא דוגמאות להצגות גרפיות מטעות.

    Strasak, Zaman, Pfeiffer, Gobel ו- Ulmerפרסמו ב-2007 מאמר שכותרת ו"Statistical errors in medical research – a review of common pitfalls" (הקישור לקובץ pdf). בעבודתם הם סקרו עשרות מאמרים שפורסמו בכתבי עת שונים, וזיהו בסך הכל 47 סוגי כשלים שונים. הם מיינו את הכשלים לחמש קבוצות לפי שלבי המחקר הרפואי: תכנון המחקר, ניתוח הנתונים, תיעוד המחקר, הצגת הנתונים, ופירוש התוצאות (interpretation). החלוקה הראשונית שלהם משמשת כבסיס לסדרת הרשימות הזו.

    Young התייחס ב-2007 לעבודה של Strasak ועמיתיו במאמר שכותרתו "Statistical errors in medical research – a chronic disease?" (קישור לקובץ pdf), והוסיף תובנות משלו, בעיקר לגבי שלב ניתוח הנתונים. הוא אמנם משבח את עבודתם, אך מסתייג מקביעתם כי "אין צורך לקרוא ספרי לימוד שלמים בנושא הסטטיסטיקה". הוא מציין, ובצדק, כי "קריאה של טקסטים בסטטיסטיקה  בהחלט שווה את המאמץ", וישנם ספרי לימוד שאינם כה קשים לקריאה.

    הנושא של משמעות סטטיסטית מול משמעות קלינית הוא נושא כאוב למדי. לעיתים ניתן לגלות במחקר אפקט כלשהו מובהק סטטיסטית, אך האם יש לו גם משמעות מבחינה קלינית/רפואית? לא תמיד. בפגישת עבודה שהייתה לי ולעמיתיי לפני מספר חודשים עם פרופ טום פלמינג, מבכירי הסטטיסטיקאים של דורנו, הוא אמר (ציטוט חופשי מהזכרון): "מטרת הניסוי הקליני אינו השגת אפקט מובהק סטטיסטית, אלא השגת עדות סטטיסטית לאפקט משמעותי מבחינה קלינית". הדברים האלה ברורים לכל ביוסטטיסטיקאי, אך לא תמיד לחוקרים. לשמחתי, גיליתי מספר לא מועט של התייחסויות לנושא. פירוש מיידי של אפקט מובהק סטטיסטית כאפקט משמעותי מבחינה קלינית הוא לא רק כשל באינטרפרטציה. זה מעיד גם על כשל בשלב התכנון של הניסוי, וגם על כשל בניתוח של כלל הנתונים שהצטברו.  שני דיונים טובים בנושא ניתן למצוא במצגת של Pazdur מ-FDA (זמינה ברשת בלינק הזה), וגם במאמר שפרסם בכתב העת The Oncologist  איש FDA נוסף, Kane, ב-2008, שכותרתו "The Clinical Significance of Statistical Significance".

    עוד  ראוי לציין בסקירה קצרה זו את השקפים מסדרת הרצאות בביוסטטיסטיקה לקהל הרחב שניתנו על ידי המרצים באוניברסיטת ג'ונס הופקינס, שכבר דיווחתי עליהם לפני מספר שבועות.

    הרשימות הקודמות בסדרה

    - כשלים סטטיסטיים אפשריים בניסויים קליניים – הקדמה

    כנס האיגוד הישראלי לסטטיסטיקה 2009

    כנס האיגוד הישראלי לסטטיסטיקה ייערך השנה בבאר שבע בתאריך 17.6.התכנית (הלא סופית) של הכנס פורסמה היום באתר האיגוד.

    מי שיעיין בתכנית יוכל לראות שאני אהיה שם. אני מארגן את אחד המושבים, שיעסוק בביוסטטיסטיקה (הכותרת הלא מדוייקת של המושב היא "סטטיסטיקה בתעשיית התרופות"), וגם אתן את אחת ההרצאות במושב הזה, שתעסוק באספקט מסויים של ניסויים קליניים להערכת שרידות (survival). מצגת ההרצאה תהיה זמינה כאן בסמוך למועד הכנס. כמו כן ירצו במושב זה: אלי אייל – על תכנון ניסוי קליני במחלת הפרקינסון, דני רוטשטיין – על תפקיד הסטטיסטיקאי בתעשיה הפרמצבטית, וחבי מורד – בהרצאה יותר מתודולוגית על אמידה ובדיקה של אינטראקציות במודל רגרסיה כאשר טעות המדידה לא מקיימת את הנחות הקלאסיות.

    גם המושבים האחרים יהיו מעניינים, ונראה שתהיה לי התלבטות קשה בין מושב הביוסטטיסטיקה השני ומושב הסטטיסטיקה התעשייתית שבשניהם יש לי עניין רב.

    וכמובן, יהיה משמח לראות שוב כל כך הרבה סטטיסטיקאים במקום אחד.

    מהי סטטיסטיקה?

    את המילון של גרנסי מקפירסון למונחי פיתוח תרופות אני מכיר מזמן, והיום שוב נתקלתי בלינק אליו (בבלוג המצויין Realizations in Biostatistics). אני לא ממליץ להסתמך על המילון הזה בעבודה היום יומית, במקרה שאתם עובדים בתעשיה, אבל מצד שני אם אתם אכן עובדים בתעשיית התרופות, אני מניח שלא תפלו בפח. בונוס: הסטטיסטיקאים צוחקים יותר.

    ההגדרה הקולעת ביותר היא של המונח סטטיסטיקה:

    Statistics – A subject which most statisticians find difficult but in which nearly all physicians are expert.

    משעשע, נכון לעיתים קרובות מדי, וגם קצת עצוב.