חיפוש באתר

קישורים

RSS סטטיסטיקה ברשת

עמודים

קטגוריות

תגיות

ניסוי קליני מתוכנן היטב לבדיקת תכשיר הומיאופתי – ניתוח מקרה

אני מקווה שרוב קוראיי (כלומר, לפחות ארבעה!) מכירים את הבלוג “חשיבה חדה" שכותב ידידי גלעד דיאמנט, ו/או את קבוצת הפייסבוק הקשורה אליו. אם לא זו ההזדמנות לערוך היכרות. אני פותח המלצה על הבלוג והקבוצה, משום שדיון בקבוצה הוביל אותי לכתיבת הרשימה הנוכחית.

הכל התחיל בלינק לידיעה על יצרנית תכשירים הומיאופתיים שנאלצה לקרוא להחזרת חלק ממוצריה בגלל שהכילו אנטיביוטיקה (אופס). בדיון שהתפתח, כתב אחד מחברי הקבוצה, אור גרשון, כי מישהו הציג לו מחקר קליני שבדק טיפול הומיאופתי לאלרגיה, שהראה כי הטיפול ההומיאופתי יעיל, ותהה כיצד משיבים לטיעון כזה. חבר אחר בקבוצה התנדב לקרוא את המאמרים ולנתח את הכשלים שבהם.

עד כאן הכל טוב ויפה, אולם לאחר שקראתי את הניתוחים בפייסבוק נאלצתי להסתייג מהם. הבטחתי לקרוא את המאמרים, והתחייבתי להגיב גם למאמרים וגם להערות שבדיון במועד מאוחר יותר. אמנם עברו כבר כמה שבועות, ואני אמנם לא בן למשפחת לאניסטר, אבל אעמוד בהתחייבותי, לאחר שקראתי גם את המאמר עצמו, וגם את התגובות למאמר שפורסמו בכתב העת לאחר פרסומו.

אני רוצה להדגיש כי הביקורת שאכתוב מייד על הדברים שכתב הקורא אינה מיועדת להלבין את פניו ברבים, אלא מתוך רצון כן לסייע לו ולקוראים האחרים להבין טוב יותר את הניסוי, תכנונו, והניתוח הסטטיסטי.

כמו כן, אני מוצא את עצמי נאלץ להגן על ניסוי קליני הומיאופתי מפני טענות על כשלים כביכול שהוטחו בו, מכיוון שהטענות אינן נכונות. הניסוי המתואר במאמר הוא לדעתי ניסוי מתוכנן היטב, ומנטרל בצורה טובה מאוד הטיות אפשריות במחקר מסוג זה. למרות זאת, תקפות התוצאה שפורסמה בהבלטה במאמר, המראה יתרון טיפולי להומיאופתיה על פני פלסבו באחד המדדים, מוטלת בספק. רק אחד המבקרים של הניסוי הצליח להצביע על נקודת הכשל.

מדובר המאמר ישן למדי, שפורסם בשנת 2000 בכתב העת BMJ, שבהחלט אינו כתב עת זניח. המאמר[1] תיאר, כאמור, ניסוי קליני בו נבדק טיפול הומיאופתי ל- perennial allergic rhinitis (דלקת/נזלת בחלל האף הנגרמת עקב אלרגיה לא עונתית). הניסוי המתואר פשוט מאוד. המועמדים/מתנדבים להשתתפות בניסוי עברו תהליך סינון, בו נבדק האם מצבם הרפואי מתאים לטיפול, נעשתה הערכה של האלרגנים שגרמו למצבם, ולכולם ניתן טיפול ראשוני. לכל החולים בשלב זה ניתן פלסבו, אך נאמר להם כי הם קיבלו טיפול הומיאופתי מותאם למצבם. במשך שבועיים המועמדים היו מטופלים בפלסבו שחשבו כי הוא טיפול הומיאופתי, וניהלו רישום יומי של מצבם. לתקופת מעבר זו, בה החולים אינם מטופלים אך חושבים כי קיבלו טיפול הומיאופתי, יש שתי מטרות: איסוף נתוני בסיס, וניטרול אפקט פלסבו אפשרי. לאחר תקופת המעבר, חולקו החולים בהקצאה רנדומלית לשתי קבוצות. קבוצה אחת קיבלה טיפול הומיאופתי, השניה המשיכה לקבל פלסבו. החלוקה נעשתה בסמיות כפולה; לא החולים ולא הרופאים/חוקרים ידעו איזה סוג של טיפול קיבל כל חולה. החולים המשיכו לערוך רישום של מצבם במשך ארבעה שבועות נוספים. בסיום הניסוי, נערכה השוואה של השינוי הממוצע מהבסיס לסיום הטיפול בין שתי הקבוצות. החוקרים חישבו כי כדי לשמור על רמת מובהקות (הסתברות לתוצאה חיובית שלילית – false positive) של 5%, ובמקביל להשיג עוצמה (הסתברות לתוצאה חיובית כאשר יש אפקט טיפולי  – true positive) של 80%,  יש צורך במדגם בגודל 120 חולים (60 בכל קבוצה). בפועל הצליחו החוקרים לגייס לניסוי רק 51 חולים. עד כמה זה קריטי? אתייחס לכך בהמשך.

תוצאת הניסוי: נצפה הבדל מובהק סטטיסטית בין הקבוצות, המראה יתרון לטיפול ההומיאופתי במדד Nasal inspiratory peak flow, עם זאת, במדד Visual analogue scale (VAS), לא נצפה אפקט טיפולי. המדד הראשון, בו התקבלה תוצאה מובהקת סטטיסטית נחשב למדד אובייקטיבי, ואילו המדד השני נחשב לסובייקטיבי. החוקרים גם מציינים כי ההבדל המובהק במדד הראשון נחשב משמעותי מבחינה קלינית.

בהמשך סוקרים החוקרים תוצאות של שלושה ניסויים אחרים שקדמו לניסוי זה, ועורכים ניתוח מאוחד (pooled  analysis) המסכם יחדיו את תוצאותיהם. ברשימה זו לא אתייחס לחלק זה של המאמר/

כצפוי, המחקר עורר סערה, ובמערכת כתב העת התקבלו מספר תגובות המבקרות את המחקר וממצאיו[2]. הנה סקירה של חלק מהתגובות (הקשורות לתחומים שאני מבין בהם משהו) והתייחסותי.

בארי מילר, רופא מרדים במקצועו, טוען כי הניתוח הסטטיסטי לקוי, מכיוון שגודל המדגם בפועל היה רק 51 חולים, ולא 120 כפי שתוכנן. לכן עוצמת הניסוי הייתה, לפי חישוביו, רק 43% ולא 80% (לא בדקתי את החישוב). אומר בעדינות כי הטענה הזו מראה חוסר הבנה בסטטיסטיקה ובמתודולוגיה של ניסויים קליניים. ניתן לטעון, אולי, כי אין זה אתי לבצע ניסוי קליני שעוצמתו נמוכה, אבל מה זה קשור לניתוח הסטטיסטי? החוקרים משיבים לו כראוי, ומסבירים כי הסיכון הנובע מעוצמה נמוכה הוא הסתברות גבוהה יותר להחמצה של תגלית – false negative. במלים אחרות, כאשר העוצמה נמוכה, ייתכן שהניסוי לא יצליח לגלות את קיומו של אפקט אמיתי, אם הוא קיים. רמת המובהקות של הניסוי, ההסתברות לתגלית שגויה – false positive, כלומר מצב בו נראה כאילו יש אפקט טיפולי כאשר בפועל אין אפקט כזה, אינה תלויה בגודל המדגם. החוקרים עוד מגדילים לעשות, ומשערים כי ייתכן והתוצאה השלילית שהתקבלה במדד הסובייקטיבי VAS נבעה מגודל המדגם הקטן והעוצמה הנמוכה. במובן הזה, הביקורת של ד"ר מילר הייתה סוג של גול עצמי.

בריאן ליפוורת', פרופסור לאלרגיה ורפואה נשימתית, מעיר בין היתר כי היה רצוי וראוי לבצע ניסוי המשווה את הטיפול ההומיאופתי לטיפול הרפואי המקובל (כגון סטרואידים או אנטיהיסטמינים), הידוע כיעיל לטווח ארוך. הצדק עימו.

ד"ר יורגן וינדלר, ראש המחלקה לרפואה מבוססת ראיות במכון המחקר MDS באסן, גרמניה, מעלה טענה חזקה: חישובי גודל המדגם נעשו על פי מדד VAS, ועל סמך התוצאות שהתקבלו בשלושת הניסויים הקודמים. במדד זה הניסוי נכשל. כלומר, הניסוי לא הצליח לשחזר את התוצאות של הניסויים הקודמים. לדעתי זהו הכשל העיקרי בניסוי זה. מכיוון שחישובי גודל המדגם נעשו על פי מדד זה, הרי שבפועל זהו משתנה המחקר הראשי (primary endpoint) של הניסוי,[3] ועל פי הכללים המקובלים בניסויים קליניים, כשלון במשתנה המחקר הראשי הוא כשלון הניסוי כולו. התייחסות להצלחה במשתנה מחקר משני לאחר כשלון במשתנה המחקר הראשי משמעותה ניפוח ההסתברות לטעות מסוג ראשון – false positive – של המחקר, והיא גדולה מ-5%, בניגוד למה שהוצהר.[4] ד"ר וינדלר מתייחס בהמשך גם לניתוח המאוחד של תוצאות כל ארבעת הניסויים, ומעיר מספר הערות נכונות לגבי ניתוח זה.

שתי תגובות נוספות הן של ה. מורו בראון, מומחה לאלרגיה, התוהה האם החולים סבלו מלכתחילה מדלקת אלרגית לא עונתית), ומייקל דין, סטודנט לדוקטורט בבריאות הציבור מאוניברסיטת יורק, שטען כי פרסום מחקר ברמה גבוהה המראה תוצאות חיוביות בטיפול הומיאופתי רק מבליט את הסטנדרט הכפול בהתייחסות של הממסד הרפואי להומיאופתיה.

מכאן אעבור להערות של הקורא בקבוצת הפייסבוק. הוא התייחס בתחילה דווקא לתגובות הקוראים למחקר, ובטעות ייחס אותן לעורכי כתב העת. כך הוא כותב , למשל (תיקנתי כמה טעויות כתיב/הקלדה):  "המאמר המצורף מתחיל בהערה מאת המפרסם: ‘Statistics in study were flawed’-סטטיסטיקות במחקר לוקות בחסר. מה זה אומר? זה אומר שהעורכים המקצועיים (שהם אנשי מקצוע לפני היותם עורכים מדעיים) עבור על הנתונים (שחייב כל מפרסם מאמר לספק יחד עם המאמר) ומצעו בו פגמים/כשלים בתחום הסטטיסטי."

ובכן, ההערה היא למעשה הכותרת שנתנו עורכי כתב העת לתגובתו של בארי מילר, וכבר הסברתי את הבעייתיות שבה. הקורא מצטט גם חלק מתגובתו של ד"ר וינדלר, ומייחס אותה לעורכי כתב העת, ולאחר מכן שוב חוזר לטענה לפיה המחקר פגום בגלל גודל המדגם הנמוך מהמתוכנן, וכותב: "החוקרים בסופו של דבר גייסו רק 51 נבדקים, אבל ניתחו את הנתונים כאילו היו להם כל ה120!". זה חוסר הבנה של הניתוח שבוצע במחקר. החוקרים ניתחו נתונים של 51 חולים, כי אלה הנתונים שהצליחו לאסוף. מספר החולים בכל קבוצה אכן נלקח בחשבון בעת ביצוע המבחן הסטטיסטי (מבחן t בניסוי הספציפי הזה). האם הקורא טוען כי החוקרים הציבו בנוסחאות גדלי קבוצות השווים ל-60, במקום 24 ו-27 כפי שהיה בפועל? זוהי האשמה חמורה ביותר, כיוון שמעשה כזה הוא רמאות לכל דבר. אני מתקשה להאמין שזה מה שקרה. כפי שהסברתי, גודל המדגם הנמוך פוגע אמנם בעוצמה הסטטיסטית של הניסוי, אך לא בתקפות הסטטיסטית שלו.

בהערה הבאה שלו בדיון, מתייחס הקורא למאמר המתאר את המחקר עצמו (וזה אינו המאמר "בצורה לא ערוכה" כפי שחשב בטעות). תחילה טוען הקורא כי "51 חולים אינה נחשבת קבוצת מדגם רחבה דיה". מדוע? האם זה נכון תמיד? לא ולא! גודל המדגם נקבע על פי שלושה גורמים: ההתפלגות הצפויה של הנתונים שייאספו בניסוי, גודל האפקט הטיפולי שמבקשים החוקרים לזהות, והעוצמה הסטטיסטית שהם מבקשים לעצמם (וזאת בהנחה שרמת המובהקות חייבת להיות 5%, הסטנדרט המקובל במחקר). לכל מחקר גודל המדגם המתאים לו. אפשר בקלות לבנות דוגמה בה גודל מדגם של 50, 40 או אפילו פחות מכך יהיה מספיק בהחלט.

הקורא טוען גם כי העובדה ש המשתתפים בניסוי הכירו את עקרונות ההומיאופתיה יצרה הטיה מחשבתית כלפי התרופה הנבדקת. אז מה? והאם בניסוי "רגיל", בו בודקים למשל את ההשפעה הטיפולית של אנטיביוטיקה לעומת פלסבו אין "הטיה מחשבתית"? בדיוק לשם כך עורכים ניסוי כפול סמיות. החולים לא ידעו אם טופלו בפלסבו או בתכשיר הומיאופתי, וגם החוקרים לא ידעו זאת. זהו סטנדרט הזהב לניסוי קליני. במאמר מסבירים החוקרים בפירוט את הנוהלים בעזרתם נשמרה הסמיות הכפולה.

הקורא ממשיך וטוען כי בגלל שבזמן הניסוי (אם כי לא בתקופת הסינון) הותר לחולים לקחת תרופות נוספות, אזי כל טענה שעולה מהמחקר מופרכת לחלוטין. זה בפירוש לא נכון, מכיוון שהחולים בשתי קבוצות הטיפול השתמשו בתרופות נוספות, וההשפעות אמורות להתאזן. אני מסכים שייתכן והיה מקום להגביל את השימוש בתרופות מסויימות, ו/או לתקנן את הניתוח הסטטיסטי על ידי הוספת משתנה מסביר לניתוח, אבל לא חושב שזו נקודה קריטית. הטענה של הקורא כי המחקר חייב להתבצע ב-"ואקום כימי" בו אסור למשתתפים ליטול אף תרופה אחרת היא בפירוש לא נכונה, ודרישה גורפת כזו אינה אתית.

הקורא גם טוען כי החלוקה הלא שווה בין הקבוצות: 27 בקבוצת פלסבו לעומת 24 בקבוצת הטיפול, מעלה תהיות לגבי מהימנות שיטת החלוקה (רנדומיזציה). ובכן, אי אפשר לחלק 51 חולים לשתי קבוצות שוות. הטוב ביותר שאפשר הוא חלוקה של 26-25. נכון, כאן החלוקה קצת פחות טובה: 24-27. אם תקחו מטבע ותטילו 51 פעמים, מה ההסתברות כי תקבלו בדיוק 26 הטלות של עץ ו-25 הטלות של פלי?[5] אם תקבלו 27 עץ ו-24 פלי, האם תחשדו כי המטבע אינו הוגן?[6]

הקורא חוזר לפרוצדורות של הניסוי: במאמר הוסבר כי הותאם תכשיר הומאופתי לכל משתמש בנפרד, על בסיס האלרגן שאליו הייתה לו התגובה הכי חמורה במבחן עור, ושבמקרה של אי ודאות נעשתה התייעצות עם רופא מנוסה בהומיאופתיה. מכאן מסיק הקורא, לא ברור לי על סמך מה, כי "המחקר כולו מבולגן ע"פ אנשים שונים עם אלרגיות שונות לאלרגנים שונים. כל אחד מהם מקבל תכשיר הומיאופתי שונה". אחת הטענות עיקריות של הומיאופתים בבואם להסביר מדוע לא ניתן לבחון טיפול הומיאופתי בניסויים קליניים, היא בדיוק הטענה הזו – לכל חולה יש צורך להתאים טיפול ייחודי. זהו עקרון בסיסי בהומיאופתיה. החוקרים עקפו את הבעיה הזו בצורה נהדרת: לכל חולה הותאם התכשיר ההומיאופתי המתאים לו, לדעת הרופא/הומיאופת המטפל. לאחר מכן הלך החולה לבית המרקחת, וקיבל שם או את התכשיר הומיאפתי שהותאם לו, או פלסבו, לפי תכנית הרנדומיזציה! החולה לא ידע אם קיבל תכשיר הומיאופתי או פלסבו, וגם לא הרופא המטפל. כך נשמרה הסמיות הכפולה. התהליך הוסבר במפורט במאמר, ולדעתי אין בכך כל פגם, אם כללי הפרוטוקול נשמרו.

הקורא ממשיך וכותב: "כמו גם מצוין כי ‘although the researchers were not blinded.’ – החוקרים לא היו 'בעיוורון', כלומר המחקר אינו באמת בסמיות כפולה.". זו הערה גרועה במיוחד מצידו של הקורא, המראה כי לקה בקריאה סלקטיבית והוציא דברים מהקשרם. החוקרים ידעו כי נתנו לחולים פלסבו ובכל זאת אמרו לחולים כי קיבלו תכשיר הומיאופתי בתחילת תהליך הסינון, אשר התרחש שבועיים לפני הרנדומיזציה עצמה. כפי שהסברתי קודם, המטרה הייתה לגרום לחולים לחשוב כי הם מקבלים טיפול הומיאופתי כדי לנטרל את אפקט הפלסבו, ובאותו זמן להחזיק אותם שבועיים ללא טיפול הומיאופתי, כדי לייצר נתוני בסיס נקיים מהשפעה אפשרית של הטיפול. תכנון מבריק.

לסיכום: רוב ה"כשלים" בניסוי עליהם הצביעו מבקריו אינם כשלים כלל וכלל. הבעיה העיקרית בניסוי היא הבעיה עליה הצביע ד"ר וינדלר: מתיאור הניסוי עולה כי הוא תוכנן כדי לזהות אפקט במדד מסויים – VAS, ונכשל לזהות את האפקט במדד הזה, ש/הוא משתנה המחקר הראשי (בפועל). אמנם נצפה אפקט במשתנה אחר, אבל מדובר במשתנה מחקר משני, והסיכוי לתוצאת false positive במשתנה המשני גבוהה יותר מ-5% אם לא נצפה אפקט במשתנה הראשי.


הערות
  1. 1. Taylor, M. A., Reilly, D., Llewellyn-Jones, R. H., McSharry, C., & Aitchison, T. C. (2000). Randomised controlled trial of homoeopathy versus placebo in perennial allergic rhinitis with overview of four trial seriesBMJ: British Medical Journal,321(7259), 471. []
  2. 2. Homoeopathy versus placebo in perennial allergic rhinitis. BMJ: British Medical Journal, 2001; 322(7279): 169. []
  3. 3. לא ברור לי מהקריאה במאמר האם בפרוטוקול הניסוי הוגדר מראש משתנה מחקר ראשי, ואם כן, מהו. []
  4. 4. לו נתנו החוקרים את דעתם על כך מראש, היו יכולים להגדיר את שני המשתנים כראשיים, ולהגדיר תיקון סטטיסטי שהיה מאפשר תוצאה מובהקת למשתנה השני גם כאשר הראשון אינו מובהק. ברור שלא עשו כן, אחרת היו מציינים זאת במאמר. []
  5. 5. רק 11%, כלומר יש הסתברות של 89% כי התוצאה לא תהיה 25-26. []
  6. 6. לא. אם תבדקו את ההשערה כי ההסתברות של המטבע ליפול על עץ היא 0.5 תקבלו ערך-p של 0.6683. []

12 תגובות ל“ניסוי קליני מתוכנן היטב לבדיקת תכשיר הומיאופתי – ניתוח מקרה”

  • תגובה מאת עמית
    תאריך אפריל 20, 2014 23:28

    אז Texas Sharpshooter Fallacy?

    זו האחת הבעיות כשהדרישה למובהקות סטטיסטית היא כל-כך נמוכה. תן לי נתונים רנדומיים ואחת ל-20 פעמים אני אוציא לך מובהקות כנדרש.

    • תגובה מאת יוסי לוי
      תאריך אפריל 21, 2014 11:18

      עמית, אתה יכול לקבוע איזה דרישה שאתה רוצה. זו הסיבה שמפרסמים p-value ולא את תוצאת המבחן הסטטיסטי (השערת האפס נדחתה או לא נדחתה) לרמת מובהקות מסויימת.
      הבעיה היא שאם תרד לרמת מובהקות יותר נמוכה, גם העוצמה שלך תהיה יותר נמוכה, ויהיו לך הרבה יותר "תגליות אבודות" – אפקטים אמיתיים שלא זיהית. האם המדע יוכל להתקדם בצורה כזו?
      כדי לאשר תרופה לשימוש בארה"ב, אגב, ה-FDA דורש הצלחה בשני ניסויים בלתי תלויים, ברמת מובהקות של 2.5% כל אחד, כלומר רמת המובהקות היא למעשה 0.000625 או 1 ל-1600. ועדיין אי אפשר להמנע מטעות מסוג ראשון, כי ההסתברות עדיין חיובית. המחיר הוא כבד: יש מן הסתם כמה תרופות טובות שלא אושרו לשימוש בגלל הרף הגבוה.

      • תגובה מאת עמית
        תאריך אפריל 21, 2014 19:43

        מן הסתם אם התרופה עובדת אז עבור מדגם גדול מספיק תוכל לקבל איזה p-value שתרצה. 1 ל-1600 זה דבר אחר (למרות שכמו שציינת גם זה יכול לקרות מדי פעם). הבעיה עם 1 ל-20 היא שקצת אפקט המגירה, קצת טעות בנתונים, וקצת שיבוש (אפילו לא מכוון) בסמיות הכפולה, ואתה מקבל את האפקט שלך.

        זו אגב אחת הסיבות שרוצים אישור עצמאי מקבוצות שונות, וזו הסיבה שבאופן כללי עדיף שאנשים שמטילים ספק בנכונות התוצאות (אם יש כאלה) ינסו לבדוק אותן בניסוי חוזר. מאוד קל לפשל, כמו שמוכיחים די הרבה מאמרים ש-"גילו" אפקטים הומאופתים.

  • תגובה מאת גיל
    תאריך אפריל 21, 2014 16:44

    יפה, מעצבן לשמוע אנשים שיתקפו בכל מחיר כל מחקר שמראה תוצאות הפוכות לאלו שהם מאמינים בהם ויהיו נוקדניים עד כדי עיוות המחקר המקורי. בעקיפין, המחקר הזה מראה שני דברים חשובים בעיניי. שמחקר טוב הוא טוב בלי קשר לתוצאות שלו. גם אם המחקר היה מגלה אפס אפקטים הוא עדיין היה חשוב וראוי היה לפרסם אותו מה שברוב המקרים לא נעשה וחבל.

    דבר שני זה שגם אם המחקר הזה היה מראה על אפקט להומאפתיה צריך לקחת אותו בזהירות מכיוון שיש הרבה מחקרים אחרים שלא מראים אפקט כזה. רק מטא אנליזות יכולות לתת תמונה ברורה יותר בנושא וישנן לא מעט כאלו (כולל אפילו מטא אנליזות של מטא אנליזות).

  • תגובה מאת yossi
    תאריך אפריל 25, 2014 09:33

    Test

  • תגובה מאת אלכס שילמן
    תאריך אפריל 27, 2014 22:23

    ניתוח יפה, ממליץ לקרוא את ספרו של סיימון סינג ריפוי או פיתוי,
    מספק כר נרחב להתווכח עליו.

    • תגובה מאת יוסי לוי
      תאריך אפריל 28, 2014 09:47

      אלכס,
      תודה על המחמאה. הספר של סינג מומלץ בהחלט לקריאה, אם כי אני רוצה להדגיש שהטריגר לכתיבת הפוסט הזה היה הרצון להציג ניסוי קליני טוב, שהותקף שלא בצדק מתוך התנגדות להומיאופתיה. דעתי השלילית על ההומיאופתיה ידועה, אבל אין זה אומר כי הניסוי עצמו פסול. להיפך, אני מקווה שיהיו עוד הרבה ניסויים כאלה.

תגובה