ארכיב עבור תגית ניסויים קליניים
השרדות: איך אפשר לדעת מה יהיה?
בעקבות הערתו של עופר לרשימה בה נתתי לינק למצגת ההרצאה שלי בכנס האחרון של האיגוד הישראלי לסטטיסטיקה, אני מפרסם כאן הסבר כללי ולא טכני שמיועד לקהל הרחב על הנושא בו עסקה ההרצאה. אני חייב להתריע בפני הקוראים כי מדובר ברשימה ארוכה מהרגיל, ולמרות כל מאמצי ייתכן מאוד שהיא עדיין לא מספיק ברורה עבור הקהל הרחב (אני מקווה מאוד שכן). בכל מקרה, אני שמח לפתוח כאן חלון אל העולם שבו אני פועל.
אחד הנושאים שמעניינים אותי הוא ניתוח השרדות, ותכנון של ניסויים קליניים לבדיקת אפקט של טיפול תרופתי על ההשרדות.
מה זה אומר? במחלות רבות, משך הזמן שעובר עד להתרחשותו של אירוע קליני מסויים (ומוגדר מאש) מהווה אינדיקציה לחומרת המחלה. במחלות כמו סרטן ו-ALS (הידועה גם בשם "מחלת לו גריג", החולה המפורסם ביותר כיום במחלה זו הוא הפיזיקאי סטיבן הוקינג) האירוע הוא בדרך כלל מוות. בטרשת נפוצה, מחלה שמעניינת אותי במיוחד, אירוע כזה יכול להיות התקף נוירולוגי או הדרדרות ביכולות הפיזיות (על פי סולם ה-EDSS). מסיבות מובנות יש עניין לבדוק האם טיפול תרופתי (קיים או חדש) , יכול להאריך את משך הזמן הממוצע עד לאירוע, או, במילים אחרות, להקטין את קצב התרחשות האירועים.
איך בודקים את זה? אפשר כמובן לקחת קבוצת חולים, לתת לחלק מהם את התרופה שאנו רוצים לבחון ולחלק מהם טיפול ביקורת (פלסבו או הטיפול הסטנדרטי המקובל), ולהמתין עד שכל אחד מהחולים יעבור את האירוע שבו מתעניינים. אז נוכל להשוות את משך הזמן הממוצע עד להתרחשות האירוע בקבוצה אחת עם מקבילו מהקבוצה השניה. ניסוי כזה הוא בעייתי מאוד. הוא עלול להמשך זמן רב מאוד, ולמעשה משכו אינו מוגדר מראש. לכך יש השלכות מעשיות ואתיות כאחד. איזה חברת תרופות תתחיל ניסוי שלא ידוע מראש מה יהיה משכו ומה תהיה עלותו? איזה חולה יסכים להסתכן בטיפול בפלסבו לזמן בלתי מוגבל.
אפשר לתכנן את הניסוי באופן אחר: נמתין פרק זמן מסויים, קבוע מראש, נניח שנה. חלק מהחולים יעברו בפרק זמן זה את האירוע הקליני, ועבורם נדע בדיוק את משך הזמן שעבר מתחילת הטיפול ועד האירוע. שאר החולים לא יחוו את האירוע, ועבורם לא נדע את משך הזמן המדויק עד התרחשות האירוע, אבל כן נדע כי הוא ארוך משנה. מתברר שהאינפורמציה הזו מספיקה כדי לאמוד את משך הזמן הממוצע על לאירוע וכן לקבוע האם יש הבדלים בין שתי קבוצות הטיפול. יותר מכך, אפשר לקבוע מראש את גודל המדגם הדרוש כדי לזהות הבדל באופן מובהק סטטיסטית.
גודל המדגם הדרוש קשור ישירות למספר האירועים הצפויים להתרחש במהלך הניסוי, והקשר הוא דרך ההנחות לפיהן הניסוי מתוכנן. באחד השקפים הבאתי דוגמא שבה משך הזמן הממוצע עד לאירוע בחולים הלא מטופלים הוא בערך שש שנים, ורוצים לבדוק האם טיפול כלשהו מאריך את משך הזמן הממוצע ל-8 שנים בערך. חישבתי ומצאתי כי מדגם של 1000 חולים, שיטופלו במשך שנתיים, יספק עצמה סטטיסטית של 83% לזיהוי הבדל מובהק בין הקבוצות. אם מניחים בנוסף כי הסיכון לאירוע הוא קבוע לאורך הזמן, אפשר לחשב ולמצוא כי בתנאים האלה בערך 30% מהחולים הלא מטופלים (כלומר, מהחולים המטופלים בפלסבו) יעברו אירוע, כלומר 150 חולים בערך. לעומת זאת, רק 22% מהחולים המטופלים בטיפול הנסיוני אמורים לעבור אירוע (אם התרופה באמת עובדת), כלומר רק 110 מבין 500 החולים המטופלים יעברו את האירוע. לכן, בסופו של דבר אנו אמורים לצפות ב-260 אירועים. אפשר לעשות את החשבון הזה גם מהסוף להתחלה: תחילה לחשב כי יש צורך לצפות ב-260 אירועים כדי להגיע לעצמה הסטטיסטית הדרושה, ומשם לקבוע את גודל המדגם (1000 חולים).
המשמעות של כל הדיון האחרון: אם במהלך הניסוי ייצפה מספר קטן יותר של אירועים מכל סיבה שהיא, אזי העצמה הסטטיסטית של הניסוי תהיה נמוכה יותר. ולכן, השאלה שמדירה את שנת הסטטיסטיקאי (וכל צוות הפרויקט, בעצם) היא: האם בסוף הניסוי נגיע למספר האירועים הרצוי?
בואו נעבור לרגע ללוגיסטיקה של הניסוי הקליני. ברור לחלוטין כי אי אפשר לגייס בבת אחת 1000 חולים שיסכימו להשתתף בניסוי ויתחילו כולם את הטיפול באותו יום. גיוס של כמות כה גדולה של חולים יכול לארוך זמן רב. נניח שמשך הגיוס הוא שנה וחצי, כלומר בממוצע מצטרפים לניסוי בכל יום כשני חולים ( 1.828 חולים, למתעניינים). פירוש הדבר הוא שאחרי שנה ורבע יהיו בתוך הניסוי כ-830 חולים. הראשון בהם כבר מטופל שנה ורבע, האחרון שהצטרף לניסוי התחיל את הטיפול זה עתה. מכאן מקבלים כי משך זמן הטיפול הממוצע לחולה בנקודת זמן זו הוא 0.625 שנים (כשבעה וחצי חודשים). חלק מהחולים האלה כבר עברו מן הסתם את האירוע הקליני בו אנו מתעניינים. נניח שעד עתה אירעו בסך הכל 60 אירועים. ובכן – האם בקצב הזה נגיע אל 260 האירועים הדרושים להצלחת הניסוי? איך נוכל לדעת זאת, כאשר איננו יודעים איזה טיפול מקבל כל אחד מהחולים?
בגלל השאלה הזו, גבירותיי ורבותיי, אני לא ישן טוב בלילה. אם אינכם יודעים, ניסויים קליניים משרים קונצנזוס. אם הניסוי מסתיים בהצלחה, אזי יש תמימות דעים בשאלה מי אחראי להצלחה. כל אחד חושב שהכל רק בזכותו. לעומת זאת, אם הניסוי מסתיים בכשלון, גם אז יש תמימות דעים: כולם מאשימים את הסטטיסטיקאי. ולכן, אחד מתפקידיו החשובים של הסטטיסטיקאי הוא לעקוב אחרי הנתונים המצטברים במהלך הניסוי ולהתריע על כל בעיה שהוא יכול לזהות.
אך איך אפשר לנסות להעריך כמה חולים ישרדו עד סוף הניסוי וכמה יעברו את האירוע?
יש תשובה נאיבית לשאלה הזו. כאמור, יש בניסוי כרגע 830 חולים עם משך טיפול ממוצע של 0.625 שנים, כלומר עד עתה צפינו במשך הניסוי ב-520 (830×0.625) שנות טיפול בערך. אנו מצפים בסך הכל לצפות ב-2000 שנות טיפול (1000×2), כלומר עד עכשיו צפינו ב-26% בערך מסך החשיפה הצפויה לטיפול. אם מספר האירועים פרופורציוני לסך החשיפה, הרי ש-60 האירועים שבהם צפינו עד כה מהווים 26% ממספר האירועים הצפוי, ולכן בסך הכל צפויים כ-230 אירועים בסוף הניסוי. לא טוב, אבל יש מה לעשות: אפשר להגדיל את המדגם ולגייס עוד 127 חולים מעבר ל-1000 שתכננו (תרגיל: איך הגעתי ל-127?). אבל האם ההנחה לפיה מספר האירועים פרופורציוני לחשיפה נכונה?
כאשר כתבתי את החלק הסטטיסטי של פרוטוקול אחד הניסויים הקליניים שהחברה בה אני עובד עורכת, התלבטתי רבות בשאלה הזו. הפתרון הנאיבי שתיארתי זה עתה, נראה לי, איך לומר, נאיבי. הקדשתי מחשבה לנושא ומצאתי פתרון שונה. התייעצות עם פרופ' פול פייגין מהטכניון הביאה לפתרון שמבוסס על גישה אחרת, ובסופו של דבר זה הפתרון שנכלל בפרוטוקול.
חלף זמן מה, ושינוי ארגוני בחברה שינה את מבנה ההנהלה, וכך נתבקש סטטיסטיקאי העובד בשלוחת החברה בארה"ב, ד"ר יויי שו לחוות את דעתו על הפרוטוקול. אותו סטטיסטיקאי, הפנה אותי לשני מאמרים שפרסם הסטטיסטיקאי האנגלי ג'ון וויטהד, בהם גם הוא ניסה לענות על השאלה הזו. במאמר שפרסם וייטהד בשנת 2001 הוא הציע מתווה לחיזוי מספר האירועים הצפויים בסוף ניסוי כזה, על סמך הנתונים החלקיים שקיימים במהלך הניסוי: משך הזמן שבו כל חולה מטופל, האם החולה עבר אירוע, ואם כן, מתי, אך מבלי לדעת באיזה טיפול מטופל כל חולה (בהתאם לעקרון הסמיות הכפולה שעומד בבסיס כל ניסוי קליני). במתווה של וייטהד יש שלושה שלבים. תחילה יש לאמוד את קצב האירועים הכללי באוכלוסיית הניסוי, שהוא עירוב של קצב האירועים באוכלוסיית החולים המטופלים בתרופה הנסיונית וקצב האירועים באוכלוסיית חולי הפלסבו. בשלב השני יש להפריד באופן כלשהו את הקצב הכללי לשני הקצבים של שני הקבוצות, תוך הסתמכות על ההנחות ששימשו לתכנון הניסוי. לאחר ההפרדה, אפשר לחשב את מספר האירועים הצפוי מתוצאות השלב השני.
נשמע כמו תכנית טובה, והשלב הראשון והשלישי פשוטים למדי, אבל איך מיישמים את השלב השני? את זה וייטהד הסביר במאמר נוסף שפרסם בשנת 2001, עם שותפים. הפתרון שהוא הציע שונה משני הפתרונות ששקלתי בעת כתיבת הפרוטוקול. אבל החדשות המשמחות מבחינתי הן ששני הפתרונות ששקלתי משתלבים היטב במתווה של וייטהד, והם פתרונות קבילים על פי המאמר.
מאחר ויש בידנו שלושה יישומים אפשריים, עלתה השאלה האם יש עוד דרכים ליישם את המתווה של וייטהד? מסתבר שכן. התייעצות עם פרופ' דוד צוקר מהאוניברסיטה העברית הניבה פתרון שהוא הרחבה של הפתרון המקורי שלי, והתייעצות עם ד"ר עפרה ברנט שעובדת יחד איתי הביאה לפתרון אפשרי נוסף. הדרך שהציע ד"ר שו התגלתה כשקולה לזו שמופיעה בפרוטוקול.
עכשיו, כשבידי 5 גישות אפשריות לאמידת מספר האירועים הצפוי בסוף הניסוי, השאלה הבאה שעלתה ברורה מאליה: איזו גישה היא הטובה ביותר? אני יכול, כמובן, לערוך את החישובים על פי 5 הגישות, ולהמתין לסוף הניסוי. דרך מהירה יותר היא לערוך סימולציה של ניסוי קליני, בתנאים שונים, ולראות איזה גישה חוזה את מספר האירועים באופן הטוב ביותר.
בחרתי לערוך סימולציה של הניסוי שתיארתי קודם: 1000 חולים, בשתי קבוצות טיפול, כאשר משך הטיפול הוא שנתיים, ומשך גיוס החולים הוא שנה וחצי, כך שמשך הניסוי ממועד גיוס החולה הראשון ועד סיום הטיפול של החולה האחרון הוא 3.5 שנים. הסימולציה קבעה לכל חולה את משך הזמן עד לאירוע באמצעות התפלגות וויבול (הסבר מייד). אם משך הזמן שהוגרל היה גדול משנתיים, החולה נחשב כשורד. כמו כן, חישבתי את הזמן הקלנדרי של האירוע, ואם הוא התרחש במשך השנה ורבע הראשונות של הניסוי, הוא נחשב כאירוע שצפיתי בו לצורך חיזוי מספר האירועים בסוף הניסוי.
מהי התפלגות וויבול? זוהי התפלגות סטטיסטית גמישה למדי, שמקובלת כמודל טוב עבור נתוני השרדות. להתפלגות זו שני פרמטרים. האחד מבטא את הסיכון של החולה לעבור אירוע קליני (מסומן באות היוונית ביתא במצגת). כאשר ביתא נתון, הפרמטר השני מאפשר לבטא את הסיכוי שחולה ישרוד עד נקודת זמן מסויימת (כלומר, לא יעבור אירוע קליני במשך תקופה מסויימת).
ערכו של הפרמטר ביתא משקף את אופי המחלה. תארו לכם רופא, חולה וסטטיסטיקאי שנפגשים יחד (ברכבת, או בבית המשפט, לא ממש חשוב איפה). החולה מספר כי הוא כבר X שנים במצבו הנוכחי, ולכן הוא אופטימי, מאמין כי מצבו ימשיך להישאר יציב, ובמלים אחרות, הוא מאמין כי ככל שחולף הזמן, הסיכון להחמרה במחלתו הולך וקטן. הרופא ממהר לצנן את התלהבותו, ואומר לא כי אם עבר הרבה זמן ללא הדרדרות, זהו אות לכך שהאירוע הקליני הולך וקרב. כלומר, הרופא מאמין כי הסיכון להחמרה במחלה הולך וגדל עם הזמן. הסטטיסטיקאי עובד בחברת תרופות, ראה אלפי נתונים של אלפי חולים, ולכן הוא מחייך לעצמו. הנתונים שראה מעידים, לדעתו, כי הסיכון הוא קבוע לאורך זמן, ומשך הזמן בו החולה נמצא במצב יציב לא מעלה ולא מוריד. (במחלת הטרשת הנפוצה זה כנראה נכון). ערכו של הפרמטר ביתא קובע את כיוון הסיכון: עולה (ביתא גדול מ-1), יורד (ביתא קטן מ-1) או קבוע לאורך זמן (ביתא שווה אחד). לכן ערכתי סימולציות למצבים בהם ערכי ביתא הם 0.5, 1 ו-2. הניסוי תוכנן בהנחה של סיכון קבוע לאורך זמן (ביתא=1).
הפרמטר השני, גאמא, מבטא את הקצב בו מתרחשים האירועים, ובעזרתו ניתן לבטא את אחוז החולים שישרדו (לא יעברו אירוע קליני) במשך שתי שנות הטיפול. הניסוי תוכנן בהנחה ש-70% מהחולים המטופלים בפלסבו ישרדו, וערכתי סימולציות לשלושה מצבים: 70% שורדים, 60% שורדים (אוכלוסיה "פעילה" – פחות שורדים, יותר אירועים קליניים) וגם 80% שורדים (אוכלוסיה לא פעילה).
בסך הכל ערכתי לכן סימולציות של תשעה תרחישים אפשריים, שאחד מהם הוא התרחיש בו הנחות התכנון מתקיימות. הנה התוצאות של התרחיש הזה:

בציר האופקי מופיעות 6 נקודות: Actual הוא מספר האירועים בפועל בסוף הניסוי, Naïve הוא מספר האירועים החזוי על פי הגישה הנאיבית, וכן הלאה. (ML היא הגישה שציינתי בפרוטוקול הניסוי). בציר האנכי מופיע מספר האירועים החזוי בסוף הניסוי (תוצאות מ-500 הרצות של הסימולציה). הקו האפקי מסמן את 260 האירועים הדרושים. הגרפים האדומים הם דיאגרמות קופסא (box plots) שפותחו על ידי ג'ון טוקי (מספר 9 ברשימת 15 הסטטיסטיקאים הגדולים). הקצה העליון של כל מלבן מסמן את הרבעון העליון של הנתונים, הקצה התחתון מסמן את הרבעון התחתון, והקו שבאמצע המלבן מסמן את החציון. סימן ה-+ מסמן את הממוצע.
מהגרף הזה לומדים שני דברים. ראשית, כל השיטות נותנות תוצאות דומות,בממוצע. שנית, אם ההנחות לפיהן הניסוי תוכנן אכן נכונות, אז אין מה לדאוג.
אולם שמונת התרחישים האחרים פחות מרגיעים (מי שמעוניין להתעמק בהם מופנה אל המצגת). עדיין נראה כי כל חמשת השיטות נותנות תוצאות דומות בדרך כלל (עם כמה חריגות, שעדיין לא ברורה לי משמעותן). זה אומר שהשיטה הנאיבית היא לא כל כך נאיבית, או שמא השיטות המתוחכמות גם הן נאיביות למדי. אמנם, אם ההנחה של סיכון קבוע תקפה, אז השיטות חוזות באופן לא רע את מספר האירועים בניסוי (הניתוח שערכתי עד כה הוא פשטני ויש מקום לניתוח יותר מעמיק שבכוונתי לערוך), אבל במקרים האחרים הניבויים סוטים מהתוצאה האמיתית וחושפים אותנו לסיכונים. כרגיל בסטטיסטיקה יש שתי טעויות אפשריות. טעות אפשרית אחת היא ניבוי חסר של מספר האירועים הצפוי. עקב כך, ייתכן כי יוחלט להגדיל את המדגם (כלומר לגייס עוד חולים לניסוי, ולהאריך את משך הניסוי ועלותו) ללא צורך. ניבוי עודף של מספר האירועים עלול להביא להמשך הניסוי ללא שינוי, ורק בסופו יתברר כי לא התרחשו מספיק אירועים והניסוי נכשל עקב כך.
מה הלאה? לאחר ההרצאה שאל אותי פרופ' דוד שטיינברג מאוניברסיטת תל-אביב האם ניתן לבדוק אם הנחות הניסוי תקפות במהלך הניסוי. עניתי כי אני חושב שלא, אבל אחר כך עלה בדעתי רעיון שאולי יאפשר בדיקה האם הסיכון עולה, יורד או קבוע במהלך הניסוי, וזאת על ידי הרחבת הגישות שבדקתי לאמידה של מספר פרמטרים (במלים אחרות, אני רוצה לאמוד בו זמנית גם את מספר האירועים הצפוי וגם את הפרמטר ביתא). תיאורטית זה לא מסובך. טכנית זה ידרוש מקסימיזציה של פונקציה לא לינארית של שני משתנים, דבר שדורש קצת עבודה. מקווה שאוכל לעשות אותה מתישהו.
נשלח: 22 ביוני, 2009. נושאים: ביוסטטיסטיקה.
תגובות: 13
| טראקבק
כנס האיגוד הישראלי לסטטיסטיקה 2009
כנס האיגוד הישראלי לסטטיסטיקה ייערך השנה בבאר שבע בתאריך 17.6.התכנית (הלא סופית) של הכנס פורסמה היום באתר האיגוד.
מי שיעיין בתכנית יוכל לראות שאני אהיה שם. אני מארגן את אחד המושבים, שיעסוק בביוסטטיסטיקה (הכותרת הלא מדוייקת של המושב היא "סטטיסטיקה בתעשיית התרופות"), וגם אתן את אחת ההרצאות במושב הזה, שתעסוק באספקט מסויים של ניסויים קליניים להערכת שרידות (survival). מצגת ההרצאה תהיה זמינה כאן בסמוך למועד הכנס. כמו כן ירצו במושב זה: אלי אייל – על תכנון ניסוי קליני במחלת הפרקינסון, דני רוטשטיין – על תפקיד הסטטיסטיקאי בתעשיה הפרמצבטית, וחבי מורד – בהרצאה יותר מתודולוגית על אמידה ובדיקה של אינטראקציות במודל רגרסיה כאשר טעות המדידה לא מקיימת את הנחות הקלאסיות.
גם המושבים האחרים יהיו מעניינים, ונראה שתהיה לי התלבטות קשה בין מושב הביוסטטיסטיקה השני ומושב הסטטיסטיקה התעשייתית שבשניהם יש לי עניין רב.
וכמובן, יהיה משמח לראות שוב כל כך הרבה סטטיסטיקאים במקום אחד.
נשלח: 28 במאי, 2009. נושאים: ביוסטטיסטיקה, האנשים שמאחורי הסטטיסטיקה.
תגובות: אין
| טראקבק
מהי סטטיסטיקה?
את המילון של גרנסי מקפירסון למונחי פיתוח תרופות אני מכיר מזמן, והיום שוב נתקלתי בלינק אליו (בבלוג המצויין Realizations in Biostatistics). אני לא ממליץ להסתמך על המילון הזה בעבודה היום יומית, במקרה שאתם עובדים בתעשיה, אבל מצד שני אם אתם אכן עובדים בתעשיית התרופות, אני מניח שלא תפלו בפח. בונוס: הסטטיסטיקאים צוחקים יותר.
ההגדרה הקולעת ביותר היא של המונח סטטיסטיקה:
Statistics – A subject which most statisticians find difficult but in which nearly all physicians are expert.
משעשע, נכון לעיתים קרובות מדי, וגם קצת עצוב.
נשלח: 24 במאי, 2009. נושאים: אותי זה מצחיק, ביוסטטיסטיקה.
תגובות: אין
| טראקבק
כשלים סטטיסטיים אפשריים בניסויים קליניים – הקדמה
לפני כחודשיים פנה אלי אחד מבכירי החברה בה אני עובד וביקש ממני שאעזור לו להכין מצגת על נושאים סטטיסטיים הקשורים בפיתוח תרופות בכלל ובניסויים קליניים בפרט. שמחתי לעזור (חלק החומר הדרוש היה לי מן המוכן: תפקיד הסטטיסטיקאי בתהליך הפיתוח הקליני, שיקולים סטטיסטיים בתכנון ניסויים בבעלי חיים, בין שתי טעויות – הרשימה בה הסברתי את נושא בדיקת ההשערות, ועוד כמה דברים). נתבקשתי גם לסקור כשלים סטטיסטיים נפוצים בניסויים קליניים, וזו הייתה משימה יותר מאתגרת, ובזכותה תיהנו אתם, קוראי הבלוג המתעניינים בנושא זה, מסדרה של רשימות שתסכם את ממצאי והגיגי.
ראשית, אתייחס לכותרת הסדרה. סטטיסטיקאים הם גם בני אדם (בניגוד לסברה הרווחת). לכן הם צפויים לטעות, וכיוון שכך, טעויות/כשלים סטטיסטיים בניסויים קליניים (או בכל מקום אחר בו פועל הסטטיסטיקאי) הינם בלתי נמנעים. רק מי שלא עושה לא טועה. האם יש כשלים סטטיסטיים "נפוצים"? אני רוצה לקוות שלא. במקומות מסודרים ישנם תהליכי בקרת איכות שתפקידם לסייע באיתור טעויות מבעוד מועד ולתקן אותן בזמן. עם זאת אף תהליך בקרת איכות אינו מושלם, וטעויות קרו, קורות ויקרו, גם לסטטיסטיקאים וגם לכל אדם אחר. לכן, הכותרת של סדרת רשימות זו תהיה "כשלים סטטיסטיים אפשריים בניסויים קליניים", לא כשלים נפוצים, בתקווה שאכן זה המצב.
כלי מרכזי בבקרת איכות של עשיה סטטיסטית היא בקרת עמיתים (peer review). בקרה כזו עלולה להיכשל בשל מה שמכונה לפעמים "שלטון הקונספציה". אם כולם משוכנעים שמשהו נכון, למרות שהוא שגוי, השגיאה לא תתגלה, אלא רק כאשר יהיה מאוחר מדי. דרך טובה להמנע מכשל כזה היא מודעות. מי שמודע לשגיאה אפשרית ידע גם לחפש אותה ולהמנע ממנה. פעם נשאלתי בראיון עבודה מהי התכונה הטובה ביותר שלי. השבתי כי אני לומר משגיאות, ואיני עושה את אותה השגיאה פעמיים. אני עדיין חושב שזו תכונה טובה, ובכל זאת, עדיף תמיד ללמוד משגיאות של אחרים, לא משלך, וכן כדאי תמיד להשקיע עוד קצת מחשבה ומאמץ כדי להמנע מלעשות את השגיאה גם בפעם הראשונה.
כשהתחלתי לחפש "חומר" על הנושא נדהמתי לגלות כמה מעט נכתב על כשלים סטטיסטיים בתחום הניסויים הקליניים. תדהמה שניה אחזה בי שהחזקתי בידי את הרשימה של הכשלים האפשריים שזיהיתי, אם ממקורות שמצאתי ברשת ובפרסומים המדעיים, ואם כאלה שזיהיתי בכוחות עצמי. אמנם, לא גיליתי תגליות חדשות, כלומר כשלים אפשריים שלא הייתי מודע להם קודם לכן (וזה לא אומר שאין כאלה), אבל מה מצאתי מספיק בהחלט כדי להעיק, ולעורר (לפחות בי) מודעות נוספת לנזקים שאני ועמיתי עלולים לעולל אם רק נירדם לרגע בשמירה.
איפה אפשר לטעות? בכל שלב שהוא. למעשה, הרשימה "תפקיד הסטטיסטיקאי בתהליך הפיתוח הקליני" שימשה אותי כנקודת מוצא. אפשר לטעות בשלב תכנון הניסוי, אפשר לטעות במהלך ביצוע הניסוי, ואפשר לטעות במהלך ניתוח הנתונים, הצגתם ופרשנותם. מטבע הדברים, ככל שטעות מתרחשת מוקדם יותר, כך השפעתה גדולה יותר, ולכן הטעויות הקריטיות ביותר נעשות בשלב התכנון (ראו למשל את הרשימה "מה הקשר בין איזופודים ותאונות דרכים?"). עם זאת, אין פירוש הדבר כי טעויות בשלבים מאוחרים ביותר הן זניחות. להיפך, הן עשויות להיות קריטיות לא פחות.
גם מי שלא עוסק בניסויים קליניים יוכל להפיק תועלת, לדעתי, מרוב הדברים שיובאו ברשימות הבאות. ההשלכה לתחומים אחרים היא מיידית. למעשה, כבר בשלב הראשוני, שהמצגת עוד הייתה טיוטה על גבי נייר, נוכחתי לדעת שדוגמאות רלוונטיות רבות כבר נסקרו כאן בבלוג. הצגות גרפיות מטעות יש כמעט בכל מקום, ופירוש שגוי של מתאם כסיבתיות נפוץ הרבה יותר בתחומים אחרים. לכן אני סבור שסדרת הרשימות הזו תעזור לא רק לעוסקים בסטטיסטיקה, אלא גם לצרכני הסטטיסטיקה, כלומר לכולכם, למעשה.
הרשימות הבאות בסדרה
– כשלים סטטיסטיים אפשריים בניסויים קליניים – סקירת ספרות
נשלח: 27 באפריל, 2009. נושאים: ביוסטטיסטיקה, מה אומרת הסטטיסטיקה.
תגובות: 2
| טראקבק
תפקיד הסטטיסטיקאי בתהליך הפיתוח הקליני
הקדמה
בתאריך 25.3.2008 הרציתי ביום עיון בנושא " Conducting clinical trials in Israel: strategies for compliance with regulatory requirements " שאורגן על ידי חברת ביופורום. להלן עיקרי הדברים שאמרתי בהרצאתי, שנשאה את הכותרת " תפקיד הסטטיסטיקאי בתהליך הפיתוח הקליני".
תפקיד הסטטיסטיקאי בתהליך הפיתוח הקליני
תהליך הפיתוח הקליני מורכב בדרך כלל מסדרה של ניסויים קליניים. לצורך הפשטות אתייחס במהלך הדברים אל ניסוי קליני יחיד, אך הדברים תקפים לכל תהליך הפיתוח.
לתהליך הפיתוח שלושה שלבים עיקריים: תכנון הניסוי הקליני (design), ביצועו (conduct) וניתוח תוצאותיו עם סיומו (analysis). אני סבור שאין צורך להכביר מלים על תפקיד הסטטיסטיקה והסטטיסטיקאי בשלב ניתוח התוצאות,. אולם, הסטטיסטיקאי יכול לתרום תרומה משמעותית, ואף מכרעת, בכל אחד משלבי הפיתוח הקליני.
כדי להסביר את דברי עלי להידרש לשני מושגי יסוד (concepts) העומדים בבסיסה של המתודולוגיה הסטטיסטית. אחד המושגים האלה הוא השונות (variation) הקיימת באופן טבעי בכל תהליך שאינו דטרמינסטי, וניסויים קליניים בהחלט טומנים בחובם כמות רבה של שונות. לולא השונות, לא היה צורך בניסויים קליניים. פשוט היה ניתן לבחון את התרופה המיועדת על חולה אחד, ועל פי התוצאה ניתן היה לקבוע האם היא יעילה.
מושג היסוד השני הוא קיומם של שני סוגי טעויות בכל תהליך החלטה. כאשר מוצעת מולקולה כטיפול אפשרי למחלה מסויימת, קיימות שתי אפשרויות: או שהמולקולה יעילה לטיפול במחלה, או שלא. אנו לא יודעים מראש איזה אפשרות נכונה, ולכן אנו מתכננים ניסוי קליני, בסופו תתקבל אחת משתי תוצאות. או שתוצאות הניסוי יספקו עדות כי המולקולה אכן יעילה לטיפול במחלה, או שלא. ניתן להציג את שני המצבים האפשריים במציאות יחד עם שתי התוצאות האפשריות של הניסוי, באופן סכמאטי בטבלה הבאה:

אם התרופה המוצעת אכן יעילה, ותוצאת הניסוי אכן מעידה על כך, הרי שמצבנו מצויין. אם התרופה לא יעילה, ותוצאת הניסוי אכן מאשרת כי התרופה אינה יעילה, זו כמובן תוצאה פחות משמחת, אך עדיין התוצאה טובה, שכן כך לפחות נחסכים משאבים שהיו יכולים להיות מבוזבזים על המשך פיתוח של תרופה לא יעילה, וניתן להפנות משאבים אלה למטרות אחרות.
הבעיה היא שישנם עוד שני מצבים אפשריים. מצב בו התרופה אינה יעילה אך תוצאת הניסוי מספקת עדות ליעילות קלינית מכונה מצב של "False Positive" בפי הקלינאים, והסטטיסטיקאים נוהגים לכנות מצב זה בשם "טעות מסוג ראשון". המצב הלא פחות נעים בו תוצאת הניסוי אינה מספקת עדות ליעילות התרופה למרות יעילותה נקרא "False Negative" או "טעות מסוג שני". נהוג לסמן את ההסתברות לטעות מסוג ראשון באות היוונית אלפא, ולכנות אותה בשם "רמת המובהקות" של הניסוי. את ההסתברות לטעות מסוג שני נהוג לסמן באות היוונית ביתא. כמו כן, יותר נוח מבחינה סטטיסטית לא לדון בהסתברות לטעות מסוג שני אלא בהסתברות לא לעשות טעות מסוג שני. הסתברות זו מכונה בשם העוצמה של הניסוי.
לאחר שהבהרתי מושגים אלה, אני יכול לנסח את תפקיד הסטטיסטיקאי במשפט אחד: תפקיד הסטטיסטיקאי בתהליך הפיתוח הקליני הוא לדאוג כי רמת המובהקות והעוצמה של הניסוי יהיו תמיד ברמה הרצויה.
ההגדרה הזו מוזרה – הרי ברור תמיד כי אנו נרצה שרמת המובהקות תהיה 0, וכי העוצמה תהיה 1! למרבה הצער, הדבר אינו אפשרי. אם נוריד את רמת המובהקות ל-0, גם העוצמה תצנח ל-0, ואם נעלה את העוצמה ל-1, גם רמת המובהקות תעלה ל-1.
מה שאנו יכולים לעשות זה לשמור על רמת מובהקות נמוכה יחסית, ועל ידי כך להשיג עוצמה סבירה.
מהי רמת מובהקות נמוכה יחסית? הרשויות הרגולטוריות (כגון ה-FDA ומקבילו האירופי, EMEA) מגבילות את יצרני התרופות ודורשות כי בכל ניסוי קליני רמת המובהקות לא תעלה על 5%. (כיוון שלצורך אישור תרופה נדרשים בדרך כלל לפחות 3 ניסויים קליניים, הסיכוי שתרופה לא יעילה תאושר הוא מכפלת רמות המובהקות של שלושת הניסויים, כלומר 0.000125 לכל היותר). כיוון שכך, החברה המפתחת את התרופה מעוניינת כי רמת המובהקות בפועל של הניסוי תהיה קרובה ככל האפשר ל-5% המותרים, אך לא גבוהה מערך זה. כל ניסוי יש לתכנן על סמך מגבלה זו.
בקורסי מבוא לסטטיסטיקה מלמדים בדרך כלל כי עתה יש לנסח השערה סטטיסטית, ולחשב את גודל המדגם שיאפשר את העוצמה הרצויה. אך המציאות שונה משיעורי המבוא לסטטיסטיקה. ישנם גורמים רבים שיכולים להשפיע על רמת המובהקות, העוצמה וגודל המדגם של הניסוי. ברשימתי "שיקולים סטטיסטיים בתכנון ניסויים בבעלי חיים" התייחסתי לדרכים להקטנת גודלי המדגם בניסויים פרה-קליניים. חלק מהדברים שנאמרו שם תקפים גם בניסויים קליניים. בודאי נכונה הטענה כי יש להקפיד על תכנון סטטיסטי נכון של הניסוי.
בשלב תכנון הניסוי הקליני יש לקחת בחשבון את:
- מבנה הניסוי (Experimental design): האם מדובר בניסוי השוואת טיפול לפלסבו, או השוואתו לטיפול אחר, או בדיקתו כתוסף אפשרי לטיפול מקובל? ניסוי בו ננסה להראות כי הטיפול שלנו עדיף על טיפול אחר (superiority) אינו נופל ממנו (Non-inferiority) או שקול לו (Bioequivalence)? האם מדובר בניסוי בו כל קבוצת חולים מקבלת טיפול אחר(Parallel arm), ניסוי בו יש כל החולים מטופלים ללא קבוצת ביקורת (Single arm), או ניסוי בו יש החלפת טיפול במהלך הניסוי (Cross over)? האם תהיה אנליזת ביניים (Interim/futility analysis) במהלך הניסוי? ואם לא, למה לא? האם הניסוי יהיה אדפטיבי (Adaptive design- על כך תהיה רשימה נפרדת בעתיד)?
- בחירת הפרמטר הקליני (Clinical endpoint) לפיו תקבע יעילות הטיפול. ככלל, יש לבחור תמיד בפרמטר האינפורמטיבי ביותר. לדוגמא, במחלות המתבטאות בהתקפים (כגון אפילפסיה או טרשת נפוצה), מייחסים הרופאים משמעות קלינית רבה לתקופה נטולת התקפים, ולכן הם נוטים להמליץ על אחוד החולים שלא סבלו מהתקפים במהלך הניסוי כעל המדד הקליני העיקרי להצלחת הטיפול. הבעיה היא שמדד כזה טומן בחובו איבוד אינפורמציה, ומדד עדיף הוא מספר ההתקפים שחווה כל חולה (היכול להיות גם אפס). מדד זה הינו אינפורמטיבי יותר: אם אנו יודעים את מספר ההתקפים שחווה החולה, אנו בודאי יודעים אם היה נטול התקפים במהלך תקופת הטיפול. לעומת זאת, אם אנו יודעים כי החולה לא היה נטול התקפים, אין באפשרותנו לדעת כמה התקפים עבר. לכן המדד של מספר ההתקפים אינפורמטיבי יותר ממדד ה-"seizure free". משפט יסודי בסטטיסטיקה אומר כי משתנה מחקר אינפורמטיבי יותר מבטיח עוצמה גבוהה יותר, ולכן עדיף להשתמש בו.
- בחירת אוכלוסיית הניסוי, כלומר בחירת הקריטריונים לפיהם חולה יכול להשתתף בניסוי יכולה להשפיע גם היא על התוצאה. הסטטיסטיקאי יכול לנתח את ההשפעה האפשרית של הכללת סוגים שונים של חולים בניסוי, ולעזור לצוות הקליני בקביעת הקריטריונים.
- השפעת המצב הקליני של החולים על האפקט התרפויטי הצפוי: תכנון הניסוי מבוסס במידה רבה על הנחות לגבי אוכלוסיית החולים, ובדרך כלל הידע עליו מתבססות ההנחות מועט. הסטטיסטיקאי יכול וצריך לבדוק מה יקרה לעוצמת הניסוי במקרה שההנחות לא משקפות את המציאות, ועל ידי כך לסייע להעריך את הסיכון הגלום בביצוע הניסוי.
- למתודולוגית ניתוח הנתונים יש השפעה עצומה על העוצמה הסטטיסטית של הניסוי. ניתן כמובן להשתמש בשיטות ניתוח סטנדרטיות המבוססות על ההנחה כי התפלגות הנתונים היא נורמלית, גם כאשר ברור כי ההתפלגות אינה כזו (לדוגמא – מספר ההתקפים בודאי אינו מפולג נורמלית). אולם כיום קיימים כלים סטטיסטיים ומיחשוביים לניתוח נתונים ממגוון התפלגויות, ועוצמתם גבוהה יותר מהשיטות הסטנדרטיות המיושנות יוותר. כמובן, בפרוטוקול הניסוי יש לפרט את המתודולוגיה הסטטיסטית לניתוח תוצאות הניסוי. כאשר הניסוי מתחיל כבר מאוחר מדי לדון בשיטות לניתוח התוצאות! אם מעוניינים להשתמש בשיטות ניתוח בייסיאניות, יש לקבל את אישור הרשויות הרגולטוריות לפני תחילת הניסוי.
עד כאן תיארתי את תפקיד הסטטיסטיקאי במהלך תכנון הניסוי.
לאחר תחילת הניסוי, על הסטטיסטיקאי לעקוב באופן שוטף אחר הנתונים המצטברים, ולוודא כי ההנחות על פיהן תוכנן הניסוי אכן מתקיימות. זו משימה בעייתית, כיוון שכל עוד הניסוי לא הסתיים, לא ניתן לדעת איזה טיפול מקבל כל חולה. קיימות שיטות סטטיסטיות שאינן נצרכות למידע זה, והסטטיסטיקאי מוגבל לשימוש בשיטות אלה בלבד. במקרה ויש סטייה משמעותית מההנחות, העלולה להשפיע על עוצמת הניסוי (ועל תוצאתו), על הסטטיסטיקאי להתריע על כך ולהציע דרכים לתיקון המצב. סטטיסטיקאי טוב יצפה מצבים כאלה מראש ויציין בפרוטוקול הניסוי את הפעולות שיינקטו במצבים כאלה.
בסיום הניסוי, לסטטיסטיקאי יש כמובן תפקיד מכריע בניתוח תוצאותיו.
לסיכום: הסטטיסטיקאי יכול לתרום תרומה משמעותית לכל אחד משלבי הפיתוח הקליני, אך השלב בו תרומתו היא המשמעותית ביותר היא שלב התכנון.
פורסם לראשונה באתר "רשימות" בתאריך 28 במרץ 2008 שם התקבלו 2 תגובות
nachum בתאריך 3/29/2008 11:17:09 AM
ללא נושא
it must be–shnei sugei tauiot.and please explain your opinion what is–lama.
יוסי לוי [אתר] בתאריך 3/30/2008 7:25:07 AM
נחום
?????
נשלח: 8 בדצמבר, 2008. נושאים: ביוסטטיסטיקה, מדע, מה אומרת הסטטיסטיקה.
תגובות: אין
| טראקבק