ארכיב עבור תגית תכנון ניסויים

הליידי הטועמת תה קר

הקוראים הוותיקים של הבלוג זוכרים בוודאי את סיפור הליידי הטועמת תה. השאלה שעמדה אז על הפרק הייתה הם ניתן להבדיל בין הטעם של תה שנמזג לתוכו חלב ובין הטעם של חלב שנמזג לתוכו תה. הניסוי שהוכיח כי אכן ניתן להבדיל בין הטעמים הוא אחד הניסויים הקלאסיים בתולדות המדע בכלל והסטטיסטיקה בפרט.

אנוכי הקטן ניסיתי היום לברר את התשובה לשאלה לא פחות חשובה.

בבית הספר של בני הצעיר נערך מדי שנה "יום ההורה המעשיר", בו הורים מגיעים לבית הספר ומעבירים לתלמידים שיעורים בנושאים שונים לפי בחירתם, רצוי בנושאים שהם מבינים בהם משהו. ואני מה אני מבין? בקושי קצת סטטיסטיקה. לכן החלטתי לשחזר את ניסוי הליידי הטועמת תה.

השאלה שעמדה על הפרק היא האם יש הבדלים בין הטעם של שני המותגים המובילים של תה קר בישראל: נסטי ופיוז טי. וזו שאלה קריטית, מכיוון שבני הוא חסיד של אחד המותגים האלה ומסרב בכל תוקף לצרוך את המותג השני, דבר שמטיל על משפחתנו הקטנה מגבלות בלתי סבירות.

כמובן שאת השיעור התחלתי בסקירה קצרה של נושא תכנון הניסויים ותיאור הניסוי הקלאסי של , אבל גולת הכותרת הייתה הניסוי עצמו.

תכנון הניסוי היה כדלקמן: בכל שלב, הוצגו לאחד התלמידים ((אני נצמד לכללי האקדמיה ללשון העברית, אבל אני גם חייב לציין כי מספר הבנות היה גדול פי 3 ממספר הבנים)) שתי כוסות תה קר. לעיתים בשתי הכוסות נמזג אותו מותג תה, לעיתים בכל כוס נמזג מותג אחר. לאחר טעימה ורחרוח היה על שפן הניסוי לומר האם הוא חש בהבדל טעמים בין הכוסות או לא.

ההחלטה האם למזוג לתוך שתי הכוסות את אותו סוג תה או האם למזוג לכל כוס סוג אחר נקבעה על ידי הטלת מטבע. במקרה שהגורל קבע כי לשתי הכוסות יימזג אותו מותג תה, הטלת מטבע נוספת קבעה את המותג שיימזג לשתי הכוסות.

הזמן שלנו הספיק לביצוע של 17 טעימות, והנה התוצאות:

 

 

 

 

 

 

 

 

האם הטועם צדק
כן לא סך הכל
האם תכולת הכוסות זהה כן 5 5 10
לא 4 3 7
סך הכל 9 8 17

 

המסקנה שלי היא כי לא נמצאה עדות להבדלים בטעמים בין שני המותגים ((אתם מוזמנים לערוך מבחן חי בריבוע או מבחן פישר)).  הבן שלי שוכנע. בארוחת הצהריים הוא שתה להנאה מהמותג שעד כה הוחרם. הניסוי הוכתר כהצלחה.

איך לגרום לילדים לאכול יותר ירקות

נתחיל מהסוף: אני לא יודע איך לגרום לילדים לאכול ירקות. לפחות עם הילדים שלי, ההצלחה היא מועטה. אבל לשני חוקרים מאוניברסיטת קולורדו היה רעיון: נגיש להם את הירקות בצלחות עם ציורים של ירקות. כדי לבדוק האם הרעיון עובד הם ערכו ניסוי שתוצאותיו פורסמו בכתב העת היוקרתי JAMA Pediatrics. מכיוון שהתוצאות פורסמו אתם יכולים לנחש כי התוצאה של הניסוי הייתה חיובית. אבל, האם הם באמת הוכיחו כי הרעיון שלהם עובד? לדעתי לא, וזו תוצאה ישירה של התכנון הלקוי של הניסוי.

תכנון הניסוי ותוצאותיו

נבחרו 18 כיתות גן ובית ספר (ילדים בגיל 3-8) באחד מפרוורי דנוור. בתחילה הוצעו לילדים פירות וירקות כאשר סופקו להם צלחות לבנות. בכל כיתה הונחו קערת פירות וקערת ירקות, וכל ילד לקח לעצמו פירות וירקות, ואכל מהם כרצונו. המשקלים של הירקות והפירות נרשמו לפני שהוגשו לילדים, ולאר שהילדים סיימו את ארוחתם החוקרים שקלו את הפירות והירקות שנותרו. ההפרש בין המשקלים (לפני הארוחה ואחריה) חולק במספר הילדים, וכך התקבלה הכמות הממוצעת של פירות וירקות שכל ילד אכל. נעשו גם חישובים לפירות לחוד ולירקות לחוד. החוקרים חזרו על המדידות האלה שלוש פעמים בכל כיתה.

לאחר זמן מה חזרו על המדידות באותו אופן, כאשר הפעם סופקו לילדים צלחות שעליהן ציורים של ירקות ופירות. התוצאה: חלה עליה ממוצעת של 13.82 גרם בצריכת הירקות, ותוצאה זו מובהקת סטטיסטית. באחוזים, כמו ביידיש, זה נשמע הרבה יותר טוב: זו עליה של כמעט 47%.

אז מה הבעיה? יש מספר בעיות.

בעיה ראשונה – דיוק יתר

אתחיל במה שהוא לכאורה לא בעיה, אבל מהווה אות אזהרה: דיוק יתר. כאשר מתפרסמות תוצאות מדוייקות במיוחד, צריך להתחיל לדאוג. בעברית יש בעיה עם הבעיה הזו: יש רק מילה אחת לתיאור דיוק. באנגלית יש שתיים: precision ו-accuracy. הבדל הוא מהותי. precision מתייחס לרמת הדיוק המדווחת של המדידות. accuracy מתייחס למרחק בין הערך הנמדד והערך האמיתי, הבלתי נצפה, ונמדד בדרך כלל על ידי סטיית תקן או רווח סמך.  התוצאות מדווחות ברמה של שתי ספרות אחרי הנקודה: הן מאוד  precise. אני לא אומר שזה לא חשוב, אבל מהניסיון שלי, כשמגזימים צריך לבדוק בצורה יותר יסודית מה קורה. דיוק של שתי ספרות אחרי הנקודה העשרונית כשמדובר בגרמים נראה לי מוגזם. אתם כמובן יכולים לחשוב אחרת, אבל זה אות האזהרה שגרם לי לקרוא את המאמר עד סופו ולחשוב על מה שתואר בו .

בעיה שניה – על מי הניסוי נערך?

הבעיה השנייה היא הרבה יותר מהותית: הבחירה של יחידת הניסוי, מה שמכונה ה-experimental unit או unit of observation. יחידות הניסוי כאן הן הכיתות. התצפיות נעשו ברמת הכיתה. החוקרים מדדו כמה ירקות ופירות נאכלו ברמת הכיתה, לא ברמת הילד. הם אמנם חישבו ממוצע לילד, אבל אני מניח שכולם יודעים שהממוצע לבדו הוא מדד בעייתי: הוא מתעלם מהשונות בין הילדים. לפני ההתערבות הניסויית, כל ילד אכל בממוצע כ-30 גרם ירקות בארוחה, אבל אני לא חושב שיהיה מי שיחלוק על האמירה כי כל ילד אכל כמות שונה של ירקות. מהי סטיית התקן? אנחנו לא יודעים, והחוקרים לא יודעים, וזה מהותי, כי השונות שבין הילדים משפיעה על המסקנה הסופית. מכיוון שהחוקרים התעלמו (ולא משנה מה הסיבה) מהשונות בין הילדים, הם הניחו למעשה כי השונות היא נמוכה מאוד, למעשה אפס. אם השונות הזו הייתה נלקחת בחשבון המסקנות של הניסוי היו אחרות: רווחי הסמך בוודאי היו שונים, ויותר רחבים מרווחי הסמך שחישבו החוקרים.

עוד סוג של שונות שלא נלקח בחשבון היא השונות בתוך ילדים. אסביר: גם אם צפינו בילד אחד וראינו כי בממוצע הוא אוכל 30 גרם ירקות בכל ארוחה, בארוחות שונות הוא אוכל כמות שונה של ירקות. ושוב נשאלת השאלה: מה סטיית התקן? גם לסטיית תקן זו יש השפעה על המסקנה הסופית של הניסוי. כמובן, לכל ילד יש סטיית תקן שונה, וגם את השונות הזאת צריך לקחת בחשבון.

סוג שלישי של שונות שלא נלקח בחשבון הוא השונות שבין ילדים בגילאים שונים: סביר להניח שילד בן 8 יגיב בצורה שונה לצלחת מצויירת מאשר ילד בן 3. בוודאי ילד בן 8 יאכל יותר ירקות מאשר ילד בן 3. החוקרים התעלמו גם מהשונות הזו.

אני סבור כי החוקרים לא נתנו דעתם על כל השונויות האלה. המילים variation, adjust או covariate לא מופיעות במאמר. מכיוון שהחוקרים התעלמו מהשונויות רווחי הסמך שלהם צרים מדי ולא משקפים את ההבדלים האמיתיים בין הילדים ובין סוגי הצלחות.

ולבסוף, למרות שהיחידה הניסויית הייתה הכיתה, התוצאות דווחו כאילו המדידות נעשו ברמת הילד. זו לדעתי עדות נוספת לכך שהחוקקים לא היו מודעים לשונויות שבין ובתוך הילדים. לדידם, כיתה וילד הם היינו הך.

בעיה שלישית – מה עם הביקורת?

בניסוי הזה אין קבוצת ביקורת. לכאורה אין בעיה: על פי תכנון הניסוי, כל כיתה מהווה את קבוצת הביקורת של עצמה. הרי הילדים קיבלו את הירקות גם בצלחות לבנות וגם בצלחות עם ציורי ירקות ופירות. אבל לדעתי זה לא מספיק.

יש המון סוגים של צלחות לילדים, עם ציורים של בוב הבנאי, דמויות דיסני, מפרץ ההרפתקאות, תומס הקטר, והרשימה עוד ארוכה. האם יכול להיות שהשינוי שנצפה הוא בגלל עצם הציורים עצמם ולא בגלל שמדובר בציורים של ירקות ופירות? אולי ילד שארוחתו מוגשת בצלחת עם ציורים של גיבור העל החביב עליו יאכל גם הוא יותר ירקות? זו שאלה שצריכה להישאל, והניסוי שנערך לא עונה על השאלה הזו. קבוצת ביקורת יכולה לענות על השאלות הלאה. לדעתי דרושות בניסוי כזה שתי קבוצות ביקורת. באחת מהן הילדים מקבלים בתחילה צלחות לבנות, ולאחר מכן צלחות של תומס הקטר, דיסני או גיבורי על, בהתאם לגילם. בקבוצת הביקורת השנייה יהיו ילדים שבתחילה יקבלו צלחות מצויירות "רגילות" (( שוב: דיסני, תומס הקטר וכדומה )) ולאחר מכן צלחות עם ציורים של ירקות ופירות.

בעיה רביעית – מה המשמעות של כל זה?

קודם כל, מתברר כי נצפה שינוי מובהק סטטיסטית לגבי צריכת הירקות, אך לא נצפה שינוי מובהק סטטיסטית לגבי הפירות. החוקרים התייחסו לכך במשפט קצר: הסבר אפשרי, הם אמרו, הוא ceiling effect. באופן פורמלי הם צודקים. ceiling effect הוא מונח סטטיסטי, וזה מה שקרה כאן. לשאלה החשובה באמת הם לא ענו: מדוע נגרם האפקט הזה?

והשאלה הכי חשובה: האם השינוי המובהק הוא גם משמעותי? מה המשמעות של הבדל של 14 גרם (סליחה, 13.82 גרם?) החוקרים לא התייחסו לשאלה הזו. אני אתן לכם קצת חומר למחשבה. הלכתי לסופרמרקט ושקלתי שם מלפפון אחד ועגבנייה אחת (כן, זה מדגם קטן, אני יודע). משקלו של המלפפון היה 126 גרם, ומשקל העגבנייה היה 124 גרם (( למרבה הצער, למאזניים של שופרסל יש דיוק/precision מוגבל )). זאת אומרת, כל ילד אכל בממוצע עוד חצי ביס של עגבנייה או מלפפון. יכול להיות שזה אכן משמעותי מבחינה בריאותית ו/או תזונתית. החוקרים לא התייחסו לשאלה הזאת וגם לא העורכים של כתב העת.

סיכום

יכול להיות שצלחות עם ציורי ירקות ופירות גורמות לילדים לאכול יותר ירקות ופירות. זו אכן השערה מעניינת. המחקר שתואר כאן לא נותן תשובה לשאלה הזו. האופן שבו הוא תוכנן ובוצע כלל לא מאפשר לקבל אפילו תשובה חלקית לשאלה הזו, וזאת ככל הנראה בשל העדר חשיבה סטטיסטית בסיסית.

סטטיסטיקה רעה: לא לתכנן

"לקרוא לסטטיסטיקאי לאחר שהניסוי התבצע זה כמו לבקש ממנו לבצע ניתוח שלאחר המוות. לכל היותר הוא יוכל לומר מה הייתה סיבת המוות" – רונלד פישר.

כשמדברים בסטטיסטיקה על תכנון, מדברים בדרך כלל על תכנון ניסויים. ((תכנון איסוף הנתונים ותכנון הניתוח הסטטיסטי הם חלק מתהליך תכנון הניסוי. )) קשה להביא דוגמאות למקרים של כשלים בתכנון ניסויים, כי הכשלים בדרך כלל מובילים לכישלון, וכישלונות בדרך כלל נזרקים לפח האשפה. הכישלונות עלולים להיות צורבים. זה לא נעים לראות ניסוי קליני שנכשל (אם כי במקרים כאלה יש בדרך כלל סיבות רבות לכישלון, מעבר לבעייתיות אפשרית בתכנון הסטטיסטי). כשל וכישלון בניסוי במעבדה עלול להוביל להחמצה של תגלית חשובה, או להשקעה מיותרת. מתכנון לקוי של ניסויים עלולים לנבוע תהליכי ייצור לא אופטימליים, וגם החלטות שיווקיות לא נכונות. יכולות להיות גם השלכות בטיחותיות (רכב אוטונומי, מישהו?) או השלכות על בריאות הציבור.

לא אדון כאן בכל התורה המורכבת של תכנון ניסויים. כדי לראות את קצה קצהו של הקרחון יש צורך בקורס שלם. אתם מוזמנים לעיין במצגת שלי שעוסקת בנושא תכנון הניסויים בזעיר אנפין, בעיקר מנקודת המבט של התעשייה הפרמצבטית.

בגדול, התהליך של תכנון ניסוי כולל מספר רב של שלבים, וביניהם: החלטה על מטרת הניסוי, החלטה אלו פרטים יהוו את אוכלוסיית הניסוי (חיות? ואם כן, איזה חיה? בני אדם? תרביות תאים? ריאקציות כימיות? גולשים באתר? תצלומים שיש לזהות בהם תבניות, כגון האם רואים בתצלום חתול?), לקבוע מה יהיו משתני הניסוי, לבדוק האם יש אפשרות ליחסי גומלין בין משתני הניסוי, להחליט איזו תגובה או תגובות ימדדו, להחליט איזו אינפורמציה לאסוף מעבר למשתני הניסוי ומשתני התגובה (למשל משתני בסיס, או משתנים מתערבים (confounding) פוטנציאליים שעשויים להשפיע גם על המשתנה התלוי – התגובה, וגם על משתני הניסוי), להחליט איך לאסוף את האינפורמציה, לקבוע את דרך הבקרה של הניסוי, להחליט האם תהיה סמיות, לקבוע היכן ומתי ייערך הניסוי ומי יבצע אותו, לקבוע את גודל המדגם, להחליט האם לבצע רנדומיזציה, ואם כן איך, לצפות תרחישים אפשריים למהלך הניסוי ולהחליט מראש כיצד להתמודד איתם, לתכנן את הניסוי כך שיאפשר הסקת מסקנות כלליות (external validity), להחליט על השיטות הסטטיסטיות שבעזרתן ינותחו הנתונים של הניסוי ((בהנחה שלא מתכננים לבצע p-hacking, כמובן )), ועוד הרבה החלטות אחרות.

בכל אחת מההחלטות שצריך לקבל בתהליך התכנון יש פוטנציאל לכשל או לכשלים, ותאמינו לי, ראיתי את כולם. אתמקד כאן רק במספר כשלים עיקריים.

כשל הגדול מכולם הוא, כמובן, להתחיל את הניסוי לפני שיש תשובות ברורות לכל השאלות האלה, ולפני שהתקבלו כל ההחלטות. ((זה קורה באמת. ראו את הרשימה שלי על הסטטיסטיקה בתעשייה. )) גם אם התקבלו כל ההחלטות הרלוונטיות, יש לפרט אותן בפרוטוקול הניסוי, אותו יש לכתוב, שוב, לפני תחילת הניסוי. הפרוטוקול הוא חלק מהתכנון.

הכשל העיקרי השני הוא גודל מדגם לא מתאים. גודל מדגם אמור להיקבע על ידי לקיחה בחשבון של מספר גורמים: ההסתברויות הרצויות לטעויות (False Positive  ו-False Negative), איזה גודל אפקט ייחשב למשמעותי, ומה רמת אי הודאות הצפויה, כלומר השונות של הנתונים שייאספו. כמו כן, יש לקחת בחשבון כמובן את השיטה בה ייערך הניסוי ((כגון: שתי קבוצות מקבילות, תכנון של לפני-אחרי, וכדומה)). מניסיוני, הבעיה העיקרית היא בהערכת השונות. לחוקרים לא תהיה בעיה להגיד מה ההסתברויות לטעות המקובלות עליהם ((אפס, כמובן)), ולאחר לחץ פיזי מתון גם יאמרו לך מה לדעתם ייחשב לאפקט משמעותי. לגבי הערכת השונות יש אכן בעיה שהסטטיסטיקאי צריך להתמודד איתה. לעיתים השונות נקבעת על ידי הפרמטר ((לדוגמא, אם מדברים על תדירות של אירועים בתהליך פואסון, אז השונות נגזרת ישירות מהתדירות המשוערת)). במקרים אחרים יש לערוך מחקר בפרסומים אודות ניסויים דומים בספרות המדעית. האפשרות הטובה ביותר היא להשתמש בנתונים של ניסויים דומים קודמים שביצע אותו החוקר.

בקביעת גודל המדגם (ולא רק שם) יש לשקול גם שיקולים אתיים. למשל, ניסוי בחיות (וגם בבני אדם, בעצם) ייחשב ללא אתי אם גודל המדגם קטן מדי ולכן בעל עצמה סטטיסטית נמוכה – חייהן של החיות יוקרבו לשווא. יש דרכים סטטיסטיות להקטין את מספר החיות בהן ישתמשו בניסוי, וסטטיסטיקאי טוב יוכל להמליץ עליהן.

הכשל העיקרי השלישי הוא התעלמות מאינטראקציות – כלומר התעלמות מיחסי הגומלין בין המשתנים השונים. זהו כשל נפוץ ביותר, וראיתי אותו מתרחש במספר רב של יישומים.

הנה דוגמא (מלאכותית) פשוטה אך ארוכה.

שיטת המחקר העוברת בין הדורות של החוקרים המדעיים היא OFAT, כלומר One Factor At a Time. בכל קובעים את ערכם של כל המשתנים העשויים להשפיע על התוצאה פרט למשתנה אחד, שאת ערכו משנים. מה לא בסדר?

מהנדס כימיה רוצה לכוונן שני גורמים המשפיעים על התפוקה של תהליך כלשהו: משך הזמן של הריאקציה, שיכול לנוע בין 60 ל-180 דקות, והטמפרטורה בה היא מתבצעת, שיכולה לנוע בין 21 ל-25 מעלות. הוא עורך סדרה של 5 ריאקציות בהן הטמפרטורה קבועה על 22.5 מעלות, ובודק את ההשפעה של משכי זמן שונים על התהליך. הוא מגיע למסקנה כי התפוקה הגבוהה ביותר, כ-75 גרם, מתקבלת כאשר משך זמן הריאקציה היה 130 דקות.

 

עכשיו המהנדס שלנו עורך סדרה שניה של עוד 5 ריאקציות, בהן משך זמן הריאקציה קבוע ל-130 דקות, ובודק את התפוקה בטמפרטורות שונות. תוצאת הניסויים: התפוקה הגבוהה ביותר, גם כאן כ-75 גרם, כאשר הטמפרטורה היא 22.5 מעלות.

 

המסקנה של המהנדס: תהליך הייצור האופטימלי הינו כאשר טמפרטורת הריאקציה היא 22.5 מעלות ומשך הזמן של הריאקציה הוא 130 דקות, והתפוקה המקסימלית היא כ-75 גרם. האם המסקנה נכונה? ייתכן מאוד שלא, כיוון שסביר מאוד להניח כי יש יחסי גומלין בין המשתנים.

בדוגמא שלנו המצב הוא כפי שהגרף הבא מראה. התפוקה תהיה מקסימלית כאשר הטמפרטורה היא 25.5 מעלות, ומשך הזמן הוא כ-70 דקות. התפוקה בתנאים האלה תהיה כ-91 גרם, שיפור של למעלה מ-20%.

 

אילו נועץ המהנדס בסטטיסטיקאי טוב, הוא היה מציע לו לערוך סדרה של ארבע ריאקציות, בהם ישתנו גם הטמפרטורה וגם משך הזמן של הריאקציה. הריאקציה הראשונה, למשל, תהיה בטמפרטורה של 22 מעלות ומשך הזמן יהיה 120 דקות, הריאקציה השנייה תהיה גם היא בטמפרטורה של 22 מעלות אך עם משך זמן של 150 דקות, וכן הלאה. תכנון כזה יראה, בתנאי הדוגמא, כי הורדת משך הזמן ביחד עם העלאת הטמפרטורה מגדילה את התפוקה.

 

שימו לב גם כי התהליך של המהנדס היה בזבזני: הוא ביצע 10 ריאקציות והגיע לתוצאה פחות טובה ממה שיכול היה לעשות בארבע ריאקציות בלבד. את התכנון שהציע הסטטיסטיקאי ניתן להכליל למספר רב יותר של משתנים ((אני תכננתי פעם ניסוי עם 8 משתנים, כאשר לכל משתנה יש שתי רמות אפשריות, סה"כ 256 אפשרויות, אם אכן מנסים את כל האפשרויות. יש דרכים לצמצם את מספר האפשרויות, אם מוכנים לוותר על חלק מהאינפורמציה, כמו למשל אינטראקציות מסדר גבוה))

כשל נוסף ובעייתי מאוד, הוא שינוי תנאי הניסוי במהלכו, וכן, זה קורה הרבה פעמים. אמנם אפשר לשנות את תנאי הניסוי בתנאים מסויימים, אך יש להגדיר מראש בפרוטוקול הניסוי באלו מצבים אפשר לשנות את תנאי הניסוי, איזה שינוי יבוצע (אם יבוצע), ומהם הקריטריונים לפיהם ייקבע האם יש לבצע את השינוי. כמובן שיש לקחת בחשבון את ההשלכות של שינוי כזה על שאר הפרמטרים של הניסוי.

לסיכום, תכנון ניסוי הוא דבר מסובך, ויש להיעזר באנשי מקצוע במהלך התכנון (סטטיסטיקאי, ובדרך כלל גם אנשי מקצוע נוספים). תכנון לקוי יוביל במקרה הטוב לבזבוז משאבים, ובדרך כלל לתוצאות חמורות בהרבה.

 


רשימות נוספות בסדרה:

כמה הערות על AB testing

בהרבה הצעות עבודה למשרות בתחום הטכנולוגיה (בעיקר למשרות Data Scientist, אך לא רק) נדרש ידע ו/או נסיון ב-"AB testing".

מה זה AB testing? עיון קצר בויקיפדיה (הסבר נרחב באנגלית או הסבר מצומצם יותר בעברית) עולה כי זו שיטה להערכת ההשפעה של שינוי מסויים שיתבצע, למשל בדף אינטרנט (שאלות כמו האם הוספת תמונה לדף תגדיל את מספר הקליקים, וכדומה), כאשר A ו-B הם המצב שלפני השינוי, והמצב שאחריו. לפי ויקיפדיה (האנגלית),הגישה הזו החלה להתפשט בעולם הטכנולוגיה לפני כשבע שנים. כן מצויין שם, בצדק, כי זו בעצם גישה לתכנון ניסויים שגוסט (ראו גם כאן) פיתח עוד ב-1908.

למרות שזו התקדמות מתודולוגית משמעותית בחברות הטכנולוגיה, אני חושב שזו גישה נאיבית, בייחוד לאור ההתקדמות הרבה שחלה בתחום מאז 1908. הבעיה העיקרית במתודולוגיה הזו שהיא מיושמת בשיטת one factor at a time דבר שמתעלם מיחסי גומלין (אינטראקציות) בין מספר משתנים. על בעיה זו עמד פישר כבר בשנות העשרים של המאה הקודמת ואף הציע פתרון ראשוני (ניתוח שונות דו כיווני: two-way ANOVA) וכמובן יש פתרונות מתקדמים יותר שהציעו ממשיכי דרכו.

בעיות נוספות יכולות לצוץ בתכנון הניסוי עצמו: איך נקבע גודל המדגם? ((מישהו שלח לי לינק לסרטון הרצאה ביוטיוב בו המרצה נותן חסם לגודל המדגם הדרוש לאמידת התוחלת באוכלוסיה בעזרת אי שוויון גאוס-מרקוב, דבר שלומדים בשנה א סטטיסטיקה. את גודל המדגם הדרוש אפשר לחשב במדוייק – גם את זה לומדים בשנה א.)) איך בוחרים את המדגם כך שלא יהיו בו הטיות? ((דוגמאות מפורסמות – הבחירות של 1936 ו-1948 בארצות הברית)) איך מנתחים את התוצאות, כלומר האם משתמשים בשיטה הסטטיסטית המתאימה, אם בכלל? ((למשל, משתמשים במבחן סטטיסטי שמניח שקבוצת הניסוי וקבוצת הביקורת בלתי תלויות, למרות שבפועל הן תלויות זו בזו)) האם יש מודעות לטעויות האפשריות ולהסתברויות שבהן הן יקרו? ואם יש מודעות, מה עושים כדי לשלוט בגדלי ההסתברויות האלה? האם יש הבחנה בין אפקט מובהק לאפקט משמעותי? ((בפסקה האחרונה של רשימה זו יש דיון בנושא בהקשר של ניסויים קליניים))

אני מצטער לומר כי ביקרתי לא מזמן בחברה טכנולוגית גדולה ומצליחה, שם הוצגו לפני מספר טבלאות של "ניתוח נתונים", ואני זיהיתי שם את כל הכשלים שמניתי זה עתה. ((עוד יותר עצובה העובדה כי בצוות היו שני סטטיסטיקאים, אחד מהם בעל תואר שני))

אפשר לומר: "מה אתה רוצה, עובדה שהם מצליחים גם ככה", אבל האמת היא שהם הצליחו למרות הבעייתיות במתודולוגיה שלהם, בייחוד כאשר לב האלגוריתם שלהם מבוסס על הסתברות וסטטיסטיקה.

אורן צור ניסח את זה יפה בטוויטר: "נדמה לי שהטענה היא שזה זול ומיידי ורואים תוצאות גם אם אין מודל "טוב".או שאי אפשר לשפר או להצביע על טעויות. הגישה היא "למה לי להשקיע בזה". לפעמים זה עובד".

גם רפאל כהן כתב לי בטוויטר: "כשאני מגיע לתחום מסוים אני מניח שהמומחה יודע משהו (domain knowledge) ושהניתוח שלי אמור לעזור לו. לקחתי מעצב לאתר, אני לא אעשה AB על כל פיקסל ואני צריך להחליט על הניסוחים, מיקום של כפתורים (עדיף שההרשמה לtrial תהיה למעלה או למטה?) וכו'. ואין לי מיליארד משתמשים ביום. גם אם יש לי אלפי משתמשים ביום אני עדיין ארצה לא לבזבז אותם על קונפיגורציות גרועות. בהרצאה לעיל סמולה הראה איך לחסום את מספר המשתמשים שצריך אבל אחד הדברים שצריך ללמוד מזה הוא שהניתוח הסטטיסטי הנאיבי היה מביא אותו לכך שצריך 80 אלף כניסות בשביל כל ניסוי, הוא מראה ש 13 מספיקים 13 אלף כמובן. אז מי שהסתפק בפחות בגלל תחושת בטן סביר להניח שהגיע לתוצאות סבירות קודם, יצר מספיק הכנסות לחברה שלו ולא פשט רגל.". זוהי הבינוניות בהתגלמותה. למה לחשוב ולתכנן, שואל כהן, אם אפשר להשתמש בגישה נאיבית ולקבל משהו? אז מה אם אפשר לעשות יותר טוב?

לפני מספר שנים כתבתי כאן על עתיד הסטטיסטיקה בתעשיה. הדוגמאות לסטטיסטי-פוביה שהבאתי שם היו מנסיוני בתעשייה הפרמצבטית. אחזור על עיקרי הדברים כאן:

סופר המדע הבדיוני ה. ג'. וולס כתב כי "Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write."

בכל הנוגע לתעשייה הפרמצבטית, העתיד אותו חזה וולס כבר כאן. הסטטיסטיקה מהווה נדבך מרכזי בכל תהליכי המחקר, הפיתוח, והייצור של התעשיה. איש אינו מעלה על דעתו לצאת לניסוי קליני ללא ליווי סטטיסטי צמוד, ובשנים האחרונות גוברת הדרישה לתמיכה סטטיסטית גם בשלבי פיתוח מוקדמים יותר, וגם בתהליכי הייצור.

אני מקווה שהמודעות לערך המוסף שמביאה הסטטיסטיקה עמה תחלחל גם לתעשייה הטכנולוגית, ככל שמתרחב השימוש בסטטיסטיקה כך גדלה הנחיצות של יכולת חשיבה סטטיסטית מצד השותפים לתהליך, והסתפקות במישהו "שיודע קצת יותר סטטיסטיקה מהמתכנת הממוצע" (כפי שהגדיר זאת אורן צור) מבטאת בינוניות ונאיביות במקרה הטוב.

מבט להיסטוריה של הניסויים הקליניים

רשימה זו נכתבה בעקבות המפגש האחרון של קבוצת הדיון בהיסטוריה של הסטטיסטיקה שעסקה בניסויים קליניים. אציין כי אני הוא שהעלה את הנושא לדיון, והייתי אחראי לאיסוף והפצת חומר הקריאה למפגש. חלק מהחומרים שנקראו כבר סקרתי בעבר בהרצאה "מהלימון ועד הקופקסון" שנתתי במסגרת "ספקנים בפאב" (ואפשר לצפות בהקלטתה על ידי לחיצה על הקישור). רשימה זו כוללת סקירה היסטורית קצרה של חמשת הניסויים הקליניים שנדונו.לאחר הסקירה ההיסטורית שנתתי נערך דיון מעניין שעסק בהיסטוריה ובפילוסופיה של המדע, ובהשפעות של בייקון ומיל על התפתחות השיטה המדעית והשתקפותם בתהליך התפתחות הניסויים הקליניים. למרבה הצער, לא הצלחתי לארגן את ההערות שרשמתי לעצמי בזמן הדיון לטקסט קוהרנטי שאני יכול לפרסם כאן.

הניסוי הראשון הוא ניסוי הצפדינה של ג'יימס לינד, שנחשב בעיני רבים לנקודת ההתחלה של הרפואה המודרנית. זהו הניסוי הקליני המבוקר המתועד הראשון (( 1. אם מתעלמים מפרק א' של ספר דניאל )). לינד ערך ניסוי לבדיקת טיפולים אפשריים למחלת הצפדינה, גורם המוות העיקרי בקרב מלחים עד סוף המאה ה-18. (( 2. 2 מתוך כל 3 מלחים לקו במחלה ומתו. במלחמת 7 השנים בין אנגליה לצרפת, 1512 מלחים אנגלים נהרגו בקרבות, כ-100,000 מתו מצפדינה. )). בניסוי שנערך בהפלגה קצרה יחסית בים התיכון בשנת 1749, חילק לינד את 12 המלחים שחלו בעת ההפלגה לשש קבוצות שוות. כולם שוכנו באותו מקום בספינה וקיבלו תפריט זהה, שנבדל רק בטיפול הניסיוני שניתן להם. הטיפולים היו: שתיית ליטר סיידר ביום, שתיית 25 טיפות חומצה גופרתית 3 פעמים ביום, שתיית שתי כפות חומץ 3 פעמים ביום, שתיית חצי ליטר מי ים ביום, משחה שהוכנה משום, חרדל, צנון ושרף, או  אכילת שני תפוזים ולימון ביום. המטופלים בפירות הדר החלימו כליל, ובמצבם של המטופלים בסיידר חל שיפור קל. ההשוואה בין הקבוצות אפשרה ללינד להעריך את יעילותו של כל טיפול ביחס לאלטרנטיבות הטיפוליות האחרות.

ציון הדרך הבא הוא סדרת הניסויים של וויליאם ווטסון לבחינת טיפולים להפחתת הסיכון במחלת האבעבועות השחורות. כבר במאה ה-11 היה ידוע כי מי שחלה במחלה זו ושרד לא יחלה בה שוב. עקב כך התפתחה פרקטיקה של מעין חיסון למחלה על ידי "הדבקה קלה" של אנשים בריאים במחלה. עם זאת, בין הרופאים היו מחלוקות בדבר אופן ההדבקה האופטימלי ובדבר טיפול נלווה להדבקה. ווטסון ערך סדרה של שלושה ניסויים קליניים בבית החולים לילדים בלונדון בשנת 1767 (( 3. Boylston, A. W. (2002). Clinical investigation of smallpox in 1767.New England Journal of Medicine, 346(17), 1326-1328. )). המתודולוגיה שלו הייתה דומה לזו של לינד: הילדים המשתתפים בכל ניסוי חולקו לקבוצות, ובכל קבוצה בוצעה בנבדקים "הדבקה מבוקרת" על ידי שימוש בשלפוחית משלב מוקדם של המחלה. לכל קבוצה ניתן טיפול נלווה אחר שהיה אמור להפחית את הסיכון בהדבקה. בתכנון הניסויים של ווטסון יש מספר חידושים לעומת הניסוי של לינד. ווטסון דאג כי בכל קבוצת טיפול יהיה מספר שווה של בנים ובנות, כדי למנוע הטיה אפשרית למקרה שהתגובה לטיפול שונה בין המינים. כמו כן, קבוצה אחת בכל ניסוי לא קיבלה טיפול נלווה אלא שימשה כקבוצת ביקורת. והחשוב מכל: ווטסון היה הראשון שהנהיג מדידה כמותית של התוצאות. המדד להצלחת הטיפול היה מספר האבעבועות שהופיעו בכל ילד שהשתתף בניסוי. הוא אף ערך ניתוח סטטיסטי בסיסי ופרסם את ממוצע מספר השלפוחיות לילד בכל קבוצה. מסקנתו של ווטסון הייתה כי הטיפולים המקובלים להפחתת הסיכון, שכללו כספית, צמחים שונים ומיני משלשלים, לא הביאו להקלה בחומרת ההדבקה בהשוואה למודבקים שלא קיבלו טיפול נלווה.

נקודת הציון המשמעותית הבאה היא ניסוי החלב במחוז לאנרקשיר בסקוטלנד בראשית המאה ה-20 (( 4.  Leighton G, McKinlay P (1930). Milk consumption and the growth of school-children. Department of Health forScotland, Edinburgh and London: HM Stationery Office. )). מטרת הניסויים היה לבדוק האם הזנה יומית בחלב משפרת את הגדילה של ילדים (וילדות) בהשוואה לילדים שלא שתו חלב על בסיס יומי, וכן לבדוק האם יש הבדל בשיעורי הגדילה בין ילדים שהוזנו בחלב טרי ובין אלה שהוזנו בחלב מפוסטר. הניסוי, שנערך ב-1930 היה רחב היקף וכלל בסך הכל כעשרים אלף ילדים בגילאי 6-12, שלמדו ב-67 בתי ספר. כ-5000 הוזנו בחלב טרי, כ-5000 בחלב מפוסטר, וכ-10000 ילדים שויכו לקבוצת הביקורת. גובהם ומשקלם של הילדים נמדדו בתחילת הניסוי (פברואר 1930) ובסופו (יוני 1930). המסקנה הייתה כי תזונה יומית של חלב משפרת את גדילת הילדים, וכי אין הבדל משמעותי בין חלב טרי לחלב מפוסטר. כמו כן הסיקו החוקרים כי אין השפעה לגיל הילדים על האפקט של קצב הגדילה.

ניסוי זה נכנס לרשימה שלי דוקא בשל הביקורת שהוטחה בו. עם המבקרים נמנו פישר ובארטלט, אולם את הביקורת המקיפה ביותר הטיח "סטודנט", הלא הוא ויליאם סילי גוסט. במאמר שפרסם בכתב העת ביומטריקה (( 5. Student (1931). The Lanarkshire Milk Experiment. Biometrika 23:398-406. )) קבע למעשה סטודנט כללים שקיומם הכרחי להבטחת התקפות של ניסוי קליני:

  • סטודנט מעיר כי בכל בית ספר בניסוי הוזנו הילדים המטופלים בחלב טרי או בחלב מפוסטר, אך לא הייתה נציגות לשתי הקבוצות יחד באף בית ספר. עקב כך, אין אפשרות להשוות באופן ישיר בין חלב טרי ומפוסטר, עקב הבדלים בין בתי הספר השונים.
  • שיוך התלמידים בניסוי לקבוצת הטיפול (הזנה בחלב או ביקורת) נקבע על ידי המורים בכל כיתה ולא באופן רנדומלי. עקב כך, נוצר מצב בו התלמידים בקבוצת הביקורת היו גדולים יותר במימדי גופם לעומת התלמידים בקבוצות הטיפול.
  • המדידות נערכו בפברואר ויוני. בגדי חורף הינם כבדים יותר מבגדי אביב/קיץ, והבדל המשקל בין הבגדים קיזז את ההבדלים במשקל האמיתי. החוקרים הניחו כי ההבדל במשקל הבגדים יהיה דומה בין הקבוצות, אולם סטודנט טען כי יש ההטיה בחלוקת התלמידים לקבוצות מושפעת ממצבם הכלכלי – תלמידים ממשפחות אמידות הוכללו בדרך כלל בקבוצות הביקורת – הביאה לכך שמשקל בגדי החורף של קבוצת הביקורת יהיה גבוה יותר.

סטודנט הסיק לכן כי התוצאות שהתקבלו לא תומכות בטענה כי אין הבדל בין תזונה בחלב טרי ותזונה בחלב מפוסטר, וגם כי אי אפשר להסיק שאין קשר בין הגיל ובין השינוי בקצב הגדילה. הוא מזכיר גם את הניתוח של פישר וברטלט (( 6. Fisher RA, Bartlett S (1931). Pasteurised and raw milk. Nature 127:591-592.  )) המראה כי לחלב טרי יתרון על חלב מפוסטר באשר לקצב הגדילה.

סטודנט הביא גם מספר המלצות, ובהן הצעה לערוך את הניסוי באוכלוסיה של תאומים, כאשר אחד התאומים יוזן בחלב והשני ישמש כביקורת (או שאחד מהם יוזן בחלב טרי והשני בחלב מפוסטר לצורך השוואה בין שני סוגי החלב). אני סבור כי תכנון כזה לא מקובל בימינו מבחינה אתית, המלצה יותר מעשית היא לנתח מחדש את הנתונים שנאספו כדי לנסות להתגבר על ההטיה שנוצרה בהקצאה הלא רנדומלית לקבוצות טיפול וביקורת. ההמלצה האוטינטיבית שלו היא לערוך מחדש את הניסוי, תוך כדי הקפדה על רנדומיזציה, לקיחה בחשבון של הטיה עקב משקל הבגדים שלובש כל תלמיד, ותכנון הניסוי כך שבכל בית ספר יהיה ייצוג לשלוש קבוצות הטיפול.

ההמלצה העיקרית של סטודנט, להקפיד על הקצאה רנדומלית של המטופלים לקבוצות, לא התקבלה מייד, שכן רעיון זה נתפש בעיני חלק מהקהילה המדעית כ-"לא אתי". יש לציין כי עקרון הרנדומיזציה רק הוצג על ידי פישר ב-1923, ועדיין לא  הייתה הכרה מספקת בחשיבותו. הניסוי הקליני הראשון עם הקצאה רנדומלית לקבוצת טיפול ולקבוצת ביקורת נערך רק ב-1947, והוא הרביעי ברשימה שלי. מדובר בניסוי לבדיקת היעילות של אנטיביוטיקה מסוג סטרפטומיצין לטיפול בדלקת ריאות (( 7. Medical Research Council Streptomycin in Tuberculosis Trials Committee. (1948). Streptomycin treatment for pulmonary tuberculosis. BMJ2, 769-82. )). עקב המחסור באנטיביוטיקה, לא הייתה ברירה אלא להחליט על ידי ביצוע "הגרלה" בין החולים מי יקבל טיפול ומי לא, וכך התגבר תכנון הניסוי על המחסום האתי. עם זאת, הניסוי לא היה כפול סמיות (Double Blind), ולא נעשה שימוש בפלסבו כטיפול דמה לקבוצת הביקורת, (( 8. Hart, P. D. A. (1999). A change in scientific approach: from alternation to randomised allocation in clinical trials in the 1940s.BMJ, 319(7209), 572-573. )) וזאת למרות שכבר היה תקדים לקיום ניסוי כזה: הניסוי הקליני הראשון שנערך בשיטת הסמיות הכפולה נערך כבר בשנת 1943 לבדיקת היעילות של פניצילין כטיפול להצטננות. החולים המטופלים לא ידעו האם הם שויכו לקבוצת טיפול ואכן טופלו בפניצילין, או שמא שויכו לקבוצת הביקורת וטופלו בפלסבו. גם הרופאים שטיפלו בחולים לא ידעו מהו הטיפול שקיבל כל חולה. תכנון כזה מונע הטיה שעלולה לנבוע מדיעה קדומה של הרופאים לגבי יעילות הטיפול, ולמעשה מכריח אותם לתת חוות דעת אובייקטיבית לגבי המצב הרפואי של החולה המטופל. עם זאת, בניסוי זה לא נערכה הקצאה רנדומלית של החולים לטיפול או ביקורת.

הויכוח בדבר חשיבות העקרונות שהתוו סטודנט ופישר הסתיים סופית בניסוי לבדיקת יעילות החיסון של סאלק נגד נגיף הפוליו, שנערך ב-1954 (( 9. Meier, Paul. "Polio trial: an early efficient clinical trial." Statistics in medicine 9.1‐2 (1990): 13-16.  )). למעשה נערכו שני ניסויים. הניסוי שבראשו עמד הסטטיסטיקאי פול מאייר היה ניסוי כפול סמיות בהקצאה רנדומלית, והוא הראה ירידה של 70% במקרי השיתוק עקב פוליו בקבוצת הטיפול לעומת קבוצת הביקורת. גודל המדגם הגדול (כ-400 אלף ילדים בגילאי 6-8) סייע לביסוס התקפות החיצונית של התוצאות. במקביל נערך ניסוי נוסף, בו הקצאת הטיפול (חיסון או פלסבו) לא הייתה רנדומלית. 725,000 תלמידי כיתות א ו-ג שהשתתפו בניסוי שימשו כקבוצת ביקורת, ואליהם צורפו גם 125,000 ילדים מכיתות ב' שהוריהם סירבו לחיסון. נתוניהם הושוו עם הנתונים של 225,000 תלמידי כיתות ב' שהוריהם הסכימו לחסנם. סה"כ השתתפו בניסוי מעל מליון תלמידים, כמעט פי 3 מגודל הניסוי של מאייר. ניסוי זה הראה ירידה של 44% בלבד בשיעור מקרי השיתוק עקב פוליו, ואולם התברר כי האפקט הוקטן עקב הטיה הקשורה למצב הסוציו-אקונומי של קבוצת הטיפול. ילדי קבוצת הטיפול הגיעה ממשפחות אמידות יותר, ובשכבת אוכלוסיה זו שיעור מקרי השיתוק עקב פוליו היה גבוה יותר מכיוון ששיעור הילדים המחוסנים טבעית (חלו בפוליו באופן קל והחלימו ללא תיעוד) הינו נמוך יותר עקב רמת הסניטציה הגבוהה יותר בסביבתם. המקרה של ניסוי הפוליו הוכיח כי גודל המדגם אינו בהכרח הפרמטר החשוב ביותר בניסוי הקליני (( 10. ראו גם את הרשימה בחירות 1936 – המנצח שלא היה, שעסקה במקרה מפורסם אחר בו מדגם גדול לא הצליח לחזות את המנצח בבחירות לנשיאות ארצות הברית עקב הטיה בתכנונו)), וכי רק הקצאה רנדומלית וסמיות כפולה מבטיחים את התקפות הפנימית של הניסוי.

ניסוי קליני מתוכנן היטב לבדיקת תכשיר הומיאופתי – ניתוח מקרה

אני מקווה שרוב קוראיי (כלומר, לפחות ארבעה!) מכירים את הבלוג “חשיבה חדה" שכותב ידידי גלעד דיאמנט, ו/או את קבוצת הפייסבוק הקשורה אליו. אם לא זו ההזדמנות לערוך היכרות. אני פותח המלצה על הבלוג והקבוצה, משום שדיון בקבוצה הוביל אותי לכתיבת הרשימה הנוכחית.

הכל התחיל בלינק לידיעה על יצרנית תכשירים הומיאופתיים שנאלצה לקרוא להחזרת חלק ממוצריה בגלל שהכילו אנטיביוטיקה (אופס). בדיון שהתפתח, כתב אחד מחברי הקבוצה, אור גרשון, כי מישהו הציג לו מחקר קליני שבדק טיפול הומיאופתי לאלרגיה, שהראה כי הטיפול ההומיאופתי יעיל, ותהה כיצד משיבים לטיעון כזה. חבר אחר בקבוצה התנדב לקרוא את המאמרים ולנתח את הכשלים שבהם.

עד כאן הכל טוב ויפה, אולם לאחר שקראתי את הניתוחים בפייסבוק נאלצתי להסתייג מהם. הבטחתי לקרוא את המאמרים, והתחייבתי להגיב גם למאמרים וגם להערות שבדיון במועד מאוחר יותר. אמנם עברו כבר כמה שבועות, ואני אמנם לא בן למשפחת לאניסטר, אבל אעמוד בהתחייבותי, לאחר שקראתי גם את המאמר עצמו, וגם את התגובות למאמר שפורסמו בכתב העת לאחר פרסומו.

אני רוצה להדגיש כי הביקורת שאכתוב מייד על הדברים שכתב הקורא אינה מיועדת להלבין את פניו ברבים, אלא מתוך רצון כן לסייע לו ולקוראים האחרים להבין טוב יותר את הניסוי, תכנונו, והניתוח הסטטיסטי.

כמו כן, אני מוצא את עצמי נאלץ להגן על ניסוי קליני הומיאופתי מפני טענות על כשלים כביכול שהוטחו בו, מכיוון שהטענות אינן נכונות. הניסוי המתואר במאמר הוא לדעתי ניסוי מתוכנן היטב, ומנטרל בצורה טובה מאוד הטיות אפשריות במחקר מסוג זה. למרות זאת, תקפות התוצאה שפורסמה בהבלטה במאמר, המראה יתרון טיפולי להומיאופתיה על פני פלסבו באחד המדדים, מוטלת בספק. רק אחד המבקרים של הניסוי הצליח להצביע על נקודת הכשל.

מדובר המאמר ישן למדי, שפורסם בשנת 2000 בכתב העת BMJ, שבהחלט אינו כתב עת זניח. המאמר (( 1. Taylor, M. A., Reilly, D., Llewellyn-Jones, R. H., McSharry, C., & Aitchison, T. C. (2000). Randomised controlled trial of homoeopathy versus placebo in perennial allergic rhinitis with overview of four trial seriesBMJ: British Medical Journal,321(7259), 471.)) תיאר, כאמור, ניסוי קליני בו נבדק טיפול הומיאופתי ל- perennial allergic rhinitis (דלקת/נזלת בחלל האף הנגרמת עקב אלרגיה לא עונתית). הניסוי המתואר פשוט מאוד. המועמדים/מתנדבים להשתתפות בניסוי עברו תהליך סינון, בו נבדק האם מצבם הרפואי מתאים לטיפול, נעשתה הערכה של האלרגנים שגרמו למצבם, ולכולם ניתן טיפול ראשוני. לכל החולים בשלב זה ניתן פלסבו, אך נאמר להם כי הם קיבלו טיפול הומיאופתי מותאם למצבם. במשך שבועיים המועמדים היו מטופלים בפלסבו שחשבו כי הוא טיפול הומיאופתי, וניהלו רישום יומי של מצבם. לתקופת מעבר זו, בה החולים אינם מטופלים אך חושבים כי קיבלו טיפול הומיאופתי, יש שתי מטרות: איסוף נתוני בסיס, וניטרול אפקט פלסבו אפשרי. לאחר תקופת המעבר, חולקו החולים בהקצאה רנדומלית לשתי קבוצות. קבוצה אחת קיבלה טיפול הומיאופתי, השניה המשיכה לקבל פלסבו. החלוקה נעשתה בסמיות כפולה; לא החולים ולא הרופאים/חוקרים ידעו איזה סוג של טיפול קיבל כל חולה. החולים המשיכו לערוך רישום של מצבם במשך ארבעה שבועות נוספים. בסיום הניסוי, נערכה השוואה של השינוי הממוצע מהבסיס לסיום הטיפול בין שתי הקבוצות. החוקרים חישבו כי כדי לשמור על רמת מובהקות (הסתברות לתוצאה חיובית שלילית – false positive) של 5%, ובמקביל להשיג עוצמה (הסתברות לתוצאה חיובית כאשר יש אפקט טיפולי  – true positive) של 80%,  יש צורך במדגם בגודל 120 חולים (60 בכל קבוצה). בפועל הצליחו החוקרים לגייס לניסוי רק 51 חולים. עד כמה זה קריטי? אתייחס לכך בהמשך.

תוצאת הניסוי: נצפה הבדל מובהק סטטיסטית בין הקבוצות, המראה יתרון לטיפול ההומיאופתי במדד Nasal inspiratory peak flow, עם זאת, במדד Visual analogue scale (VAS), לא נצפה אפקט טיפולי. המדד הראשון, בו התקבלה תוצאה מובהקת סטטיסטית נחשב למדד אובייקטיבי, ואילו המדד השני נחשב לסובייקטיבי. החוקרים גם מציינים כי ההבדל המובהק במדד הראשון נחשב משמעותי מבחינה קלינית.

בהמשך סוקרים החוקרים תוצאות של שלושה ניסויים אחרים שקדמו לניסוי זה, ועורכים ניתוח מאוחד (pooled  analysis) המסכם יחדיו את תוצאותיהם. ברשימה זו לא אתייחס לחלק זה של המאמר/

כצפוי, המחקר עורר סערה, ובמערכת כתב העת התקבלו מספר תגובות המבקרות את המחקר וממצאיו (( 2. Homoeopathy versus placebo in perennial allergic rhinitis. BMJ: British Medical Journal, 2001; 322(7279): 169. )). הנה סקירה של חלק מהתגובות (הקשורות לתחומים שאני מבין בהם משהו) והתייחסותי.

בארי מילר, רופא מרדים במקצועו, טוען כי הניתוח הסטטיסטי לקוי, מכיוון שגודל המדגם בפועל היה רק 51 חולים, ולא 120 כפי שתוכנן. לכן עוצמת הניסוי הייתה, לפי חישוביו, רק 43% ולא 80% (לא בדקתי את החישוב). אומר בעדינות כי הטענה הזו מראה חוסר הבנה בסטטיסטיקה ובמתודולוגיה של ניסויים קליניים. ניתן לטעון, אולי, כי אין זה אתי לבצע ניסוי קליני שעוצמתו נמוכה, אבל מה זה קשור לניתוח הסטטיסטי? החוקרים משיבים לו כראוי, ומסבירים כי הסיכון הנובע מעוצמה נמוכה הוא הסתברות גבוהה יותר להחמצה של תגלית – false negative. במלים אחרות, כאשר העוצמה נמוכה, ייתכן שהניסוי לא יצליח לגלות את קיומו של אפקט אמיתי, אם הוא קיים. רמת המובהקות של הניסוי, ההסתברות לתגלית שגויה – false positive, כלומר מצב בו נראה כאילו יש אפקט טיפולי כאשר בפועל אין אפקט כזה, אינה תלויה בגודל המדגם. החוקרים עוד מגדילים לעשות, ומשערים כי ייתכן והתוצאה השלילית שהתקבלה במדד הסובייקטיבי VAS נבעה מגודל המדגם הקטן והעוצמה הנמוכה. במובן הזה, הביקורת של ד"ר מילר הייתה סוג של גול עצמי.

בריאן ליפוורת', פרופסור לאלרגיה ורפואה נשימתית, מעיר בין היתר כי היה רצוי וראוי לבצע ניסוי המשווה את הטיפול ההומיאופתי לטיפול הרפואי המקובל (כגון סטרואידים או אנטיהיסטמינים), הידוע כיעיל לטווח ארוך. הצדק עימו.

ד"ר יורגן וינדלר, ראש המחלקה לרפואה מבוססת ראיות במכון המחקר MDS באסן, גרמניה, מעלה טענה חזקה: חישובי גודל המדגם נעשו על פי מדד VAS, ועל סמך התוצאות שהתקבלו בשלושת הניסויים הקודמים. במדד זה הניסוי נכשל. כלומר, הניסוי לא הצליח לשחזר את התוצאות של הניסויים הקודמים. לדעתי זהו הכשל העיקרי בניסוי זה. מכיוון שחישובי גודל המדגם נעשו על פי מדד זה, הרי שבפועל זהו משתנה המחקר הראשי (primary endpoint) של הניסוי, (( 3. לא ברור לי מהקריאה במאמר האם בפרוטוקול הניסוי הוגדר מראש משתנה מחקר ראשי, ואם כן, מהו.)) ועל פי הכללים המקובלים בניסויים קליניים, כשלון במשתנה המחקר הראשי הוא כשלון הניסוי כולו. התייחסות להצלחה במשתנה מחקר משני לאחר כשלון במשתנה המחקר הראשי משמעותה ניפוח ההסתברות לטעות מסוג ראשון – false positive – של המחקר, והיא גדולה מ-5%, בניגוד למה שהוצהר. (( 4. לו נתנו החוקרים את דעתם על כך מראש, היו יכולים להגדיר את שני המשתנים כראשיים, ולהגדיר תיקון סטטיסטי שהיה מאפשר תוצאה מובהקת למשתנה השני גם כאשר הראשון אינו מובהק. ברור שלא עשו כן, אחרת היו מציינים זאת במאמר.)) ד"ר וינדלר מתייחס בהמשך גם לניתוח המאוחד של תוצאות כל ארבעת הניסויים, ומעיר מספר הערות נכונות לגבי ניתוח זה.

שתי תגובות נוספות הן של ה. מורו בראון, מומחה לאלרגיה, התוהה האם החולים סבלו מלכתחילה מדלקת אלרגית לא עונתית), ומייקל דין, סטודנט לדוקטורט בבריאות הציבור מאוניברסיטת יורק, שטען כי פרסום מחקר ברמה גבוהה המראה תוצאות חיוביות בטיפול הומיאופתי רק מבליט את הסטנדרט הכפול בהתייחסות של הממסד הרפואי להומיאופתיה.

מכאן אעבור להערות של הקורא בקבוצת הפייסבוק. הוא התייחס בתחילה דווקא לתגובות הקוראים למחקר, ובטעות ייחס אותן לעורכי כתב העת. כך הוא כותב , למשל (תיקנתי כמה טעויות כתיב/הקלדה):  "המאמר המצורף מתחיל בהערה מאת המפרסם: ‘Statistics in study were flawed’-סטטיסטיקות במחקר לוקות בחסר. מה זה אומר? זה אומר שהעורכים המקצועיים (שהם אנשי מקצוע לפני היותם עורכים מדעיים) עבור על הנתונים (שחייב כל מפרסם מאמר לספק יחד עם המאמר) ומצעו בו פגמים/כשלים בתחום הסטטיסטי."

ובכן, ההערה היא למעשה הכותרת שנתנו עורכי כתב העת לתגובתו של בארי מילר, וכבר הסברתי את הבעייתיות שבה. הקורא מצטט גם חלק מתגובתו של ד"ר וינדלר, ומייחס אותה לעורכי כתב העת, ולאחר מכן שוב חוזר לטענה לפיה המחקר פגום בגלל גודל המדגם הנמוך מהמתוכנן, וכותב: "החוקרים בסופו של דבר גייסו רק 51 נבדקים, אבל ניתחו את הנתונים כאילו היו להם כל ה120!". זה חוסר הבנה של הניתוח שבוצע במחקר. החוקרים ניתחו נתונים של 51 חולים, כי אלה הנתונים שהצליחו לאסוף. מספר החולים בכל קבוצה אכן נלקח בחשבון בעת ביצוע המבחן הסטטיסטי (מבחן t בניסוי הספציפי הזה). האם הקורא טוען כי החוקרים הציבו בנוסחאות גדלי קבוצות השווים ל-60, במקום 24 ו-27 כפי שהיה בפועל? זוהי האשמה חמורה ביותר, כיוון שמעשה כזה הוא רמאות לכל דבר. אני מתקשה להאמין שזה מה שקרה. כפי שהסברתי, גודל המדגם הנמוך פוגע אמנם בעוצמה הסטטיסטית של הניסוי, אך לא בתקפות הסטטיסטית שלו.

בהערה הבאה שלו בדיון, מתייחס הקורא למאמר המתאר את המחקר עצמו (וזה אינו המאמר "בצורה לא ערוכה" כפי שחשב בטעות). תחילה טוען הקורא כי "51 חולים אינה נחשבת קבוצת מדגם רחבה דיה". מדוע? האם זה נכון תמיד? לא ולא! גודל המדגם נקבע על פי שלושה גורמים: ההתפלגות הצפויה של הנתונים שייאספו בניסוי, גודל האפקט הטיפולי שמבקשים החוקרים לזהות, והעוצמה הסטטיסטית שהם מבקשים לעצמם (וזאת בהנחה שרמת המובהקות חייבת להיות 5%, הסטנדרט המקובל במחקר). לכל מחקר גודל המדגם המתאים לו. אפשר בקלות לבנות דוגמה בה גודל מדגם של 50, 40 או אפילו פחות מכך יהיה מספיק בהחלט.

הקורא טוען גם כי העובדה ש המשתתפים בניסוי הכירו את עקרונות ההומיאופתיה יצרה הטיה מחשבתית כלפי התרופה הנבדקת. אז מה? והאם בניסוי "רגיל", בו בודקים למשל את ההשפעה הטיפולית של אנטיביוטיקה לעומת פלסבו אין "הטיה מחשבתית"? בדיוק לשם כך עורכים ניסוי כפול סמיות. החולים לא ידעו אם טופלו בפלסבו או בתכשיר הומיאופתי, וגם החוקרים לא ידעו זאת. זהו סטנדרט הזהב לניסוי קליני. במאמר מסבירים החוקרים בפירוט את הנוהלים בעזרתם נשמרה הסמיות הכפולה.

הקורא ממשיך וטוען כי בגלל שבזמן הניסוי (אם כי לא בתקופת הסינון) הותר לחולים לקחת תרופות נוספות, אזי כל טענה שעולה מהמחקר מופרכת לחלוטין. זה בפירוש לא נכון, מכיוון שהחולים בשתי קבוצות הטיפול השתמשו בתרופות נוספות, וההשפעות אמורות להתאזן. אני מסכים שייתכן והיה מקום להגביל את השימוש בתרופות מסויימות, ו/או לתקנן את הניתוח הסטטיסטי על ידי הוספת משתנה מסביר לניתוח, אבל לא חושב שזו נקודה קריטית. הטענה של הקורא כי המחקר חייב להתבצע ב-"ואקום כימי" בו אסור למשתתפים ליטול אף תרופה אחרת היא בפירוש לא נכונה, ודרישה גורפת כזו אינה אתית.

הקורא גם טוען כי החלוקה הלא שווה בין הקבוצות: 27 בקבוצת פלסבו לעומת 24 בקבוצת הטיפול, מעלה תהיות לגבי מהימנות שיטת החלוקה (רנדומיזציה). ובכן, אי אפשר לחלק 51 חולים לשתי קבוצות שוות. הטוב ביותר שאפשר הוא חלוקה של 26-25. נכון, כאן החלוקה קצת פחות טובה: 24-27. אם תקחו מטבע ותטילו 51 פעמים, מה ההסתברות כי תקבלו בדיוק 26 הטלות של עץ ו-25 הטלות של פלי? (( 5. רק 11%, כלומר יש הסתברות של 89% כי התוצאה לא תהיה 25-26.)) אם תקבלו 27 עץ ו-24 פלי, האם תחשדו כי המטבע אינו הוגן? (( 6. לא. אם תבדקו את ההשערה כי ההסתברות של המטבע ליפול על עץ היא 0.5 תקבלו ערך-p של 0.6683. ))

הקורא חוזר לפרוצדורות של הניסוי: במאמר הוסבר כי הותאם תכשיר הומאופתי לכל משתמש בנפרד, על בסיס האלרגן שאליו הייתה לו התגובה הכי חמורה במבחן עור, ושבמקרה של אי ודאות נעשתה התייעצות עם רופא מנוסה בהומיאופתיה. מכאן מסיק הקורא, לא ברור לי על סמך מה, כי "המחקר כולו מבולגן ע"פ אנשים שונים עם אלרגיות שונות לאלרגנים שונים. כל אחד מהם מקבל תכשיר הומיאופתי שונה". אחת הטענות עיקריות של הומיאופתים בבואם להסביר מדוע לא ניתן לבחון טיפול הומיאופתי בניסויים קליניים, היא בדיוק הטענה הזו – לכל חולה יש צורך להתאים טיפול ייחודי. זהו עקרון בסיסי בהומיאופתיה. החוקרים עקפו את הבעיה הזו בצורה נהדרת: לכל חולה הותאם התכשיר ההומיאופתי המתאים לו, לדעת הרופא/הומיאופת המטפל. לאחר מכן הלך החולה לבית המרקחת, וקיבל שם או את התכשיר הומיאפתי שהותאם לו, או פלסבו, לפי תכנית הרנדומיזציה! החולה לא ידע אם קיבל תכשיר הומיאופתי או פלסבו, וגם לא הרופא המטפל. כך נשמרה הסמיות הכפולה. התהליך הוסבר במפורט במאמר, ולדעתי אין בכך כל פגם, אם כללי הפרוטוקול נשמרו.

הקורא ממשיך וכותב: "כמו גם מצוין כי ‘although the researchers were not blinded.’ – החוקרים לא היו 'בעיוורון', כלומר המחקר אינו באמת בסמיות כפולה.". זו הערה גרועה במיוחד מצידו של הקורא, המראה כי לקה בקריאה סלקטיבית והוציא דברים מהקשרם. החוקרים ידעו כי נתנו לחולים פלסבו ובכל זאת אמרו לחולים כי קיבלו תכשיר הומיאופתי בתחילת תהליך הסינון, אשר התרחש שבועיים לפני הרנדומיזציה עצמה. כפי שהסברתי קודם, המטרה הייתה לגרום לחולים לחשוב כי הם מקבלים טיפול הומיאופתי כדי לנטרל את אפקט הפלסבו, ובאותו זמן להחזיק אותם שבועיים ללא טיפול הומיאופתי, כדי לייצר נתוני בסיס נקיים מהשפעה אפשרית של הטיפול. תכנון מבריק.

לסיכום: רוב ה"כשלים" בניסוי עליהם הצביעו מבקריו אינם כשלים כלל וכלל. הבעיה העיקרית בניסוי היא הבעיה עליה הצביע ד"ר וינדלר: מתיאור הניסוי עולה כי הוא תוכנן כדי לזהות אפקט במדד מסויים – VAS, ונכשל לזהות את האפקט במדד הזה, ש/הוא משתנה המחקר הראשי (בפועל). אמנם נצפה אפקט במשתנה אחר, אבל מדובר במשתנה מחקר משני, והסיכוי לתוצאת false positive במשתנה המשני גבוהה יותר מ-5% אם לא נצפה אפקט במשתנה הראשי.

הליידי טועמת תה

עצמו את עינכם ודמיינו לכם אחר הצהריים אביבי בקיימברידג’, אנגליה, בשנות העשרים של המאה הקודמת. אדונים וגבירות מתכנסים על אחת המדשאות למסיבת תה.

הליידי, גיבורת הסיפור שלנו, היא מוריאל בריסטול. היא לא רק ליידי, אלא מדענית בזכות עצמה, ביולוגית החוקרת את תהליכי הפוטוסינתזה. למרבה הצער, לא ידועים לנו עוד פרטים רבים אודותיה, ואפילו תמונה שלה לא השתמרה.

הגיבור הראשי של הסיפור שלנו הוא דווקא הגבר שיתייצב מייד מול הליידי – הג'נטלמן, אם אפשר לקרוא לו כך, כיוון שהדעות חלוקות.

הוא היה איש נמוך ורזה בעל זקן תיש, לבוש ברישול, חובש משקפיים עבות זגוגית, ומקטרת נצחית בפיו (שלא משה מפיו גם כאשר עסק בשחיה). הוא היה נקמן. נוטר טינה. יהיר. כאשר שיחה שעממה אותו, הפגין זאת על ידי הוצאת שיניו התותבות מפיו וניקויין. הוא היה מהתומכים הגדולים באאוגניקה, תחום מדעי שעסק באפשרויות להשבחת המין האנושי באמצעים גנטיים, ואף כיהן כפרופסור לאאוגניקה באוניברסיטת קיימברידג'. הוא היה שוחר מדון. בהזדמנות אחת כתב מאמר שאורכו עמוד אחד בלבד. חלקו הראשון של המאמר עסק בתיאור הבעיה והמאמצים הרבים שהשקיע אחד מיריביו המדעיים להגיע לפתרון. לאחר מכן הופיע הפתרון לבעיה שאורכו שלוש שורות. המאמר הוגש לפרסום בכתב העת היוקרתי אותו ערך יריבו (אך זה סירב לפרסמו)*. עוד מסופר עליו כי באמצע הרצאה של אחד מעמיתיו בקיימברידג' קם לפתע ממקומו, נטל את הגיר מידיו של המרצה ההמום, ושרטט על הלוח דוגמה שהפריכה את טענותיו של המרצה. הוא לא הסתפק בכך, אלא גם נזף בו: "אני מקווה שמעתה והלאה יעסוק המרצה הנכבד רק בנושאים שבהם הוא מבין. איך אפשר לטעות בשאלה כה פשוטה?"**

הוא היה גנטיקאי נודע, ולפי ריצ'רד דוקינס הוא הביולוג הגדול ביותר מאז דרווין.  הוא חקר את עבודתו של גרגור מנדל ואת הנתונים שפרסם. במחקרו הגיע למסקנה כי מנדל הגדול "שיפץ" את הנתונים שלו, כך שיתאימו יותר לתיאוריה הגנטית שפיתח.

הוא היה עקשן, וכמעשן כבד סירב להפסיק לעשן גם כאשר החלו להופיע עדויות הקושרות בין עישון וסיכול לחלות בסרטן. ב-1958 אף פרסם שני מאמרים בכתב העת Nature, בהם כתב, נאמן לעקרון כי מתאם אינו מעיד על סיבתיות,  כי לא ניתן לטעון על סמך הנתונים שנאספו עד כה כי עישון אכן גורם לסרטן. הוא אף הציע תיאוריה חליפית לפיה מחלת הסרטן גורמת לרצון לצריכת ניקוטין, כלומר לעישון.

הוא הלך לעולמו ב-1962 ממחלת הסרטן.

הוא היה סיר רונלד פישר, אחד המדענים המשפיעים ביותר של המאה ה-20.

ומשהכרנו את גיבורינו, נחזור אל מסיבת התה בקיימברידג'.

אחד ממשתתפי המסיבה הגיש לליידי, ד"ר מוריאל בריסטול, ספל תה. מייד לאחר שטעמה ממנו הניחה הליידי בריסטול את הספל, כיוון שהתה שבתוכו לא הוכן כהלכה: החלב הוסף לתה לאחר שנמזגו לתוכו המים הרותחים, ותה ראוי לשמו יש להכין בתהליך הפוך: קודם יש למזוג את החלב לספל, ורק אחר כך להוסיף מים רותחים. הטעם, טענה ד"ר בריסטול, שונה לגמרי.

פישר שמע את הטענה ונדרך. כמדען, הוא לא היה מוכן לקבל טענה כה פסקנית ללא סימוכין או נתונים תומכים. והאובססיה ששוכת בליבו של כל מדען טוב, דחקה בו לבדוק מייד את נכונות הטענה. הוא הציע לליידי בריסטול לעמוד מול אתגר טעימה, והיא נענתה בשמחה. לאחר מספר דקות ששל תכנון, הניסוי, שכולל בתוכו את כל העקרונות הבסיסיים שחייבים להמצא בכל ניסוי מדעי, יצא לדרך.

פישר התייצב מול בריסטול ובידיו שני ספלי תה; באחד מהם החלב נמזג לפני המים, בשני המים נמזגו לפני החלב. שני ספלים, כי כל ספל משמש כביקורת לרעהו.  בריסטול לא ידעה איזה ספל תה הוכן באיזה אופן. היא טעמה את התה בכל אחד מהספלים, ואמרה כיצד לדעתה הוכן התה בכל ספל. מבלי לומר מילה, מבלי להזיז שריר בפניו, רשם פישר את התשובה בפנקס קטן. תוצאות הניסוי יישארו סמויות עד סופו. הוא פנה לאחור וחזר עם זוג ספלים חדש. כך שמונה פעמים. הסדר בו הוגשו הספלים לליידי (מים לפני חלב בספל שביד ימין או בספל שביד שמאל) נקבע באופן מקרי, כך שלא תהיה אפשרות לניחוש על סמך תבנית כלשהי.

ולאחר שתם הניסוי, יש כמובן נתונים שצריך לנתח באופן סטטיסטי, לחשב p-value  ולהודיע מהן התוצאות, ומי אם לא רונלד פישר הוא האיש המתאים לעשות זאת?

האם היו הדברים מעולם או שזו רק אגדה? פישר פרסם מאמר שהפך ברבות השנים למאמר קלאסי בענף הסטטיסטי של תכנון ניסויים: The mathematics of the lady tasting tea (קישור לקובץpdf). במאמר מתאר פישר את סיפור המעשה, ומציג מספר ניסויים אפשריים שבעזרתם ניתן לבחון את טענת הליידי ואת הדרך לניתוח סטטיסטי של הנתונים. אולם, הוא לא מזכיר את שמה של הליידי, ואינו מציין אם מדובר בסיפור אמיתי או רק בדוגמא משעשעת.

אבל אני מכיר מישהו שטוען בספרו כי הוא מכיר מישהו שסיפר לו כי הוא היה שם, במסיבת התה בקיימברידג', וראה כל זאת במו עיניו. והליידי, ד"ר מוריאל בריסטול, הייתה ליידי אמיתית. היא לא טעתה אפילו פעם אחת.


סיפרתי סיפור זה ב-"סיפור נובה – ערב סיפורי מדע ומדענים" שנערך במסגרת אירוע ספקנים בפאב בספטמבר 2012.

*  היריב הוא הסטטיסטיקאי קרל פירסון, המייסד והעורך הראשון של כתב העת ביומטריקה.

** המרצה הנזוף הוא הסטטיסטיקאי ג'רזי ניימן, שיחד עם בנו של קרל פירסון, אגון, פיתח את התיאוריה של בדיקת השערות סטטיסטיות

כשלים סטטיסטיים אפשריים בניסויים קליניים – סקירת ספרות

כפי שכתבתי בהקדמה לסדרת הרשימות הזו, הופתעתי לגלות כי יש מעט מאוד פרסומים בנושא זה. ברשימה זו אסקור את המעט שמצאתי. אם מי מהקוראים מכיר או נתקל בעוד פרסומים בנושא, אשמח לקבל הפניה.

המשך הרשימה עלול להיות סתום בעיני חלק מהקוראים. לא להבהל – אני אסביר את הכל ברשימות הבאות בסדרה.

בשנת 2000 פרסמו  Assmann, Pocock,  Enos ו- Kasten מאמר שכותרתו "Subgroup analysis and other (mis)uses of baseline data in clinical trials" בכתב העת היוקרתי The Lancet. הם בחנו 50 מאמרים שמציגים תוצאות מניסויים קליניים, ופורסמו בארבעה כתבי עת מובילים בתקופה של שלושה חודשים בשנת 1997., ובחנו את האופן בו הוצגו ונותחו נתוני הבסיס (baseline data) של הניסויים האלה., וכן את הדרך בו השתמשו בנתונים אלה לפילוח אוכלוסיית הניסוי (subgrouping). המסקנות של קסטן ועמיתיה עגומות: מחצית המחקרים השתמשו בשיטות סטטיסטיות"לא מתאימות"; שני שליש מהמחקרים דיווחו תוצאות לגבי תתי-אוכלוסיות, שוב ללא שימוש במבחנים סטטיסטיים מתאימים. הארבעה פרסמו גם סקירה טכנית יותר של ממצאיהם המיועדת לסטטיסטיקאים בכתב העת Statistics in Medicine בשנת 2002.

Zlowodzki, Jönsson, ו-  Bhandariפרסמו ב-2005 מאמר שכותרתו "Common Pitfalls in the Conduct of Clinical Research". הם מתייחסים שם למחלקה רחבה של מחקריים קליניים, ובפרט לניסויים קליניים מבוקרים. הכשלים האפשריים שהם מונים בניסוי קליני מבוקר הם: חוסר סמיות (lack of blinding), כשלים ברנדומיזציה, השמטת חולים שלא סיימו את הניסוי (dropouts) מניתוח הנתונים, עצמה סטטיסטית נמוכה עקב מדגם קטן מדי, והגדלת הטעות מהסוג הראשון עקב בדיקת השערות מרובות וניתוח משתנים מרובים.

Helberg פרסם ברשת מאמר שכותרתו "Pitfalls of Data Analysis", עם כותרת המשנה "How to Avoid Lies and Damned Lies". הלברג לא עוסק בניסויים קליניים אלא מתייחס לנושא באופן כללי. המאמר שלו מזכיר בסגנונו את הספר הקלאסי של דארל האף "How to lie with statistics", שגם נכלל ברשימת המקורות שלו. בין הכשלים שהוא מונה: הטיה עקב דגימה לא נכונה, חוסר תקפות של הנחות המודל הסטטיסטי, עצמה נמוכה, בדיקת השערות מרובות, טעויות מדידה. הוא מקדיש חלק שלם במאמר לכשלים בפירוש התוצאות של המחקר, ובפרט: ההבדל בין משמעות סטטיסטית למשמעות מעשית, אי התייחסות לדיוק התוצאות (הן במובן של precision  והן במובן של accuracy), והפרשנות של מתאם כסיבתיות. בנוסף, הוא מביא דוגמאות להצגות גרפיות מטעות.

Strasak, Zaman, Pfeiffer, Gobel ו- Ulmerפרסמו ב-2007 מאמר שכותרת ו"Statistical errors in medical research – a review of common pitfalls" (הקישור לקובץ pdf). בעבודתם הם סקרו עשרות מאמרים שפורסמו בכתבי עת שונים, וזיהו בסך הכל 47 סוגי כשלים שונים. הם מיינו את הכשלים לחמש קבוצות לפי שלבי המחקר הרפואי: תכנון המחקר, ניתוח הנתונים, תיעוד המחקר, הצגת הנתונים, ופירוש התוצאות (interpretation). החלוקה הראשונית שלהם משמשת כבסיס לסדרת הרשימות הזו.

Young התייחס ב-2007 לעבודה של Strasak ועמיתיו במאמר שכותרתו "Statistical errors in medical research – a chronic disease?" (קישור לקובץ pdf), והוסיף תובנות משלו, בעיקר לגבי שלב ניתוח הנתונים. הוא אמנם משבח את עבודתם, אך מסתייג מקביעתם כי "אין צורך לקרוא ספרי לימוד שלמים בנושא הסטטיסטיקה". הוא מציין, ובצדק, כי "קריאה של טקסטים בסטטיסטיקה  בהחלט שווה את המאמץ", וישנם ספרי לימוד שאינם כה קשים לקריאה.

הנושא של משמעות סטטיסטית מול משמעות קלינית הוא נושא כאוב למדי. לעיתים ניתן לגלות במחקר אפקט כלשהו מובהק סטטיסטית, אך האם יש לו גם משמעות מבחינה קלינית/רפואית? לא תמיד. בפגישת עבודה שהייתה לי ולעמיתיי לפני מספר חודשים עם פרופ טום פלמינג, מבכירי הסטטיסטיקאים של דורנו, הוא אמר (ציטוט חופשי מהזכרון): "מטרת הניסוי הקליני אינו השגת אפקט מובהק סטטיסטית, אלא השגת עדות סטטיסטית לאפקט משמעותי מבחינה קלינית". הדברים האלה ברורים לכל ביוסטטיסטיקאי, אך לא תמיד לחוקרים. לשמחתי, גיליתי מספר לא מועט של התייחסויות לנושא. פירוש מיידי של אפקט מובהק סטטיסטית כאפקט משמעותי מבחינה קלינית הוא לא רק כשל באינטרפרטציה. זה מעיד גם על כשל בשלב התכנון של הניסוי, וגם על כשל בניתוח של כלל הנתונים שהצטברו.  שני דיונים טובים בנושא ניתן למצוא במצגת של Pazdur מ-FDA (זמינה ברשת בלינק הזה), וגם במאמר שפרסם בכתב העת The Oncologist  איש FDA נוסף, Kane, ב-2008, שכותרתו "The Clinical Significance of Statistical Significance".

עוד  ראוי לציין בסקירה קצרה זו את השקפים מסדרת הרצאות בביוסטטיסטיקה לקהל הרחב שניתנו על ידי המרצים באוניברסיטת ג'ונס הופקינס, שכבר דיווחתי עליהם לפני מספר שבועות.

הרשימות הקודמות בסדרה

כשלים סטטיסטיים אפשריים בניסויים קליניים – הקדמה

השרדות: איך אפשר לדעת מה יהיה?

בעקבות הערתו של עופר לרשימה בה נתתי לינק למצגת ההרצאה שלי בכנס האחרון של האיגוד הישראלי לסטטיסטיקה, אני מפרסם כאן הסבר כללי ולא טכני שמיועד לקהל הרחב על הנושא בו עסקה ההרצאה. אני חייב להתריע בפני הקוראים כי מדובר ברשימה ארוכה מהרגיל, ולמרות כל מאמצי ייתכן מאוד שהיא עדיין לא מספיק ברורה עבור הקהל הרחב (אני מקווה מאוד שכן). בכל מקרה, אני שמח לפתוח כאן חלון אל העולם שבו אני פועל.

אחד הנושאים שמעניינים אותי הוא ניתוח השרדות, ותכנון של ניסויים קליניים לבדיקת אפקט של טיפול תרופתי על ההשרדות.

מה זה אומר? במחלות רבות, משך הזמן שעובר עד להתרחשותו של אירוע קליני מסויים (ומוגדר מאש) מהווה אינדיקציה לחומרת המחלה. במחלות כמו סרטן ו-ALS (הידועה גם בשם "מחלת לו גריג", החולה המפורסם ביותר כיום במחלה זו הוא הפיזיקאי סטיבן הוקינג) האירוע הוא בדרך כלל מוות. בטרשת נפוצה, מחלה שמעניינת אותי במיוחד, אירוע כזה יכול להיות התקף נוירולוגי או הדרדרות ביכולות הפיזיות (על פי סולם ה-EDSS). מסיבות מובנות יש עניין לבדוק האם טיפול תרופתי (קיים או חדש) , יכול להאריך את משך הזמן הממוצע עד לאירוע, או, במילים אחרות, להקטין את קצב התרחשות האירועים.

איך בודקים את זה? אפשר כמובן לקחת קבוצת חולים, לתת לחלק מהם את התרופה שאנו רוצים לבחון ולחלק מהם טיפול ביקורת (פלסבו או הטיפול הסטנדרטי המקובל), ולהמתין עד שכל אחד מהחולים יעבור את האירוע שבו מתעניינים. אז נוכל להשוות את משך הזמן הממוצע עד להתרחשות האירוע בקבוצה אחת עם מקבילו מהקבוצה השניה. ניסוי כזה הוא בעייתי מאוד. הוא עלול להמשך זמן רב מאוד, ולמעשה משכו אינו מוגדר מראש. לכך יש השלכות מעשיות ואתיות כאחד. איזה חברת תרופות תתחיל ניסוי שלא ידוע מראש מה יהיה משכו ומה תהיה עלותו? איזה חולה יסכים להסתכן בטיפול בפלסבו לזמן בלתי מוגבל.

אפשר לתכנן את הניסוי באופן אחר: נמתין פרק זמן מסויים, קבוע מראש, נניח שנה. חלק מהחולים יעברו בפרק זמן זה את האירוע הקליני, ועבורם נדע בדיוק את משך הזמן שעבר מתחילת הטיפול ועד האירוע. שאר החולים לא יחוו את האירוע, ועבורם לא נדע את משך הזמן המדויק עד התרחשות האירוע, אבל כן נדע כי הוא ארוך משנה. מתברר שהאינפורמציה הזו מספיקה כדי לאמוד את משך הזמן הממוצע על לאירוע וכן לקבוע האם יש הבדלים בין שתי קבוצות הטיפול. יותר מכך, אפשר לקבוע מראש את גודל המדגם הדרוש כדי לזהות הבדל באופן מובהק סטטיסטית.

גודל המדגם הדרוש קשור ישירות למספר האירועים הצפויים להתרחש במהלך הניסוי, והקשר הוא דרך ההנחות לפיהן הניסוי מתוכנן. באחד השקפים הבאתי דוגמא שבה משך הזמן הממוצע עד לאירוע בחולים הלא מטופלים הוא בערך שש שנים, ורוצים לבדוק האם טיפול כלשהו מאריך את משך הזמן הממוצע ל-8 שנים בערך. חישבתי ומצאתי כי מדגם של 1000 חולים, שיטופלו במשך שנתיים, יספק עצמה סטטיסטית של 83% לזיהוי הבדל מובהק בין הקבוצות. אם מניחים בנוסף כי הסיכון לאירוע הוא קבוע לאורך הזמן, אפשר לחשב ולמצוא כי בתנאים האלה בערך 30% מהחולים הלא מטופלים (כלומר, מהחולים המטופלים בפלסבו) יעברו אירוע, כלומר 150 חולים בערך. לעומת זאת, רק 22% מהחולים המטופלים בטיפול הנסיוני אמורים לעבור אירוע (אם התרופה באמת עובדת), כלומר רק 110 מבין 500 החולים המטופלים יעברו את האירוע. לכן, בסופו של דבר אנו אמורים לצפות ב-260 אירועים. אפשר לעשות את החשבון הזה גם מהסוף להתחלה: תחילה לחשב כי יש צורך לצפות ב-260 אירועים כדי להגיע לעצמה הסטטיסטית הדרושה, ומשם לקבוע את גודל המדגם (1000 חולים).

המשמעות של כל הדיון האחרון: אם במהלך הניסוי ייצפה מספר קטן יותר של אירועים מכל סיבה שהיא, אזי העצמה הסטטיסטית של הניסוי תהיה נמוכה יותר. ולכן, השאלה שמדירה את שנת הסטטיסטיקאי (וכל צוות הפרויקט, בעצם) היא: האם בסוף הניסוי נגיע למספר האירועים הרצוי?

בואו נעבור לרגע ללוגיסטיקה של הניסוי הקליני. ברור לחלוטין כי אי אפשר לגייס בבת אחת 1000 חולים שיסכימו להשתתף בניסוי ויתחילו כולם את הטיפול באותו יום. גיוס של כמות כה גדולה של חולים יכול לארוך זמן רב. נניח שמשך הגיוס הוא שנה וחצי, כלומר בממוצע מצטרפים לניסוי בכל יום  כשני חולים ( 1.828 חולים, למתעניינים). פירוש הדבר הוא שאחרי שנה ורבע יהיו בתוך הניסוי כ-830 חולים. הראשון בהם כבר מטופל שנה ורבע, האחרון שהצטרף לניסוי התחיל את הטיפול זה עתה. מכאן מקבלים כי משך זמן הטיפול הממוצע לחולה בנקודת זמן זו הוא 0.625 שנים (כשבעה וחצי חודשים). חלק מהחולים האלה כבר עברו מן הסתם את האירוע הקליני בו אנו מתעניינים. נניח שעד עתה אירעו בסך הכל 60 אירועים. ובכן – האם בקצב הזה נגיע אל 260 האירועים הדרושים להצלחת הניסוי? איך נוכל לדעת זאת, כאשר איננו יודעים איזה טיפול מקבל כל אחד מהחולים?

בגלל השאלה הזו, גבירותיי ורבותיי, אני לא ישן טוב בלילה. אם אינכם יודעים, ניסויים קליניים משרים קונצנזוס. אם הניסוי מסתיים בהצלחה, אזי יש תמימות דעים בשאלה מי אחראי להצלחה. כל אחד חושב שהכל רק בזכותו. לעומת זאת, אם הניסוי מסתיים בכשלון, גם אז יש תמימות דעים: כולם מאשימים את הסטטיסטיקאי. ולכן, אחד מתפקידיו החשובים של הסטטיסטיקאי הוא לעקוב אחרי הנתונים המצטברים במהלך הניסוי ולהתריע על כל בעיה שהוא יכול לזהות.

אך איך אפשר לנסות להעריך כמה חולים ישרדו עד סוף הניסוי וכמה יעברו את האירוע?

יש תשובה נאיבית לשאלה הזו. כאמור, יש בניסוי כרגע 830 חולים עם משך טיפול ממוצע של 0.625 שנים, כלומר עד עתה צפינו במשך הניסוי ב-520 (830×0.625) שנות טיפול בערך. אנו מצפים בסך הכל לצפות ב-2000 שנות טיפול (1000×2), כלומר עד עכשיו צפינו ב-26% בערך מסך החשיפה הצפויה לטיפול. אם מספר האירועים פרופורציוני לסך החשיפה, הרי ש-60 האירועים שבהם צפינו עד כה מהווים 26% ממספר האירועים הצפוי, ולכן בסך הכל צפויים כ-230 אירועים בסוף הניסוי. לא טוב, אבל יש מה לעשות: אפשר להגדיל את המדגם ולגייס עוד 127 חולים מעבר ל-1000 שתכננו (תרגיל: איך הגעתי ל-127?). אבל האם ההנחה לפיה מספר האירועים פרופורציוני לחשיפה נכונה?

כאשר כתבתי את החלק הסטטיסטי של פרוטוקול אחד הניסויים הקליניים שהחברה בה אני עובד עורכת, התלבטתי רבות בשאלה הזו. הפתרון הנאיבי שתיארתי זה עתה, נראה לי, איך לומר, נאיבי. הקדשתי מחשבה לנושא ומצאתי פתרון שונה. התייעצות עם פרופ' פול פייגין מהטכניון הביאה לפתרון שמבוסס על גישה אחרת, ובסופו של דבר זה הפתרון שנכלל בפרוטוקול.

חלף זמן מה, ושינוי ארגוני בחברה שינה את מבנה ההנהלה, וכך נתבקש סטטיסטיקאי העובד בשלוחת החברה בארה"ב, ד"ר יויי שו לחוות את דעתו על הפרוטוקול. אותו סטטיסטיקאי, הפנה אותי לשני מאמרים שפרסם הסטטיסטיקאי האנגלי ג'ון וויטהד, בהם גם הוא ניסה לענות על השאלה הזו. במאמר שפרסם וייטהד בשנת 2001 הוא הציע מתווה לחיזוי מספר האירועים הצפויים בסוף ניסוי כזה, על סמך הנתונים החלקיים שקיימים במהלך הניסוי: משך הזמן שבו כל חולה מטופל, האם החולה עבר אירוע, ואם כן, מתי, אך מבלי לדעת באיזה טיפול מטופל כל חולה (בהתאם לעקרון הסמיות הכפולה שעומד בבסיס כל ניסוי קליני). במתווה של וייטהד יש שלושה שלבים. תחילה יש לאמוד את קצב האירועים הכללי באוכלוסיית הניסוי, שהוא עירוב של קצב האירועים באוכלוסיית החולים המטופלים בתרופה הנסיונית וקצב האירועים באוכלוסיית חולי הפלסבו. בשלב השני יש להפריד באופן כלשהו את הקצב הכללי לשני הקצבים של שני הקבוצות, תוך הסתמכות על ההנחות ששימשו לתכנון הניסוי. לאחר ההפרדה, אפשר לחשב את מספר האירועים הצפוי מתוצאות השלב השני.

נשמע כמו תכנית טובה, והשלב הראשון והשלישי פשוטים למדי, אבל איך מיישמים את השלב השני? את זה וייטהד הסביר במאמר נוסף שפרסם בשנת 2001, עם שותפים. הפתרון שהוא הציע שונה משני הפתרונות ששקלתי בעת כתיבת הפרוטוקול. אבל החדשות המשמחות מבחינתי הן ששני הפתרונות ששקלתי משתלבים היטב במתווה של וייטהד, והם פתרונות קבילים על פי המאמר.

מאחר ויש בידנו שלושה יישומים אפשריים, עלתה השאלה האם יש עוד דרכים ליישם את המתווה של וייטהד? מסתבר שכן. התייעצות עם פרופ' דוד צוקר מהאוניברסיטה העברית הניבה פתרון שהוא הרחבה של הפתרון המקורי שלי, והתייעצות עם ד"ר עפרה ברנט שעובדת יחד איתי הביאה לפתרון אפשרי נוסף. הדרך שהציע ד"ר שו התגלתה כשקולה לזו שמופיעה בפרוטוקול.

עכשיו, כשבידי 5 גישות אפשריות לאמידת מספר האירועים הצפוי בסוף הניסוי, השאלה הבאה שעלתה ברורה מאליה: איזו גישה היא הטובה ביותר? אני יכול, כמובן, לערוך את החישובים על פי 5 הגישות, ולהמתין לסוף הניסוי. דרך מהירה יותר היא לערוך סימולציה של ניסוי קליני, בתנאים שונים, ולראות איזה גישה חוזה את מספר האירועים באופן הטוב ביותר.

בחרתי לערוך סימולציה של הניסוי שתיארתי קודם: 1000 חולים, בשתי קבוצות טיפול, כאשר משך הטיפול הוא שנתיים, ומשך גיוס החולים הוא שנה וחצי, כך שמשך הניסוי ממועד גיוס החולה הראשון ועד סיום הטיפול של החולה האחרון הוא 3.5 שנים. הסימולציה קבעה לכל חולה את משך הזמן עד לאירוע באמצעות התפלגות וויבול (הסבר מייד). אם משך הזמן שהוגרל היה גדול משנתיים, החולה נחשב כשורד. כמו כן, חישבתי את הזמן הקלנדרי של האירוע, ואם הוא התרחש במשך השנה ורבע הראשונות של הניסוי, הוא נחשב כאירוע שצפיתי בו לצורך חיזוי מספר האירועים בסוף הניסוי.

מהי התפלגות וויבול? זוהי התפלגות סטטיסטית גמישה למדי, שמקובלת כמודל טוב עבור נתוני השרדות. להתפלגות זו שני פרמטרים. האחד מבטא את הסיכון של החולה לעבור אירוע קליני (מסומן באות היוונית ביתא במצגת). כאשר ביתא נתון, הפרמטר השני מאפשר לבטא את הסיכוי שחולה ישרוד עד נקודת זמן מסויימת (כלומר, לא יעבור אירוע קליני במשך תקופה מסויימת).

ערכו של הפרמטר ביתא משקף את אופי המחלה. תארו לכם רופא, חולה וסטטיסטיקאי שנפגשים יחד (ברכבת, או בבית המשפט, לא ממש חשוב איפה). החולה מספר כי הוא כבר X שנים במצבו הנוכחי, ולכן הוא אופטימי, מאמין כי מצבו ימשיך להישאר יציב, ובמלים אחרות, הוא מאמין כי ככל שחולף הזמן, הסיכון להחמרה במחלתו הולך וקטן. הרופא ממהר לצנן את התלהבותו, ואומר לא כי אם עבר הרבה זמן ללא הדרדרות, זהו אות לכך שהאירוע הקליני הולך וקרב. כלומר, הרופא מאמין כי הסיכון להחמרה במחלה הולך וגדל עם הזמן. הסטטיסטיקאי עובד בחברת תרופות, ראה אלפי נתונים של אלפי חולים, ולכן הוא מחייך לעצמו. הנתונים שראה מעידים, לדעתו, כי הסיכון הוא קבוע לאורך זמן, ומשך הזמן בו החולה נמצא במצב יציב לא מעלה ולא מוריד. (במחלת הטרשת הנפוצה זה כנראה נכון). ערכו של הפרמטר ביתא קובע את כיוון הסיכון: עולה (ביתא גדול מ-1), יורד (ביתא קטן מ-1) או קבוע לאורך זמן (ביתא שווה אחד). לכן ערכתי סימולציות למצבים בהם ערכי ביתא הם 0.5, 1 ו-2. הניסוי תוכנן בהנחה של סיכון קבוע לאורך זמן (ביתא=1).

הפרמטר השני, גאמא, מבטא את הקצב בו מתרחשים האירועים, ובעזרתו ניתן לבטא את אחוז החולים שישרדו (לא יעברו אירוע קליני)  במשך שתי שנות הטיפול. הניסוי תוכנן בהנחה ש-70% מהחולים המטופלים בפלסבו ישרדו, וערכתי סימולציות לשלושה מצבים: 70% שורדים, 60% שורדים (אוכלוסיה "פעילה" – פחות שורדים, יותר אירועים קליניים) וגם 80% שורדים (אוכלוסיה לא פעילה).

בסך הכל ערכתי לכן סימולציות של תשעה תרחישים אפשריים, שאחד מהם הוא התרחיש בו הנחות התכנון מתקיימות. הנה התוצאות של התרחיש הזה:

תוצאות הסימולציה

בציר האופקי מופיעות 6 נקודות: Actual הוא מספר האירועים בפועל בסוף הניסוי, Naïve הוא מספר האירועים החזוי על פי הגישה הנאיבית, וכן הלאה. (ML היא הגישה שציינתי בפרוטוקול הניסוי). בציר האנכי מופיע מספר האירועים החזוי בסוף הניסוי (תוצאות מ-500 הרצות של הסימולציה). הקו האפקי מסמן את 260 האירועים הדרושים. הגרפים האדומים הם דיאגרמות קופסא (box plots) שפותחו על ידי ג'ון טוקי (מספר 9 ברשימת 15 הסטטיסטיקאים הגדולים). הקצה העליון של כל מלבן מסמן את הרבעון העליון של הנתונים, הקצה התחתון מסמן את הרבעון התחתון, והקו שבאמצע המלבן מסמן את החציון. סימן ה-+ מסמן את הממוצע.

מהגרף הזה לומדים שני דברים. ראשית, כל השיטות נותנות תוצאות דומות,בממוצע. שנית, אם ההנחות לפיהן הניסוי תוכנן אכן נכונות, אז אין מה לדאוג.

אולם שמונת התרחישים האחרים פחות מרגיעים (מי שמעוניין להתעמק בהם מופנה אל המצגת). עדיין נראה כי כל חמשת השיטות נותנות תוצאות דומות בדרך כלל (עם כמה חריגות, שעדיין לא ברורה לי משמעותן). זה אומר שהשיטה הנאיבית היא לא כל כך נאיבית, או שמא השיטות המתוחכמות גם הן נאיביות למדי. אמנם, אם ההנחה של סיכון קבוע תקפה, אז השיטות חוזות באופן לא רע את מספר האירועים בניסוי (הניתוח שערכתי עד כה הוא פשטני ויש מקום לניתוח יותר מעמיק שבכוונתי לערוך), אבל במקרים האחרים הניבויים סוטים מהתוצאה האמיתית וחושפים אותנו לסיכונים. כרגיל בסטטיסטיקה יש שתי טעויות אפשריות. טעות אפשרית אחת היא ניבוי חסר של מספר האירועים הצפוי. עקב כך, ייתכן כי יוחלט להגדיל את המדגם (כלומר לגייס עוד חולים לניסוי, ולהאריך את משך הניסוי ועלותו) ללא צורך. ניבוי עודף של מספר האירועים עלול להביא להמשך הניסוי ללא שינוי, ורק בסופו יתברר כי לא התרחשו מספיק אירועים והניסוי נכשל עקב כך.

מה הלאה? לאחר ההרצאה שאל אותי פרופ' דוד שטיינברג מאוניברסיטת תל-אביב האם ניתן לבדוק אם הנחות הניסוי תקפות במהלך הניסוי. עניתי כי אני חושב שלא, אבל אחר כך עלה בדעתי רעיון שאולי יאפשר בדיקה האם הסיכון עולה, יורד או קבוע במהלך הניסוי, וזאת על ידי הרחבת הגישות שבדקתי לאמידה של מספר פרמטרים (במלים אחרות, אני רוצה לאמוד בו זמנית גם את מספר האירועים הצפוי וגם את הפרמטר ביתא). תיאורטית זה לא מסובך. טכנית זה ידרוש מקסימיזציה של פונקציה לא לינארית של שני משתנים, דבר שדורש קצת עבודה. מקווה שאוכל לעשות אותה מתישהו.

כשלים סטטיסטיים אפשריים בניסויים קליניים – הקדמה

לפני כחודשיים פנה אלי אחד מבכירי החברה בה אני עובד וביקש ממני שאעזור לו להכין מצגת על נושאים סטטיסטיים הקשורים בפיתוח תרופות בכלל ובניסויים קליניים בפרט. שמחתי לעזור (חלק החומר הדרוש היה לי מן המוכן: תפקיד הסטטיסטיקאי בתהליך הפיתוח הקליני, שיקולים סטטיסטיים בתכנון ניסויים בבעלי חיים, בין שתי טעויות – הרשימה בה הסברתי את נושא בדיקת ההשערות, ועוד כמה דברים). נתבקשתי גם לסקור כשלים סטטיסטיים נפוצים בניסויים קליניים, וזו הייתה משימה יותר מאתגרת, ובזכותה תיהנו אתם, קוראי הבלוג המתעניינים בנושא זה, מסדרה של רשימות שתסכם את ממצאי והגיגי.

ראשית, אתייחס לכותרת הסדרה. סטטיסטיקאים הם גם בני אדם (בניגוד לסברה הרווחת). לכן הם צפויים לטעות, וכיוון שכך, טעויות/כשלים סטטיסטיים בניסויים קליניים (או בכל מקום אחר בו פועל הסטטיסטיקאי) הינם בלתי נמנעים. רק מי שלא עושה לא טועה. האם יש כשלים סטטיסטיים "נפוצים"? אני רוצה לקוות שלא. במקומות מסודרים ישנם תהליכי בקרת איכות שתפקידם לסייע באיתור טעויות מבעוד מועד ולתקן אותן בזמן. עם זאת אף תהליך בקרת איכות אינו מושלם, וטעויות קרו, קורות ויקרו, גם לסטטיסטיקאים וגם לכל אדם אחר. לכן, הכותרת של סדרת  רשימות זו תהיה "כשלים סטטיסטיים אפשריים בניסויים קליניים", לא כשלים נפוצים, בתקווה שאכן זה המצב.

כלי מרכזי בבקרת איכות של עשיה סטטיסטית היא בקרת עמיתים (peer review). בקרה כזו עלולה להיכשל בשל מה שמכונה לפעמים "שלטון הקונספציה". אם כולם משוכנעים שמשהו נכון, למרות שהוא שגוי, השגיאה לא תתגלה, אלא רק כאשר יהיה מאוחר מדי. דרך טובה להמנע מכשל כזה היא מודעות. מי שמודע לשגיאה אפשרית ידע גם לחפש אותה ולהמנע ממנה. פעם נשאלתי בראיון עבודה מהי התכונה הטובה ביותר שלי. השבתי כי אני לומר משגיאות, ואיני עושה את אותה השגיאה פעמיים. אני עדיין חושב שזו תכונה טובה, ובכל זאת, עדיף תמיד ללמוד משגיאות של אחרים, לא משלך, וכן כדאי תמיד להשקיע עוד קצת מחשבה ומאמץ כדי להמנע מלעשות את השגיאה גם בפעם הראשונה.

כשהתחלתי לחפש "חומר" על הנושא נדהמתי לגלות כמה מעט נכתב על כשלים סטטיסטיים בתחום הניסויים הקליניים. תדהמה שניה אחזה בי שהחזקתי בידי את הרשימה של הכשלים האפשריים שזיהיתי, אם ממקורות שמצאתי ברשת ובפרסומים המדעיים, ואם כאלה שזיהיתי בכוחות עצמי. אמנם, לא גיליתי תגליות חדשות, כלומר כשלים אפשריים שלא הייתי מודע להם קודם לכן  (וזה לא אומר שאין כאלה), אבל מה מצאתי מספיק בהחלט כדי להעיק, ולעורר (לפחות בי) מודעות נוספת לנזקים שאני ועמיתי עלולים לעולל אם רק נירדם לרגע בשמירה.

איפה אפשר לטעות? בכל שלב שהוא. למעשה, הרשימה "תפקיד הסטטיסטיקאי בתהליך הפיתוח הקליני" שימשה אותי כנקודת מוצא. אפשר לטעות בשלב תכנון הניסוי, אפשר לטעות במהלך ביצוע הניסוי, ואפשר לטעות במהלך ניתוח הנתונים, הצגתם ופרשנותם. מטבע הדברים, ככל שטעות מתרחשת מוקדם יותר, כך השפעתה גדולה יותר, ולכן הטעויות הקריטיות ביותר נעשות בשלב התכנון (ראו למשל את הרשימה "מה הקשר בין איזופודים ותאונות דרכים?"). עם זאת, אין פירוש הדבר כי טעויות בשלבים מאוחרים ביותר הן זניחות. להיפך, הן עשויות להיות קריטיות לא פחות.

גם מי שלא עוסק בניסויים קליניים יוכל להפיק תועלת, לדעתי, מרוב הדברים שיובאו ברשימות הבאות. ההשלכה לתחומים אחרים היא מיידית. למעשה, כבר בשלב הראשוני, שהמצגת עוד הייתה טיוטה על גבי נייר, נוכחתי לדעת שדוגמאות רלוונטיות רבות כבר נסקרו כאן בבלוג. הצגות גרפיות מטעות יש כמעט בכל מקום, ופירוש שגוי של מתאם כסיבתיות נפוץ הרבה יותר בתחומים אחרים. לכן אני סבור שסדרת הרשימות הזו תעזור לא רק לעוסקים בסטטיסטיקה, אלא גם לצרכני הסטטיסטיקה, כלומר לכולכם, למעשה.

הרשימות הבאות בסדרה

כשלים סטטיסטיים אפשריים בניסויים קליניים – סקירת ספרות