בהרבה הצעות עבודה למשרות בתחום הטכנולוגיה (בעיקר למשרות Data Scientist, אך לא רק) נדרש ידע ו/או נסיון ב-“AB testing”.
מה זה AB testing? עיון קצר בויקיפדיה (הסבר נרחב באנגלית או הסבר מצומצם יותר בעברית) עולה כי זו שיטה להערכת ההשפעה של שינוי מסויים שיתבצע, למשל בדף אינטרנט (שאלות כמו האם הוספת תמונה לדף תגדיל את מספר הקליקים, וכדומה), כאשר A ו-B הם המצב שלפני השינוי, והמצב שאחריו. לפי ויקיפדיה (האנגלית),הגישה הזו החלה להתפשט בעולם הטכנולוגיה לפני כשבע שנים. כן מצויין שם, בצדק, כי זו בעצם גישה לתכנון ניסויים שגוסט (ראו גם כאן) פיתח עוד ב-1908.
למרות שזו התקדמות מתודולוגית משמעותית בחברות הטכנולוגיה, אני חושב שזו גישה נאיבית, בייחוד לאור ההתקדמות הרבה שחלה בתחום מאז 1908. הבעיה העיקרית במתודולוגיה הזו שהיא מיושמת בשיטת one factor at a time דבר שמתעלם מיחסי גומלין (אינטראקציות) בין מספר משתנים. על בעיה זו עמד פישר כבר בשנות העשרים של המאה הקודמת ואף הציע פתרון ראשוני (ניתוח שונות דו כיווני: two-way ANOVA) וכמובן יש פתרונות מתקדמים יותר שהציעו ממשיכי דרכו.
בעיות נוספות יכולות לצוץ בתכנון הניסוי עצמו: איך נקבע גודל המדגם? ((מישהו שלח לי לינק לסרטון הרצאה ביוטיוב בו המרצה נותן חסם לגודל המדגם הדרוש לאמידת התוחלת באוכלוסיה בעזרת אי שוויון גאוס-מרקוב, דבר שלומדים בשנה א סטטיסטיקה. את גודל המדגם הדרוש אפשר לחשב במדוייק – גם את זה לומדים בשנה א.)) איך בוחרים את המדגם כך שלא יהיו בו הטיות? ((דוגמאות מפורסמות – הבחירות של 1936 ו-1948 בארצות הברית)) איך מנתחים את התוצאות, כלומר האם משתמשים בשיטה הסטטיסטית המתאימה, אם בכלל? ((למשל, משתמשים במבחן סטטיסטי שמניח שקבוצת הניסוי וקבוצת הביקורת בלתי תלויות, למרות שבפועל הן תלויות זו בזו)) האם יש מודעות לטעויות האפשריות ולהסתברויות שבהן הן יקרו? ואם יש מודעות, מה עושים כדי לשלוט בגדלי ההסתברויות האלה? האם יש הבחנה בין אפקט מובהק לאפקט משמעותי? ((בפסקה האחרונה של רשימה זו יש דיון בנושא בהקשר של ניסויים קליניים))
אני מצטער לומר כי ביקרתי לא מזמן בחברה טכנולוגית גדולה ומצליחה, שם הוצגו לפני מספר טבלאות של “ניתוח נתונים”, ואני זיהיתי שם את כל הכשלים שמניתי זה עתה. ((עוד יותר עצובה העובדה כי בצוות היו שני סטטיסטיקאים, אחד מהם בעל תואר שני))
אפשר לומר: “מה אתה רוצה, עובדה שהם מצליחים גם ככה”, אבל האמת היא שהם הצליחו למרות הבעייתיות במתודולוגיה שלהם, בייחוד כאשר לב האלגוריתם שלהם מבוסס על הסתברות וסטטיסטיקה.
אורן צור ניסח את זה יפה בטוויטר: “נדמה לי שהטענה היא שזה זול ומיידי ורואים תוצאות גם אם אין מודל “טוב”.או שאי אפשר לשפר או להצביע על טעויות. הגישה היא “למה לי להשקיע בזה”. לפעמים זה עובד”.
גם רפאל כהן כתב לי בטוויטר: “כשאני מגיע לתחום מסוים אני מניח שהמומחה יודע משהו (domain knowledge) ושהניתוח שלי אמור לעזור לו. לקחתי מעצב לאתר, אני לא אעשה AB על כל פיקסל ואני צריך להחליט על הניסוחים, מיקום של כפתורים (עדיף שההרשמה לtrial תהיה למעלה או למטה?) וכו’. ואין לי מיליארד משתמשים ביום. גם אם יש לי אלפי משתמשים ביום אני עדיין ארצה לא לבזבז אותם על קונפיגורציות גרועות. בהרצאה לעיל סמולה הראה איך לחסום את מספר המשתמשים שצריך אבל אחד הדברים שצריך ללמוד מזה הוא שהניתוח הסטטיסטי הנאיבי היה מביא אותו לכך שצריך 80 אלף כניסות בשביל כל ניסוי, הוא מראה ש 13 מספיקים 13 אלף כמובן. אז מי שהסתפק בפחות בגלל תחושת בטן סביר להניח שהגיע לתוצאות סבירות קודם, יצר מספיק הכנסות לחברה שלו ולא פשט רגל.”. זוהי הבינוניות בהתגלמותה. למה לחשוב ולתכנן, שואל כהן, אם אפשר להשתמש בגישה נאיבית ולקבל משהו? אז מה אם אפשר לעשות יותר טוב?
לפני מספר שנים כתבתי כאן על עתיד הסטטיסטיקה בתעשיה. הדוגמאות לסטטיסטי-פוביה שהבאתי שם היו מנסיוני בתעשייה הפרמצבטית. אחזור על עיקרי הדברים כאן:
סופר המדע הבדיוני ה. ג’. וולס כתב כי “Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write.”
בכל הנוגע לתעשייה הפרמצבטית, העתיד אותו חזה וולס כבר כאן. הסטטיסטיקה מהווה נדבך מרכזי בכל תהליכי המחקר, הפיתוח, והייצור של התעשיה. איש אינו מעלה על דעתו לצאת לניסוי קליני ללא ליווי סטטיסטי צמוד, ובשנים האחרונות גוברת הדרישה לתמיכה סטטיסטית גם בשלבי פיתוח מוקדמים יותר, וגם בתהליכי הייצור.
אני מקווה שהמודעות לערך המוסף שמביאה הסטטיסטיקה עמה תחלחל גם לתעשייה הטכנולוגית, ככל שמתרחב השימוש בסטטיסטיקה כך גדלה הנחיצות של יכולת חשיבה סטטיסטית מצד השותפים לתהליך, והסתפקות במישהו “שיודע קצת יותר סטטיסטיקה מהמתכנת הממוצע” (כפי שהגדיר זאת אורן צור) מבטאת בינוניות ונאיביות במקרה הטוב.
אז אולי תכתוב פוסט מקיף על: ײ איך לבצע בדיקות ab תקינות ײ. זה ישמש אלפי אנשים בתעשיית האינטרנט בארץ. תודה (:
אולי אעשה את זה, אבל אני לא מתחייב. מה שבאמת צריך מי שמבצע ניסויים לעשות זה קורס בתכנון ניסויים.