חיפוש באתר

קישורים

עמודים

קטגוריות

ארכיב עבור תגית חשיבה סטטיסטית

עוד שימוש מפתיע לרנדומיזציה: קבלת החלטות

לפני שבוע, הצייצן eSivion העלה סקר לא שגרתי בטוויטר, בו ביקש מהמשיבים להצביע כך התפלגות התשובות לסקר תהיה 10% לתשובה א, 20% לתשובה ב, 30% לתשובה ג ו-40% לתשובה ד:

הניסוי הצליח![1]

איך עושים את זה, או יותר נכון, איך הציבור הצליח לעשות את זה?

אחת המגיבים לסקר סיפק ספוילר כחצי שעה לאחר שהסקר פורסם:

 

טוב, אני לא יודע עד כמה הספוילר הזה השפיע על התוצאה הסופית. אומר רק שאני נתבקשתי לחוות את דעתי כמה דקות אחרי שהסקר עלה, ועניתי שאתייחס רק לאחר שהוא הסתיים. התשובה אל אותו ליאור היא אכן הדרך הנכונה להגיע להתפלגות שרוצים: רנדומיזציה, אם כי אני הייתי ממליץ על ספרת היחידות של השניות, או על מחוג השניות.

לפני כמה ימים כתבתי על רנדומיזציה בהקשר על ניסויים מבוקרים, אבל רעיון הרנדומיזציה טוב גם לדרים אחרים, כמו להשיג תוצאה מסויימת בסקר של טוויטר. אבל…

אם תצפו במשחקי טניס מקצוענים, תראו שרבים מן השחקנים עונדים שעון יד. זה לא בהכרח בלל שהם ממהרים לאן שהוא, ורוצים לסיים את המשחק בהתאם לתוכניות שלהם[2]. כאשר מגיע תורו של שחקן טניס לחבוט את חבטת הפתיחה, יש לו בגדול שתי אפשרויות: לחבוט ימינה או לחבוט שמאלה[3] . אם יחבוט כל הזמן ימינה, היריב ייערך בהתאם, וזה גם מה שיקרה אם יחבוט כל הזמן שמאלה. גם אם יחבוט ימינה ושמאלה לסירוגין, היריב יעלה על זה מהר מאוד. חייבים לשמור כל הזמן על יתרון ההפתעה. איך עושים את זה? מציצים בשעון. אם מספר השניות שעברו בדקה הנוכחית קטן משלושים, חובטים ימינה. אחרת – חובטים שמאלה. כך ליריב לא תהיה דרך טובה לחזות לאן תיחבט החבטה הבאה.

זה קורה גם בבייסבול. כאן יש פיצ’ר, שהוא השחקן שזורק את הכדור לעבר החובט. יש כל מיני סוגי זריקות שהפיצ’ר יכול לזרוק: כדור מהיר, כדור מסובב, וכדומה. אם החובט יודע מראש איזה סוג זריקה יזרוק הפיצ’ר, זה ישפר את סיכוייו לחבוט בכדור[4].

הפתרון הוא כמובן לזרוק את הכדור באופן שיקשה על החובט לנחש מראש מה יהיה סוג הזריקה. אפשר לעשות את זה על ידי רנדומיזציה, למשל על ידי מבט מהיר בשעון. גרג מאדוקס, אחד מגדולי הפיצ’רים בכל הזמנים, סיפר כי הוא השתמש בשיטה הזו כדי לקבל החלטות באשר לזריקה שאותה יזרוק. זה כמובן לא מספיק, כדי להיות כמו גרג מאדוקס צריך גם כשרון נדיר, אבל הרנדומיזציה בודאי שלא הזיקה לא.


הערות
  1. אם כי מבחן כי בריבוע מראה כי ההתפלגות של ההצבעות שונה באופן מובהק סטטיסטית מההתפלגות לה קיווה אי-שיוויון []
  2. כמו שקרה בסרטו של אלפרד היצ’קוק זרים הרכבת []
  3. אני מפשט קצת את הדברים []
  4. גם ככה הסכוי לחבוט נמוך למדי. החובטים הממש טובים מצליחים לחבוט בכדור בכ-30% מהפעמים []

מה מספר הכדורים האדומים בכד? – אמידת נראות מירבית

בכד יש 90 כדורים, חלקם אדומים וחלקם לבנים. נאמר לכם כי מספר הכדורים האדומים הוא 45 או 60 (אין אפשרות אחרת).

אתם מוציאים מהכד 300 כדורים עם החזרה, כלומר: מערבבים היטב את תכולת הכד, מוציאים כדור, רושמים את צבעו, ומחזירים אותו לכד. אחר כך מערבבים שוב את תכולת הכד, מוציאים שוב כדור, רושמים את צבעו ומחזירים אותו לכד, כך 300 פעמים.

בסך בכל הוצאתם 175 כדורים אדומים מתוך 300. מהי ההערכה שלכם לגבי מספר הכדורים האדומים בכד?

הנה התשובות שקיבלתי לחידה הזו בטוויטר:

 

בואו נעשה קצת סדר.

ראשית, לגבי הבקשה להעריך את מספר הכדורים האדומים בכד: בשפה יותר “סטטיסטית”, הבקשה היא לאמוד את מספר הכדורים האדומים בכד, ולכן אשתמש מעתה בביטויים כגון “לאמוד” ו-“אומדן”.

אם בכד יש 45 כדורים אדומים, אז ההסתברות להוציא מתוכו כדור אדום היא 45 מתוך 90, כלומר חצי. לכן בעולם מושלם, מתוך 300 כדורים ששלפתם, מחציתם היו אדומים, כלומר הייתם שולפים 150 כדורים אדומים.

באופן דומה, אם בכד יש 60 כדורים אדומים, אז ההסתברות להוציא מתוכו כדור אדום היא 60 מתוך 90, כלומר שני שליש. לכן בעולם מושלם, מתוך 300 כדורים ששלפתם, שני שליש מתוכם היו אדומים, כלומר הייתם שולפים 200 כדורים אדומים.

כאן אתם יכולים כבר להבין למה הנתון שנתתי לכם הוא שהוצאו 175 כדורים אדומים: 175 הוא הממוצע של 150 ו-200, כלומר אתם נמצאים באמצע הדרך בין שני העולמות המושלמים ההיפותטיים. או שלא?

בקשה שקולה לבקשה שלי היא לאמוד את ההסתברות להוציא כדור אדום מהכד: האם ההסתברות הזו היא חצי או שני שליש. אם לא הייתי אומר לכם מראש שההסתברות הזו חייבת להיות חצי או שני שליש, הייתם בוודאי אומרים כי ההסתברות היא 175 מתוך 300, כלומר 0.5833.  בסוף הפוסט הזה אסביר מדוע.

אחת הדרכים האפשריות לאמוד את מספר הכדורים האדומים בכד, או באופן שקול, לאמוד את ההסתברות להוציא כדור אדום מהכד היא להניח שאם ראינו משהו, זה אומר שההסתברות שנראה את אותו משהו גבוהה. העיקרון הזה נקרא עיקרון הנראות המירבית.[1]

נדגים את העיקרון בעזרת דוגמא יותר קיצונית. נניח ששלפתם 300 כדורים מהכד וכל הכדורים שנשלפו היו אדומים. אם בכד היו 45 כדורים אדומים, אז ההסתברות למאורע הזה היא חצי בחזקת 300. אם בכד היו 60 כדורים אדומים, ההסתברות לשלוף 300 כדורים אדומים היא שני שליש בחזקת 300. לא צריך לדעת הרבה מתמטיקה כדי לדעת שחצי בחזקת 300 הרבה יותר קטן משני שליש בחזקת 300. לכן, אם הוצאתם 300 כדורים אדומים, האפשרות הסבירה יותר היא שיש בכד 60 כדורים אדומים, וזה יהיה האומדן שלכם למספר הכדורים האדומים בכד.

ההמשך ברור: יש לחשב את ההסתברות שנשלפו 175 כדורים אדומים בהנחה שיש בכד 45 כדורים אדומים, ואת ההסתברות שנשלפו 175 כדורים אדומים בהנחה שיש בכד 60 כדורים אדומים. אם ההסתברות הראשונה יותר גבוהה, אז האומדן שלכם יהיה 45. אם ההסתברות השנייה תהיה יותר גבוהה, אז האומדן שלכם למספר הכדורים האדומים יהיה 60.

את שתי ההסתברויות האלה אפשר לחשב על ידי נוסחת ההתפלגות הבינומית. אל תטרחו לנסות. רוב הסיכויים הם שהמחשב שלכם לא יצליח לחשב את ההסתברויות האלה באופן מדוייק. אפשרות שניה היא לנסות לחשב את ההסתברויות האלה על ידי הקירוב הפואסוני להתפלגות הבינומית. הסברתי זאת בעבר כאן בבלוג, ראו למשל את הדוגמה הזו לחיזוי מספר הזוכים בלוטו.

אבל הדרך הכי קלה ומהירה היא לחשב את היחס בין שתי ההסתברויות[2]. מספרים שצריך לחשב בדרך, כמו 300 עצרת (מספר בן 615 ספרות) יצטמצמו, ולבסוף תקבלו כי ההסתברות להוציא 175 כדורים אדומים כאשר יש בכד 45 כדורים אדומים גדולה פי 1.4 מההסתברות להוציא  להוציא 175 כדורים אדומים כאשר יש בכד 60 כדורים אדומים. לכן האומדן שלי למספר הכדורים האדומים בכד הוא 45.

אומדן זה הוא אומדן נראות מירבית. הגעתי אליו על ידי כך שחישבתי את ההסתברות לקבל 175 כדורים אדומים בשני המצבים האפשריים, ובחרתי במצב שבו ההסתברות להוציא 175 כדורים אדומים הייתה גבוהה יותר.

מה היה קורה אילו לא אמרתי לכם כי מספר הכדורים בכד הוא בהכרח 45 או 60?

אין בעיה: פשוט צריך לחשב את כל ההסתברויות האפשריות לכל המקרים, החל מ-0 כדורים אדומים ועד ל-90 כדורים אדומים. בסך הכל מדובר כאן ב-91 חישובים, ואז למצוא את הערך שעבורו מתקבלת ההסתברות המקסימלית. אם תעשו את החישובים תמצאו כי הערך הזה הוא 59.

אבל יש דרך יותר קלה. אפשר לכתוב את ההסתברות להוציא 175 כדורים אדומים כפונקציה של ההסתברות להוציא כדור אדום אחד מהכד בשליפה בודדת. בעזרת קצת חדו”א אפשר למצוא את הערך שיביא את ההסתברות הזו למקסימום, וזה יהיה אמדן הנראות המירבית להסתברות להוציא כדור אדום מהכד.

שיטת האמידה על ידי נראות מקסימלית היא אחת משיטות האמידה החשובות ביותר בסטטיסטיקה. זאת מכיוון שלאמדי נראות מקסימלית יש תכונות מתמטיות העושות אותם לעדיפים במספר מובנים על פני אמדים אחרים. לכן השימוש בשיטה הזו נפוץ מאוד, וכל תכנה סטטיסטית מאפשרת את החישוב שלהם עבור כמעט כל מודל סטטיסטי.


הערות
  1. זו לא הגישה האפשרית היחידה. יש עוד גישות אפשריות, וייתכן ואדון בהן בפעם אחרת []
  2. אני מדלג על החישובים כי זה לא החלק החשוב כאן. למי שמעוניין, החישובים נמצאים כאן []

איך לגרום לילדים לאכול יותר ירקות

נתחיל מהסוף: אני לא יודע איך לגרום לילדים לאכול ירקות. לפחות עם הילדים שלי, ההצלחה היא מועטה. אבל לשני חוקרים מאוניברסיטת קולורדו היה רעיון: נגיש להם את הירקות בצלחות עם ציורים של ירקות. כדי לבדוק האם הרעיון עובד הם ערכו ניסוי שתוצאותיו פורסמו בכתב העת היוקרתי JAMA Pediatrics. מכיוון שהתוצאות פורסמו אתם יכולים לנחש כי התוצאה של הניסוי הייתה חיובית. אבל, האם הם באמת הוכיחו כי הרעיון שלהם עובד? לדעתי לא, וזו תוצאה ישירה של התכנון הלקוי של הניסוי.

תכנון הניסוי ותוצאותיו

נבחרו 18 כיתות גן ובית ספר (ילדים בגיל 3-8) באחד מפרוורי דנוור. בתחילה הוצעו לילדים פירות וירקות כאשר סופקו להם צלחות לבנות. בכל כיתה הונחו קערת פירות וקערת ירקות, וכל ילד לקח לעצמו פירות וירקות, ואכל מהם כרצונו. המשקלים של הירקות והפירות נרשמו לפני שהוגשו לילדים, ולאר שהילדים סיימו את ארוחתם החוקרים שקלו את הפירות והירקות שנותרו. ההפרש בין המשקלים (לפני הארוחה ואחריה) חולק במספר הילדים, וכך התקבלה הכמות הממוצעת של פירות וירקות שכל ילד אכל. נעשו גם חישובים לפירות לחוד ולירקות לחוד. החוקרים חזרו על המדידות האלה שלוש פעמים בכל כיתה.

לאחר זמן מה חזרו על המדידות באותו אופן, כאשר הפעם סופקו לילדים צלחות שעליהן ציורים של ירקות ופירות. התוצאה: חלה עליה ממוצעת של 13.82 גרם בצריכת הירקות, ותוצאה זו מובהקת סטטיסטית. באחוזים, כמו ביידיש, זה נשמע הרבה יותר טוב: זו עליה של כמעט 47%.

אז מה הבעיה? יש מספר בעיות.

בעיה ראשונה – דיוק יתר

אתחיל במה שהוא לכאורה לא בעיה, אבל מהווה אות אזהרה: דיוק יתר. כאשר מתפרסמות תוצאות מדוייקות במיוחד, צריך להתחיל לדאוג. בעברית יש בעיה עם הבעיה הזו: יש רק מילה אחת לתיאור דיוק. באנגלית יש שתיים: precision ו-accuracy. הבדל הוא מהותי. precision מתייחס לרמת הדיוק המדווחת של המדידות. accuracy מתייחס למרחק בין הערך הנמדד והערך האמיתי, הבלתי נצפה, ונמדד בדרך כלל על ידי סטיית תקן או רווח סמך.  התוצאות מדווחות ברמה של שתי ספרות אחרי הנקודה: הן מאוד  precise. אני לא אומר שזה לא חשוב, אבל מהניסיון שלי, כשמגזימים צריך לבדוק בצורה יותר יסודית מה קורה. דיוק של שתי ספרות אחרי הנקודה העשרונית כשמדובר בגרמים נראה לי מוגזם. אתם כמובן יכולים לחשוב אחרת, אבל זה אות האזהרה שגרם לי לקרוא את המאמר עד סופו ולחשוב על מה שתואר בו .

בעיה שניה – על מי הניסוי נערך?

הבעיה השנייה היא הרבה יותר מהותית: הבחירה של יחידת הניסוי, מה שמכונה ה-experimental unit או unit of observation. יחידות הניסוי כאן הן הכיתות. התצפיות נעשו ברמת הכיתה. החוקרים מדדו כמה ירקות ופירות נאכלו ברמת הכיתה, לא ברמת הילד. הם אמנם חישבו ממוצע לילד, אבל אני מניח שכולם יודעים שהממוצע לבדו הוא מדד בעייתי: הוא מתעלם מהשונות בין הילדים. לפני ההתערבות הניסויית, כל ילד אכל בממוצע כ-30 גרם ירקות בארוחה, אבל אני לא חושב שיהיה מי שיחלוק על האמירה כי כל ילד אכל כמות שונה של ירקות. מהי סטיית התקן? אנחנו לא יודעים, והחוקרים לא יודעים, וזה מהותי, כי השונות שבין הילדים משפיעה על המסקנה הסופית. מכיוון שהחוקרים התעלמו (ולא משנה מה הסיבה) מהשונות בין הילדים, הם הניחו למעשה כי השונות היא נמוכה מאוד, למעשה אפס. אם השונות הזו הייתה נלקחת בחשבון המסקנות של הניסוי היו אחרות: רווחי הסמך בוודאי היו שונים, ויותר רחבים מרווחי הסמך שחישבו החוקרים.

עוד סוג של שונות שלא נלקח בחשבון היא השונות בתוך ילדים. אסביר: גם אם צפינו בילד אחד וראינו כי בממוצע הוא אוכל 30 גרם ירקות בכל ארוחה, בארוחות שונות הוא אוכל כמות שונה של ירקות. ושוב נשאלת השאלה: מה סטיית התקן? גם לסטיית תקן זו יש השפעה על המסקנה הסופית של הניסוי. כמובן, לכל ילד יש סטיית תקן שונה, וגם את השונות הזאת צריך לקחת בחשבון.

סוג שלישי של שונות שלא נלקח בחשבון הוא השונות שבין ילדים בגילאים שונים: סביר להניח שילד בן 8 יגיב בצורה שונה לצלחת מצויירת מאשר ילד בן 3. בוודאי ילד בן 8 יאכל יותר ירקות מאשר ילד בן 3. החוקרים התעלמו גם מהשונות הזו.

אני סבור כי החוקרים לא נתנו דעתם על כל השונויות האלה. המילים variation, adjust או covariate לא מופיעות במאמר. מכיוון שהחוקרים התעלמו מהשונויות רווחי הסמך שלהם צרים מדי ולא משקפים את ההבדלים האמיתיים בין הילדים ובין סוגי הצלחות.

ולבסוף, למרות שהיחידה הניסויית הייתה הכיתה, התוצאות דווחו כאילו המדידות נעשו ברמת הילד. זו לדעתי עדות נוספת לכך שהחוקקים לא היו מודעים לשונויות שבין ובתוך הילדים. לדידם, כיתה וילד הם היינו הך.

בעיה שלישית – מה עם הביקורת?

בניסוי הזה אין קבוצת ביקורת. לכאורה אין בעיה: על פי תכנון הניסוי, כל כיתה מהווה את קבוצת הביקורת של עצמה. הרי הילדים קיבלו את הירקות גם בצלחות לבנות וגם בצלחות עם ציורי ירקות ופירות. אבל לדעתי זה לא מספיק.

יש המון סוגים של צלחות לילדים, עם ציורים של בוב הבנאי, דמויות דיסני, מפרץ ההרפתקאות, תומס הקטר, והרשימה עוד ארוכה. האם יכול להיות שהשינוי שנצפה הוא בגלל עצם הציורים עצמם ולא בגלל שמדובר בציורים של ירקות ופירות? אולי ילד שארוחתו מוגשת בצלחת עם ציורים של גיבור העל החביב עליו יאכל גם הוא יותר ירקות? זו שאלה שצריכה להישאל, והניסוי שנערך לא עונה על השאלה הזו. קבוצת ביקורת יכולה לענות על השאלות הלאה. לדעתי דרושות בניסוי כזה שתי קבוצות ביקורת. באחת מהן הילדים מקבלים בתחילה צלחות לבנות, ולאחר מכן צלחות של תומס הקטר, דיסני או גיבורי על, בהתאם לגילם. בקבוצת הביקורת השנייה יהיו ילדים שבתחילה יקבלו צלחות מצויירות “רגילות”[1] ולאחר מכן צלחות עם ציורים של ירקות ופירות.

בעיה רביעית – מה המשמעות של כל זה?

קודם כל, מתברר כי נצפה שינוי מובהק סטטיסטית לגבי צריכת הירקות, אך לא נצפה שינוי מובהק סטטיסטית לגבי הפירות. החוקרים התייחסו לכך במשפט קצר: הסבר אפשרי, הם אמרו, הוא ceiling effect. באופן פורמלי הם צודקים. ceiling effect הוא מונח סטטיסטי, וזה מה שקרה כאן. לשאלה החשובה באמת הם לא ענו: מדוע נגרם האפקט הזה?

והשאלה הכי חשובה: האם השינוי המובהק הוא גם משמעותי? מה המשמעות של הבדל של 14 גרם (סליחה, 13.82 גרם?) החוקרים לא התייחסו לשאלה הזו. אני אתן לכם קצת חומר למחשבה. הלכתי לסופרמרקט ושקלתי שם מלפפון אחד ועגבנייה אחת (כן, זה מדגם קטן, אני יודע). משקלו של המלפפון היה 126 גרם, ומשקל העגבנייה היה 124 גרם[2]. זאת אומרת, כל ילד אכל בממוצע עוד חצי ביס של עגבנייה או מלפפון. יכול להיות שזה אכן משמעותי מבחינה בריאותית ו/או תזונתית. החוקרים לא התייחסו לשאלה הזאת וגם לא העורכים של כתב העת.

סיכום

יכול להיות שצלחות עם ציורי ירקות ופירות גורמות לילדים לאכול יותר ירקות ופירות. זו אכן השערה מעניינת. המחקר שתואר כאן לא נותן תשובה לשאלה הזו. האופן שבו הוא תוכנן ובוצע כלל לא מאפשר לקבל אפילו תשובה חלקית לשאלה הזו, וזאת ככל הנראה בשל העדר חשיבה סטטיסטית בסיסית.


הערות
  1. שוב: דיסני, תומס הקטר וכדומה []
  2. למרבה הצער, למאזניים של שופרסל יש דיוק/precision מוגבל []