בכד יש 90 כדורים, חלקם אדומים וחלקם לבנים. נאמר לכם כי מספר הכדורים האדומים הוא 45 או 60 (אין אפשרות אחרת).
אתם מוציאים מהכד 300 כדורים עם החזרה, כלומר: מערבבים היטב את תכולת הכד, מוציאים כדור, רושמים את צבעו, ומחזירים אותו לכד. אחר כך מערבבים שוב את תכולת הכד, מוציאים שוב כדור, רושמים את צבעו ומחזירים אותו לכד, כך 300 פעמים.
בסך בכל הוצאתם 175 כדורים אדומים מתוך 300. מהי ההערכה שלכם לגבי מספר הכדורים האדומים בכד?
הנה התשובות שקיבלתי לחידה הזו בטוויטר:
בואו נעשה קצת סדר.
ראשית, לגבי הבקשה להעריך את מספר הכדורים האדומים בכד: בשפה יותר “סטטיסטית”, הבקשה היא לאמוד את מספר הכדורים האדומים בכד, ולכן אשתמש מעתה בביטויים כגון “לאמוד” ו-“אומדן”.
אם בכד יש 45 כדורים אדומים, אז ההסתברות להוציא מתוכו כדור אדום היא 45 מתוך 90, כלומר חצי. לכן בעולם מושלם, מתוך 300 כדורים ששלפתם, מחציתם היו אדומים, כלומר הייתם שולפים 150 כדורים אדומים.
באופן דומה, אם בכד יש 60 כדורים אדומים, אז ההסתברות להוציא מתוכו כדור אדום היא 60 מתוך 90, כלומר שני שליש. לכן בעולם מושלם, מתוך 300 כדורים ששלפתם, שני שליש מתוכם היו אדומים, כלומר הייתם שולפים 200 כדורים אדומים.
כאן אתם יכולים כבר להבין למה הנתון שנתתי לכם הוא שהוצאו 175 כדורים אדומים: 175 הוא הממוצע של 150 ו-200, כלומר אתם נמצאים באמצע הדרך בין שני העולמות המושלמים ההיפותטיים. או שלא?
בקשה שקולה לבקשה שלי היא לאמוד את ההסתברות להוציא כדור אדום מהכד: האם ההסתברות הזו היא חצי או שני שליש. אם לא הייתי אומר לכם מראש שההסתברות הזו חייבת להיות חצי או שני שליש, הייתם בוודאי אומרים כי ההסתברות היא 175 מתוך 300, כלומר 0.5833. בסוף הפוסט הזה אסביר מדוע.
אחת הדרכים האפשריות לאמוד את מספר הכדורים האדומים בכד, או באופן שקול, לאמוד את ההסתברות להוציא כדור אדום מהכד היא להניח שאם ראינו משהו, זה אומר שההסתברות שנראה את אותו משהו גבוהה. העיקרון הזה נקרא . (( זו לא הגישה האפשרית היחידה. יש עוד גישות אפשריות, וייתכן ואדון בהן בפעם אחרת))
נדגים את העיקרון בעזרת דוגמא יותר קיצונית. נניח ששלפתם 300 כדורים מהכד וכל הכדורים שנשלפו היו אדומים. אם בכד היו 45 כדורים אדומים, אז ההסתברות למאורע הזה היא חצי בחזקת 300. אם בכד היו 60 כדורים אדומים, ההסתברות לשלוף 300 כדורים אדומים היא שני שליש בחזקת 300. לא צריך לדעת הרבה מתמטיקה כדי לדעת שחצי בחזקת 300 הרבה יותר קטן משני שליש בחזקת 300. לכן, אם הוצאתם 300 כדורים אדומים, האפשרות הסבירה יותר היא שיש בכד 60 כדורים אדומים, וזה יהיה האומדן שלכם למספר הכדורים האדומים בכד.
ההמשך ברור: יש לחשב את ההסתברות שנשלפו 175 כדורים אדומים בהנחה שיש בכד 45 כדורים אדומים, ואת ההסתברות שנשלפו 175 כדורים אדומים בהנחה שיש בכד 60 כדורים אדומים. אם ההסתברות הראשונה יותר גבוהה, אז האומדן שלכם יהיה 45. אם ההסתברות השנייה תהיה יותר גבוהה, אז האומדן שלכם למספר הכדורים האדומים יהיה 60.
את שתי ההסתברויות האלה אפשר לחשב על ידי נוסחת . אל תטרחו לנסות. רוב הסיכויים הם שהמחשב שלכם לא יצליח לחשב את ההסתברויות האלה באופן מדוייק. אפשרות שניה היא לנסות לחשב את ההסתברויות האלה על ידי להתפלגות הבינומית. הסברתי זאת בעבר כאן בבלוג, ראו למשל את הדוגמה הזו לחיזוי מספר הזוכים בלוטו.
אבל הדרך הכי קלה ומהירה היא לחשב את היחס בין שתי ההסתברויות (( אני מדלג על החישובים כי זה לא החלק החשוב כאן. למי שמעוניין, החישובים נמצאים כאן )). מספרים שצריך לחשב בדרך, כמו 300 עצרת (מספר בן 615 ספרות) יצטמצמו, ולבסוף תקבלו כי ההסתברות להוציא 175 כדורים אדומים כאשר יש בכד 45 כדורים אדומים גדולה פי 1.4 מההסתברות להוציא להוציא 175 כדורים אדומים כאשר יש בכד 60 כדורים אדומים. לכן האומדן שלי למספר הכדורים האדומים בכד הוא 45.
אומדן זה הוא . הגעתי אליו על ידי כך שחישבתי את ההסתברות לקבל 175 כדורים אדומים בשני המצבים האפשריים, ובחרתי במצב שבו ההסתברות להוציא 175 כדורים אדומים הייתה גבוהה יותר.
מה היה קורה אילו לא אמרתי לכם כי מספר הכדורים בכד הוא בהכרח 45 או 60?
אין בעיה: פשוט צריך לחשב את כל ההסתברויות האפשריות לכל המקרים, החל מ-0 כדורים אדומים ועד ל-90 כדורים אדומים. בסך הכל מדובר כאן ב-91 חישובים, ואז למצוא את הערך שעבורו מתקבלת ההסתברות המקסימלית. אם תעשו את החישובים תמצאו כי הערך הזה הוא 59.
אבל יש דרך יותר קלה. אפשר לכתוב את ההסתברות להוציא 175 כדורים אדומים כפונקציה של ההסתברות להוציא כדור אדום אחד מהכד בשליפה בודדת. בעזרת קצת אפשר למצוא את הערך שיביא את ההסתברות הזו למקסימום, וזה יהיה אמדן הנראות המירבית להסתברות להוציא כדור אדום מהכד.
שיטת האמידה על ידי נראות מקסימלית היא אחת משיטות האמידה החשובות ביותר בסטטיסטיקה. זאת מכיוון שלאמדי נראות מקסימלית יש תכונות מתמטיות העושות אותם לעדיפים במספר מובנים על פני אמדים אחרים. לכן השימוש בשיטה הזו נפוץ מאוד, וכל תכנה סטטיסטית מאפשרת את החישוב שלהם עבור כמעט כל מודל סטטיסטי.
מצויין. תודה!
אחד המגיבים בפייסבוק כתב משהו בסגנון: 60 יותר סביר בהרבה, וזה בגלל שההסתברות הא-פריורי שהנחתי ל-60 גבוהה.
תוכל לומר על זה כמה מילים (או להפנות לפוסט בנושא)? האם גם בטיעון של הנראות המקסימלית חבויה איזושהי הסתברות א-פריורית? אני חושב שבבסיס הטיעון הזה יש את המאבק בין הבייסיאנים לבין הפריקוונטיסטים, אבל מעולם לא הצלחתי להבין אותו עד הסוף.
האמת היא שאני לא רוצה להיכנס לזה, אבל אומר כמה מילים. אם רוצים להתחיל עם הסתברויות אפריורית, אז צריך למדל את ההסתברות האפריורית לכך שבכד יש 60 כדורים אדומים, שיכולה בעצם להיות כל מספר בין 0 ל-1. אפשר להניח שזו התפלגות אחידה, או באופן כללי יותר התפלגות ביתא, אבל יש עוד הרבה התפלגויות אפשריות אחרות שהן לא התפלגות ביתא. הבעיה שלי היא עד כמה ההנחה סבירה ועד כמה ניתן להצדיק אותה. אני חושב שבהינתן הניסוח שלי לא ניתן להצדיק שום הנחה חוץ מהנחת 50:50, ואז בעצם התוצאה של אמד בייסיאני תהיה זהה לתוצאה של האנ”מ. אז למה לטרוח?