• חיפוש באתר

    קישורים

    עמודים

    RSS סטטיסטיקה ברשת

    תגים

    ארכיב עבור תגית הסתברות

    הכוכב, הסמים והכומר

    לפני כחודשיים דיווחתי כאן על השעייתו של סופרסטאר הבייסבול  מני רמירז ל-50 משחקים, לאחר שבבדיקת סמים שנערכה לו התקבלה תוצאה חיובית. עם הדיווח העליתי נקודה למחשבה: לאור העובדה שבבדיקה התקבלה תוצאה חיובית, מה ההסתברות כי רמירז אכן השתמש בסמים אסורים? נתתי גם רמז עבה לפתרון: מספר 4 ברשימת 15 הסטטיסטיקאים הגדולים.

    הבטחתי רשימה בנושא, והנה אני סוף סוף מקיים. לזירוז העניין תרם דוברמן, שפרסם בבלוג שלו את החידה הזו. ההקשר היה שונה (שפעת החזירים במקום סמים אסורים), אבל העקרון זהה. מי שמעוניין לקרוא את הפתרון של דוברמן יכול לקרוא אותו בלינק הזה, אם כי אני מייד אתן הסבר משלי וגם ארחיב על הנושא.

    ובכן, מה ההסתברות כי רמירז אכן השתמש בסמים אסורים אם בדיקת הסמים שלו הייתה חיובית? התשובה האמיתית והכנה ביותר שאני יכול לתת לכם היא שאני לא יודע. חסרים נתונים. אז בואו ונמציא נתונים לצורך התרגיל. בדיקת הסמים יכולה לטעות. יכול להיות שנבדק כלשהו משתמש בסמים אסורים, ובכל זאת מתקבלת תוצאה שלילית בבדיקה. גם יכול להיות שהנבדק לא השתמש בסמים אסורים ותוצאת הבדיקה בכל זאת הייתה חיובית משום מה (רמירז לא טען זאת, דרך אגב). אלה הן שתי הטעויות שעשויות לקרות בכל תהליך קבלת החלטות. אבל באיזה סיכוי עשויה כל טעות להתרחש? אני אניח, כמו דוברמן בחידה שלו, כי לכל טעות יש סיכוי של אחוז אחד, כלומר 0.01. (את הסיכויים האמיתיים יודעים  מן הסתם יצרני ערכת הבדיקה). עדיין אין מספיק נתונים. כדי לענות על השאלה צריך גם לדעת מהו אחוז משתמשי הסמים באוכלוסיה הרלוונטית, ואת האחוז הזה קשה מאוד לברר. אני מעריך את המספר הזה ב-5 עד 10 אחוז. מסמך פנימי של ליגת ה-MLB שהודלף לאחרונה אמר כי בשנת 2003 התקבלו תוצאות חיוביות אצל 104 שחקנים שנבדקו (אשמח ללינק – לא מצאתי את הידיעה המקורית). בליגה יש כ-1000 שחקנים, ולכן אחוז המשתמשים הוא בסביבות 10. יש הסבורים כי "תקופת הסטרואידים" שהחלה לקראת סוף שנות התשעים של המאה הקודמת כנראה חלפה כבר מן העולם. אני סבור כי השחקנים פשוט עברו להשתמש בחומרים חדשים, שבבדיקות הנוכחיות לא מזהות. יש להם תמריץ כלכלי לכך. בואו ניקח את המספר העגול של 10% לצורך התרגיל.

    נניח שכל 1000 השחקנים נבדקים. מתוכם 100 משתמשים בסמים אסורים, על פי הנחתנו, ומכיוון שהבדיקה תתן תוצאה חיובית אם הנבדק משתמש בסמים ב-99 אחוז מהמקרים, נקבל (תיאורטית) 99 תוצאות חיוביות ותוצאה שלילית אחת. 900 השחקנים האחרים נקיים, ועבור 99% מהם תוצאת הבדיקה תהיה שלילית. כלומר, יתקבלו 891 תוצאות שליליות , ואילו 9 שחקנים חסרי מזל יקבלו תוצאה חיובית  (ואלי יושעו) הגם שלא השתמשו בסמים אסורים. נרכז את המספרים האלה בטבלה:

    תוצאת הבדיקה

    חיובית

    שלילית

    סה"כ

    משתמש בסמים אסורים?

    משתמש

    99

    1

    100

    לא משתמש

    9

    891

    900

    סה"כ

    108

    892

    1000

    מתוך 108 שחקנים עבורם התקבלה תוצאה חיובית, 99 אכן משתמשים בסמים, ולכן ההסתברות כי שחקן שתוצאת הבדיקה שלו חיובית אכן משתמש בסמים היא 99/108 כלומר כמעט 92%.

    שימו לב כי התוצאה תלויה בהנחה הראשונית על אחוז השחקנים המשתמשים בסמים, שאינו ידוע לנו. אם האחוז הזה הוא רק 5% ולא 10%, אז ההסתברות כי השחקן "שלנו" אכן השתמש בסמים תהיה "רק" 84%.

    עכשיו בואו נעזוב את החישובים, ונעבור לדיון עקרוני בתרגיל שנעשה. אנו התמקדנו בשני מאורעות. צפינו במאורע "בבדיקת הסמים התקבלה תוצאה חיובית" והתעניינו במאורע "השחקן שנבדק משתמש בסמים אסורים". כמו כן היו נתונות לנו מספר הסתברויות. הייתה ידועה לנו, בין היתר ההסתברות כי תוצאת בדיקת הסמים היא חיובית כאשר ידוע כי השחקן הנבדק משתמש בסמים אסורים. אבל ההסתברות שעניינה אותנו באמת הייתה ההסתברות כי השחקן הנבדק משתמש בסמים אסורים כאשר ידוע כי תוצאת בדיקת הסמים היא חיובית. שתי ההסתברויות שתיארתי הן הסתברויות מותנות, אבל מתארות מצבים שונים. אחת מתארת הסתברות של מאורע שקורה בהווה (תוצאת הבדיקה חיובית) בהנתן מאורע שקרה בעבר (השחקן השתמש בסמים אסורים). השניה מתארת הסתברות של מאורע שקרה בעבר בהנתן מאורע שקרה בהווה. החישוב שלנו "הפך" את כיוון זרימת הזמן: מההווה לעבר במקום מעבר להווה. וכזכור, כל התרגיל שלנו לא היה מתאפשר ללא הנחה אפריורית כלשהי על אחוז השחקנים המשתמשים בסמים אסורים. הבדיקה אפשרה לנו לעדכן את ההסתברות האפריורית לכך שהשחקן השתמש בסמים אסורים, ולהחליף אותה בהסתברות אפוסטריורית.

    הנה תיאור אפשרי אחר של התהליך: בהתחלה לא היה לנו כל ידע לגבי הרגלי השימוש של השחקן המסוים בסמים אסורים, ולכן הנחנו כי הסיכוי לכך שהוא משתמש בסמים כאלה שווה לפרופורציית השחקנים המשתמשים בסמים. הבדיקה שנערכה ותוצאתה נתנו לנו אינפורמציה חדשה, וממנה למדנו כי ההסתברות שהשחקן משתמש בסמים גבוהה הרבה יותר. החישוב שעשינו הוא מעין ביטוי מתמטי לתהליך למידה.

    הראשון שניסח את התרגיל ההסתברותי הזה בכתובים היה כומר אנגלי שחי לו במאה ה-18, ושמו תומאס בייס. בייס היה ידוע כמי שעוסק במתמטיקה, ואף היה חבר החברה המלכותית, אם כי בימי חייו לא פרסם אף לא מאמר אחד שתיעד את עבודתו. המאמר המתמטי היחיד שהתפרסם תחת שמו הופיע רק שנתיים לאחר מותו, וזהו למעשה מכתב ששלח לידידו ג'ון קאנטון. במכתב תיאר בייס את הדרך לחשב "הסתברות מותנה הפוכה" (שתיארתי זה עתה). הדוגמא שהביא בייס עסקה, אגב, בסיכויי הנצחון במשחק ביליארד, במיטב המסורת של התפתחות תורת ההסתברות בהתאם לצרכיהם של המהמרים. למעוניינים לקרוא את המאמר עצמו, הנה קישור לקובץ pdf. עותק מקורי של המאמר, דרך אגב, יעלה לכם כ-4200 דולר, אם תמצאו מישהו שמוכן למכור.

    הקוראים הותיקים של הבלוג הזה אמורים לדעת כי הזכרתי את בייס בעבר. הוא מופיע במקום ה-4 ברשימת 15 הסטטיסטיקאים הגדולים שערכתי. בעבר קוננתי על כך שמשפט בייס לא הופיע ברשימת 100 המשפטים הגדולים של המתמטיקה שערך מישהו. במסגרת התחקיר לרשימה זו הגעתי ל"פרוייקט מילניום" שנערך על ידי המרכז למדעים קוגניטיביים אוניברסיטת מינסוטה, שניסה לבחור ולדרג את 100 העבודות המשפיעות ביותר על המדעים הקוגניטיביים. מאמרו של בייס היה בין 306 העבודות המועמדות, אך פאנל המומחים שביצע את מלאכת הדירוג לא חשב שהעבודה ראויה דיה כדי להכלל ב-Top 100.

    כפי שציינתי כאן בעבר, על הבסיס שהניח בייס צמח ענף שלם של הסטטיסטיקה שנקרא כמובן "סטטיסטיקה בייסיאנית". לסטטיסטיקה הבייסיאנית שימושים מרחיקי לכת. היא עומדת בבסיסן של מערכות הבינה המלאכותית למינהן, ומיושמת במגוון תחומים, החל בגנטיקה וכלה בסינון דואר זבל. אני מסתפק כאן בהפניה למאמר שפרסם פרופ' ישראל בנימיני ב-Ynet לפני מספר שנים, בו יש סקירה נאה של המשפט ושימושיו.

    ילדה ושמה יוספה – הפתרון

    השאלה הזו נשאלה כאן בשבוע שעבר: במשפחה יש שני ילדים. אחד הילדים הוא בעצם ילדה ששמה יוספה. מה ההסתברות כי זו משפחה ובה שתי בנות?

    לפני שנגיע לפתרון של החידה הזו, בואו נענה על כמה שאלות פשוטות יותר.

    השאלה הראשונה שנענה עליה היא זו: במשפחה יש שני ילדים. מה ההסתברות כי זו משפחה ובה שתי בנות?

    הפתרון הנאיבי יאמר כי יש ארבע משפחות אפשריות בנות שני ילדים:

    • הילד הראשון הוא בן, והשני בן (בקיצור: בן-בן)
    • הילד הראשון הוא בן, והשני בת (בקיצור: בן-בת)
    • הילד הראשון הוא בת, והשני בן (בקיצור: בת – בן)
    • הילד הראשון הוא בת, והשני בת (בקיצור: בת – בת)

    לכן, יש ארבע משפחות אפשריות, ורק אחת מהן (בת-בת) היא משפחה שבה שתי בנות, ולכן ההסתברות היא אחת לארבע, כלומר רבע.

    מה נאיבי בפתרון הזה? הפתרון הזה מניח כי לכל הרכבי המשפחות הסתברויות שוות. אולי משפחות של שני בנים נפוצות יותר באוכלוסיה ממשפחות של בת-בן, למשל? כדי לדעת, צריך לערוך רשימה של כל המשפחות האלה, ולספור כמה משפחות יש מכל סוג. זה כמובן לא ממש מעשי.

    העובדה שהפתרון הראשוני הוא נאיבי לא אומרת שהוא לא נכון. הוא נכון בתנאים מסויימים. הפתרון הנאיבי הזה מבוסס על מודל, כלומר הוא בונה תיאור של המציאות, שייתכן שאינו מדוייק לגמרי, אבל הוא מספיק טוב כדי לתת תשובה אמינה לשאלה שלנו. על כך כבר אמר ג'ורג' בוקס (מספר 14 ברשימת 15 הסטטיסטיקאים הגדולים שלי): "Essentially, all models are wrong, but some are useful". כל המודלים שגויים, אך חלקם שימושיים.

    כדי להשתמש במודל צריך להצדיק אותו. אי אפשר לבוא ולומר "יש ארבע תוצאות אפשריות, ולכן לכל תוצאה יש הסתברות רבע". לא כל המאורעות קורים בהסתברויות שוות. מה ההסתברות כי בחודש אוגוסט הקרוב ירד שלג בתל-אביב? יש שני מאורעות אפשריים: או שירד שלג, או שלא. אבל אף אחד לא יטען כי הסיכויים הם 50:50.

    את המודל שלנו למשפחות בנות שני ילדים אפשר להצדיק. אפשר לטעון, ובצדק, כי בכל לידה יש סיכוי של 50% כי הנולד יהיה בן, וסיכוי של 50% כי תיוולד בת. זה בערך נכון. שיעור לידות הבנים גבוה מעט משיעור לידות הבנות, הטבע מאזן את זה על ידי שיעור מעט יותר גבוה של תמותת תינוקות זכרים. זה לא בדיוק נכון, אבל כאמור מדובר כאן במודל, כלומר בתיאור מקורב של המציאות. השלב הבא בטיעון להצדקת המודל יאמר כי מאחר והסיכוי כי הילד הראשון במשפחה  הוא חצי, והסיכוי כי הילד השני במשפחה הוא גם כן חצי, אז הסיכוי כי שני הילדים הם בנים הוא 0.5×0.5=0.25. באופן דומה ניתן לחשב כי ההסתברות של כל אחד מההרכבים האחרים של משפחות עם שני ילדים היא גם כן 0.25. למה מכפילים את ההסתברויות? כאן מסתתרת ההנחה השניה של המודל, לפיה אין תלות בין מינו של הילד הראשון במשפחה ומינו של הילד השני במשפחה. על פי הנחה זו, המקרה של אבו-אל-בנאת, אותו אב קולנועי לתשע בנות הוא רק ביש מזל, אירוע נדיר (1 ל-512) שהתגשם, ואינו משקף חוסר גבריות כלשהי אצל שבתאי אלפנדרי (ששייקה אופיר גילם את דמותו בכשרון רב). האם זו הנחה סבירה? הנתונים הסטטיסטיים מאשרים שכנראה שכן (אין לי מקור להפנות אתכם, אני מתבסס על זכרון קלוש שאומר לי שראיתי פעם נתונים כאלה).

    אה, ויש עוד עניין קטן: המודל שלנו מתעלם מלידות תאומים. ההנחה של אי התלות בין המינים של שני הילדים אינה נכונה במקרה של תאומים זהים. אם אחד משני תאומים זהים הוא בן, אז השני גם חייב להיות בן. זו יכולה להיות בעיה מסויימת, והיא תתבטא בכך שהתשובות לשאלות שאנו שואלים לא יהיו מדוייקות. כמו שג'ורג' בוקס אמר – כל המודלים שגויים. בכל מקרה, אני מטאטא את עניין התאומים אל מתחת לשטיח, ונשאר במודל שמתאר בצורה טובה את המשפחות שבהן יש שני ילדים שאינם תאומים.

    בסיכומו של הדיון עד כה הגענו למסקנה כי במשפחה בת שני ילדים, הסיכוי כי שני הילדים הם בעצם שתי בנות הוא רבע.

    עכשיו נעבור לחידה שפרסם דוברמן: ידוע כי במשפחה שבה שני ילדים, אחד הילדים הוא בעצם בת. מה ההסתברות כי שני הילדים הם בעצם בנות?

    התשובה שרוב האנשים שולפים מהמותן היא 50%. הטיעון הוא כזה: ידוע לנו שיש בת אחת. לגבי הילד השני – או שהוא בן או שהוא בת. אנו יודעים (או מניחים, על פי המודל שתואר קודם) כי בכל לידה הסיכוי ללידת בת הוא 50%, וגם כי אין תלות בין המינים של שני הילדים. לכן עצם העובדה שידוע לנו המין של אחד הילדים לא משנה את ההסתברות כי הילד השני הוא בת.

    התשובה הזו היא תשובה נכונה, אבל לא לשאלה שנשאלה אלא לשאלה אחרת. הבעיה הטיעון שהוצג היא שיש בו הנחה סמויה, לפיה ידוע מי משני הילדים הוא הבת. אילו הייתה השאלה מנוסחת כך: "ידוע כי במשפחה שבה שני ילדים, הילד הבכור הוא בעצם בת. מה ההסתברות כי שני הילדים הם בעצם בנות?", אז התשובה היא אכן 50%, בדיוק לפי הטיעון שבפיסקה הקודמת, אבל זו לא השאלה שנשאלה. בנתוני השאלה שנשאלה, אחד הילדים הוא בת, אבל לא ידוע לנו אם זהו הילד הראשון במשפחה או הילד השני. חוסר הידיעה משנה את התשובה. מי שכבר קרא את הפתרון אצל דוברמן יודע שהתשובה הנכונה היא שליש. הטיעון שדוברמן הציג הוא כזה: מראש יש ארבעה סוגי משפחות אפשריים, אבל כיוון שידוע לנו כי אחד הילדים הוא בת, המאורע בן-בן שוב אינו רלוונטי. לכן נותרו לנו שלושה מבני משפחה אפשריים (בן-בת, בת-בן ו-בת-בת), ורק באחד מהם יש שתי בנות במשפחה, ולכם הסיכוי הוא אחד מתוך שלוש, כלומר שליש.

    הפתרון הזה הוא (שוב) פתרון נאיבי, שמניח באופן משתמע (implicit) את המודל שתיארתי קודם לכן. הוא עובד כי המודל מתאים, אבל אם ההנחות של המודל אינן מתקיימות, גם הפתרון אינו נכון. תחשבו למשל על השאלה הבאה. ידוע כי לפחות באחת משתי הערים תל-אביב ושיקגו ירד שלג בתאריך מסויים בחודש ינואר האחרון. תעמידו פנים שאתם לא יודעים ולא יכולים לברר מה היה מזג האויר בשתי הערים האלה, אבל אתם כן יודעים שההסתברות לשלג בשיקגו בינואר היא 90% ובתל-אביב (נניח) אחוז אחד. מה ההסתברות שבשתי הערים האלה ירד שלג באותו היום? בואו נניח כי אין תלות בין מצבי מזג האויר בשתי הערים. נסכם את כל המצבים האפשריים וההסתברויות המתאימות בטבלה:

    תל-אביב

    שיקגו

    הסתברות

    שלג

    שלג

    0.01×0.9=0.009

    שלג

    אין שלג

    0.01×0.1=0.001

    אין שלג

    שלג

    0.99×0.9=0.891

    אין שלג

    אין שלג

    0.99×0.1=0.099

    אם לא ידוע לנו כלום, אז ההסתברות כי יש שלג בשתי הערים היא 0.009, לא 0.25. אם ידוע לנו כי ירד שלג בשיקגו, אז ההסתברות שירד שלג בתל-אביב היא 0.01 – למעשה הידיעה על מזג האויר בשיקגו לא משנה כלום בגלל אי התלות ביו מצבי מזג האויר בשתי הערים.

    אם נתון לנו כי באחת משתי הערים היה שלג (אך לא ידוע לנו באיזו עיר), הנה השיקול שעלינו לעשות כדי לענות לשאלה. ההסתברות שירד שלג לפחות באחת משני הערים היא 0.901. ניתן להגיע לתוצאה זו בשתי דרכים. ניתן לחבר ההסתברויות בשלוש השורות הראשונות שבטבלה (שלג-שלג, שלג-אין שלג, אין שלג-שלג) ולקבל 0.009+0.001+0.891=0.901, או להחסיר את ההסתברות של השורה האחרונה (אין שלג-אין שלג) מ-1, ולקבל באופן לא מפתיע כי 1-0.099=0.901. כלומר, ב-90.1% מהמקרים יורד שלג לפחות באחת משתי הערים. לעומת זאת, רק ב-0.9% מהמקרים יורד שלג בשתי הערים. לכן ההסתברות שיורד שלג בשתי הערים כאשר נתון כי באחת מהן יורד שלג היא 0.009 חלקי 0.901 שזה בערך 0.00998.

    אינטואיטיבית ניתן להסביר את התוצאה הזו כך: אם נסתכל על אלף ימים, ב-901 מהימים ירד שלג לפחות באחת משתי הערים (באופן תיאורטי), אך רק בתשעה מהם ירד שלג בשתיהן. לכן ההסתברות המבוקשת היא 9/901.

    אם נחזור לחידת המשפחה, ההסתברות שבמשפחה יש לפחות בת אחת היא 0.75 (רבע ועוד רבע ועוד רבע), וההסתברות כי במשפחה שתי בנות היא 0.25, ולכן אם ידוע כי אחד הילדים הוא בעצם בת, ההסתברות שבמשפחה יש שתי בנות היא 0.25 חלקי 0.75 כלומר שליש. באופן אינטואיטיבי, אם נניח כי יש בדיוק 1000 משפחות בנות שני ילדים, אז ב-750 מהן יש לפחות בת אחת, וב-250 יש שני בנים (שוב באופן תיאורטי). מתוך 750 המשפחות שבהן יש בת אחת לפחות, יש 250 משפחות עם שתי בנות, ולכן ההסתברות המבוקשת היא 250/750.

    מה קורה עם יוספה? יוספה משנה את מרחב המצבים שלנו. עכשיו יש לנו לא ארבעה טיפוסי משפחות, אלא תשעה, וההסתברויות כבר לא זהות.

    בואו נחזור למודל הבסיסי של לידת יחיד. על פי המודל, יש סיכוי של 0.5 כי הנולד הוא בן. כמובן, הסיכוי כי הנולד הוא בת גם הוא 0.5, אבל עכשיו המקרה של לידת בת מתחלק לשני מקרים: המקרה שבו לבת לא קוראים יוספה, והמקרה בו ההורים הגאים בחרו לביתם את השם הלא כל כך נפוץ הזה.  מה ההסתברות לשם יוספה? ההסתברות קטנה, אבל בכל זאת חיובית. יש כמה יוספות שמתהלכות ביננו. נסמן את ההסתברות הזאת באות היוונית ε. מי שזה מפריע לו, יכול לבחור סתם מספר קטן, נניח 0.0000001. ההסתברות לבת ששמה לא יוספה היא לכן 0.5 פחות ε. בואו נכתוב את כל המשפחות האפשריות בטבלה, יחד עם ההסתברויות:

    ילד ראשון

    ילד שני

    הסתברות המשפחה

    לפחות בת אחת ששמה יוספה

    שתי בנות

    בן

    בן

    0.25

    בן

    בת – יוספה

    0.5ε

    V

    בן

    בת – שם אחר

    0.5(0.5- ε)

    בת – יוספה

    בן

    0.5ε

    V

    בת – יוספה

    בת – יוספה

    ε2

    V

    V

    בת – יוספה

    בת – שם אחר

    ε (0.5- ε)

    V

    V

    בת – שם אחר

    בן

    0.5(0.5- ε)

    בת – שם אחר

    בת – יוספה

    ε (0.5- ε)

    V

    V

    בת – שם אחר

    בת – שם אחר

    (0.5- ε)2

    סימנתי בטבלה את השורות שמציינות את המשפחות שבהן יש ילדה ושמה יוספה, ואת השורות שבהן יש ילדה ושמה יוספה ושתי ילדות בסך הכל. שימו לב כי יש גם משפחה אפשרית שבה לשתי הילדות קוראים יוספה. זה לא מציאותי, תגידו. נכון. אבל זו לא המציאות, אלא רק מודל שמתאר את המציאות. בכל מקרה, ומאר והנחנו כי ε הוא מספר קטן, הרי ש- ε בריבוע הוא מספר הרבה יותר קטן, ובאופן מעשי הוא אפס. מכאן דרך החישוב פשוטה. עלינו לסכם את שלוש ההסתברויות של שלוש המשפחות האפשריות שהן שתי בנות בסך הכל וגם ילדה ושמה יוספה. אחר כך עלינו לסכם את חמש ההסתברויות של חמש המשפחות האפשריות שבהן ילדה בשם יוספה. ולסיום, עלינו לחלק. הנה החישוב:

    אז התשובה היא בערך חצי אם ε הוא מספר קטן.

    שימו לב שהגישה הנאיבית לא מדוייקת, אך בכל זאת נותנת תשובה נכונה! הגישה הנאיבית תגיד שאם ידוע שיש במשפחה יוספה אחת, אז יש לנו בסך הכל ארבע אפשרויות: יוספה-בת, יוספה-בן, בת-יוספה ובן-יוספה, ומתוכן יש שתי אפשריוית של שתי בנות במשפחה, ולכן ההסתברות היא 2 חלקי 4, כלומר חצי. הסיבה לכך היא שלמרות שההסתברויות לארבע האפשרויות שונות זו מזו, הן כולן קרובות יחסית ל-0.25, בגלל שהשם יוספה נדיר ו-ε קטן. אם הייתי בוחר שם פופלרי יותר התשובה הייתה הולכת ומתרחקת מחצי.

    ולסיום: תודה לכל מי שניסה לפתור ושלח לי את הגיגיו. הפותר היחיד הוא יואב בילינסקי.

    ילדה ושמה יוספה

    דוברמן העלה את החידה הקלילה הזו בבלוג שלו:

    במשפחת תפוחי שני ילדים. נתון לנו שאחד מהילדים האלו הוא (היא) בת. מה ההסתברות שלמשפחת תפוחי יש שתי בנות?

    אם אתם יודעים את התשובה, שלחו את התשובה אליו, ונסו לפתור את חידת ההמשך:

    אם אספר לכם כי שמה של אותה בת למשפחת תפוחי הוא יוספה, אז מהי ההסתברות כי גם הצאצא הנוסף של משפחת תפוחי היא בת?

    את הפתרון לחידה זו שלחו אלי. אנא המנעו מכתיבת התשובה בתגובות.

    בעיית מונטי הול חוזרת

    גיל גרינגרוז פרסם רשימה מצויינת על בעיית מונטי הול בבלוג שלו ב"רשימות"  – אותה בעיה בה יש שלוש דלתות, מאחורי אחת מהן פרס גדול, וכולי וכולי.

    הקוראים שמכירים את הבעיה יודעים בודאי כי החוכמה היא לא למצוא את הפתרון הנכון, אלא להשתכנע שזהו אכן הפתרון הנכון, ובכך עוסקת רוב הרשימה של גיל. בהזדמנות זו אפנה את קוראיי שוב לרשימה שאני כתבתי על בעיית מונטי הול, שעסקה בקשיים שלי להסביר את הפתרון ואת האינטואיציה שמאחוריו.

    מעטפת מזומנים מחליפה ידיים בחדר אפל

    מוריס הניח את המעטפה על השולחן. א', שישב מולו בסבר פנים חמור נטל אותה לידיו והתכונן לפתוח אותה, אבל מוריס עצר בעדו. הוא שלף מכיסו מעטפה נוספת.

    "לפני שבאתי לכאן הכנתי שתי מעטפות", סיפר. "סכום הכסף באחת המעטפות היה כפול מהסכום שבמעטפה השניה. בתחילה פשוט שלפתי את אחת המעטפות מהכיס באופן מקרי. האם אתה מעוניין להחליף את המעטפה שנתתי לך במעטפה הזו?"

    "זה תלוי", אמר א', "נניח שבמעטפה הזו יש 1000 דולר. האם במעטפה השניה יש 2000 דולר, או רק 500?". "את זה", אמר מוריס, "תדע רק אם תחליף את המעטפות".

    א' ניסה לחשוב: נניח שאכן יש כאן 1000 דולר. אם במעטפה השניה יש 2000 דולר, אז הוא ירוויח 1000 דולרים נוספים, אבל אם יש בה רק 500 דולר, הוא יפסיד 500 דולר. 50% סיכוי להרוויח 1000, 50% סיכוי להפסיד 500. הוא חישב את תוחלת הרווח: חצי מאלף הם 500, חצי ממינוס חמש מאות הם מינוס 250, לכן תוחלת הרווח היא 250 דולר. "אוקי, אני מחליף", אמר. הוא החזיר את המעטפה שבידו למוריס, וקיבל את המעטפה השניה לידיו.

    מוריס חייך. "ועכשיו, האם אתה מעוניין להחליף את המעטפה שלך במעטפה שבידי?"

    ההתרחשות שתוארה זה עתה לא קרתה מעולם. ובכל זאת, האם לדעתכם א' יחליף שוב את מעטפתו במעטפה השניה? אם תחשבו על כך, תהיו חייבים להודות כי אותם השיקולים שהובילו אותו להחלפה הראשונה, יוליכו אותו להחלפה נוספת, ולהחלפות נוספות, אם תוצע אפשרות ההחלפה שוב. גם אילו פתח א' את אחת המעטפות וגילה את הסכום שבתוכה, השיקול שהוצג לא היה משתנה, ושוב היה בוחר בהחלפה, ובעוד החלפה וחוזר חלילה. תמיד כדאי להחליף.

    האם יש כאן פרדוקס? ממש לא. הסבר מעניין ניתן למצוא במאמרו של מריוס כהן שפורסם גם ב-Ynet: פרדוקס שתי המעטפות: איזו רווחית יותר?  גדי אלכסנדרוביץ, שתיאר את הבעיה הזו בבלוג שלו לפני זמן לא רב, אמר כי "חישובי ההסתברויות הם בלוף אחד גדול". אני הייתי משתמש במלים קצת יותר עדינות, ואומר פשוט כי חישובי ההסתברות שהוצגו בשיקוליו של א' היו שגויים.

    שימו לב: מוריס הכין את המעטפות מראש. אם במעטפה הראשונה יש 1000 דולר, אז ההסתברות שבמעטפה השניה יש 2000 דולר היא לא 0.5. הסכום שבמעטפה השניה אינו משתנה מקרי אלא קבוע. לכן ההסתברות הזו היא או 0, אם מוריס הכין מעטפות שבן 1000 דולר ו-500 דולר, או 1, אם מוריס הכין מעטפות שבן 1000 דולר ו-2000 דולר.

    השיקול ההסתברותי הנכון שעל א' היה לעשות הוא כזה: "נניח שהיו שתי מעטפות, באחת מהן 1000 דולר ובשניה 2000 דולר. יש סיכוי של 50% שאני מחזיק את המעטפה עם 1000 הדולרים (כי מוריס הושיט לי את אחת משתי המעטפות ששלף באקראי מכיסו), ולכן אם אחליף ארוויח עוד 1000 דולר. יש גם סיכוי של 50% שאני כבר מחזיק את המעטפה עם הסכום הגבוה שהוא 2000 דולר, ולכן אם אחליף אפסיד 1000 דולר. מכאן שתוחלת הרווח מהחלפת המעטפות היא 0, ולכן לא משנה (בתוחלת) אם אחליף את המעטפה או לא אחליף אותה."

    מה קורה כאשר הסכום במעטפה הוא משתנה מקרי?

    מתברר שאפשר לקחת את הבעיה הזו ולסבך אותה עוד. לפני כשלושה חודשים כתבתי כאן על הרצאתו של פרופ' נוגה אלון שנשאה את הכותרת "חשיבה הסתברותית", והזכרתי בחטף את "בעיית המעטפות המוכללת" שאלון הציג במהלך ההרצאה. אלכסנדרוביץ שמע גם הוא את אלון מרצה על הנושא, ודן בבלוג שלו גם בבעיה המוכללת. אני ממליץ לכם לקרוא את הדיון של אלכסנדרוביץ בבלוג המצויין שלו , כיוון שבהמשך דברי אסתמך על חלק מדבריו.

    אפתח בתיאור הבעיה המוכללת כפי שהציג אותה פרופ' אלון. הרעיון הוא שהסכומים המוכנסים למעטפות לא נקבעים באופן שרירותי, אלא על ידי מנגנון הסתברותי: תחילה בוחרים מספר טבעי באופן הבא: המספר 1 נבחר בהסתברות 0.5, 2 נבחר בהסתברות 0.25, 3 נבחר בהסתברות 0.125, וכן הלאה – המספר k נבחר בהסתברות 0.5 בחזקת k. (בניסוח סטטיסטי פורמלי – המספר שנבחר הוא משתנה מקרי גיאומטרי עם פרמטר 0.5). לאחר שנבחר המספר, שנסמנו ב-m, מכניסים למעטפה אחת 10 בחזקת m דולרים, ולשניה מכניסים 10 בחזקת m+1 דולרים. למשל, אם נבחר המספר 3 מכינים שתי מעטפות, באחת מהן יהיו 1000 דולר, בשניה 10000. כעת בוחרים את אחת משתי המעטפות ונותנים אותה לשחקן, עם האופציה להחליף אותה במעטפה השניה. האם כדאי לו להחליף?

    שימו לב כי כעת שני הסכומים שבמעטפות הם משתנים מקריים, ולכן הטיעון שבו פתרתי את הבעיה הפשוטה שהוצגה בראית המאמר שוב אינו תקף. כעת דווקא שיקול הסתברותי הדומה לשיקול שהיה שגוי בבעיה ההתחלתית יהיה דווקא תקף.

    קודם כל יש לשים לב כי אם תמיד מנצלים את אופציית ההחלפה תוחלת הזכיה תהיה שווה לתוחלת הזכיה במקרה שבו לא מנצלים את אופציית ההחלפה. הסיבה לכך הוא שאם תמיד מחליפים את המעטפה הראשונה בשניה – זה כאילו קיבלתם ישירות את המעטפה השניה. האם תמיד כדאי להחליף את המעטפות?

    ברור שאם פותחים את המעטפה ומוצאים בה 10 דולר, הרי שבמעטפה השניה יש 100 דולר בהסתברות 1, וכדאי להחליף. מה קורה אם פותחים את המעטפה ומוצאים בה 100 דולר (ההסתברות לכך היא 3/8)? במקרה כזה יש שתי אפשרויות: או שבמעטפה השניה יש 10 דולר, או שיש בה 1000 דולר. קל לחשב (ואלכסנדרוביץ הסביר את החישוב) כי הסיכוי שבמעטפה השניה יש 10 דולר בלבד הוא 2/3 והסיכוי כי במעטפה השניה יש 1000 דולר הוא 1/3. לכן תוחלת תוספת הסכום המתקבל כתוצאה מההחלפה היא 240 דולר, וכדאי להחליף. הטיעון הזה תקף לכל סכום שנמצא במעטפה הראשונה, ולכן ניתן לסכם ולומר כי כאשר מקבלים מעטפה במשחק הזה כדאי להחליף אותה במעטפה השניה.

    טוב, החלפנו את המעטפה הראשונה שקיבלנו במעטפה השניה, ועכשיו מוצע לנו להחליף שוב את המעטפות. האם כדאי להחליף שוב? התשובה שלילית. אם במעטפה הראשונה שקיבלנו לידנו היו 10 דולר, עכשיו אנחנו מחזיקים במעטפה שבה 100 דולר, ולא כדאי להחליף. ואם במעטפה הראשונה שקיבלנו לידנו הייתה חזקה גדולה מ-1 של 10, ואשאר שוב בדוגמא של 100 דולר במעטפה הראשונה שהוחלפה, הרי יש שתי אפשרויות: או שבידנו 1000 דולר ואם נחליף שוב נפסיד 900 דולר, וההסתברות לכך היא 1/3, או שבידנו 10 דולר ואם נחליף שוב את המעטפות נרוויח 90 דולר, וההסתברות לכך היא 2/3. ההחלפה השניה תוביל אותנו לתוחלת רווח שלילית של 240-, ולכן לא כדאי להחליף שוב את המעטפות. שימו לב כי הטיעון הזה תקף גם אם פותחים את המעטפה הראשונה, וגם אם לא.

    את תוחלת הזכיה הכללית במשחק המעטפות הזה מחשבים על ידי שקלול הרווח המתקבל בכל מצב בהסתברות שלו. אלכסנדרוביץ עורך את החישוב ומוצא כי תוחלת הרווח היא אינסופית, גם כאשר מנצלים את אופציית ההחלפה, וגם כשלא. בנקודה הזו אלכסנדרוביץ מתבלבל: "הייתי שמח לומר שזה מסביר את הכל. שבגלל שבשני המקרים התוחלת היא אינסופית, אין פלא שנוצר הבלבול לפיו נראה שתמיד כדאי להחליף. להגיד שה'כדאי' הזה מבוסס, אי שם עמוק בפנים, על חיסור שתי התוחלות, חיסור שפשוט אינו מוגדר. לרוע המזל, למרות שמבחינה מתמטית כל זה כנראה נכון, האינטואיציה שלי לא משתפת פעולה…"

    את הבעיה שבלבלה את אלכסנדרוביץ קל לפתור. בואו נחזור לבעיה המקורית, זו שבה יש שתי מעטפות עם סכומים שנקבעו מראש. האם זה משנה אם הסכום באחת המעטפות גדול פי 2 מהסכום שבמעטה השניה? לא ממש. גם אם הוא היה גדול פי 10, או רק פי 1.5 הניתוח לא היה משתנה. מה שמשנה באמת זה לא היחס בין שני הסכומים, אלא בכך שהם שונים זה מזה, ולכן אחד מהם גדול ממשנהו. זה הכל. אם השתכנעתם, תשתכנעו גם מהטענה הבאה: בעיית המעטפות הציג פרופ' אלון לא תשתנה בצורה עקרונית אם נשנה אותה כך שתוחלת הרווח של מקבל המעטפה תהיה סופית. ניתן לשנות את הבעיה כך שהתוחלת תהיה סופית בשתי דרכים: על ידי שינוי הפרמטר של ההתפלגות הגיאומטרית, או על ידי שינוי היחסים בין סכומי הכסף במעטפות. לכן, בואו נניח כי במקום חזקות של 10 יופיעו כעת בבעיה חזקות של 1.5.

    כלומר, אם מוגרל המספר 1 מההתפלגות הגיאומטרית, נכין שתי מעטפות שבאחת מהן 1.5 דולרים (או אלפי דולרים, אם תרצו, זה לא משנה), ובשניה 2.25 דולרים, ואם יעלה המספר 5 נכין שתי מעטפות שבאחת מהן 7.59375 דולרים ובשניה 11.390625 דולרים. עכשיו נוכל לחזור על השיקול שערכנו קודם: אם במעטפה הראשונה שקיבלנו יש 1.5 דולר, כדאי להחליף כי במעטפה השניה יש בודאות סכום גבוה יותר של 2.25 דולר. לעומת זאת, אם במעטפה יש חזקה של 1.5 הגדולה מ-1, נניח 2.25, הרי שהחלפה תוביל לרווח של 1.25 דולר (3.375 פחות 2.25) בהסתברות 1/3, ולהפסד של 0.75 (2.25 פחות 1.5) בהסתברות 2/3. שקלול הרווח וההפסד על פי ההסתברויות מגלה כי החלפה תוביל להפסד של 0.125, ולכן לא כדאי להחליף.

    שקלול על פני כל האפשרויות יראה כי אם תמיד מנצלים את אופציית ההחלפה תוחלת הרווח היא 3.75 (הנוסחה שפיתח אלכסנדרוביץ תעבוד אם תחליפו את 10 ב-1.5). זוהי כמובן גם תוחלת הרווח אם  מותרים באופן גורף על אופציית ההחלפה.  האסטרטגיה האופטימלית, בה מנצלים את אופציית ההחלפה רק במקרה שבמעטפה הראשונה יש 1.5 דולר, מובילה לתוחלת רווח של 3.9375.

    עד כאן פתרון בעיית המעטפות המוכללת. אפשר להמשיך ולהשתעשע בנושא. אפשר, למשל, לבדוק מה קורה אם במקום חזקות של 10 או של 1.5 מכניסים למעטפות חזקות אחרות.

    מתברר באופן לא מפתיע כי אם הסכומים שבמעטפות הן חזקות של 2 או יותר מכך, תוחלת הרווח במשחק היא אינסופית. זה בעצם מקרה יותר כללי של הבעיה שהציג אלון. באופן מקומי, כאשר מחשבים את התוחלת המותנה במספר שנבחר בתחילה, כדאי להחליף. כאשר משקללים כל פני כל המספרים הטבעיים (כלומר, מחשבים את התוחלת הבלתי מותנה) התוחלת אינסופית.

    תוחלת הזכיה במשחק תהיה סופית אם הסכומים במעטפות הם חזקות של מספר הקטן מ-2. אם הסכומים במעטפות הם חזקות של מספר הנמצא בין 1 ל-2, כדאי להחליף רק במקרה בו יודעים בודאות כי במעטפה השניה יש סכום גדול יותר (זה הניתוח שעשיתי עבור הדוגמא של 1.5). אם במעטפות יש חזקות של 1, אז בכל המעטפות יש אותו סכום ולא משנה מה עושים. באופן מפתיע (לפחות האינטואיציה שלי הופתעה בתחילה, ובדקתי שוב ושוב את הפיתוח והפתרון של אי השוויון הריבועי עד שהשתכנעתי), אם הסכומים שבמעטפות הם חזקות של מספר הקטן מ-1, אז בדרך כלל כדאי להחליף. בואו ניקח חזקות של 0.5 כדוגמא. יש מקרה אחד בו יודעים בודאות כי הסכום במעטפה השניה קטן יותר. זהו המקרה בו פותחים את המעטפה ומוצאים בה 0.5 דולר, במעטפה השניה יש בהכרח 0.25 דולר ולא כדאי להחליף. בכל מקרה אחר כדאי להחליף.

    פורסם לראשונה באתר "רשימות" בתאריך 11 באוגוסט 2008 שם התקבלו 11 תגובות

    גדי אלכסנדרוביץ'  [אתר]  בתאריך 8/11/2008 11:12:09 PM

    תגובה (שפרסמתי גם בבלוג שלי)

    היי יוסי. ראשית, אתה יותר ממוזמן לקרוא לי "גדי" בבלוג שלך. אין כל צורך באלכסנדרוביץ הזה. שנית, לכבוד הוא לי שאתה טורח לקרוא את הבלוג שלי, לא כל שכן להגיב לו בפוסטים משלך. שלישית, תודה על זווית הראייה הנוספת שלך על הבעיה – בהחלט לא ניסיתי לתקוף אותה מהכיוון הזה עד עתה (והייתי צריך).
    כעת, לעניין עצמו – ייתכן שאני מתבלבל בחשבון שלי, אבל הרושם שאני מקבל הוא שאכן, אם אתה בוחר בתור בסיס לכפולות של הכסף משהו שהוא קטן מ-2 אתה מקבל תוחלת רווח סופית, ולכן מפיל לקרשים את טיעון ה"תוחלת אינסופית" המדובר, אבל מצד שני, גם החישוב המקורי שממנו נובע שכדאי להחליף כבר לא עובד. שיחקתי עם זה קצת כרגע וקיבלתי שהנוסחה הכללית של "תוחלת הרווח מההחלפה", כש-a הוא הבסיס שלך, היא הנוסחה הבאה:
    a^(n-1)*(a^2-3a+2)/3
    בפרט, שים לב שאם מציבים a=10 מקבלים את הנוסחה שקיבלתי לעיל. הנוסחה הזו לא חיובית תמיד; עבור ערכים של a שקטנים מ-2 (וגדולים מ-1) מקבלים תוחלת רווח שלילית, כך שלא כדאי להחליף. מכאן שיש שתי בעיות – אחת עם a קטן מ-2, שהיא "מנוונת" – אמנם, התוחלת לא אינסופית בה, אך גם לא כדאי להחליף ולכן אין פרדוקס, ואחת עם a גדול מ-2, שבה התוחלת אינסופית ותמיד כדאי להחליף.
    לסיכום, אני לא בטוח שאני מסכים עם הטענה שלך של "בעיית המעטפות הציג פרופ' אלון לא תשתנה בצורה עקרונית אם נשנה אותה כך שתוחלת הרווח של מקבל המעטפה תהיה סופית". ייתכן שאפשר לשנות את פרמטר ההתפלגות הגאומטרית; אבל שינוי היחס בין הסכומים הוא כן בעל חשיבות, לטעמי. מצד שני, ייתכן מאוד שאני סתם מתחרבש עם המתמטיקה.

    דובי  [אתר]  בתאריך 8/12/2008 3:00:25 AM

    ומה אם פותחים את המעטפה השניה?

    הנה מה שהתקשיתי בו בדיון אצל גדי:
    מציגים לי שתי מעטפות. אני בוחר אחת. עכשיו האיש שמולי פותח את המעטפה שהוא מחזיק, ומראה לי שיש שם 100 דולר. לפי החישוב שלך, לא כדאי לי להחליף בשלב הזה (זהה לשלב שאחרי ההחלפה בתיאור שלך). כלומר, השאלה אם כדאי לי להחליף או לא תלויה במשתנה הלכאורה לא רלוונטי של איזה מעטפה נפתחה. וזה לא נראה לי הגיוני.
    נניח שאנחנו מוסיפים למשחק שלנו שלב נוסף לפני פתיחת המעטפה: מטילים מטבע. אם יוצא עץ, פותחים את המעטפה שלי וכדאי לי להחליף. אם יוצא פלי, פותחים את המעטפה שלא אצלי, ולא כדאי לי להחליף.
    זה נשמע לי פסיכי לגמרי, אבל אני לא מצליח להבין איפה הטעות.

    יוסי לוי  [אתר]  בתאריך 8/13/2008 9:30:49 AM

    תגובה לגדי

    חשבתי שהבהרתי את זה במאמר, אבל אנסה לחדד את הנקודה.
    ההבדל העקרוני בין שתי הבעיות הוא שבבעיה הפשוטה הסכומים שבמעטפות אינם משתנים מקריים, בעוד שבבעיה השניה הסכומים הם כן משתנים מקריים. לכן בבעיה הראשונה השחקן אדיש לאופציה של ההחלפה – תוחלת הרווח מההחלפה היא 0, ולכן לא איכפת לו להחליף את המעטפות שוב ושוב עד שיימאס לו.
    בבעיה המוכללת ייתכן שכדאי לשחקן להחליף, וייתכן שלא (זה תלוי בפונקציית ההסתברות של הסכומים, שנקבעת על ידי הפרמטר של ההתפלגות הגיאומטרית ובסיס החזקה). הנקודה העדינה היא שאם במצב מסויים כדאי להחליף את המעטפה, הרי שאחרי ההחלפה לא כדאי להחליף חזרה.
    המצבים שבהם כדאי להחליף מתחלקים לשני סוגים – המקרה בו התוחלת הכללית (הבלתי מותנה) היא אינסופית – הבעיה המקורית שאלון הציג היא כזו. מתקבלת לכן תוצאה לא אינטואיטיבית, אך גם לא פרדוקסלית, לפיה התוחלת המותנה חיובית וסופית (כלומר כדאי להחליף) אך התוחלת הבלתי מותנה היא כבר אינסופית (ולכן לא משנה אם מחליפים או לא). איזה תוחלת היא "הנכונה" – המותנה או הבלתי מותנה? זה תלוי אם משחקים את המשחק פעם אחת או "הרבה" פעמים. במקרה של משחק בודד, התוחלת המותנה היא הרלוונטית, ובמקרה של סדרה ארוכה של משחקים, התוחלת הבלתי מותנה צריכה לקבוע את כלל ההחלטה.
    אם בסיס החזקה קטן מ-1 אנו נהנים משני העולמות: גם תוחלת בלתי מותנה חיובית כמעט תמיד, וגם תוחלת בלתי מותנה סופית, ואז הכל מסתדר גם עם האינטואיציה. עדיין במקרה שבו כדאי להחליף, אחרי שמחליפים לא כדאי להחליף שוב.

    דובי  [אתר]  בתאריך 8/13/2008 8:20:02 PM

    ללא נושא

    אני עדיין לא מבין איך זה שהסכומים נקבעים בצורה מקרית משנה משהו – הם נקבעו, ועכשיו הם במעטפות, וזהו. אין שתי אופציות למה שיש במעטפה השניה, יש רק אופציה אחת. זה שאנחנו לא יודעים מה הסכום לא משנה את זה.
    אני חושב שהבעיה היא שאנחנו מקבלים את ההנחה שבמעטפה שלנו יש את ה-X, ולכן במעטפה השניה יש או 0.1*X או 10X. אבל זה לא נכון. יש שתי מעטפות, אחת מהן מכילה X, ואחת מהן מכילה 10X. אנחנו מחזיקים באחת מהן (בהסתברות של חצי) – אנחנו לא יודעים איזה, ולכן אין סיבה להחליף אף פעם: התוחלת של ההחלפה היא 0. יש רק מצב אחד שבו פתיחת אחת המעטפות מוסיפה לנו מידע – כשהיא מכילה 10 (כלומר, את המינימום) – ואז אנחנו יודעים שהמעטפה השניה עדיפה. זהו, בכל שאר המקרים, כמו שאומרת האינטואיציה שלנו, להחלפה אין משמעות.

    יוסי לוי  [אתר]  בתאריך 8/14/2008 8:24:51 AM

    תשובות לדובי

    1) זה לא ממש משנה איזו מעטפה פותחים – זו שאצלך או זו שאצל מוריס, זה רק משנה את הכיוון של שיקולי ההחלפה.
    2) בתגובה השניה שלך אתה נופל בכשל ידוע: זה שיש שתי תוצאות אפשריות, זה לא אומר שלכל תוצאה הסתברות שווה. האם ירד מחר שלג בירושלים (היום 14 באוגוסט, להזכירך)? או שכן, או שלא, כמובן, אבל הסיכוי שמחר ירד שלג בירושלים הוא ממש לא 50%. איך אתה יודע את זה? יש לך קצת אינפורמציה על מזג האויר בירושלים. גם כאן, אם אתה יודע את המנגנון לפיו נקבעו הסכומים שבמעטפות, אתה יכול לנצל את האינפורמציה הזו (על ידי שימוש במשפט בייס.
    דוגמא קצת יותר מסובכת המדגימה את הכשל הזה – התעלמות מאינפורמציה המאפשרת להעריך מחדש את ההסתברויות – היא בעיית שלושת הדלתות (הידועה גם כבעיית מונטי הול), עליה כתבתי כאן בעבר:
    http://www.sci-princess.info/archives/29602.asp

    דובי  [אתר]  בתאריך 8/14/2008 4:05:58 PM

    ללא נושא

    יוסי, אני מכיר את הכשל, אבל אני לא מצליח להבין איך הוא רלוונטי לפה. לפני שאני יודע איזה סכום יש במעטפה, כשאני בוחר אותן באופן רנדומלי, יש שתי אופציות, והסיכוי שלי לבחור כל אחת מהן שווה: או שאני אקח את המעטפה עם יותר כסף, או שאני אקח את המעטפה עם פחות כסף. אחרי שפתחתי את אחת המעטפות, אני יכול לחשב את הסיכוי שמבין אם המעטפה הזו משתייכת לזוג א' (היא הגבוהה יותר) או זוג ב' (היא הנמוכה יותר). אבל זה בדיוק מה שמוזר פה: שההחלטה שלי איזו מעטפה לפתוח קובעת אם כדאי לי להחליף או שכדאי למוריס להחליף.
    כלומר, אם פתחתי את המעטפה שלי וגיליתי שיש לי אלף שקלים, כדאי לי להחליף (כי התוחלת חיובית). אבל אם במקום זה פתחתי את המעטפה של מוריס וגיליתי שם 100 שקלים, לא כדאי לי להחליף (ולמוריס כן כדאי), כי התוחלת שלי שלילית (כי זה מצב זהה למצב הראשון אחרי ההחלפה).
    בוא נדמיין עוד משחק: בחרתי מעטפה אחת, החלפתי אותה בשניה בלי לפתוח, ואז פתחתי את המעטפה שבידיים שלי (כלומר, השניה). פתאום – שוב כדאי לי להחליף!

    יוסי לוי  [אתר]  בתאריך 8/17/2008 8:29:46 AM

    דובי – הסבר קצר על הסתברות מותה

    אם פתחת מעטפה ויש בה 1000 שקלים (שער הדולר נמוך, אה?), אז יש אחת משתי אפשרויות: או שהמספר שעלה בגורל בשלב הראשון היה 2, או שהוא היה 3. מאחר ו-2 עולה בהסתברות גבוהה כפליים מההסתברות של שבה עולה 3 (רבע מול שמינית), הרי שגם ההסתברות המותנה של 2 (כלומר ההסתברות ש-2 עלה כאשר אתה כבר יודע כי המספר שעלה הוא 2 או 3) גדולה כפליים מההסתברות המותנה של 3. ההסתברות המותנה של כל המספרים האחרים היא 0 (למשל, אם אתה יודע כי המספר שעלה בגורל הוא 2 או 3, אז ההסתברות כי 4 עלה בגורל היא אפס), ולכן ההסתברות המותנה של 2 היא 2/3, שזה כפליים מההסתברות המותנה של 3 השווה לשליש.

    יוסי לוי  [אתר]  בתאריך 8/17/2008 8:34:59 AM

    דובי – הסבר אלטרנטיבי

    הסבר אלטרנטיבי מדוע במקרה של 1000 שקלים במעטפה, ההסתברות המותנה של 100 שקלים במעטפה השניה היא 2/3:
    בוא נניח שאתה עושה את התרגיל הזה מליון פעמים. בערך ברבע מהמקרים תגריל 2 ותכין מעטפות עם 100 שקלים ו-1000 שקלים, ובערך בשמינית מהמקרים תגריל 3 ותכין מעטפות עם 1000 שקלים ו-10000 שקלים. בשאר המקרים תקבל משהו אחר. עכשיו תזרוק את כל המקרים האחרים – תשאר עם 250000 זוגות של 100-1000 (בערך) ו-125000 זוגות של 1000-10000. עכשיו מתוך 375000 זוגות המעטפות האלה תבחר באופן מקרי זוג אחד. מה הסיכוי שייבחר זוג של 100-1000? בערך 250000 חלקי 375000 כלומר 2/3

    דובי  [אתר]  בתאריך 8/17/2008 4:08:00 PM

    ללא נושא

    יוסי, באמת שאין ולא הייתה לי שום בעיה להבין למה הסיכוי לזוג מספרים 100-1000 היא 2/3 לעומת הסיכוי לזוג המספרים 1000-10000 בהנתן שאחד מהם הוא 1000. מה שאני עדיין לא מצליח להבין זה איך זה שכשאני פותח את המעטפה שלי כדאי לי להחליף, אבל אם אני פותח את המעטפה שלא בחרתי בה, לא כדאי לי להחליף.

    יוסי לוי  [אתר]  בתאריך 8/17/2008 4:30:22 PM

    אוקיי

    אתה לוקח מעטפה, ופותחים את המעטפה השניה. יש בה 1000 דולרים קנדיים. לכן, בהסתברות 2/3 יש במעטפה שלך 100 דולר, ואם תחליף תרוויח 900 דולר, ובהסתברות 1/3 יש במעטפה שלך 10000 דולר, ואם תחליף תפסיד 9000 דולר. שקלל את הרווחים בהסתברויות, ותקבל כי תוחלת הרווח מההחלפה במקרה זה היא מינוס 2400 דולר, ולכן לא כדאי להחליף.

    אותו 1  בתאריך 8/27/2008 1:40:38 PM

    אבל אבל אבל

    כל העוקץ בפרדוקס הוא שאתה נשאל אם ברצונך להחליף את המעטפה *לפני* שפתחת אותה בכלל.