השאלה הזו נשאלה כאן בשבוע שעבר: במשפחה יש שני ילדים. אחד הילדים הוא בעצם ילדה ששמה יוספה. מה ההסתברות כי זו משפחה ובה שתי בנות?
לפני שנגיע לפתרון של החידה הזו, בואו נענה על כמה שאלות פשוטות יותר.
השאלה הראשונה שנענה עליה היא זו: במשפחה יש שני ילדים. מה ההסתברות כי זו משפחה ובה שתי בנות?
הפתרון הנאיבי יאמר כי יש ארבע משפחות אפשריות בנות שני ילדים:
- הילד הראשון הוא בן, והשני בן (בקיצור: בן-בן)
- הילד הראשון הוא בן, והשני בת (בקיצור: בן-בת)
- הילד הראשון הוא בת, והשני בן (בקיצור: בת – בן)
- הילד הראשון הוא בת, והשני בת (בקיצור: בת – בת)
לכן, יש ארבע משפחות אפשריות, ורק אחת מהן (בת-בת) היא משפחה שבה שתי בנות, ולכן ההסתברות היא אחת לארבע, כלומר רבע.
מה נאיבי בפתרון הזה? הפתרון הזה מניח כי לכל הרכבי המשפחות הסתברויות שוות. אולי משפחות של שני בנים נפוצות יותר באוכלוסיה ממשפחות של בת-בן, למשל? כדי לדעת, צריך לערוך רשימה של כל המשפחות האלה, ולספור כמה משפחות יש מכל סוג. זה כמובן לא ממש מעשי.
העובדה שהפתרון הראשוני הוא נאיבי לא אומרת שהוא לא נכון. הוא נכון בתנאים מסויימים. הפתרון הנאיבי הזה מבוסס על מודל, כלומר הוא בונה תיאור של המציאות, שייתכן שאינו מדוייק לגמרי, אבל הוא מספיק טוב כדי לתת תשובה אמינה לשאלה שלנו. על כך כבר אמר ג’ורג’ בוקס (מספר 14 ברשימת 15 הסטטיסטיקאים הגדולים שלי): “Essentially, all models are wrong, but some are useful”. כל המודלים שגויים, אך חלקם שימושיים.
כדי להשתמש במודל צריך להצדיק אותו. אי אפשר לבוא ולומר “יש ארבע תוצאות אפשריות, ולכן לכל תוצאה יש הסתברות רבע”. לא כל המאורעות קורים בהסתברויות שוות. מה ההסתברות כי בחודש אוגוסט הקרוב ירד שלג בתל-אביב? יש שני מאורעות אפשריים: או שירד שלג, או שלא. אבל אף אחד לא יטען כי הסיכויים הם 50:50.
את המודל שלנו למשפחות בנות שני ילדים אפשר להצדיק. אפשר לטעון, ובצדק, כי בכל לידה יש סיכוי של 50% כי הנולד יהיה בן, וסיכוי של 50% כי תיוולד בת. זה בערך נכון. שיעור לידות הבנים גבוה מעט משיעור לידות הבנות, הטבע מאזן את זה על ידי שיעור מעט יותר גבוה של תמותת תינוקות זכרים. זה לא בדיוק נכון, אבל כאמור מדובר כאן במודל, כלומר בתיאור מקורב של המציאות. השלב הבא בטיעון להצדקת המודל יאמר כי מאחר והסיכוי כי הילד הראשון במשפחה הוא חצי, והסיכוי כי הילד השני במשפחה הוא גם כן חצי, אז הסיכוי כי שני הילדים הם בנים הוא 0.5×0.5=0.25. באופן דומה ניתן לחשב כי ההסתברות של כל אחד מההרכבים האחרים של משפחות עם שני ילדים היא גם כן 0.25. למה מכפילים את ההסתברויות? כאן מסתתרת ההנחה השניה של המודל, לפיה אין תלות בין מינו של הילד הראשון במשפחה ומינו של הילד השני במשפחה. על פי הנחה זו, המקרה של אבו-אל-בנאת, אותו אב קולנועי לתשע בנות הוא רק ביש מזל, אירוע נדיר (1 ל-512) שהתגשם, ואינו משקף חוסר גבריות כלשהי אצל שבתאי אלפנדרי (ששייקה אופיר גילם את דמותו בכשרון רב). האם זו הנחה סבירה? הנתונים הסטטיסטיים מאשרים שכנראה שכן (אין לי מקור להפנות אתכם, אני מתבסס על זכרון קלוש שאומר לי שראיתי פעם נתונים כאלה).
אה, ויש עוד עניין קטן: המודל שלנו מתעלם מלידות תאומים. ההנחה של אי התלות בין המינים של שני הילדים אינה נכונה במקרה של תאומים זהים. אם אחד משני תאומים זהים הוא בן, אז השני גם חייב להיות בן. זו יכולה להיות בעיה מסויימת, והיא תתבטא בכך שהתשובות לשאלות שאנו שואלים לא יהיו מדוייקות. כמו שג’ורג’ בוקס אמר – כל המודלים שגויים. בכל מקרה, אני מטאטא את עניין התאומים אל מתחת לשטיח, ונשאר במודל שמתאר בצורה טובה את המשפחות שבהן יש שני ילדים שאינם תאומים.
בסיכומו של הדיון עד כה הגענו למסקנה כי במשפחה בת שני ילדים, הסיכוי כי שני הילדים הם בעצם שתי בנות הוא רבע.
עכשיו נעבור לחידה שפרסם דוברמן: ידוע כי במשפחה שבה שני ילדים, אחד הילדים הוא בעצם בת. מה ההסתברות כי שני הילדים הם בעצם בנות?
התשובה שרוב האנשים שולפים מהמותן היא 50%. הטיעון הוא כזה: ידוע לנו שיש בת אחת. לגבי הילד השני – או שהוא בן או שהוא בת. אנו יודעים (או מניחים, על פי המודל שתואר קודם) כי בכל לידה הסיכוי ללידת בת הוא 50%, וגם כי אין תלות בין המינים של שני הילדים. לכן עצם העובדה שידוע לנו המין של אחד הילדים לא משנה את ההסתברות כי הילד השני הוא בת.
התשובה הזו היא תשובה נכונה, אבל לא לשאלה שנשאלה אלא לשאלה אחרת. הבעיה הטיעון שהוצג היא שיש בו הנחה סמויה, לפיה ידוע מי משני הילדים הוא הבת. אילו הייתה השאלה מנוסחת כך: “ידוע כי במשפחה שבה שני ילדים, הילד הבכור הוא בעצם בת. מה ההסתברות כי שני הילדים הם בעצם בנות?”, אז התשובה היא אכן 50%, בדיוק לפי הטיעון שבפיסקה הקודמת, אבל זו לא השאלה שנשאלה. בנתוני השאלה שנשאלה, אחד הילדים הוא בת, אבל לא ידוע לנו אם זהו הילד הראשון במשפחה או הילד השני. חוסר הידיעה משנה את התשובה. מי שכבר קרא את הפתרון אצל דוברמן יודע שהתשובה הנכונה היא שליש. הטיעון שדוברמן הציג הוא כזה: מראש יש ארבעה סוגי משפחות אפשריים, אבל כיוון שידוע לנו כי אחד הילדים הוא בת, המאורע בן-בן שוב אינו רלוונטי. לכן נותרו לנו שלושה מבני משפחה אפשריים (בן-בת, בת-בן ו-בת-בת), ורק באחד מהם יש שתי בנות במשפחה, ולכם הסיכוי הוא אחד מתוך שלוש, כלומר שליש.
הפתרון הזה הוא (שוב) פתרון נאיבי, שמניח באופן משתמע (implicit) את המודל שתיארתי קודם לכן. הוא עובד כי המודל מתאים, אבל אם ההנחות של המודל אינן מתקיימות, גם הפתרון אינו נכון. תחשבו למשל על השאלה הבאה. ידוע כי לפחות באחת משתי הערים תל-אביב ושיקגו ירד שלג בתאריך מסויים בחודש ינואר האחרון. תעמידו פנים שאתם לא יודעים ולא יכולים לברר מה היה מזג האויר בשתי הערים האלה, אבל אתם כן יודעים שההסתברות לשלג בשיקגו בינואר היא 90% ובתל-אביב (נניח) אחוז אחד. מה ההסתברות שבשתי הערים האלה ירד שלג באותו היום? בואו נניח כי אין תלות בין מצבי מזג האויר בשתי הערים. נסכם את כל המצבים האפשריים וההסתברויות המתאימות בטבלה:
תל-אביב |
שיקגו |
הסתברות |
שלג |
שלג |
0.01×0.9=0.009 |
שלג |
אין שלג |
0.01×0.1=0.001 |
אין שלג |
שלג |
0.99×0.9=0.891 |
אין שלג |
אין שלג |
0.99×0.1=0.099 |
אם לא ידוע לנו כלום, אז ההסתברות כי יש שלג בשתי הערים היא 0.009, לא 0.25. אם ידוע לנו כי ירד שלג בשיקגו, אז ההסתברות שירד שלג בתל-אביב היא 0.01 – למעשה הידיעה על מזג האויר בשיקגו לא משנה כלום בגלל אי התלות ביו מצבי מזג האויר בשתי הערים.
אם נתון לנו כי באחת משתי הערים היה שלג (אך לא ידוע לנו באיזו עיר), הנה השיקול שעלינו לעשות כדי לענות לשאלה. ההסתברות שירד שלג לפחות באחת משני הערים היא 0.901. ניתן להגיע לתוצאה זו בשתי דרכים. ניתן לחבר ההסתברויות בשלוש השורות הראשונות שבטבלה (שלג-שלג, שלג-אין שלג, אין שלג-שלג) ולקבל 0.009+0.001+0.891=0.901, או להחסיר את ההסתברות של השורה האחרונה (אין שלג-אין שלג) מ-1, ולקבל באופן לא מפתיע כי 1-0.099=0.901. כלומר, ב-90.1% מהמקרים יורד שלג לפחות באחת משתי הערים. לעומת זאת, רק ב-0.9% מהמקרים יורד שלג בשתי הערים. לכן ההסתברות שיורד שלג בשתי הערים כאשר נתון כי באחת מהן יורד שלג היא 0.009 חלקי 0.901 שזה בערך 0.00998.
אינטואיטיבית ניתן להסביר את התוצאה הזו כך: אם נסתכל על אלף ימים, ב-901 מהימים ירד שלג לפחות באחת משתי הערים (באופן תיאורטי), אך רק בתשעה מהם ירד שלג בשתיהן. לכן ההסתברות המבוקשת היא 9/901.
אם נחזור לחידת המשפחה, ההסתברות שבמשפחה יש לפחות בת אחת היא 0.75 (רבע ועוד רבע ועוד רבע), וההסתברות כי במשפחה שתי בנות היא 0.25, ולכן אם ידוע כי אחד הילדים הוא בעצם בת, ההסתברות שבמשפחה יש שתי בנות היא 0.25 חלקי 0.75 כלומר שליש. באופן אינטואיטיבי, אם נניח כי יש בדיוק 1000 משפחות בנות שני ילדים, אז ב-750 מהן יש לפחות בת אחת, וב-250 יש שני בנים (שוב באופן תיאורטי). מתוך 750 המשפחות שבהן יש בת אחת לפחות, יש 250 משפחות עם שתי בנות, ולכן ההסתברות המבוקשת היא 250/750.
מה קורה עם יוספה? יוספה משנה את מרחב המצבים שלנו. עכשיו יש לנו לא ארבעה טיפוסי משפחות, אלא תשעה, וההסתברויות כבר לא זהות.
בואו נחזור למודל הבסיסי של לידת יחיד. על פי המודל, יש סיכוי של 0.5 כי הנולד הוא בן. כמובן, הסיכוי כי הנולד הוא בת גם הוא 0.5, אבל עכשיו המקרה של לידת בת מתחלק לשני מקרים: המקרה שבו לבת לא קוראים יוספה, והמקרה בו ההורים הגאים בחרו לביתם את השם הלא כל כך נפוץ הזה. מה ההסתברות לשם יוספה? ההסתברות קטנה, אבל בכל זאת חיובית. יש כמה יוספות שמתהלכות ביננו. נסמן את ההסתברות הזאת באות היוונית ε. מי שזה מפריע לו, יכול לבחור סתם מספר קטן, נניח 0.0000001. ההסתברות לבת ששמה לא יוספה היא לכן 0.5 כפול ε . בואו נכתוב את כל המשפחות האפשריות בטבלה, יחד עם ההסתברויות:
ילד ראשון |
ילד שני |
הסתברות המשפחה |
לפחות בת אחת ששמה יוספה |
שתי בנות |
בן |
בן |
0.25 |
||
בן |
בת – יוספה |
0.25ε |
V |
|
בן |
בת – שם אחר |
0.25(1- ε) |
||
בת – יוספה |
בן |
0.25ε |
V |
|
בת – יוספה |
בת – יוספה |
0.25ε2 |
V |
V |
בת – יוספה |
בת – שם אחר |
0.25ε (1- ε) |
V |
V |
בת – שם אחר |
בן |
0.25(1- ε) |
||
בת – שם אחר |
בת – יוספה |
0.25ε (1- ε) |
V |
V |
בת – שם אחר |
בת – שם אחר |
0.25(1- ε)2 |
סימנתי בטבלה את השורות שמציינות את המשפחות שבהן יש ילדה ושמה יוספה, ואת השורות שבהן יש ילדה ושמה יוספה ושתי ילדות בסך הכל. שימו לב כי יש גם משפחה אפשרית שבה לשתי הילדות קוראים יוספה. זה לא מציאותי, תגידו. נכון. אבל זו לא המציאות, אלא רק מודל שמתאר את המציאות. בכל מקרה, ומאר והנחנו כי ε הוא מספר קטן, הרי ש- ε בריבוע הוא מספר הרבה יותר קטן, ובאופן מעשי הוא אפס. מכאן דרך החישוב פשוטה. עלינו לסכם את שלוש ההסתברויות של שלוש המשפחות האפשריות שהן שתי בנות בסך הכל וגם ילדה ושמה יוספה. אחר כך עלינו לסכם את חמש ההסתברויות של חמש המשפחות האפשריות שבהן ילדה בשם יוספה. ולסיום, עלינו לחלק. הנה החישוב:
אז התשובה היא בערך חצי אם ε הוא מספר קטן.
שימו לב שהגישה הנאיבית לא מדוייקת, אך בכל זאת נותנת תשובה נכונה! הגישה הנאיבית תגיד שאם ידוע שיש במשפחה יוספה אחת, אז יש לנו בסך הכל ארבע אפשרויות: יוספה-בת, יוספה-בן, בת-יוספה ובן-יוספה, ומתוכן יש שתי אפשריוית של שתי בנות במשפחה, ולכן ההסתברות היא 2 חלקי 4, כלומר חצי. הסיבה לכך היא שלמרות שההסתברויות לארבע האפשרויות שונות זו מזו, הן כולן קרובות יחסית ל-0.25, בגלל שהשם יוספה נדיר ו-ε קטן. אם הייתי בוחר שם פופלרי יותר התשובה הייתה הולכת ומתרחקת מחצי.
ולסיום: תודה לכל מי שניסה לפתור ושלח לי את הגיגיו. הפותר היחיד הוא יואב בילינסקי.
נניח, לדוגמה, שבחוק ההסדרים הוחלט שלכל הבנות חייבים לקרוא יוספה. כלומר – אפסילון = 1. אז המידע שלילדה קוראים יוספה לא משנה כלום, כי הוא שקול לגמרי למידע שהיא ילדה.
ואם מציבים אפסילון=1 מקבלים שההסתברות לשתי בנות היא אפס. למרות שזה אמור להיות שליש, כי זה כמו החידה בלי המידע על יוספה.
לעניות דעתי לא יושם כאן חוק בייס כמו שצריך. נסמן A המאורע של משפחה עם בת ששמה יוספה. B המאורע של משפחה עם שתי בנות.
אז יוסי טוען ש
P(B|A)=P (B)/P(A)
אבל זה נכון רק אם
P(A|B)=1
כמו שהיה בדוגמת השלג. בדוגמא הזאת זה לא נכון, כי הסיכוי שיש בת ושמה יוספה בהינתן שיש שתי בנות הוא
1-(1-e)^2
שזה אחד פחות (אחד פחות אפסילון) בריבוע
וסליחה שאין לי דרך יותר טובה לכתוב נוסחאות.
יום טוב
יוחאי
יוחאי
נקודה מצויינת, שמראה שתמיד חשוב לבדוק את נקודות הקיצון.
העניין הוא שאם הסעיף שהצעת לחוק ההסדרים יעבור אפסילון יהיה שווה לחצי, לא לאחד, ואז הבעיה תהפוך לבעיה שדוברמן הציג, והתשובה שתתקבל תהיה שליש.
1. לדעתי מודל יותר סביר הוא כזה שבו ההסתברות לשני ילדים בעלי שם זהה היא אפסית, ואז גם עבור שם נפוץ התשובה לא תשתנה.
2. יש כאן גם עניין סמנטי – ההבדל בין משתנה חופשי למשתנה חסום על ידי כמת ישי או כמת כולל. אם שואלים: נתון שX היא בת למשפחה של שני ילדים, מה ההסתברות שהילד השני הוא גם בת,מקבלים תשובה שונה מאשר אם שואלים: במשפחה של שני ילדים קיים ילד X שהוא בת. מה ההסתברות שיש במשפחה שתי בנות (במקרה זה הבטוי “הילד השני” אינו מוגדר).
הבעיה היא שבשפה טבעית יש בדרך כלל דו משמעות.
חנוך
1) אני מסכים, אבל המודל יהיה הרבה יותר מסובך (יכלול הסתברויות מותנות), והתשובה לא תשתנה באופן משמעותי.אתה מוזמן לנסות.
2) לא ממש הבנתי את הטיעון שלך – סלח לי על בורותי. עם זאת, אני מסכים לחלוטין עם השורה ההתחתונה, המדגישה את הבעייתיות שבשימוש בשפה טבעית לתיאורים שאמורים להיות מדוייקים. בין התשובות שקיבלתי אכן היו טיעונים שניסו להכנס דרך הדלת הזאת, מתוך מחשבה שיש כאן טריק לשוני סמנטי.
אז זה אומר שאפסילון היא ההסתברות שלמישהו (בן או בת) קוראים יוספה, ולא ההסתברות שלבת קוראים יוספה. זה הבדל חשוב, וכדאי להדגיש את זה בפוסט.
למה צריך לתת הסתברות ללידת יוספה? זה הרי נתון לנו!
לא אהבתי את הפיתרון. אני מרגיש מרומה.
אורי
מצטער שאתה מרגיש מרומה. כפי שהדגשתי מדובר במודל – תיאור לא מדוייק של המציאות, אך מספיק מדוייק כדי להסיק מסקנות.
אם אתה רוצה אתה יכול לחשוב על כך בצורה הבאה: דוגמים באופן מקרי ילד או ילדה מבין כל המשפחות בנות שני ילדים. ההסתברות לדגום בן היא 0.5, ההסתברות לדגום ילדה ששמה יוספה היא אפסילון, וההסתברות לדגום ילדה ששמה אינו יוספה היא 0.5 פחות אפסילון.
ואללה מעניין!
מה עם הווריאציה הבאה:
בוא נחליף את יוספה בשם נפוץ – נועה
במשפחה יש שני ילדים. אחד הילדים הוא בעצם ילדה ששמה אינה נועה. מה ההסתברות כי זו משפחה ובה שתי בנות
גם כאן לפי החישוב, ההסתברות גדולה משליש
אז מה: אם נתון שאחד הילדים הוא ילדה ששמה נועה ההסתברות לשתי בנות גדולה משליש
ואם נתון שאחד הילדים הוא ילדה ששמה אינה נועה ההסתברות לשתי בנות גדולה משליש
ואם נתון שאחד הילדים הוא ילדה ששמה או נועה או לא — אז ההסתברות יורדת לשליש. הכיצד?
(אגב, השם יוספה לא כל כך מוצלח לחידה כי שמות כמו יוספה שמעונה ראובנה וכדומה יש להם סבירות גבוהה יותר להיות שם של בת בכורה שנקראת על שם גבר — יוסף, שמעון או ראובן.)
גיל
קודם כל, בחרתי את השם יוספה כי אני יוסף, זה הכל. אפשר לבחור שם נדיר אחר. הטענה כי יש סבירות גבוהה יותר כי ילדה בשם יוספה שמעונה וכולי היא הבכורה ניתנת לכימות, ואפשר לעבוד עם ההסתברויות המותנות ולהגיע לתשובה (שתהיה כנראה איפושהו בין שליש לחצי). במקרה הקיצוני, בו תניח כי אם לבת יש שם גברי ששונה לשם נשי אז היא בהכרח בכורה, אז ההסתברות כי הילד השני במשפחה הוא ילדה תהיה חצי.
הבעיה עם שם נפוץ יותר היא שאפסילון בריבוע כבר עלול להיות לא זניח, ואז צריך ללכת למודל שהציע חנוך. מצד שני, נראה לי שאפילו במקרה של שם נפוץ במיוחד אפסילון עדיין יהיה מספיק קטן כדי להזניח את אפסילון בריבוע. ובעצם, בארץ זה לא מקובל אבל בארצות אחרות בהחלט יש משפחות שבהם לשני אחים (או יותר) יש את אותו השם.
להגיד ששם הילדה הוא לא נועה זה פשוט להפוך את ההצלחה והכשלון בניסוי ברנולי. אפסילון בריבוע כבר לא יהיה זניח, אבל מצד שני הביטוי חצי מינוס אפסילון בריבוע יוזנח.
להגיד שאחד הילדים הוא ילדה ששמה נועה או לא – זה שקול לאמירה שאחד הילדים הוא ילדה – ואז חוזרים לבעיה של דוברמן.
יכול להיות שזה בא מחוסר נכונותי לקבל ששמה של ילדה יכול לשנות הסתברות – אבל כיצד זה שללא המידע על שמה ההסתברות היא 1/3
בעוד לאחר שנודע ששמה יוספה ההסתברות גדלה?
האם העובדה שקראתי לבתי יוספה מגדיל את הסכוי לכך שהילד הבא שלי תהיה ילדה?
לבנה
העלית שאלות מצויינות.
לשאלתך הראשונה: אכן התשובה בהחלט נוגדת את האינטואיציה – כיצד פרט אינפורמציה שולי כמו שם אחד הילדים משנה את התשובה לשאלה שנשאלה? העניין הוא שאינפורמציה, גם היא שולית, היא עדיין אינפורמציה, והיא משנה את מרחב המדגם ולכן את ההסתברויות. לא במקרה התעכבתי רבות על הדוגמא של השלג בשיקגו ובתל אביב – שם האינפורמציה הנוספת לא נראית שולית, למרות שמדובר באותה אינפורמציה בדיוק. אם הייתי שואל אותך לגבי שתי ערים כלשהן בעולם, בלי לציין איזה, התשובה הייתה אחרת.
לשאלתך השניה: התשובה היא לא. קודם כל, קיימת אי תלות בין מיני בילודים בלידות שונות. בכל לידה ה”משחק” מתחיל מחדש. ובכל זאת, עצם העלאת השאלה היא מעניינת, ומיסאינטרפרטציה כזו היא נפוצה למדי (אני מקווה ומאמין שהשאלה שלך היא פרובוקציה). זה מתקשר לשאלה שאורי שאל קודם. דיברתי על הסתברויות כי זה היה נוח לי בתיאור המודל. אבל תיאור יותר נכון של המציאות – כלומר מודל קצת יותר מתאים לתיאור הבעיה (אם כי זהה מבחינה הסתברותית) היה צריך לעסוק בדגימה של משפחה מקרית מתוך כל המשפחות בנות שני הילדים שכבר נולדו.
גיל צודק. זה פרדוקסלי לגמרי.
אבל החישוב שלך ללא דופי.
אני צריך לחשוב על זה יותר.
מודי,
אני מסכים שהתוצאה מאוד נוגדת את האינטואיטציה, אבל היא בהחלט לא פרדוקסלית.
מצד אחד, כל הכבוד, תשובה יפה ומפתיעה. מצד שני אני מרגיש (קצת) מרומה, בגלל שהתעלמת מהעניין התרבותי (והייתי בטוח שבזה תעסוק השאלה).
אני אסביר:
קודם כל נתון לנו שזה משפחה עם שני ילדים, ושאחד מהם הוא בת. בנוסף, השם יוספה הוא שם עברי, לכן סביר שמדובר במשפחה יהודית. כ-40% מהיהודים שומרי מצוות. למיטב ידיעתי, מצוות פרו ורבו אומרת שיהודי צריך להוליד זכר ונקבה. לכן, משפחה שומרת מצוות תעצור בשתי בנות בהסתברות נמוכה יותר משתעצור בבן ובת, ולכן ההתפלגות של הצימוד (בת-בת) כשיוספה הוא אחד מהשמות נדיר יותר משהיה צפוי לפי המודל הנאיבי.
לעומת זאת, יוספה הוא לא רק שהוא שם לא פופולרי, אלא (ניחוש שלי) שם של זכר (יוסף) בהטיה נקבית. אני מניח שרוב היוספות בעולמנו קרויות על שם איזה יוסף. לכן, סביר להניח שמשפחה שנולד לה בן זכר ובת נקבה, היתה נותנת את השם יוסף לבן הזכר, לכן סביר שמשפחה עם הצימוד (בן-יוספה) תהיה נדירה מאד.
די הופתעתי שלא התחשבת בנתונים האלה, ואני מאד אופתע אם בבדיקת הנתונים באמת תתקבל חלוקה נאיבית…
יואב
כבר דיברנו על זה כאן. תחליף את יוספה באיזה שם שאתה רוצה.
טוב, הבנתי למה האינטואיציה כושלת.
A – יש שתי בנות.
B – יש ילדה בשם נועה
C – יש ילדה ששמה אינו נועה.
האינטואיציה היא ש ההסתברות ל A בהנתן (C או B) תהיה משהו בין ההסתברות ל A בהנתן B ובין ההסתברות ל A בהנתן C. זה נכון אם B וC זרים, אבל במקרה שלנו,
צריך להתייחס גם להסתברות ל A בהנתן B וגם C – שהיא 1!
אכן מודי זה ההסבר! דווקא יואב העלה נקודה מעניינת שאינה קשורה לשמות. יש נתונים די כלליים (עגמומיים) על העדפה של הולדת בנים. כאשר לא משפיעים על מין הילוד (וזה די נדיר עדיין) ההנחה שההסתברות להולדת בן היא חצי סבירה לגמרי. אבל כמו שיואב ציין העדפה לבנים תגרום לאחוז נמוך יותר של משפחות עם שתי בנות בדיוק.
האם אין כאן בעיה בניסוח השאלה?
השאלה מניחה כנתון שישנה ילדה אחת במשפחה בשם יוספה. מאחר וכבר ידוע מראש נתון זה (p=1), לשם אין כל השפעה.
האם ניסוח עדיף לשאלה הוא: מהי ההסתברות שבמשפחה יהיו שתי ילדות, כאשר שמה של אחת מן הילדות הוא יוספה?
זו דעתי הלא מלומדת
תיקון:
האם זה ניסוח מדויק יותר:
נתון שבמשפחה יש שני ילדים, כאשר אחת היא ילדה. מהי ההסתברות ששמה של הילדה הוא הוא יוספה, ובד בבד (and) שבמשפחה ישנן שתי בנות?
במקרה
במקרה
הסיכוי הוא ½ – בדיוק בהתאם לאינטואיציה. יש טעות בחישוב.
ליוסי – תודה על הבלוג המרתק ותודה על החידה המעניינת.
דווקא בשל ההערכה הרבה שאני רוכש לך ולבלוג אני גאה למצוא את הטעות בחישוב, וזה לא היה קל.
הסבר מקוצר – אבל קשה יותר להבנה:
הסיכוי של קבוצת יוספה + יוספה להיכלל במדגם (גם במדגם של “לפחות בת אחת יוספה” וגם במדגם של “שתי בנות”) הוא כפול. שכן קבוצה זה תיבחר פעם אחת בשל הבת הבכורה ופעם אחת בשל הבת הצעירה.
לכן ההסתברות בחידה לקבוצה זאת היא ε^2 * 2. שם ההסתברות צריך להיות מוחלף מ”הסתברות המשפחה” ל “הסתברות המדגם”.
כעת החישוב הופך להיות:
((2 *ε (0.5- ε) + 2 * ε^2 )
/
( 0.5ε * 2 + 2 *ε (0.5- ε) + 2 * ε^2 )
=
ε / 2 ε = ½
הסבר מלא – בעזרת הקצנת הדוגמא:
ראשית הבחירה במשתנה אפסילון מטעה, מכיוון שחישובים שכוללים אפסילון כוללים בד”כ שיקולים אנפיטיסימליים שמובילים להשמטת חזקות גבוהות של אפסילון. ושום השמטה כזאת לא נכללת בחישוב כאן. במילים אחרות – ההסתברות לשם יוספה לא חייבת להיות קטנה בחישוב. לכן אחליף את המשתנה אפסילון ב P.
כעת P יכול להיות גבוה, כמו ההסתברות לשם “מאריה”, אבל נקצין זאת זאת עוד יותר ונדמיין שיש חוק שמחייב לקרוא לכל בת מאריה, כלאמר ש P מקבל את הערך המקסימלי האפשרי שהוא ½ (שזה ה ½ של ההסתברות לבת).
ניקח את החישוב של יוסי ונציב בו P = 0.5 ונקבל
…. = (P – P2) / (2*P – P2 ) =(1/2 – ¼) / (1 – ¼) = ¼ / ¾ = 1/3
כלאמר לפי החישוב של יוסי הסיכוי של בת בשם מאריה (והזכירכם לפי חוק לכל הבנות קוראים מאריה) שמגיעה ממשפחה של 2 ילדים לאחות הוא 1/3, אבל הסיכוי לאח הוא 2//3.
כעת מכיוון שלכל הבנות קוראים מארייה אזי האינפורמצייה על השם לא משנה ואנו יכולים לצמצם את הטבלה ל:
בכור\ה שני\ה הסתברות בת אחת 2 בנות
——- ——– ———– ———- ———
בן בן 25% X X
בן בת 25% V X
בת בן 25% V X
בת בת 25% V V
לפי החישוב של יוסי, כאשר אנו פוגשים בת (למשפחה עם 2 ילדים) הסיכוי שיש לה אחות הוא:
25% / (25% + 25% + 25%) = 1/3
אבל אם נשאל את הבת האם היא הבכורה במשפחתה אזי:
אם כן הסיכוי שיש לה אחות הוא:
25% / (25% + 25%) =- ½
ואם היא אינה הבכורה, גם אז לפי אותו חישוב הסיכוי לאחות הוא ½.
אבל שתי האפשרויות האלו (בכורה או לא) כוללים את כל האפשרויות, וברור שלא יתכן שחיבור של 2 קבוצות שבהם ההסתברות היא ½ תיתן קבוצה מאוחדת שבה ההסתברות היא 1/3.
אז איפה הטעות?
כאשר אנו פוגשים בת למשפחה עם 2 ילדים יש לה הסתברות כפולה מהיות שייכת לקבוצה בת \ בת מאשר לקבוצה בן \ בת. וזאת מכיוון שהיא יכולה להיות הבכורה או השנייה בקבוצת הבת \ בת אבל חייבת להיות השנייה בקבוצת הבן \ בת.
אותו שיקול כמובן ביחס לקבוצת הבת \ בן.
לכן, מעצם הבחירה שלנו בקבוצת המדגם שכולל בת אחת, ההסתברויות בטבלת האפשרויות משתנות:
בכור\ה שני\ה הסתברות בת אחת 2 בנות
——- ——– ———– ———- ———
בן בן 0% X X
בן בת 25% V X
בת בן 50% V X
בת בת 25% V V
וכעת הסיכוי שיש לה אחות הוא:
50% / (25% + 50% + 25%) = ½
כעת משהבעייה הקלה יותר מובנת, אנו יכולים לחזור לחידת יוספה ולראות שההסתברות של קבוצת יוספה +יוספה צריכה להיות מוכפלת, והתוצאה היא שהאיטואיציה צודקת ולשם אין השפעה על מיו האח \ האחות.