חיפוש באתר

קישורים

עמודים

קטגוריות

ארכיב עבור תגית חידות

הניקוד בתחרות כדור הבדולח

את ההשראה לתחרות כדור הבדולח שאבתי מתחרות דומה שערכה החברה המלכותית לסטטיסטיקה. לכאורה, היה באפשרותי להשתמש באותם כללי ניקוד (הלינק יתחיל הורדת קובץ pdf) המשמשים את התחרות המקורית. אולם, עיון באותם כללי ניקוד הראה כי ייתכן מצב אבסורדי בו מי שיחזה בדיוק את התשובה הנכונה יקבל ניקוד פחות טוב מאדם אחד ש"יטעה קצת". לכן, כללי הניקוד שישמשו אותי שונים.

לפני ההסבר על כללי הניקוד, אכניס כמה סימונים.

ראשית, אציין כי לכל שאלה הניקוד מחושב בנפרד. הניקוד מחושב באופן שככל שהניחוש/ניבוי/תחזית טוב יותר, כך הניקוד נמוך יותר.

באות T אסמן את הערך האמיתי, שאותו על המתחרים לנחש/לנבא/לחזות, עבור שאלה מסויימת.

באות G אסמן את הניחוש/ניבוי/תחזית של המנחש/נביא/חוזה, ובאות S אסמן את סטיית התקן בה העריך המנחש/נביא/חוזה את מידת אי הודאות של הניחוש/ניבוי/תחזית.

כעת אחשב שלושה מדדים להערכת טיב הניחוש/ניבוי/תחזית:

המדד הראשון יעריך עד כמה הניחוש/ניבוי/תחזית קרוב לערך האמיתי. ערכו יהיה שווה לריבוע המרחק של הניחוש/ניבוי/תחזית מהערך האמיתי. ניחוש/ניבוי/תחזית מדוייק ייתן תוצאה אפס:

המדד השני יעריך עד כמה המנחש/נביא/חוזה היטיב להעריך את מידת אי הודאות של הניחוש/ניבוי/תחזית: אם הניחוש/ניבוי/תחזית נמצא בתוך התחום של הערך האמיתי פלוס מינוס סטיית התקן, הניקוד יהיה אפס. אם הניחוש/ניבוי/תחזית יחרוג מהתחום, הניקוד יהיה מרחק הניחוש/ניבוי/תחזית מקצה התחום, בריבוע. לחובבי נוסחאות:

כמובן, מי שיציין ערך גבוה מאוד של S יוכל להגדיל מאוד את הסיכוי כי המדד השני יהיה שווה ל-0. כמובן, ערך גבוה של S פירושו מידת אי ודאות נמוכה (בואו ניקח את זה לקצה: מי שיציין ש-S שלו שווה לאינסוף, כאילו אמר בודאות שהניחוש/ניבוי/תחזית שלו הוא בין מינוס אינסוף לאינסוף, והוא צודק בודאות כמובן, אבל הניחוש/ניבוי/תחזית שלו לא שווה הרבה). כדי למנוע מהמשתתפים בתחרות לציין ערכים גבוהים מידי של S, בא המדד השלישי, ששווה פשוט לארבע פעמים הריבוע של S:

הניקוד הראשוני לשאלה יהיה סכום שלושת המדדים:

השלב הבא יהיה נירמול התוצאות – כדי שיהיה אפשר להשוות בין תשובות לשאלות שונות (כיוון שהניקוד תלוי באופי השאלה, היחידות בהן נמדדות התשובות לשאלות, וכדומה).

יש דרכים יותר מתוחכמות לבצע את הנירמול, אולם אני בחרתי בדרך הפשוטה הבאה: לכל שאלה אקח את התוצאה Z הגבוהה ביותר שהתקבלה, אחלק את הניקוד של כל משתתף שענה על שאלה זו בתוצאה הגבוהה ביותר, ואכפיל ב-100. כך הניקוד הסופי לכל שאלה יהיה מספר בין אפס למאה, וכאמור, ככל שהניקוד הסופי נמוך יותר, כך הניחוש/ניבוי/תחזית טוב יותר.

הניקוד הסופי למשתתף יהיה סכום הנקודות עבור ארבע השאלות עם הניקוד הטוב ביותר עליהן ענה.

תחרות כדור הבדולח!

ראש השנה מתקרב, והעיתונים של מחר יהיו מלאים בתחזיות לשנה הבאה. הפרשנים המדיניים יחזו את תוצאות המשא ומתן שמנהל ראש הממשלה עם הרשות הפלסטינית, חלקם יקבעו כי הבחירות לכנסת יוקדמו וחלקם לא. חלקם יצדקו. פרשני הספורט ידושו בסיכויי ההצלחה של נבחרת הכדורגל במוקדמות אליפות אירופה. אסטרולוגים יודיעו כי אחמדניג'אד או נאסרללה או חוסני מובראק ילכו לעולמם השנה, וימליצו לכם (בין היתר) לרכז את השנה הבאה במאמצים לטפח את סביבת המגורים שלכם, או שלא (אני אתעלם מהעיצות האלה כי נולדתי במזל מאזניים, וידוע כי בני מזל מאזניים לא מאמינים באסטרולוגיה). נחמיה שטרסלר יתריע כי אם לא יתבצע קיצוץ משמעותי תקציב המדינה יתרגש עלינו אסון כלכלי.

אבל מה בקשר לשאלות החשובות באמת? מה תהיה תוצאת גמר היורוליג בכדורסל? מה יהיה השכר הממוצע במשק? כמה נוסעים יעברו בנתב"ג? כמה נקודות יקבל השיר הישראלי באירוויזיון? איזה תכנית טלויזיה תזכה לרייטינג הגבוה ביותר בט"ו בשבט?

על כל השאלות האלה, אתם, הקוראים, מוזמנים לענות. אתם יכולים לנחש את התשובות, לקרוא אותן בכוכבים, לפתוח בקלפים. יש לי גם הצעה רדיקלית: אפשר לנסות לאמוד את הערכים העתידיים מתוך נתונים היסטוריים, תוך שימוש בשיטת סטטיסטיות כלשהן, פשוטות או מתוחכמות, לבחירתכם.

הנה עשר שאלות. נסו את כוחכם. כדי להכנס לתחרות יש לענות לפחות על ארבע שאלות. מי שיענה על יותר שאלות, יילקחו בחשבון ארבע התשובות שיקבלו את הניקוד הגבוה ביותר, אז במובן מסויים כדאי "לנחש", אם כי אני מקווה שהניחושים יהיו אינטליגנטיים.

יש גם מילכוד. כדי שאוכל להעריך את איכות התשובות ולהשוות בינהן, אני מבקש מהעונים לתת בעצמם הערכה לאיכות התשובות שלהם. אני מבקש כי לתחזית המנופקת תוצמד הערכה למידת אי הודאות שבתחזית: סטיית תקן. כלומר, אם אתם מעריכים כי השיר הישראלי באירוויזיון יזכה ב-100 נקודות, התשובה צריכה להיות משהו כמו "100 פלוס מינוס 10", או "100 פלוס מינוס 20". התשובה השניה מגלמת בתוכה מידה גדולה יותר של אי ודאות. העונה הראשון יוכל לומר כי צדק אם התוצאה תהיה 109, אך לא אם תהיה 111. העונה השני יוכל לטעון לצדקתו בשני המקרים. (הערה: ההסבר על סטיית התקן כרוך כאן בנפנוף ידיים מסויים ואינו מדוייק. עם הקוראים הבקיאים יותר בסטטיסטיקה הסליחה). לכל תשובה יינתן ניקוד שייקח בחשבון את איכות התחזית ואת nידת אי הודאות שלה. הניקוד יהיה טוב יותר ככל שהתחזית תהיה קרובה יותר לערך האמיתי וככל שסטיית התקן תהיה קטנה יותר. עם זאת, סטיית תקן קטנה מדי עלולה לגרום לכך שהערך האמיתי לא יהיה בתוך התחום המוגדר על ידי ה-"פלוס מינוס", וזה יפחית את הניקוד. קחו זאת בחשבון. (כללי הניקוד נמצאים כאן).

שלושת המשתתפים בעלי הניקוד הטוב ביותר יזכו בפרסי ספרים. בנוסף לכך שמות החוזים המצטיינים יפורסמו כאן בבלוג, והם יזכו בדקת תהילה נוספת על 15 דקות התהילה המובטחות להם ממילא.

את התשובות לתחרות ניתן להגיש עד סוף היום, 31 בדצמבר 2010. שילחו אותן אלי, למייל jlevy13 ב-gmail.com.

הנה השאלות: בהצלחה!

1. מה יהיה השכר הממוצע במשק למשרת שכיר (כולל משרות של עובדים זרים), במחירם שוטפים, בחודש ינואר 2011, על פי פרסומי הלשכה המרכזית לסטטיסטיקה? נתונים אחרונים: מרץ 2010: 8473, אפריל 2010: 8077, מאי 2010: 8070. מקור: הירחון הסטטיסטי לישראל, לוח י"א/4. לינק: http://www.cbs.gov.il/yarhon/k4_h.htm

2. כמה נקודות יקבל השיר הישראלי בתחרות חצי הגמר של האירוויזיון ב-2011? ב-2010 הראל סקעת השיג 71 נקודות, ב-2009 השיגו אחינועם ניני ומירה עווד 75 נקודות, וב-2008 זכה בועז מעודה ב-124 נקודות. לינק לנתונים: http://www.eurovision.tv/page/history/by-country/country?country=18

3. כמה נקודות תקלע הקבוצה שתנצח השנה בגמר היורוליג בכדורסל, שייערך באביב 2011 בברצלונה? זוכת היורוליג בשנת 2010, ברצלונה, גברה בגמר 86-68 על אולימפיאקוס. ב-2009 גברה פאנאתינייקוס על צסקא מוסקבה 73-71, ואותה צסקא גברה על מכבי תל-אביב 91-77 בגמר של 2008. לינק לנתונים: http://en.wikipedia.org/wiki/Euroleague_Basketball

4. מה יהיה מחירה של מניית גוגל, בדולרים של ארה"ב, בסוף יום המסחר 14.4.2011? מחיר מניית גוגל בסוף יום המסחר 14.4.2010 היה  589.00 דולר. את הנתונים ההיסטוריים של מחיר המניה אפשר לראות בלינק הבא: http://www.google.com/finance/historical?q=NASDAQ:GOOG

5. מה יהיה מספר ההרוגים בתאונות דרכים הישראל בחודש פברואר 2011, על פי נתוני הלשכה המרכזית לסטטיסטיקה? בחודש פברואר 2010 היו 26 הרוגים בתאונות דרכים. לינק לנתונים: http://www.cbs.gov.il/www/yarhon/q5_h.htm

6. על פי נתוני הלשכה המרכזית לסטטיסטיקה, כמה נוסעים יעברו בנמל התעופה בן גוריון בחודש דצמבר 2010? בחודש דצמבר 2009 עברו בנתב"ג 692.4 אלפי נוסעים. הנתונים מתפרסמים ברבעון לסטטיסטיקה של תחבורה שהלמ"ס מוציאה לאור: http://www.cbs.gov.il/www/transport_q/t24.pdf

7. מה יהיה שיעור הצפיה בתכנית הטלוויזיה הנצפית ביותר בשבוע שבו יחול ט"ו בשבט תשע"א? (זהו השבוע שיתחיל ב-16.1.2011). נתוני הצפיה מופקים על ידי חברת טל-גאל (אי.ג'י.בי.) בע"מ ומפורסמים על ידי הועדה הישראלית למדרוג בלינק http://www.midrug-tv.org.il/scripts/public1.asp. ט"ו בשבט תש"ע חל ביום שבת, 30.1.2010. התכנית הנצפית ביותר באותו שבוע הייתה "האח הגדול 2009 – הדחה", שזכתה לשיעור צפיה של 30.3.

8. מה יהיה גובה מפלס הכנרת בתאריך 2.1.2011? הנתונים השוטפים מפורסמים על ידי רשות המים בלינק http://www.water.gov.il/water/console/kinnert_history.aspx, אך לא מופיעים שם כל הנתונים ההיסטוריים. ניתן לעקוב אחרי הנתונים גם דרך  http://twitter.com/kinbot .

9. מה תהיה טמפרטורת המקסימום היומית הממוצעת בחודש מרץ 2011 בקיבוץ נגבה? בחודש מרץ 2010, טמפרטורת המקסימום היומית הממוצעת בנגבה הייתה 24.2 מעלות.  הנתונים מפורסמים בירחון הסטטיסטי לישראל: http://www.cbs.gov.il/www/yarhon/a2_h.htm

10. כמה תשובות יתקבלו לתחרות כדור הבדולח של "נסיכת המדעים"? זו שאלה קשה, ואין לי כל נתונים היסטוריים שיוכלו לסייע לכם. הנה כמה רמזים: לתחרות כדור הבדולח שערכה החברה המלכותית לסטטיסטיקה (ושימשה  השראה לתחרות זו) התקבלו 51 תשובות. לבלוג "נסיכת המדעים" יש כ-200 קוראים ביום, וכ-50 מנויים לרשימת התפוצה.

הילד שנולד ביום שלישי

לפני כשנה העליתי כאן את החידה על הילדה ששמה יוספה:

במשפחת תפוחי שני ילדים. נתון לנו שאחד מהילדים האלו הוא (היא) בת, ושמה של אותה בת למשפחת תפוחי הוא יוספה. מהי ההסתברות כי גם הצאצא הנוסף של משפחת תפוחי היא בת?

הפתרון, למעוניינים, נמצא כאן.

מה שמעניין בכל הסיפור הזה הוא שהאינפורמציה בדבר שמה של הילדה הנחמדה הזו משנה את התשובה לשאלה שנשאלה, גם אם לכאורה הנתון לא נראה רלוונטי. אותה החידה, ללא הנתון על שמה של הילדה, הועלתה בבלוג של דוברמן (שאינו פעיל, למרבה הצער, תקופה ארוכה למדי), והפתרון שונה (בערכו המספרי, לא ממש בדרך הפתרון).

ומדוע אני נזכר בכל זה? היום ראיתי בבלוג של ויליאם בריגס גירסה אחרת לחידה הזו:

במשפחה יש שני ילדים, אחד מהם הוא בן, והוא נולד ביום שלישי. מה ההסתברות כי גם הילד השני במשפחה הוא בן?

התשובה, באופן לא מפתיע, שונה משתי התשובות לחידות שצוטטו כאן.

ילדה ושמה יוספה – הפתרון

השאלה הזו נשאלה כאן בשבוע שעבר: במשפחה יש שני ילדים. אחד הילדים הוא בעצם ילדה ששמה יוספה. מה ההסתברות כי זו משפחה ובה שתי בנות?

לפני שנגיע לפתרון של החידה הזו, בואו נענה על כמה שאלות פשוטות יותר.

השאלה הראשונה שנענה עליה היא זו: במשפחה יש שני ילדים. מה ההסתברות כי זו משפחה ובה שתי בנות?

הפתרון הנאיבי יאמר כי יש ארבע משפחות אפשריות בנות שני ילדים:

  • הילד הראשון הוא בן, והשני בן (בקיצור: בן-בן)
  • הילד הראשון הוא בן, והשני בת (בקיצור: בן-בת)
  • הילד הראשון הוא בת, והשני בן (בקיצור: בת – בן)
  • הילד הראשון הוא בת, והשני בת (בקיצור: בת – בת)

לכן, יש ארבע משפחות אפשריות, ורק אחת מהן (בת-בת) היא משפחה שבה שתי בנות, ולכן ההסתברות היא אחת לארבע, כלומר רבע.

מה נאיבי בפתרון הזה? הפתרון הזה מניח כי לכל הרכבי המשפחות הסתברויות שוות. אולי משפחות של שני בנים נפוצות יותר באוכלוסיה ממשפחות של בת-בן, למשל? כדי לדעת, צריך לערוך רשימה של כל המשפחות האלה, ולספור כמה משפחות יש מכל סוג. זה כמובן לא ממש מעשי.

העובדה שהפתרון הראשוני הוא נאיבי לא אומרת שהוא לא נכון. הוא נכון בתנאים מסויימים. הפתרון הנאיבי הזה מבוסס על מודל, כלומר הוא בונה תיאור של המציאות, שייתכן שאינו מדוייק לגמרי, אבל הוא מספיק טוב כדי לתת תשובה אמינה לשאלה שלנו. על כך כבר אמר ג'ורג' בוקס (מספר 14 ברשימת 15 הסטטיסטיקאים הגדולים שלי): "Essentially, all models are wrong, but some are useful". כל המודלים שגויים, אך חלקם שימושיים.

כדי להשתמש במודל צריך להצדיק אותו. אי אפשר לבוא ולומר "יש ארבע תוצאות אפשריות, ולכן לכל תוצאה יש הסתברות רבע". לא כל המאורעות קורים בהסתברויות שוות. מה ההסתברות כי בחודש אוגוסט הקרוב ירד שלג בתל-אביב? יש שני מאורעות אפשריים: או שירד שלג, או שלא. אבל אף אחד לא יטען כי הסיכויים הם 50:50.

את המודל שלנו למשפחות בנות שני ילדים אפשר להצדיק. אפשר לטעון, ובצדק, כי בכל לידה יש סיכוי של 50% כי הנולד יהיה בן, וסיכוי של 50% כי תיוולד בת. זה בערך נכון. שיעור לידות הבנים גבוה מעט משיעור לידות הבנות, הטבע מאזן את זה על ידי שיעור מעט יותר גבוה של תמותת תינוקות זכרים. זה לא בדיוק נכון, אבל כאמור מדובר כאן במודל, כלומר בתיאור מקורב של המציאות. השלב הבא בטיעון להצדקת המודל יאמר כי מאחר והסיכוי כי הילד הראשון במשפחה  הוא חצי, והסיכוי כי הילד השני במשפחה הוא גם כן חצי, אז הסיכוי כי שני הילדים הם בנים הוא 0.5×0.5=0.25. באופן דומה ניתן לחשב כי ההסתברות של כל אחד מההרכבים האחרים של משפחות עם שני ילדים היא גם כן 0.25. למה מכפילים את ההסתברויות? כאן מסתתרת ההנחה השניה של המודל, לפיה אין תלות בין מינו של הילד הראשון במשפחה ומינו של הילד השני במשפחה. על פי הנחה זו, המקרה של אבו-אל-בנאת, אותו אב קולנועי לתשע בנות הוא רק ביש מזל, אירוע נדיר (1 ל-512) שהתגשם, ואינו משקף חוסר גבריות כלשהי אצל שבתאי אלפנדרי (ששייקה אופיר גילם את דמותו בכשרון רב). האם זו הנחה סבירה? הנתונים הסטטיסטיים מאשרים שכנראה שכן (אין לי מקור להפנות אתכם, אני מתבסס על זכרון קלוש שאומר לי שראיתי פעם נתונים כאלה).

אה, ויש עוד עניין קטן: המודל שלנו מתעלם מלידות תאומים. ההנחה של אי התלות בין המינים של שני הילדים אינה נכונה במקרה של תאומים זהים. אם אחד משני תאומים זהים הוא בן, אז השני גם חייב להיות בן. זו יכולה להיות בעיה מסויימת, והיא תתבטא בכך שהתשובות לשאלות שאנו שואלים לא יהיו מדוייקות. כמו שג'ורג' בוקס אמר – כל המודלים שגויים. בכל מקרה, אני מטאטא את עניין התאומים אל מתחת לשטיח, ונשאר במודל שמתאר בצורה טובה את המשפחות שבהן יש שני ילדים שאינם תאומים.

בסיכומו של הדיון עד כה הגענו למסקנה כי במשפחה בת שני ילדים, הסיכוי כי שני הילדים הם בעצם שתי בנות הוא רבע.

עכשיו נעבור לחידה שפרסם דוברמן: ידוע כי במשפחה שבה שני ילדים, אחד הילדים הוא בעצם בת. מה ההסתברות כי שני הילדים הם בעצם בנות?

התשובה שרוב האנשים שולפים מהמותן היא 50%. הטיעון הוא כזה: ידוע לנו שיש בת אחת. לגבי הילד השני – או שהוא בן או שהוא בת. אנו יודעים (או מניחים, על פי המודל שתואר קודם) כי בכל לידה הסיכוי ללידת בת הוא 50%, וגם כי אין תלות בין המינים של שני הילדים. לכן עצם העובדה שידוע לנו המין של אחד הילדים לא משנה את ההסתברות כי הילד השני הוא בת.

התשובה הזו היא תשובה נכונה, אבל לא לשאלה שנשאלה אלא לשאלה אחרת. הבעיה הטיעון שהוצג היא שיש בו הנחה סמויה, לפיה ידוע מי משני הילדים הוא הבת. אילו הייתה השאלה מנוסחת כך: "ידוע כי במשפחה שבה שני ילדים, הילד הבכור הוא בעצם בת. מה ההסתברות כי שני הילדים הם בעצם בנות?", אז התשובה היא אכן 50%, בדיוק לפי הטיעון שבפיסקה הקודמת, אבל זו לא השאלה שנשאלה. בנתוני השאלה שנשאלה, אחד הילדים הוא בת, אבל לא ידוע לנו אם זהו הילד הראשון במשפחה או הילד השני. חוסר הידיעה משנה את התשובה. מי שכבר קרא את הפתרון אצל דוברמן יודע שהתשובה הנכונה היא שליש. הטיעון שדוברמן הציג הוא כזה: מראש יש ארבעה סוגי משפחות אפשריים, אבל כיוון שידוע לנו כי אחד הילדים הוא בת, המאורע בן-בן שוב אינו רלוונטי. לכן נותרו לנו שלושה מבני משפחה אפשריים (בן-בת, בת-בן ו-בת-בת), ורק באחד מהם יש שתי בנות במשפחה, ולכם הסיכוי הוא אחד מתוך שלוש, כלומר שליש.

הפתרון הזה הוא (שוב) פתרון נאיבי, שמניח באופן משתמע (implicit) את המודל שתיארתי קודם לכן. הוא עובד כי המודל מתאים, אבל אם ההנחות של המודל אינן מתקיימות, גם הפתרון אינו נכון. תחשבו למשל על השאלה הבאה. ידוע כי לפחות באחת משתי הערים תל-אביב ושיקגו ירד שלג בתאריך מסויים בחודש ינואר האחרון. תעמידו פנים שאתם לא יודעים ולא יכולים לברר מה היה מזג האויר בשתי הערים האלה, אבל אתם כן יודעים שההסתברות לשלג בשיקגו בינואר היא 90% ובתל-אביב (נניח) אחוז אחד. מה ההסתברות שבשתי הערים האלה ירד שלג באותו היום? בואו נניח כי אין תלות בין מצבי מזג האויר בשתי הערים. נסכם את כל המצבים האפשריים וההסתברויות המתאימות בטבלה:

תל-אביב

שיקגו

הסתברות

שלג

שלג

0.01×0.9=0.009

שלג

אין שלג

0.01×0.1=0.001

אין שלג

שלג

0.99×0.9=0.891

אין שלג

אין שלג

0.99×0.1=0.099

אם לא ידוע לנו כלום, אז ההסתברות כי יש שלג בשתי הערים היא 0.009, לא 0.25. אם ידוע לנו כי ירד שלג בשיקגו, אז ההסתברות שירד שלג בתל-אביב היא 0.01 – למעשה הידיעה על מזג האויר בשיקגו לא משנה כלום בגלל אי התלות ביו מצבי מזג האויר בשתי הערים.

אם נתון לנו כי באחת משתי הערים היה שלג (אך לא ידוע לנו באיזו עיר), הנה השיקול שעלינו לעשות כדי לענות לשאלה. ההסתברות שירד שלג לפחות באחת משני הערים היא 0.901. ניתן להגיע לתוצאה זו בשתי דרכים. ניתן לחבר ההסתברויות בשלוש השורות הראשונות שבטבלה (שלג-שלג, שלג-אין שלג, אין שלג-שלג) ולקבל 0.009+0.001+0.891=0.901, או להחסיר את ההסתברות של השורה האחרונה (אין שלג-אין שלג) מ-1, ולקבל באופן לא מפתיע כי 1-0.099=0.901. כלומר, ב-90.1% מהמקרים יורד שלג לפחות באחת משתי הערים. לעומת זאת, רק ב-0.9% מהמקרים יורד שלג בשתי הערים. לכן ההסתברות שיורד שלג בשתי הערים כאשר נתון כי באחת מהן יורד שלג היא 0.009 חלקי 0.901 שזה בערך 0.00998.

אינטואיטיבית ניתן להסביר את התוצאה הזו כך: אם נסתכל על אלף ימים, ב-901 מהימים ירד שלג לפחות באחת משתי הערים (באופן תיאורטי), אך רק בתשעה מהם ירד שלג בשתיהן. לכן ההסתברות המבוקשת היא 9/901.

אם נחזור לחידת המשפחה, ההסתברות שבמשפחה יש לפחות בת אחת היא 0.75 (רבע ועוד רבע ועוד רבע), וההסתברות כי במשפחה שתי בנות היא 0.25, ולכן אם ידוע כי אחד הילדים הוא בעצם בת, ההסתברות שבמשפחה יש שתי בנות היא 0.25 חלקי 0.75 כלומר שליש. באופן אינטואיטיבי, אם נניח כי יש בדיוק 1000 משפחות בנות שני ילדים, אז ב-750 מהן יש לפחות בת אחת, וב-250 יש שני בנים (שוב באופן תיאורטי). מתוך 750 המשפחות שבהן יש בת אחת לפחות, יש 250 משפחות עם שתי בנות, ולכן ההסתברות המבוקשת היא 250/750.

מה קורה עם יוספה? יוספה משנה את מרחב המצבים שלנו. עכשיו יש לנו לא ארבעה טיפוסי משפחות, אלא תשעה, וההסתברויות כבר לא זהות.

בואו נחזור למודל הבסיסי של לידת יחיד. על פי המודל, יש סיכוי של 0.5 כי הנולד הוא בן. כמובן, הסיכוי כי הנולד הוא בת גם הוא 0.5, אבל עכשיו המקרה של לידת בת מתחלק לשני מקרים: המקרה שבו לבת לא קוראים יוספה, והמקרה בו ההורים הגאים בחרו לביתם את השם הלא כל כך נפוץ הזה.  מה ההסתברות לשם יוספה? ההסתברות קטנה, אבל בכל זאת חיובית. יש כמה יוספות שמתהלכות ביננו. נסמן את ההסתברות הזאת באות היוונית ε. מי שזה מפריע לו, יכול לבחור סתם מספר קטן, נניח 0.0000001. ההסתברות לבת ששמה לא יוספה היא לכן 0.5 כפול ε . בואו נכתוב את כל המשפחות האפשריות בטבלה, יחד עם ההסתברויות:

ילד ראשון

ילד שני

הסתברות המשפחה

לפחות בת אחת ששמה יוספה

שתי בנות

בן

בן

0.25

בן

בת – יוספה

0.25ε

V

בן

בת – שם אחר

0.25(1- ε)

בת – יוספה

בן

0.25ε

V

בת – יוספה

בת – יוספה

0.25ε2

V

V

בת – יוספה

בת – שם אחר

0.25ε (1- ε)

V

V

בת – שם אחר

בן

0.25(1- ε)

בת – שם אחר

בת – יוספה

0.25ε (1- ε)

V

V

בת – שם אחר

בת – שם אחר

0.25(1- ε)2

סימנתי בטבלה את השורות שמציינות את המשפחות שבהן יש ילדה ושמה יוספה, ואת השורות שבהן יש ילדה ושמה יוספה ושתי ילדות בסך הכל. שימו לב כי יש גם משפחה אפשרית שבה לשתי הילדות קוראים יוספה. זה לא מציאותי, תגידו. נכון. אבל זו לא המציאות, אלא רק מודל שמתאר את המציאות. בכל מקרה, ומאר והנחנו כי ε הוא מספר קטן, הרי ש- ε בריבוע הוא מספר הרבה יותר קטן, ובאופן מעשי הוא אפס. מכאן דרך החישוב פשוטה. עלינו לסכם את שלוש ההסתברויות של שלוש המשפחות האפשריות שהן שתי בנות בסך הכל וגם ילדה ושמה יוספה. אחר כך עלינו לסכם את חמש ההסתברויות של חמש המשפחות האפשריות שבהן ילדה בשם יוספה. ולסיום, עלינו לחלק. הנה החישוב:

אז התשובה היא בערך חצי אם ε הוא מספר קטן.

שימו לב שהגישה הנאיבית לא מדוייקת, אך בכל זאת נותנת תשובה נכונה! הגישה הנאיבית תגיד שאם ידוע שיש במשפחה יוספה אחת, אז יש לנו בסך הכל ארבע אפשרויות: יוספה-בת, יוספה-בן, בת-יוספה ובן-יוספה, ומתוכן יש שתי אפשריוית של שתי בנות במשפחה, ולכן ההסתברות היא 2 חלקי 4, כלומר חצי. הסיבה לכך היא שלמרות שההסתברויות לארבע האפשרויות שונות זו מזו, הן כולן קרובות יחסית ל-0.25, בגלל שהשם יוספה נדיר ו-ε קטן. אם הייתי בוחר שם פופלרי יותר התשובה הייתה הולכת ומתרחקת מחצי.

ולסיום: תודה לכל מי שניסה לפתור ושלח לי את הגיגיו. הפותר היחיד הוא יואב בילינסקי.

ילדה ושמה יוספה

דוברמן העלה את החידה הקלילה הזו בבלוג שלו:

במשפחת תפוחי שני ילדים. נתון לנו שאחד מהילדים האלו הוא (היא) בת. מה ההסתברות שלמשפחת תפוחי יש שתי בנות?

אם אתם יודעים את התשובה, שלחו את התשובה אליו, ונסו לפתור את חידת ההמשך:

אם אספר לכם כי שמה של אותה בת למשפחת תפוחי הוא יוספה, אז מהי ההסתברות כי גם הצאצא הנוסף של משפחת תפוחי היא בת?

את הפתרון לחידה זו שלחו אלי. אנא המנעו מכתיבת התשובה בתגובות.