חיפוש באתר

קישורים

עמודים

RSS סטטיסטיקה ברשת

תגים

בחירות ביוסטטיסטיקה בייסבול בנימה אישית בריאות גרפים דו"ח העוני דילמת האסירים הומור הומיאופתיה הימורים היסטוריה המשפטים הגדולים של הסטטיסטיקה הסתברות השכלה גבוהה חברה חידות חינוך חשבון יישומים כלכלה מדגם מדע מונטי הול מחקרים מירב ארלוזורוב ממוצע מצחיק משרד האוצר מתאם מתמטיקה ניהול סיכונים ניסויים קליניים סטטיסטיקה ספורט ספרים סקרים עיוות נתונים קבלת החלטות שכר שכר לימוד תאונות דרכים תורת המשחקים תקשורת p-value

ארכיב עבור תגית הסתברות

הילד שנולד ביום שלישי

לפני כשנה העליתי כאן את החידה על הילדה ששמה יוספה:

במשפחת תפוחי שני ילדים. נתון לנו שאחד מהילדים האלו הוא (היא) בת, ושמה של אותה בת למשפחת תפוחי הוא יוספה. מהי ההסתברות כי גם הצאצא הנוסף של משפחת תפוחי היא בת?

הפתרון, למעוניינים, נמצא כאן.

מה שמעניין בכל הסיפור הזה הוא שהאינפורמציה בדבר שמה של הילדה הנחמדה הזו משנה את התשובה לשאלה שנשאלה, גם אם לכאורה הנתון לא נראה רלוונטי. אותה החידה, ללא הנתון על שמה של הילדה, הועלתה בבלוג של דוברמן (שאינו פעיל, למרבה הצער, תקופה ארוכה למדי), והפתרון שונה (בערכו המספרי, לא ממש בדרך הפתרון).

ומדוע אני נזכר בכל זה? היום ראיתי בבלוג של ויליאם בריגס גירסה אחרת לחידה הזו:

במשפחה יש שני ילדים, אחד מהם הוא בן, והוא נולד ביום שלישי. מה ההסתברות כי גם הילד השני במשפחה הוא בן?

התשובה, באופן לא מפתיע, שונה משתי התשובות לחידות שצוטטו כאן.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

מה באמת קורה בלוטו הבולגרי?

האמת: שום דבר מיוחד.

בידיעה שפורסמה ב-Ynet לפני כחודש נמסר כי "אותם מספרים בדיוק יצאו בשתי הגרלות לוטו ברציפות". מדובר בלוטו הבולגרי, שם המספרים 4, 15, 23, 24, 35 ו-42 הוגרלו ב-6 בספטמבר ולאחר מכן שוב, ב-10 לחודש. עוד נמסר בידיעה כי "המתמטיקאי מיכאיל קונסטנטינוב חישב ומצא כי הסיכוי לכך הוא 1 ל-4.2 מיליון". כן נמסר כי שר הספורט של בולגריה הורה לפתוח חקירה מיוחדת בנושא.

המממ.

האם באמת מדובר באירוע כל כך נדיר שמצדיק חקירה, ולא סתם חקירה אלא חקירה "מיוחדת"? האם הסיכוי ל"כך" הוא באמת אחד ל-4.2 מליון, כמו שחישב מר קונסטנטינוב?

התשובה הרבה יותר מסובכת, ועם זאת לא קשה להבנה. כמו תמיד: התשובה המדויקת תלויה בניסוח מדויק של השאלה, כלומר למה מתכוונים כשאומרים "כך". אביא תחילה את התשובות כפי שפורסמו באתר ChanceWiki (אתם מוזמנים לגלוש ולעיין בחישובים המפורטים):

  • הסיכוי כי המספרים  4, 15, 23, 24, 35 ו-42 יעלו בגורל בשתי הגרלות בתאריכים נתונים (6 בספטמבר ו-10 בספטמבר) הוא בערך אחד ל-27000 מיליארד.
  • הסיכוי כי בשתי הגרלות בתאריכים נתונים יעלו אותם 6 מספרים (אך לא בהכרח הצירוף הנ"ל) הוא בערך אחד ל-5.2 מיליון.
  • הסיכוי כי במשך שנה שלמה, בה נערכות 104 הגרלות, יעלו אותם 6 מספרים בשתי הגרלות רצופות, הוא בערך אחד ל-51000.
  • הסיכוי כי במשך רצף של 5400 הגרלות (הלוטו הבולגרי קיים יותר מחמישים שנה, וזה בערך מספר ההגרלות שנערכו בו) יעלו אותם 6 מספרים בשתי הגרלות רצופות הוא בערך אחד ל-970.
  • הסיכוי כי באיזה הגרלת לוטו, באיזה מקום בעולם, באיזושהי נקודת זמן בתקופה של חמישים שנה בה נערכות הגרלות דו שבועיות, יעלו אותם 6 מספרים בשתי הגרלות רצופות וזאת בהנחה שיש בעולם כ-100 הגרלות לוטו כאלה, הוא בערך 10%.

אז מתברר שדי צפוי שמתישהו, איפהשהו, יעלו אותם מספרים בשתי הגרלות לוטו רצופות. אני מקווה שהחקירה המיוחדת של שר הספורט הבולגרי תעלה על זה.

הנה הסבר אינטואיטיבי למה שקרה באמת.

תחשבו על קוביה. הרי הגרלת הלוטו היא תהליך שבו בוחרים אפשרות אחת מתוך 5245786 אפשרויות (זה מספר הצירופים האפשריים של 6 מספרים מתוך 42, כלומר מספר הצירופים האפשריים בלוטו הבולגרי). במלים אחרות, הגרלת הלוטו שקולה להטלת קוביה עם 5245786 צדדים, ולכן הדיון העקרוני לא צריך להיות שונה מדיון בהטלה קוביה "רגילה" הדומה לקוביות שמתנוססות בראש העמוד הזה.

לקוביה רגילה יש 6 צדדים, ובהחנה שהקוביה "הוגנת", יש סיכוי שווה של שישית לכל אחת מהתוצאות האפשריות של הטלת הקוביה (התוצאות הן הספרות 1-6).

אם נטיל את הקוביה פעמיים, יש סיכוי של אחד ל-36 כי בשתי ההטלות נקבל 6, אבל הסיכוי כי נקבל בשתי ההטלות את אותו הספר, לאו דווקא 6, הוא הרבה יותר גדול, ושווה לאחד ל-6. זאת כי לתוצאה של שתי הטלות יש 36 תוצאות אפשריות, ורק אחת מהן היא 6-6, אבל 6 מתוך ה-36 הן "דאבל" (1-1, 2-2, וכן הלאה עד 6-6).

אם תטילו את הקוביה מספר פעמים, אז הסיכוי כי באיזהו שלב בסדרת ההטלות יופיע אותו מספר בשתי הטלות רצופות עולה, כי יש לכם יותר הזדמנויות לקבל שתי הטלות רצופות. אתם מוזמנים לנסות ולכתוב את כל 216 התוצאות האפשריות של סדרה של 3 הטלות קוביה, ולספור בכמה תוצאות מתקבלת אותה תוצאה פעמיים ברציפות (תוצאת ההטלה הראשונה שווה לשניה, או השניה שווה לשלישית). ככל שסדרת ההטלות תתארך, כל הסיכוי יגדל.

ואם לא רק אתם עושים את התרגיל הזה, אלא גם כמה חברים, הסיכוי כי מישהו יקבל מתישהו שתי הטלות קוביה רצופות עם אותה תוצאה שוב עולה.

מתברר כי אירועים שנתפסים בעיננו כנדירים אינם נדירים כלל ועיקר. אם אתם חולמים בלילה כח מחר ירד גשם, או שתזכו בלוטו, ולמחרת הדבר אכן קורה, מה הסיכוי לכך? הסיכוי כי אתה או את תחלמו הלילה כי תזכו בפרס הגדול בלוטו וכן תזכו בו בהגרלה הגדולה נמוך למדי. הסיכוי כי מישהו איפהשהו יחלום משהו והמשו הזה יתקיים סביר למדי.

הסיכוי כי אתם תיכנסו למסעדה בבנגקוק ותפגשו שם את איציק שעבד ביחד איתכם לפני כמה שנים ולא ראיתם אותו המון זמן הוא קטן מאוד (זה קרה לי, למעשה). הסיכוי שמישהו יכנס לאיזשהו מקום בעולם ויפגוש שם מישהו שלא ראה כבר המון זמן הוא גבוה מאוד. הסיכוי שאתם תזכו בפרס הגדול בלוטו פעמיים הוא קטן מאוד. הסיכוי שמישהו איפהשהו מתישהו יזכה בפרס הדגול בלוטו פעמיים הוא סביר, וגם זה קרה, יותר מפעם אחת. אני ממליץ לכם לקרוא את המאמר הזה שפורסם בניו-יורק טיימס כבר ב-1990. בכתבה זו מרואיינים מספר סטטיסטיקאים נודעים, ובהם פרסי דיאקוניס, ברדלי אפרון (מספר 8 ברשימת הסטטיסטיקאים הגדולים) ואריק להמן. דיאקוניס ופרדריק מוסטלר גם נתנו שם לתופעה הזו: חוק המספרים הגדולים מאוד.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

3 ספרים חדשים (בספריה שלי)

באחת התגובות לרשימה הקודמת תהה גיל מדוע לא קניתי מייד את הספר "טראפיק", אלא רק סימנתי אותו לקניה בעתיד. התשובה שלי הייתה כי כבר קניתי 3 ספרים באותה נסיעה, וממילא לא אספיק לקרוא את כולם עד הנסיעה הבאה (אני בספק אם אסיים אפילו את הקריאה של אחד מהם, עדיין לא הספקתי לסיים לקרוא את אחד הספרים שקניתי באפריל).

אולם, מכיוון ששלושת הספרים האלה קשורים לנושאים שהבלוג הזה עוסק בהם, נראה לי שששת הקוראים שלי יתעניינו בהם, ולכן אסקור אותם כאן בקצרה.

הספר הראשון עוסק בבעיית מונטי-הול. למעשה, נודע לי כי הספר עומד לצאת מקריאה בבלוג של גיל. בעיית מונטי-הול עולה שוב ושוב ומציקה לאנשים המסתמכים אך ורק על האינטואיציה שלהם, ולא רק להם (אפילו פול ארדש סירב להאמין לפתרון האמיתי, גם לאחר שההוכחה הוצגה בפניו). הבעיה היא פשוטה: לפניך 3 דלתות, מאחורי אחת מהן מסתתר פרס נחשק (בימבה, למשל) ומאחורי שתי הדלתות האחרות אין כלום.  אתה צריך לנחש מאחורי איזה דלת מסתתר הפרס, ואם תצליח, הוא שלך. אולם, אחרי שניחשת, לא פותחים מייד את הדלת שבחרת, אלא פותחים בפניף דלת אחרת, ואתה רואה שמאחוריה לא מסתתר הפרס. האם כדאי לך לשנות את ניחושך הראשוני?

כתבתי על הבעיה הזו בעבר תחת הכותרת "המכונית והעיזים", גיל כתב על ההיבטים הפסיכולוגיים של הבעיה, וגם גדי אלכסנדרוביץ כתב על הבעיה ועל בעיות דומות בבלוג שלו. אתם מוזמנים לקרוא. ומסתבר שאפשר לכתוב ספר שלם הנושא (למעשה נכתבו על הבעיה הזו יותר מספר אחד). הספר שאני קניתי נכתב על ידי פרופ' ג'ייסון רוזנהאוז מאוניברסיטת ג'יימס מדיסון בוירג'יניה, ונושא את הכותרת המחייבת "The Monty Hall Problem: The Remarkable Story of Math's Most Contentious Brain Teaser" (לינק לאמזון). אני חייב לציין שעדיין לא עיינתי בספר מעבר להעפת מבט בתוכן העניינים ורפרוף קל, מה שאפשר לעשות באתר אמזון גם בלי לקנות את הספר. כמובן שהעיון המקוון וההמלצה של גיל גרמו לי לקנות לבסוף את הספר. תוכן העניינים מבטיח מבט על הבעיה מנקודות מבט בייסיאניות, קוגניטיביות ופילוסופיות. אני מניח שלא אתאכזב.

הספר השני נושא את הכותרת "תורת החבורות בחדר האמבטיה המיטות". השם מבטיח. כאשר הייתי סטודנט צעיר למתמטיקה, תורת החבורות היה התחום האהוב עלי ביותר מכל הנושאים הנלמדים (טוב, חוץ מהסתברות וסטטיסטיקה), אז ברור מדוע השם הזה מדבר אלי. הספר הוא למעשה אוסף מאמרים שפרסם בריאן הייס, בעיקר בסיינטיפיק אמריקן. בינתיים קראתי את שני המאמרים הראשונים. האחד עוסק בשעון האסטרונומי של שטרסבורג, שעקף בקלילות את מכשלת Y2K למרות שנבנה ב-1843, וגם יעקוף ללא בעיה את מכשלת Y10K אם ישרוד עד אז. המאמר השני עוסק בייצור מספרים מקריים, או יותר נכון, פסאודו מקריים (גדי כתב סקירה יפה על הנושא). עד כה, הספר לא מאכזב.

הספר השלישי עוסק בקוביות דיגיטליות: כיצד ניתן לפתור באמצעות מחשב (על ידי סימולציה בשיטת מונטה קרלו) בעיות בהסתברות. לאחר הקדמה לא קצרה בה מוסבר בהרחבה (ועם דוגמאות) העקרון של שיטת מונטה קרלו (שעושה כמובן שימוש במספרים פסוודו אקראיים), מביא המחבר, פרופ' פול נהין, רשימה של 21 בעיות אותן הוא מציע לפתור בשיטת מונטה קרלו (בינהן מופיעה בעיית נייר הטואלט של דונלד קנוט). לאחר מכן מופיעים הפתרונות, עם תכניות בשפת מטלב. נהין לא מסתפק, למרבה השמחה, בפתרונות טכניים בלבד, אלא גם מספק רקע תיאורטי רב על הבעיות, ההיסטוריה שלהן, וגם תובנות שניתן להפיק מהעיון בהן. אחרי שקראתי את ההקדמה אני מתכנן לנסות לפתור את הבעיות בעצמי לפני שאציץ בדפי הפתרונת. זה בהחלט פרוייקט ארוך טווח.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

הכוכב, הסמים והכומר

לפני כחודשיים דיווחתי כאן על השעייתו של סופרסטאר הבייסבול  מני רמירז ל-50 משחקים, לאחר שבבדיקת סמים שנערכה לו התקבלה תוצאה חיובית. עם הדיווח העליתי נקודה למחשבה: לאור העובדה שבבדיקה התקבלה תוצאה חיובית, מה ההסתברות כי רמירז אכן השתמש בסמים אסורים? נתתי גם רמז עבה לפתרון: מספר 4 ברשימת 15 הסטטיסטיקאים הגדולים.

הבטחתי רשימה בנושא, והנה אני סוף סוף מקיים. לזירוז העניין תרם דוברמן, שפרסם בבלוג שלו את החידה הזו. ההקשר היה שונה (שפעת החזירים במקום סמים אסורים), אבל העקרון זהה. מי שמעוניין לקרוא את הפתרון של דוברמן יכול לקרוא אותו בלינק הזה, אם כי אני מייד אתן הסבר משלי וגם ארחיב על הנושא.

ובכן, מה ההסתברות כי רמירז אכן השתמש בסמים אסורים אם בדיקת הסמים שלו הייתה חיובית? התשובה האמיתית והכנה ביותר שאני יכול לתת לכם היא שאני לא יודע. חסרים נתונים. אז בואו ונמציא נתונים לצורך התרגיל. בדיקת הסמים יכולה לטעות. יכול להיות שנבדק כלשהו משתמש בסמים אסורים, ובכל זאת מתקבלת תוצאה שלילית בבדיקה. גם יכול להיות שהנבדק לא השתמש בסמים אסורים ותוצאת הבדיקה בכל זאת הייתה חיובית משום מה (רמירז לא טען זאת, דרך אגב). אלה הן שתי הטעויות שעשויות לקרות בכל תהליך קבלת החלטות. אבל באיזה סיכוי עשויה כל טעות להתרחש? אני אניח, כמו דוברמן בחידה שלו, כי לכל טעות יש סיכוי של אחוז אחד, כלומר 0.01. (את הסיכויים האמיתיים יודעים  מן הסתם יצרני ערכת הבדיקה). עדיין אין מספיק נתונים. כדי לענות על השאלה צריך גם לדעת מהו אחוז משתמשי הסמים באוכלוסיה הרלוונטית, ואת האחוז הזה קשה מאוד לברר. אני מעריך את המספר הזה ב-5 עד 10 אחוז. מסמך פנימי של ליגת ה-MLB שהודלף לאחרונה אמר כי בשנת 2003 התקבלו תוצאות חיוביות אצל 104 שחקנים שנבדקו (אשמח ללינק – לא מצאתי את הידיעה המקורית). בליגה יש כ-1000 שחקנים, ולכן אחוז המשתמשים הוא בסביבות 10. יש הסבורים כי "תקופת הסטרואידים" שהחלה לקראת סוף שנות התשעים של המאה הקודמת כנראה חלפה כבר מן העולם. אני סבור כי השחקנים פשוט עברו להשתמש בחומרים חדשים, שבבדיקות הנוכחיות לא מזהות. יש להם תמריץ כלכלי לכך. בואו ניקח את המספר העגול של 10% לצורך התרגיל.

נניח שכל 1000 השחקנים נבדקים. מתוכם 100 משתמשים בסמים אסורים, על פי הנחתנו, ומכיוון שהבדיקה תתן תוצאה חיובית אם הנבדק משתמש בסמים ב-99 אחוז מהמקרים, נקבל (תיאורטית) 99 תוצאות חיוביות ותוצאה שלילית אחת. 900 השחקנים האחרים נקיים, ועבור 99% מהם תוצאת הבדיקה תהיה שלילית. כלומר, יתקבלו 891 תוצאות שליליות , ואילו 9 שחקנים חסרי מזל יקבלו תוצאה חיובית  (ואלי יושעו) הגם שלא השתמשו בסמים אסורים. נרכז את המספרים האלה בטבלה:

תוצאת הבדיקה

חיובית

שלילית

סה"כ

משתמש בסמים אסורים?

משתמש

99

1

100

לא משתמש

9

891

900

סה"כ

108

892

1000

מתוך 108 שחקנים עבורם התקבלה תוצאה חיובית, 99 אכן משתמשים בסמים, ולכן ההסתברות כי שחקן שתוצאת הבדיקה שלו חיובית אכן משתמש בסמים היא 99/108 כלומר כמעט 92%.

שימו לב כי התוצאה תלויה בהנחה הראשונית על אחוז השחקנים המשתמשים בסמים, שאינו ידוע לנו. אם האחוז הזה הוא רק 5% ולא 10%, אז ההסתברות כי השחקן "שלנו" אכן השתמש בסמים תהיה "רק" 84%.

עכשיו בואו נעזוב את החישובים, ונעבור לדיון עקרוני בתרגיל שנעשה. אנו התמקדנו בשני מאורעות. צפינו במאורע "בבדיקת הסמים התקבלה תוצאה חיובית" והתעניינו במאורע "השחקן שנבדק משתמש בסמים אסורים". כמו כן היו נתונות לנו מספר הסתברויות. הייתה ידועה לנו, בין היתר ההסתברות כי תוצאת בדיקת הסמים היא חיובית כאשר ידוע כי השחקן הנבדק משתמש בסמים אסורים. אבל ההסתברות שעניינה אותנו באמת הייתה ההסתברות כי השחקן הנבדק משתמש בסמים אסורים כאשר ידוע כי תוצאת בדיקת הסמים היא חיובית. שתי ההסתברויות שתיארתי הן הסתברויות מותנות, אבל מתארות מצבים שונים. אחת מתארת הסתברות של מאורע שקורה בהווה (תוצאת הבדיקה חיובית) בהנתן מאורע שקרה בעבר (השחקן השתמש בסמים אסורים). השניה מתארת הסתברות של מאורע שקרה בעבר בהנתן מאורע שקרה בהווה. החישוב שלנו "הפך" את כיוון זרימת הזמן: מההווה לעבר במקום מעבר להווה. וכזכור, כל התרגיל שלנו לא היה מתאפשר ללא הנחה אפריורית כלשהי על אחוז השחקנים המשתמשים בסמים אסורים. הבדיקה אפשרה לנו לעדכן את ההסתברות האפריורית לכך שהשחקן השתמש בסמים אסורים, ולהחליף אותה בהסתברות אפוסטריורית.

הנה תיאור אפשרי אחר של התהליך: בהתחלה לא היה לנו כל ידע לגבי הרגלי השימוש של השחקן המסוים בסמים אסורים, ולכן הנחנו כי הסיכוי לכך שהוא משתמש בסמים כאלה שווה לפרופורציית השחקנים המשתמשים בסמים. הבדיקה שנערכה ותוצאתה נתנו לנו אינפורמציה חדשה, וממנה למדנו כי ההסתברות שהשחקן משתמש בסמים גבוהה הרבה יותר. החישוב שעשינו הוא מעין ביטוי מתמטי לתהליך למידה.

הראשון שניסח את התרגיל ההסתברותי הזה בכתובים היה כומר אנגלי שחי לו במאה ה-18, ושמו תומאס בייס. בייס היה ידוע כמי שעוסק במתמטיקה, ואף היה חבר החברה המלכותית, אם כי בימי חייו לא פרסם אף לא מאמר אחד שתיעד את עבודתו. המאמר המתמטי היחיד שהתפרסם תחת שמו הופיע רק שנתיים לאחר מותו, וזהו למעשה מכתב ששלח לידידו ג'ון קאנטון. במכתב תיאר בייס את הדרך לחשב "הסתברות מותנה הפוכה" (שתיארתי זה עתה). הדוגמא שהביא בייס עסקה, אגב, בסיכויי הנצחון במשחק ביליארד, במיטב המסורת של התפתחות תורת ההסתברות בהתאם לצרכיהם של המהמרים. למעוניינים לקרוא את המאמר עצמו, הנה קישור לקובץ pdf. עותק מקורי של המאמר, דרך אגב, יעלה לכם כ-4200 דולר, אם תמצאו מישהו שמוכן למכור.

הקוראים הותיקים של הבלוג הזה אמורים לדעת כי הזכרתי את בייס בעבר. הוא מופיע במקום ה-4 ברשימת 15 הסטטיסטיקאים הגדולים שערכתי. בעבר קוננתי על כך שמשפט בייס לא הופיע ברשימת 100 המשפטים הגדולים של המתמטיקה שערך מישהו. במסגרת התחקיר לרשימה זו הגעתי ל"פרוייקט מילניום" שנערך על ידי המרכז למדעים קוגניטיביים אוניברסיטת מינסוטה, שניסה לבחור ולדרג את 100 העבודות המשפיעות ביותר על המדעים הקוגניטיביים. מאמרו של בייס היה בין 306 העבודות המועמדות, אך פאנל המומחים שביצע את מלאכת הדירוג לא חשב שהעבודה ראויה דיה כדי להכלל ב-Top 100.

כפי שציינתי כאן בעבר, על הבסיס שהניח בייס צמח ענף שלם של הסטטיסטיקה שנקרא כמובן "סטטיסטיקה בייסיאנית". לסטטיסטיקה הבייסיאנית שימושים מרחיקי לכת. היא עומדת בבסיסן של מערכות הבינה המלאכותית למינהן, ומיושמת במגוון תחומים, החל בגנטיקה וכלה בסינון דואר זבל. אני מסתפק כאן בהפניה למאמר שפרסם פרופ' ישראל בנימיני ב-Ynet לפני מספר שנים, בו יש סקירה נאה של המשפט ושימושיו.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

ילדה ושמה יוספה – הפתרון

השאלה הזו נשאלה כאן בשבוע שעבר: במשפחה יש שני ילדים. אחד הילדים הוא בעצם ילדה ששמה יוספה. מה ההסתברות כי זו משפחה ובה שתי בנות?

לפני שנגיע לפתרון של החידה הזו, בואו נענה על כמה שאלות פשוטות יותר.

השאלה הראשונה שנענה עליה היא זו: במשפחה יש שני ילדים. מה ההסתברות כי זו משפחה ובה שתי בנות?

הפתרון הנאיבי יאמר כי יש ארבע משפחות אפשריות בנות שני ילדים:

  • הילד הראשון הוא בן, והשני בן (בקיצור: בן-בן)
  • הילד הראשון הוא בן, והשני בת (בקיצור: בן-בת)
  • הילד הראשון הוא בת, והשני בן (בקיצור: בת – בן)
  • הילד הראשון הוא בת, והשני בת (בקיצור: בת – בת)

לכן, יש ארבע משפחות אפשריות, ורק אחת מהן (בת-בת) היא משפחה שבה שתי בנות, ולכן ההסתברות היא אחת לארבע, כלומר רבע.

מה נאיבי בפתרון הזה? הפתרון הזה מניח כי לכל הרכבי המשפחות הסתברויות שוות. אולי משפחות של שני בנים נפוצות יותר באוכלוסיה ממשפחות של בת-בן, למשל? כדי לדעת, צריך לערוך רשימה של כל המשפחות האלה, ולספור כמה משפחות יש מכל סוג. זה כמובן לא ממש מעשי.

העובדה שהפתרון הראשוני הוא נאיבי לא אומרת שהוא לא נכון. הוא נכון בתנאים מסויימים. הפתרון הנאיבי הזה מבוסס על מודל, כלומר הוא בונה תיאור של המציאות, שייתכן שאינו מדוייק לגמרי, אבל הוא מספיק טוב כדי לתת תשובה אמינה לשאלה שלנו. על כך כבר אמר ג'ורג' בוקס (מספר 14 ברשימת 15 הסטטיסטיקאים הגדולים שלי): "Essentially, all models are wrong, but some are useful". כל המודלים שגויים, אך חלקם שימושיים.

כדי להשתמש במודל צריך להצדיק אותו. אי אפשר לבוא ולומר "יש ארבע תוצאות אפשריות, ולכן לכל תוצאה יש הסתברות רבע". לא כל המאורעות קורים בהסתברויות שוות. מה ההסתברות כי בחודש אוגוסט הקרוב ירד שלג בתל-אביב? יש שני מאורעות אפשריים: או שירד שלג, או שלא. אבל אף אחד לא יטען כי הסיכויים הם 50:50.

את המודל שלנו למשפחות בנות שני ילדים אפשר להצדיק. אפשר לטעון, ובצדק, כי בכל לידה יש סיכוי של 50% כי הנולד יהיה בן, וסיכוי של 50% כי תיוולד בת. זה בערך נכון. שיעור לידות הבנים גבוה מעט משיעור לידות הבנות, הטבע מאזן את זה על ידי שיעור מעט יותר גבוה של תמותת תינוקות זכרים. זה לא בדיוק נכון, אבל כאמור מדובר כאן במודל, כלומר בתיאור מקורב של המציאות. השלב הבא בטיעון להצדקת המודל יאמר כי מאחר והסיכוי כי הילד הראשון במשפחה  הוא חצי, והסיכוי כי הילד השני במשפחה הוא גם כן חצי, אז הסיכוי כי שני הילדים הם בנים הוא 0.5×0.5=0.25. באופן דומה ניתן לחשב כי ההסתברות של כל אחד מההרכבים האחרים של משפחות עם שני ילדים היא גם כן 0.25. למה מכפילים את ההסתברויות? כאן מסתתרת ההנחה השניה של המודל, לפיה אין תלות בין מינו של הילד הראשון במשפחה ומינו של הילד השני במשפחה. על פי הנחה זו, המקרה של אבו-אל-בנאת, אותו אב קולנועי לתשע בנות הוא רק ביש מזל, אירוע נדיר (1 ל-512) שהתגשם, ואינו משקף חוסר גבריות כלשהי אצל שבתאי אלפנדרי (ששייקה אופיר גילם את דמותו בכשרון רב). האם זו הנחה סבירה? הנתונים הסטטיסטיים מאשרים שכנראה שכן (אין לי מקור להפנות אתכם, אני מתבסס על זכרון קלוש שאומר לי שראיתי פעם נתונים כאלה).

אה, ויש עוד עניין קטן: המודל שלנו מתעלם מלידות תאומים. ההנחה של אי התלות בין המינים של שני הילדים אינה נכונה במקרה של תאומים זהים. אם אחד משני תאומים זהים הוא בן, אז השני גם חייב להיות בן. זו יכולה להיות בעיה מסויימת, והיא תתבטא בכך שהתשובות לשאלות שאנו שואלים לא יהיו מדוייקות. כמו שג'ורג' בוקס אמר – כל המודלים שגויים. בכל מקרה, אני מטאטא את עניין התאומים אל מתחת לשטיח, ונשאר במודל שמתאר בצורה טובה את המשפחות שבהן יש שני ילדים שאינם תאומים.

בסיכומו של הדיון עד כה הגענו למסקנה כי במשפחה בת שני ילדים, הסיכוי כי שני הילדים הם בעצם שתי בנות הוא רבע.

עכשיו נעבור לחידה שפרסם דוברמן: ידוע כי במשפחה שבה שני ילדים, אחד הילדים הוא בעצם בת. מה ההסתברות כי שני הילדים הם בעצם בנות?

התשובה שרוב האנשים שולפים מהמותן היא 50%. הטיעון הוא כזה: ידוע לנו שיש בת אחת. לגבי הילד השני – או שהוא בן או שהוא בת. אנו יודעים (או מניחים, על פי המודל שתואר קודם) כי בכל לידה הסיכוי ללידת בת הוא 50%, וגם כי אין תלות בין המינים של שני הילדים. לכן עצם העובדה שידוע לנו המין של אחד הילדים לא משנה את ההסתברות כי הילד השני הוא בת.

התשובה הזו היא תשובה נכונה, אבל לא לשאלה שנשאלה אלא לשאלה אחרת. הבעיה הטיעון שהוצג היא שיש בו הנחה סמויה, לפיה ידוע מי משני הילדים הוא הבת. אילו הייתה השאלה מנוסחת כך: "ידוע כי במשפחה שבה שני ילדים, הילד הבכור הוא בעצם בת. מה ההסתברות כי שני הילדים הם בעצם בנות?", אז התשובה היא אכן 50%, בדיוק לפי הטיעון שבפיסקה הקודמת, אבל זו לא השאלה שנשאלה. בנתוני השאלה שנשאלה, אחד הילדים הוא בת, אבל לא ידוע לנו אם זהו הילד הראשון במשפחה או הילד השני. חוסר הידיעה משנה את התשובה. מי שכבר קרא את הפתרון אצל דוברמן יודע שהתשובה הנכונה היא שליש. הטיעון שדוברמן הציג הוא כזה: מראש יש ארבעה סוגי משפחות אפשריים, אבל כיוון שידוע לנו כי אחד הילדים הוא בת, המאורע בן-בן שוב אינו רלוונטי. לכן נותרו לנו שלושה מבני משפחה אפשריים (בן-בת, בת-בן ו-בת-בת), ורק באחד מהם יש שתי בנות במשפחה, ולכם הסיכוי הוא אחד מתוך שלוש, כלומר שליש.

הפתרון הזה הוא (שוב) פתרון נאיבי, שמניח באופן משתמע (implicit) את המודל שתיארתי קודם לכן. הוא עובד כי המודל מתאים, אבל אם ההנחות של המודל אינן מתקיימות, גם הפתרון אינו נכון. תחשבו למשל על השאלה הבאה. ידוע כי לפחות באחת משתי הערים תל-אביב ושיקגו ירד שלג בתאריך מסויים בחודש ינואר האחרון. תעמידו פנים שאתם לא יודעים ולא יכולים לברר מה היה מזג האויר בשתי הערים האלה, אבל אתם כן יודעים שההסתברות לשלג בשיקגו בינואר היא 90% ובתל-אביב (נניח) אחוז אחד. מה ההסתברות שבשתי הערים האלה ירד שלג באותו היום? בואו נניח כי אין תלות בין מצבי מזג האויר בשתי הערים. נסכם את כל המצבים האפשריים וההסתברויות המתאימות בטבלה:

תל-אביב

שיקגו

הסתברות

שלג

שלג

0.01×0.9=0.009

שלג

אין שלג

0.01×0.1=0.001

אין שלג

שלג

0.99×0.9=0.891

אין שלג

אין שלג

0.99×0.1=0.099

אם לא ידוע לנו כלום, אז ההסתברות כי יש שלג בשתי הערים היא 0.009, לא 0.25. אם ידוע לנו כי ירד שלג בשיקגו, אז ההסתברות שירד שלג בתל-אביב היא 0.01 – למעשה הידיעה על מזג האויר בשיקגו לא משנה כלום בגלל אי התלות ביו מצבי מזג האויר בשתי הערים.

אם נתון לנו כי באחת משתי הערים היה שלג (אך לא ידוע לנו באיזו עיר), הנה השיקול שעלינו לעשות כדי לענות לשאלה. ההסתברות שירד שלג לפחות באחת משני הערים היא 0.901. ניתן להגיע לתוצאה זו בשתי דרכים. ניתן לחבר ההסתברויות בשלוש השורות הראשונות שבטבלה (שלג-שלג, שלג-אין שלג, אין שלג-שלג) ולקבל 0.009+0.001+0.891=0.901, או להחסיר את ההסתברות של השורה האחרונה (אין שלג-אין שלג) מ-1, ולקבל באופן לא מפתיע כי 1-0.099=0.901. כלומר, ב-90.1% מהמקרים יורד שלג לפחות באחת משתי הערים. לעומת זאת, רק ב-0.9% מהמקרים יורד שלג בשתי הערים. לכן ההסתברות שיורד שלג בשתי הערים כאשר נתון כי באחת מהן יורד שלג היא 0.009 חלקי 0.901 שזה בערך 0.00998.

אינטואיטיבית ניתן להסביר את התוצאה הזו כך: אם נסתכל על אלף ימים, ב-901 מהימים ירד שלג לפחות באחת משתי הערים (באופן תיאורטי), אך רק בתשעה מהם ירד שלג בשתיהן. לכן ההסתברות המבוקשת היא 9/901.

אם נחזור לחידת המשפחה, ההסתברות שבמשפחה יש לפחות בת אחת היא 0.75 (רבע ועוד רבע ועוד רבע), וההסתברות כי במשפחה שתי בנות היא 0.25, ולכן אם ידוע כי אחד הילדים הוא בעצם בת, ההסתברות שבמשפחה יש שתי בנות היא 0.25 חלקי 0.75 כלומר שליש. באופן אינטואיטיבי, אם נניח כי יש בדיוק 1000 משפחות בנות שני ילדים, אז ב-750 מהן יש לפחות בת אחת, וב-250 יש שני בנים (שוב באופן תיאורטי). מתוך 750 המשפחות שבהן יש בת אחת לפחות, יש 250 משפחות עם שתי בנות, ולכן ההסתברות המבוקשת היא 250/750.

מה קורה עם יוספה? יוספה משנה את מרחב המצבים שלנו. עכשיו יש לנו לא ארבעה טיפוסי משפחות, אלא תשעה, וההסתברויות כבר לא זהות.

בואו נחזור למודל הבסיסי של לידת יחיד. על פי המודל, יש סיכוי של 0.5 כי הנולד הוא בן. כמובן, הסיכוי כי הנולד הוא בת גם הוא 0.5, אבל עכשיו המקרה של לידת בת מתחלק לשני מקרים: המקרה שבו לבת לא קוראים יוספה, והמקרה בו ההורים הגאים בחרו לביתם את השם הלא כל כך נפוץ הזה.  מה ההסתברות לשם יוספה? ההסתברות קטנה, אבל בכל זאת חיובית. יש כמה יוספות שמתהלכות ביננו. נסמן את ההסתברות הזאת באות היוונית ε. מי שזה מפריע לו, יכול לבחור סתם מספר קטן, נניח 0.0000001. ההסתברות לבת ששמה לא יוספה היא לכן 0.5 פחות ε. בואו נכתוב את כל המשפחות האפשריות בטבלה, יחד עם ההסתברויות:

ילד ראשון

ילד שני

הסתברות המשפחה

לפחות בת אחת ששמה יוספה

שתי בנות

בן

בן

0.25

בן

בת – יוספה

0.5ε

V

בן

בת – שם אחר

0.5(0.5- ε)

בת – יוספה

בן

0.5ε

V

בת – יוספה

בת – יוספה

ε2

V

V

בת – יוספה

בת – שם אחר

ε (0.5- ε)

V

V

בת – שם אחר

בן

0.5(0.5- ε)

בת – שם אחר

בת – יוספה

ε (0.5- ε)

V

V

בת – שם אחר

בת – שם אחר

(0.5- ε)2

סימנתי בטבלה את השורות שמציינות את המשפחות שבהן יש ילדה ושמה יוספה, ואת השורות שבהן יש ילדה ושמה יוספה ושתי ילדות בסך הכל. שימו לב כי יש גם משפחה אפשרית שבה לשתי הילדות קוראים יוספה. זה לא מציאותי, תגידו. נכון. אבל זו לא המציאות, אלא רק מודל שמתאר את המציאות. בכל מקרה, ומאר והנחנו כי ε הוא מספר קטן, הרי ש- ε בריבוע הוא מספר הרבה יותר קטן, ובאופן מעשי הוא אפס. מכאן דרך החישוב פשוטה. עלינו לסכם את שלוש ההסתברויות של שלוש המשפחות האפשריות שהן שתי בנות בסך הכל וגם ילדה ושמה יוספה. אחר כך עלינו לסכם את חמש ההסתברויות של חמש המשפחות האפשריות שבהן ילדה בשם יוספה. ולסיום, עלינו לחלק. הנה החישוב:

אז התשובה היא בערך חצי אם ε הוא מספר קטן.

שימו לב שהגישה הנאיבית לא מדוייקת, אך בכל זאת נותנת תשובה נכונה! הגישה הנאיבית תגיד שאם ידוע שיש במשפחה יוספה אחת, אז יש לנו בסך הכל ארבע אפשרויות: יוספה-בת, יוספה-בן, בת-יוספה ובן-יוספה, ומתוכן יש שתי אפשריוית של שתי בנות במשפחה, ולכן ההסתברות היא 2 חלקי 4, כלומר חצי. הסיבה לכך היא שלמרות שההסתברויות לארבע האפשרויות שונות זו מזו, הן כולן קרובות יחסית ל-0.25, בגלל שהשם יוספה נדיר ו-ε קטן. אם הייתי בוחר שם פופלרי יותר התשובה הייתה הולכת ומתרחקת מחצי.

ולסיום: תודה לכל מי שניסה לפתור ושלח לי את הגיגיו. הפותר היחיד הוא יואב בילינסקי.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו