חמש דרכים לתקן את הסטטיסטיקה

ב-28.11.2017 הופיע בכתב העת Nature מאמר שנשא את הכותרת הפרובוקטיבית Five ways to fix statistics.

המאמר נכתב לאור "משבר השחזוריות" (reproducibility crisis) בו חשים היום חוקרים מתחומים רבים, כלומר הקושי ההולך וגובר לשחזר תוצאות מחקריות במחקר נוסף בלתי תלוי. יש הטוענים כי אחת הסיבות למשבר הזה הוא שימוש לא נכון בסטטיסטיקה. עורכי Nature פנו לחמישה סטטיסטיקאים מובילים (( למעשה שישה )) וביקשו מכל אחד מהם להמליץ של שינוי אחד בפרקטיקה הסטטיסטית שיוכל לשפר את המחקר המדעי. באופן לא מפתיע, הייתה הסכמה בין כולם כי הבעיה אינה בסטטיסטיקה עצמה, אלא באופן השימוש בה.

ברשימה זו אסקור את ההצעות שהועלו, ואביע את דעתי בנוגע לדברים שנאמרו.

ג'ף ליק מאוניברסיטת ג'ונס הופקינס טוען כי "יש להתאים את הידע האנושי" (Adjust for human cognition). כדי להשתמש היטב בסטטיסטיקה, אומר ליק, החוקרים צריכים ללמוד אי לנתח נתונים ולפרש אותם, וליישם את השיטות הסטטיסטיות תוך כדי הימנעות מהטיות קוגניטיביות. אם בעבר היה קשה לאסוף נתונים וכמות הנתונים הייתה מועטה, בימינו אין כל בעיה לאסוף כמויות ענקיות של נתונים. שיטות סטטיסטיות לניתוח נתונים בעידן החדש אכן פותחו, אבל רוב החוקרים עדיין משתמשים בשיטות ישנות (outdated), משתמשים באופן לא נכון במבחנים סטטיסטיים, ונכשלים בביאור התוצאות שקיבלו. האופן שבו משתמשים ב-p-values כדי לקבוע האם תוצאה מחקרית היא "מעניינת" הוא רק דוגמא אחת לשימוש לא נכון בסטטיסטיקה.

אולם, אומר ליק, אי אפשר לתלות את כל האשמה בשפע הנתונים ובהכשרה לא מספיקה בסטטיסטיקה. גם הקריאה להפסיק להשתמש ב-p-values ובמדדים נוספים ככלי לקבלת החלטות אינה מעשית. לעיתים קרובות צריך לקבל החלטות, ורצוי שיהיו כלים והנחיות ברורות כדי לעשות זאת.

יש להבין, מוסיף ואומר ליק, כי ניתוח נתונים אינו רק עניין חישובי/אלגוריתמי. יש בו צד התנהגותי. וההיבט ההתנהגותי של ניתוח הנתונים מושפע לרעה מכך שההכשרה הסטטיסטית הבסיסית לחוקרים מתמקדת בשיטת ישנות שלא מתאימות לבעיות איתן אנו מתמודדים כיום.

אז מה לעשות? ליק מציע להתחיל במחקרים התנהגותיים, שיובילו להבנה כיצד אנשים אוספים, מעבדים ומתחים נתונים, כיצד הם מתקשרים את התוצאות, וכיצד הם צורכים נתונים. לאחר שנבין זאת, נוכל לשפר שיטות ההוראה של הסטטיסטיקה לציבור החוקרים ולציבור הרחב.

אני מסכים עם ליק ברוב הדברים שאמר, אולם אני סבור שאין לנו די זמן לחכות עד שכל המחקרים ההתנהגותיים שהוא מציע ייערכו ותוצאותיהם יובנו ויופנמו. אני לא מתנגד לקיום המחקרים האלה. אבל יש לעשות שינוי מהותי בהוראת הסטטיסטיקה ועכשיו.

לאנדרו גלמן מאוניברסיטת קולומביה ובלייקלי מקשיין מאוניברסיטת נורתווסטרן יש עיצה פשוטה ותקיפה: לנטוש את בדיקות המובהקות. קביעת המובהקות הסטטיסטית כקריטריון לפרסום מחקרים מדעיים מובילה לכך שהמחקרים שמתפרסמים מהווים מדגם לא מייצג של הנתונים. יותר מכך, מזהירים השניים, בדיקת המובהקות נתפסת כדרך להכריע בין שתי אפשרויות: או שקיים אפקט או שלא קיים אפקט. באופן מעשי מתקיימת לדבריהם "מכבסת אי ודאות".

השניים מתייחסים גם לויכוח שמתנה כעת שמתנהל כעת בקרב הקהילה הסטטיסטית, ומתייחסים להצעה של ג'ון יואנידס להדק את מבחני המובהקות ולקבוע את הרף למובהקות על 0.005, וזאת מבלי להזכיר אותו בשמו (וכאן המקום להעיר כי למרבה הצער, עורכי נייצ'ר לא שאלו ככל הנראה את יואנידס לדעתו בעניין). הם, כמובן, מתנגדים לדעתו של יואנידס, אך לא מספקים נימוק משכנע. לחיזוק טענתם הם מביאים כדוגמא מחקר בו התוצאות היו מובהקות אך האפקט אינו משמעותי לדעתם. (( כן, יש הרבה מחקרים כאלה ))

השניים מסכמים את דעתם באמירה שאין הם רוצים לאסור את ה-p-value, אלא מציעים שהוא יהווה רק ראיה אחת בין ראיות נוספות כגון ידע מוקדם, תכנון הניסוי, איכות הנתונים וכדומה. הם מסכמים ואומרים כי הגיע העת "להשאיר את האלכימיה של החלטות בינאריות כגון יש אפקט/אין אפקט מאחורינו"

אני מתנגד לדעתם של גלמן ומקשיין מכל וכל. אימוץ הצעתם יוביל מייד להגדלה של שיעור התוצאות החיוביות-שגויות (False positive). אני לא מתנגד להצעה לקחת בחשבון את משמעות האפקט הנצפה, תכנון הניסוי, איכות הנתונים ופרמטרים נוספים. להיפך. אולם ביטול הדרישה לתוצאה מובהקת רק יוביל ליצירת מגוון של קריטריונים שרירותיים אחרים. לדוגמא, במאמר הזה, שיש בו הרבה דוגמאות לסטטיסטיקה רעה, החוקרים מחשבים את גודל האפקט בעזרת מדד Hedges’ g, ומחליטים כי אפקט ייחשב כמשמעותי אם האפקט לפי מדד זה גדול מ-1.3. מדוע 1.3? ההסבר לכך קלוש ולא מספק. בכל מקרה, לקריטריון כזה ולדומיו אין בסיס תיאורטי מוצק, בניגוד לתיאוריה של בדיקת ההשערות, המתבססת על הלמה של ניימן ופירסון.

דויד קולקיוהון מיוניברסיטי קולג' בלונדון מציע כי בנוסף ל-p-value ומדדים נוספים, יפורסם גם הסיכון לתוצאה חיובית שגויה (False positive risk או FPR .(FPR, לדבריו, תמיד גדול בערכו מה-p-value. החישוב של FPR הוא בייסיאני במהותו ומתבסס על ההסתברות האפריורית לאפקט אמיתי. על פי חישוביו, אם ההסתברות האפריורית הנ"ל היא 10%, וה-p-value קרוב ל-0.05, אז ה-FPR הוא 76%. עם זאת, הוא מודה שאין דרך לדעת מה היא ההסתברות האפריורית לאפקט אמיתי. פתרון אפשרי: להניח כי ההסתברות האפריורית היא 0.5 ולחשב את ה-FPR המינימלי עבור ה-p-value הנצפה.

אני בהחלט בעד הרעיון לפרסם את ה-FPR, אולם הבעיה היא שאין שום דרך נכונה לחשב אותו. יש כמה בעיות בהצעה של קולקיוהון. ראשית, הוא שוכח שה-p-value פותח כקריטריון לקביעת מובהקות (יותר קל לבדוק אם הוא קטן או גדול מ-5%, מאשר ללכת לחפש בטבלת התפלגות t את הערך הקריטי). אמנם יש אינטרפרטציה לערכו המספרי של ה-p-value, אך אין להסיק ממנו כי המובהקות היא מושג רציף, כפי שלמעשה עולה מדבריו. לאמירה כי ה-FPR גדול תמיד בערכו מה-p-value אין משמעות, זו השוואת תפוחים לתפוזים. אמירה בעלת משמעות תהיה אם קולקיוהון יוכל להשוות בין ה-False Positive Risk ובין ה-False Positive Rate. ההצעה להניח כי ההסתברות האפריורית לאפקט אמיתי היא 50% תמוהה בעיני. זהו פתרון של "חצי קפה חצי תה", ולדעתי ההנחה לא מציאותית. אני סבור כי חוקרים לא ישקיעו את משאביהם במחקר אם הם לא סבורים בביטחון גבוה כי המחקר יוביל לתוצאה משמעותית, זאת מכיוון שכל הצעת מחקר (( כמעט )) , (רשמית או לא)  לוקחת בחשבון את הידע הקודם שנצבר אודות נושא המחקר, ואת התיאוריה המצדיקה את קיום המחקר הבא. לכן, ההסתברות האפריורית לאפקט אמיתי גבוהה בהרבה מ-50%, ולדעתי היא בדרך כלל לפחות 80%, אם לא יותר.

למישל ב. נויטן מאוניברסיטת טילבורג בהולנד יש הצעה פשוטה: לפרסם את התכניות לניתוח סטטיסטי (analysis plans). גם שאלות מחקריות פשוטות לכאורה (כגון האם תרופה א עדיפה על תרופה ב) יכולות להוביל לשפע אפשרויות של ניתוחים סטטיסטיים. בתוך השפע הזה, אומרת נויטן, סביר להניח שיש שיטת ניתוח שתוביל לתוצאה מובהקת (( למעשה נויטן אומרת במילים יפות כי "אם תענה את הנתונים מספיק זמן הם יודו לבסוף" )) תכנון מראש ופתיחות, אומרת נויטן, יוכלו לעזור לחוקרים להמנע מתוצאות חיוביות שגויות. נויטן מציע כי החוקרים יכינו מראש תכניות ניתוח סטטיסטי, ואף יפרסמו אותן. השלב הבא יהיה פירסום של כל הנתונים שנאספו, של התוצאות, ואף תכניות מחשב (למשל קוד R). כך כל אחד יוכל לשפוט בעצמו את איכות הניתוח הסטטיסטי, ואת התוצאות שהתקבלו.

בעולם מושלם זו הצעה נהדרת, לדעתי. אני מסכים לחלוטין עם הקביעה שיש לתכנן מראש את שיטות הניתוח הסטטיסטי, וגם עם ההצעה לפרסם גם את הנתונים המחקריים לא רק את התוצאות. למעשה, השיטה הזו היא הסטנדרט בתעשייה הפרמצבטית. כאשר נערך ניסוי קליני, השיטות הסטטיסטיות לפיהן ינותחו הנתונים שבניסוי מצויינות כבר בפרוטוקול הניסוי, ונקבעות לפני שהניסוי בכלל התחיל. במקרים רבים השיטות הסטטיסטיות מוגשות לעיון ולאישור של הרשות הרגולטורית (בדרך כלל ה-FDA). ובסיום הניסוי, כל הנתונים שנאספו מוגשים לרשות הרגולטורית, שם לרוב מנתחים אותם באופן עצמאי. עם זאת, אני יש לי ספק לגבי רמת ההיענות להצעות של נויטן בקרב ציבור החוקרים.

סטיבן נ. גודמן מאוניברסיטת סטנפורד אומר כי יש "לשנות מבפנים". הבעיה היא לא בסטטיסטיקה, אומר גודמן, אלא באופן היישום שלה במחקר המדעי (( לא מפתיע, נכון? )) . הציפיות ממרצים לסטטיסטיקה הן כי הם ילמדו את הגישות הסטנדרטיות המקובלות על כתבי עת ועל עמיתים, ואיש לא מתעניין בבעיות האמיתיות, כמו למשל בהבדלים שבין מובהקות למשמעות. רוב החוקרים מעוניינים רק בידע המינימלי שיאפשר להם להפעיל את התוכנות הסטטיסטיות, כך שיוכלו לפרסם מאמרים במהירות.

גודמן מביא לדוגמא מחקר על חיזוי נטיה להתאבדות שפורסם בחודש האחרון. גודל המדגם היה 17 איש בכל קבוצה. ההצדקה למספר הזה? כותבי המאמר הסבירו כי במאמר אחר, שעסק באנשים על הקשת האוטיסטית, השתמשו באותו גודל מדגם. התרבות המחקרית גוברת על הכללים. ובכל ענף או תת-ענף מדעי יש תרבות אחרת.

מכיוון שכך, אין פתרונות קסם. מי שצריכים להיענות לאתגרים האלה הם קרנות המחקר, כתבי העת, ובעיקר מובילי הדיעה בכל ענף מדעי. ברגע שיתחיל תהליך כזה הוא יחזק את עצמו. מדענים ישתמשו בשיטות סטטיסטיות שבהן משתמשים במאמרים אחרים שכבר התפרסמו. שופטי המאמרים (peer reviewers) ידרשו מהכותבים מה ששופטים אחרים דרשו מהם.

אנחנו בשלים לרפורמה, אומר גודמן. משבר השחזוריות ממחיש לנו את העלות שנובעת מחוסר תשומת לב לתכנון ולניתוחים סטטיסטיים נאותים. חוקרים צעירים משוועים לשינוי. על מובילי הדיעה להיענות להם. לסטטיסטיקאים יש תפקיד חשוב בתהליך, אך הוא משני. השינוי צריך לבוא מבפנים – מתוך הקהילות המדעיות.

ואני מסכים עם כל מילה של גודמן.

סטטיסטיקה רעה, דוגמה מספר 37095

הסרטון הבא לקוח מקורס מקוון ל-data science באמצעות תכנות פייתון של אוניברסיטת סן דייגו.

המרצה, פרופסור למדעי המחשב ממרכז ה-data science באוניברסיטה, רוצה להדגים איך מחשבים מקדם מתאם. את ההדגמה היא מבצעת על קובץ נתונים שמכיל פרטים על סרטים שונים לאורך השנים. בלי להתבלבל, היא לוקחת את המספר הסידורי של הסרט בקובץ הנתונים, movieId, ומחשבת את מקדם המתאם בינו ובין average_rating, הדירוג הממוצע של הסרט. (( whatever it means )) .

צפו:

סטטיסטיקה רעה, דוגמא מספר 34287

רק לפני כשבועיים כתבתי כאן שיש להקפיד על כך שהתוצאות של ניתוחים סטטיסטיים צריכות להיות לא רק מובהקות, אלא גם משמעותיות. הדוגמאות שנתתי שם היו מלאכותיות. למרבה הצער, יש גם דוגמאות אמיתיות לכך, והרבה. מייד אציג דוגמא כזו.

לפני כשבוע קראתי מאמר שכותרתו Methods to increase reproducibility in differential gene expression via meta-analysis  שהתפרסם בכתב העת Nucleic Acids Research בראשית 2017. לדעתי זה מאמר מאוד בעייתי מבחינת השימוש בשיטות סטטיסטיות והאינטרפרטציה של התוצאות שהתקבלו. יותר מכך, לדעתי אין במאמר ערך מוסף מדעי וראוי היה שלא יתפרסם כלל. אבל אני בוחר להתרכז רק בפרט אחד מתוך המאמר, למרות שיש בו די חומר לכמה רשימות.

בגדול, המאמר מנסה להשוות בין שיטות שונות לביצוע מטה-אנליזה, וכמו כן הכותבים מנסים לזהות גורמים המשפיעים על איכות המטה אנליזה. כדי להבין את מה שאכתוב כאן, מספיק לדעת שמטה-אנליזה היא דרך סטטיסטית  לצרף כמה מחקרים ביחד, כדי להגיע למסקנה כללית המאגדת בתוכה את המסקנות של המחקרים שנכללים באנליזה. (( למעשה יש הרבה שיטות סטטיסטיות למטה-אנליזה. השיטה הספציפית בה השתמשו כותבי המאמר לא רלוונטית לדיון. ))

בשלב מסויים הכותבים התייחסו לקבוצה של 14 מחקרים, וניסו ללמוד איך מספר המחקרים הנכללים במטה-אנליזה (שמסומן באות K) וגודל המדגם הכולל (סך מספר התצפיות בכל המחקרים הנכללים) המסומן באות N, משפיעים על רמת הדיוק (accuracy) של המטה-אנליזה.

לשם כך הם ביצעו את התרגיל הבא: הם בחרו תת קבוצה של 14 מחקרים (נניח מחקרים מספר 1, 2, 5, 7 ו-13) על פי קריטריונים שקבעו מראש, ביצעו מטה-אנליזה שתאגד את התוצאות של חמשת המחקרים, חישבו את רמת הדיוק, ורשמו את מספר המדגמים K, את גודל המדגם הכללי N, ואת רמת הדיוק שהתקבלה. אח"כ בחרו תת קבוצה אחרת של המחקרים (נניח מחקרים מספר 3, 6, 8, 9, 11, ו-14), ביצעו עוד מטה-אנליזה שאיגדה את התוצאות של ששת המחקרים האלה, ורשמו שוב את K, N, ואת רמת הדיוק. הם חזרו על התרגיל הזה בערך 7000 פעמים, על כל התת קבוצות האפשריות (( התרגיל הזה הוא הכללה של שיטה סטטיסטית הידועה בשם JackKnife )) .

כעת, כשהיו ידיהם נתונים על K, N, ורמת הדיוק של כל אחת מ-7000 המטה-אנליזות שביצעו, הם הריצו מודל רגרסיה שבו K ו-N הם המשתנים המסבירים, ורמת הדיוק היא המשתנה המוסבר.

הם ביצעו את כל הפרוצדורה ל-3 קבוצות של מחקרים שעסקו בשלוש מחלות שונות.

תוצאות הרגרסיה סוכמו בטבלה נאה. אני מביא כאן רק חלק מהטבלה, המתייחס למחקרים שעסקו בסרטן הריאה ((Lung adenocarcinoma  )) :

בעיה ראשונה: רמת הדיוק היא מספר בין 0 ל-1, ולכן אחת ההנחות הבסיסיות של מודל הרגרסיה אינה מתקיימת. זה לא אומר, אגב, שההנחות האחרות כן מתקיימות. הם לא טרחו לדווח האם בדקו את ההנחות, ואם בדקו, הם לא דיווחו לאיזה מסקנה הגיעו.

התוצאות שמוצגות בטבלה הזו, וגם בשתי הטבלאות הנוספות מאוד משמחות לכאורה. כל ה-p-values "מאוד" מובהקים: הם קטנים מ-0.0000000000000002!. הטבלה הוצגה במאמר, הכותבים ציינו כי כל הערכים מובהקים ועברו הלאה.

בואו ננסה להבין מה אומרות התוצאות.

נסתכל תחילה בערכו (Estimate) של החותך (או האיבר החופשי של המודל) – ה- Intercept. ערכו הוא 0.564. זה הערך שינבא המודל אם N שווה ל-0 וגם K שווה ל-0. אם N ו-K שווים שניהם ל-0, פירוש הדבר שכלל לא נערכה מטה-אנליזה. כלומר, לפי המודל, אפשר להגיע לרמת דיוק של 56.4% בלי נתונים כלל. אולי אני חוטא קצת באקסטרפולציה, אבל לפי המוסבר במאמר נכללו באנליזה גם N-ים ו-K-ים קטנים מאוד, כך שלחותך בהחלט יש משמעות.

נעבור כעת למקדם של K. ערכו 0.0449. המשמעות שלו: אם נגדיל את K ב-1, רמת הדיוק תגדל ב-4.5% בערך. זה נשמע סביר.

מה קורה עם המקדם של N? ערכו הוא -0.000222. שימו לב שהמקדם שלילי, כלומר, אם גודל המדגם יגדל, רמת הדיוק תקטן. לא יודע מה קורה אצלכם, אבל זה הרגע בו אמורים להישרף לכם הפיוזים. בסך הכל היו בחקרי סרטן הריאה כ-1300 תצפיות. לפי המודל, התצפיות האלה הורידו את רמת הדיוק שלה המטה-אנליזה ב-29%.

מה קרה כאן? זה מה שקורה כשמשתמשים בשיטה הסטטיסטית הלא נכונה בלי להקדיש לכך מחשבה ובלי לבדוק אם ההנחות שבבסיס השיטה מתקיימות. אחת ההנחות של מודל הרגרסיה הלינארית היא שלמשתנה המוסבר יש התפלגות נורמלית, לפחות בקירוב. זה בבירור לא מתקיים כאן – רמת הדיוק נעה בין 0 ל-1. הנחה נוספת שצריכה להתקיים היא שיש קשר לינארי בין המשתנה המוסבר והמשתנים המסבירים. שימו לב כי בתחתית הטבלה מופיע מקדם המתאם המשוקלל של הרגרסיה (Adjusted R-square). ערכו הוא 0.34, לכל הדעות ערך נמוך המבטא קשר לינארי מאוד רופף בין המשתנים. יש עוד שתי הנחות שצריכות להתקיים, אם כי בשלב הזה כבר לא משנה אם הן התקיימו או לא.

והמסקנה הרגילה: אין להשתמש בשיטות סטטיסטיות אם לא מבינים היטב את הרעיון העומד מאחוריהן.

ניתוח מרכיבים ראשיים (PCA) – למה, איך ואיך לא

ברשימה זאת אתן הסבר אינטואיטיבי ולא מתמטי אודות שיטת ה-PCA, ואסביר כיצד להשתמש בה בצורה נכונה.

למה להשתמש ב-PCA?

PCA, או בעברית ניתוח מרכיבים ראשיים, היא שיטה סטטיסטית פופולרית בקרב Data Scientists. כאשר יש קובץ נתונים ובו מספר גדול של משתנים, מעוניינים לצמצם את מספר המשתנים כדי להקל על החישובים. יש מספר דרכים לעשות זאת, ו-PCA היא אחת הדרכים האלה. ה-PCA יכול להחליף קבוצה של משתנים בקבוצת משתנים אחרת, קטנה יותר.

איך להשתמש ב-PCA

לצורך ההדגמה אשתמש בקובץ נתונים body, המכיל נתונים אודות מימדי הגוף של 507 נבדקים. הקובץ זמין לציבור בארכיון הנתונים של ה-Journal of Statistical Education. הקובץ נמצא כאן, והסבר על הנתונים שבקובץ תוכלו למצוא כאן. אני אתרכז בשלושה משתנים בקובץ, המודדים שלושה אספקטים של היקף החזה: ,Chest_depth  Chest_diameter ו- Chest_girth.

איך אפשר להחליף את שלושת המשתנים האלה במשתנה אחד? אפשרות אחת היא להחליף את המשתנים בממוצע שלהם. מחברים את הערכים של שלושת המשתנים, ומחלקים בשלוש. יש כאן בעיה – איבדנו אינפורמציה. קודם היו לנו הערכים של כל שלושת המשתנים, עכשיו יש לנו רק את הממוצע שלהם. כמה אינפורמציה איבדנו? אפשר לחשב. אבל השאלה המעניינת היא: האם אפשר ליצור משלושת המשתנים משתנה אחר, כך שאיבוד האינפורמציה יהיה קטן יותר? האם יש שקלול של שלושת המשתנים כך שאיבוד האינפורמציה יהיה מינימלי?

את התשובה לשאלה האחרונה נתן קרל פירסון בשנת 1901. כן, אפשר למצוא שקלול כך שאיבוד האינפורמציה יהיה מינימלי.

הרעיון הבסיסי של פירסון יוסבר כעת, תוך כדי שימוש מינימלי במתמטיקה.

האינפורמציה שבנתונים מתבטאת בשוניות שבין המשתנים ובשונויות המשותפות שבינהם. לכן הציע פירסון הציע להסתכל על טבלת השונויות המשותפות המשתנים (( שונות משותפת בין שני משתנים דומה בתכונותיה למקדם המתאם בין המשתנים למעשה, מקדם המתאם מחושב על ידי שקלול של השונות המשותפת. )) . (( כן, אני יודע על  centering ו-scaling ודברים כאלה ))

Chest_depth Chest_girth Chest_diameter
20.35 4.59 6.33 Chest_diameter
23.93 7.59 4.59 Chest_girth
100.555 23.99 20.35 Chest_depth

בטבלה שמוצגת כאן אנו רואים, למשל, כי השונות המשותפת של המשתנים Chest_diameter ו-Chest_girth היא 23.93. גם מקדם המתאם בין שני המשתנים גבוה, וערכו הוא 0.87. גם המתאמים האחרים גבוהים. ככל שהמתאמים בין המשתנים גבוהים יותר, כך ה-PCA יביא יותר תועלת. לכן מומלץ לבדוק את מקדמי המתאם בין המשתנים לפני הפעלת ה-PCA.

המתמטיקאים מכנים טבלה של מספרים בשם "מטריצה", ובהתאם טבלת השונויות המשותפות נקראת בפי הסטטיסטיקאים "מטריצת השונויות המשותפות". למטריצה הזו יש כל מיני תכונות מתמטיות. יש לה, למשל, שלושה מספרים האופייניים לה, שנקראים בפי המתמטיקאים "ערכים עצמיים"  (( ואפשר להוכיח כי הם יהיו ממשיים וחיוביים )) . לכל ערך עצמי מתאים יצור מתמטי שנקרא "וקטור עצמי", שהוא בעצם, בדוגמא שלנו, סדרה של 3 מספרים.

פירסון הוכיח כי השקלול הטוב ביותר של המשתנים, זה שישמר מקסימום אינפורמציה, יהיה על ידי הוקטור העצמי ששייך לערך העצמי הגדול ביותר של מטריצת השונויות המשותפות. יותר מכך, האינפורמציה הנשמרת שווה לערכו היחסי של הערך העצמי בסך הערכים העצמיים.

בדוגמה שלנו הערכים העצמיים של המטריצה הם 110.52, 2.33 ו-1.55. הערך העצמי הגדול ביותר הוא, לכן, 110.52. הוקטור העצמי המתאים לערך עצמי זה הוא: (0.953, 0.230, 0.197 ).   לכן השקלול האופטימלי הוא להכפיל את Chest_depth ב-0.197, להכפיל את Chest_diameter ב-0.230, ולהכפיל את Chest_girth ב-0.953, ולבסוף לחבר הכל. המשתנה המתקבל כך נקרא "המרכיב הראשי הראשון". כמה אינפורמציה נשמרת? ובכן, סכום הערכים העצמיים הוא 114.4. 110.52 חלקי 114.4 זה 0.966. המרכיב הראשי הראשון שומר 96.6% מהאינפורמציה.

באופן דומה אפשר להגדיר את המרכיב הראשי השני והשלישי. בדוגמא שלנו אפשר להסתפק במרכיב הראשי הראשון.

מבחינה גיאומטרית השיטה מתאימה לנתונים מערכת צירים חדשה, על ידי "סיבוב" של ערכי המשתנים. בדוגמה המלאכותית הבאה רואים שני משתנים, X ו-Y, כמו שהם (לפני הפעלת ה-PCA) ואת שני הרכיבים הראשיים (אחרי הפעלת ה-PCA). ניתן לראות כי הנתונים "הסתובבו", וכעת השונות בין המשתנים מתבטאת בעיקר לאורך הציר האופקי.

 

איך לא להשתמש ב-PCA

מי שטרח להסתכל בקובץ הנתונים ראה שיש בו 25 משתנים. מדוע, אפשר לשאול, לא ניקח את כל המשתנים ונפעיל עליהם את פרוצדורת ה-PCA? זה אפשרי מבחינה מתמטית. אם תכניסו את כל הנתונים לתוכנה שמחשבת PCA תקבלו משהו. אבל יש כאן כמה בעיות (( הניתוח מכאן והלאה תקף גם לשיטות אחרות להקטנת מימדי הנתונים, כגון SVD, MDS וכדומה )) .

ראשית, בדוגמא שלנו, שלושת המשתנים שבחרנו מתייחסים  לבית החזה (chest) ומבטאים אספקטים שונים של גודלו. המרכיב הראשי של שלושת המשתנים שחישבנו מבטא, לכן, את גודלו של בית החזה. אם נשקלל את כל המשתנים, לא ברור מה תהיה האינטרפרטציה של המרכיב הראשי שיחושב. אתן דוגמה קצת קיצונית. בדף הערך של PCA בויקיפדיה העברית נתונה דוגמה של שלושה משתנים: משקל, גובה וגיל, אבל לפני שערכתי את הדף, הדוגמה הציגה את המשתנים מנת משכל, גובה וגיל. מה המשמעות של שקלול מנת משקל, גובה וגיל? אם תחשבו עבור מישהו את הממוצע של גובהו ומנת המשכל שלו, מה תקבלו? איזה משמעות יש לזה? הכלל הראשון: יש להשתמש ב-PCA אך ורק לשקלול משתנים המבטאים אספקטים שונים של אותו הדבר, כך שלשקלול שלהם תהיה משתמעות.

שנית, אם תבחנו היטב את רשימת המשתנים, תראו שבקובץ יש משתנה המתאר את מינו של כל אחד מהאנשים שנמדדו. 1 מציין זכר, 0 מציין נקבה. הבחירה של 0 ו-1 היא שרירותית. זהו משתנה שמי. אין כלל משמעות לשונות של המשתנה הזה, או לשונות המשותפת שלו עם משתנים אחרים. הכלל השני: PCA נועד למשתנים כמותיים, כלומר, למשתנים שנמדדים בסולם מנה או סולם רווח. מה לגבי משתנים שנמדדים בסולם סודר? למשל, שביעות הרצון בסולם 1-5? גם כאן בחירת המספרים היא שרירותית. מי שמכניס משתנה כזה לתוך PCA מניח כי שביעות הרצון הזאת היא משתנה כמותי, כלומר ההפרש בין 1 ל-2, למשל, שווה להפרש בין 4 ל-5. הנחה כזו צריך להצדיק. ההצדקה היחידה שראיתי לגבי התייחסות למשתנה כזה כאל משתנה כמותי היא שכנוע עצמי.

גם כשיש נתוני ספירה (count variables), למשל מספר ההתקפים שעבר חולה במשך תקופת זמן מסויימת, צריך להזהר. זה אמנם משתנה כמותי, אבל הוא עלול להיות skewed (( איך מתרגמים את זה לעברית? )) , ומכאן ייתכן כי המתאם בין משתנה כזה ומשתנים כמותיים אחרים עלול להיות נמוך, ולפיכך לא תהיה תועלת רבה בהכנסתו למודל.

שלישית: בדוגמה שלנו, ייתכן והיחסים בין מידות בית החזה שונים אצל גברים ואצל נשים. במקרה כזה, יש לבצע שקלול שונה לגברים לחוד, ולנשים לחוד. צריך לחלק את הנתונים לשני קבצי נתונים, ולבצע PCA נפרד לגברים לחוד ולנשים לחוד. תמיד יש לבדוק האם ניתן להתייחס לכל הנתונים כמקשה אחת, או שמא יש בנתונים תת קבוצות של נתונים, כאשר בכל אחת מהן יש קשרים שונים בין המשתנים.

מהו גודל המדגם המתאים?

אוכלוסיית ישראל גדולה בערך פי 2 מאוכלוסיית ניו זילנד. כדי לאמוד את מספר התומכים בראש הממשלה בישראל (עם טעות דגימה של כ-3%, וברמת סמך של כ-80%) דרוש מדגם מייצג בגודל של כ-500 איש (( המספר המדוייק הוא 457 )).  מה צריך להיות גודלו של מדגם מייצג בסקר דומה בניו זילנד?

שאלתי את השאלה הזו בסקר שערכתי בטוויטר, ולשמחתי הרבה רוב העונים ענו את התשובה הנכונה: גם בניו זילנד צריך סקר בגודל 500. ברשימה הזו אסביר מדוע זה נכון, וגם מדוע זה לא בהכרח נכון.

סיפור מהעבר: אי שם בתחילת שנות ה-90 לימדתי כמה קורסים של סטטיסטיקה לכלכלנים. שאלתי שאלה דומה לזו באחד המבחנים נתתי. חלק מהסטודנטים טענו כי השאלה לא הייתה הוגנת. אני טענתי שכן, ומייד אסביר מדוע.

השאלה הזו נועדה לבדוק ישירות האם הסטודנט מבין כיצד מחושב גודל המדגם. לכאורה אין בעיה. יש נוסחה (לפחות למקרה הספציפי הזה), מציבים בנוסחה את כל הפרטים הדרושים, ומחשבים. לראיה, בשאלה אחרת התבקשו הנבחנים לחשב גודל מדגם, רוב הסטודנטים ענו נכון על השאלה, ואיש לא טען שהשאלה לא הוגנת.

אבל יש בעיה. יש הבדל בין לדעת לחשב את גודל המדגם ובין להבין כיצד גודל המדגם מחושב. לדעתי ולמיטב זכרוני עמדתי בהרצאות על ההבדל בין שני הדברים, וציינתי כי גודל המדגם לא תלוי בגודל האוכלוסייה, אבל כנראה לא הדגשתי את זה מספיק בקורס הספציפי המדובר. בהמשך הקריירה שלי הקפדתי יותר להדגיש את המשמעות של הנוסחה, ולא רק את השימוש בה (בתקווה שזה עניין מישהו).

בואו ניכנס לפרטים. אנחנו נדבר כאן רק על המקרה הפשוט ביותר, בו רוצים לאמוד פרופורציה באוכלוסייה, כגון שיעור התומכים בראש הממשלה, אחוז הגברים שגובהם מעל 180 ס"מ, או אחוז התומכים בלגליזציה של סמים קלים. העקרונות שאציג נכונים גם למקרים מורכבים יותר.

הדרך הכי קלה (לפחות למרצה שעומד מול סטודנט זועם) להסביר למה צריך את אותו גודל מדגם בישראל ובניו זילנד היא לשלוח אותו לנוסחה, או למחשבון חישוב גודל מדגם שניתן למצוא בקלות באינטרנט. יש כל מיני נתונים שאתם צריכים להציב בנוסחה או להזין למחשבון. גודל האוכלוסייה לא נדרש. סוף הסיפור.

אבל בואו ננסה להבין באופן אינטואיטיבי מה קורה פה. התשובות האפשריות בסקר שערכתי היו 500 – התשובה הנכונה, 250 – תשובה שנועדה לתפוס את אלה שההיגיון שלהם אמר שאם האוכלוסייה קטנה פי 2 אז גם המדגם צריך להיות קטן פי 2. ל-350 הגעתי על ידי חלוקה של 500 בשורש של 2.

מה היה קורה אם התשובה 250 הייתה נכונה? כלומר, מה היה קורה אם גודל המדגם היה פרופורציוני לגודל האוכלוסייה? אז בניו זילנד, עם 4 מיליון תושבים בערך "צריך" מדגם של 250. בארצות הברית, שבה כ-330 מיליון תושבים, צריך מדגם בגודל 20625 (נשמע הגיוני, לא?), בסלובניה שבה כ-2 מיליון תושבים אפשר להסתפק במדגם בגודל 125, באיסלנד שבה 350 אלף תושבים יספיק מדגם של 22 איש, ובקיבוץ אייל, שבו יש לפי ויקיפדיה 485 תושבים, צריך מדגם בגודל 0.03 איש. מה? משהו לא מסתדר פה. מקווה שהתחלתם לחשוד כבר באיסלנד.

מצד שני, יש בעיה אחרת שעולה כאן. איך נוכל לדגום 500 איש בקיבוץ אייל, כאשר אין שם בכלל 500 איש?

התשובה היא שצריך לקרוא את האותיות הקטנות. הנוסחה שמלמדים בקורס מבוא לסטטיסטיקה מניחה שהאוכלוסייה ממנה דוגמים היא אינסופית, או לפחות גדולה מאוד (( אם תכנסו לקישור לדף בו נמצאת נוסחת גודל המדגם שנתתי קודם, תראו שכותרת הדף היא Estimating a Proportion for a Large Population , וזה כתוב באותיות גדולות )) . מה קורה כשהאוכלוסייה לא גדולה? בשביל לדעת את זה צריך להגיע לשנה ג בלימודי הסטטיסטיקה, אז לומדים את הקורס הבסיסי בדגימה. שם דנים בנושא של דגימה מאוכלוסייה סופית. הנוסחה לגודל המדגם במקרה זה כן כוללת בתוכה את גודל האוכלוסייה. נכון שאנחנו תמיד מתייחסים לאוכלוסייה סופית (גם בסין יש מספר סופי של תושבים), אך כאשר מדובר באוכלוסייה גדולה יחסית שתי הנוסחאות נותנות תוצאה דומה. במקרה של ישראל, ניו זילנד, ארצות הברית וסלובניה תתקבל אותה תוצאה גם אם משתמשים בנוסחה לאוכלוסייה אינסופית וגם כאשר משתמשים בנוסחה לאוכלוסייה סופית שלוקחת בחשבון את גודל האוכלוסייה. ההבדל זניח. באיסלנד כבד יש הבדל – אפשר להקטין שם את גודל המדגם ב-1. למעשה אם גודל האוכלוסייה הוא 10000 ומעלה הבדל בין התוצאות של שתי הנוסחאות הוא פחות מאחוז. בקיבוץ אייל כבר חייבים להשתמש בחישוב עבור אוכלוסייה סופית. שם גודל המדגם הדרוש הוא 236.

מה עושים כשיש 180000 משתנים מסבירים?

בקבוצת Machine & Deep learning Israel בפייסבוק מישהו שאל את השאלה הבאה:

 I have a feature matrix of about 4000 samples and 180,000 features. Naturally, I want to reduce its dimensions for applying a machine learning algorithm on the reduced matrix.

  1. How do I handle such a big matrix in python for calculations (pandas, other?)
  2. How can I apply feature selection on such a big matrix and what feature selection methods would you try first?

למעשה יש פה שתי שאלות, הראשונה טכנית במהותה (שימוש בשפת פייתון). אני רוצה להתייחס לשאלה השניה.

ראשית, בואו נבהיר אותה בעברית.

לשואל יש קובץ נתונים, עם 4000 תצפיות. בכל תצפית נתונים ערכים של 180,000 משתנים (features בשפת ה-machine learning). ברור לשואל שיש לו יותר מדי משתנים (חלק מהמשיבים לשאלה ציינו זאת במפורש, ויעצו לשואל לאסוף עוד תצפיות) , והוא שואל איך יוכל לבחור מתוכם קבוצה קטנה יותר של משתנים, כך שמימד הבעיה יקטן. כשכמובן הוא מעוניין לבחור את המשתנים המשמעותיים ביותר לבעיה שלו.

הוא קיבל כמה תשובות, חלקן מעניינות, אם כי לפחות אחת מהן (להפעיל PCA או פרוצדורה דומה) בעייתית בעיניי. אני רוצה להציע כאן היוריסטיקה משלי להתמודדות עם הבעיה.

ראשית, יש לסנן החוצה משתנים עם שונות נמוכה או ללא שונות כלל. לחשב את סטיית התקן של כל משתנה לחוד זה קל יחסית. איזה ערך של סטיית תקן ייחשב לנמוך? כאן יש להפעיל שיקול דעת  (judgement). אפשר למשל לחשב את העשירונים או אפילו את המאונים של 180000 סטיות התקן, ולראות איך ההתפלגות מתנהגת. אפשר להחליט לקחת את העשירון העליון של סטיות התקן, או אולי אפילו את המאיון העליון. ייתכן גם ולא יהיה מזל, ותהיה קבוצה קטנה של משתנים עם סטיות תקן נמוכות, ולאחריהן קפיצת מדרגה, ואז לא יהיה ניתן לסנן הרבה משתנים.

מכאן נעבור לשלב השני בסינון. בואו נניח שאחרי הסינון הראשון נותרו 18000 משתנים. אני מניח כעת כי יש גם משתנה מוסבר כלשהו, Y, ושמעוניינים לבנות מודל פרדיקטיבי עבור Y. בשלב נבנה 18000 מודלים פרדיקטיביים עבור Y, כאשר בכל מודל יש רק משתנה מסביר אחד. מכאן נוכל לחשב את הערך הפרדיקטיבי האינדיבידואלי של כל אחד מ-18000 המשתנים שלנו. נפעיל שיקול דעת דומה לזה שהפעלנו בשלב הקודם, ונישאר עם המשתנים בעלי הערך הפרדיקטיבי האינדיבידואלי הגבוה ביותר. בואו נניח, לצורך העניין, שנשארנו עם 9000 משתנים מסבירים.

השלב הבא הוא לבנות מודל שיכיל כמה משתנים מסבירים. בהנחה שהשואל חילק את קובץ הנתונים שלו לשני חלקים (חלק אחד לצורך פיתוח, והאחר לצורך ולידציה), יש לו 2000 תצפיות, ולכן מספר המשתנים המסבירים צריך להיות נמוך מ-2000 באופן משמעותי, כדי שיהיו לו מספיק דרגות חופש לאמידת הפרמטרים של המודל. נניח שהולכים על מודל עם 500 משתנים מסבירים.

בשלב הראשון בונים מודל הכולל את 500 המשתנים בעלי הערך הפרדיקטיבי הגבוה ביותר. מחשבים את הערך הפרדיקטיבי של המודל.

ייתכן כעת, שעקב אינטראקציות בין משתנים, יהיה מצב בו הכנסת משתנה עם ערך פרדיקטיבי יותר נמוך למודל יעלה בכל זאת את הערך הפרדיקטיבי הכולל של המודל. כאן אני מציע להפעיל פרוצדורה רנדומלית:

1) בחר את אחד המשתנים שבתוך המודל באופן מקרי.

2) בחר אחד מהמשתנים שלא נכנסו למודל באופן מקרי.

3) הוצא מהמודל את המשתנה שבחרת בשלב (1) והכנס במקומו למודל את המשתנה שבחרת בשלב (2).

4) חשב את הערך הפרדיקטיבי של המודל החדש.

5) אם הערך הפרדיקטיבי של המודל החדש גבוה יותר מהערך הפרדיקטיבי של המודל הישן, השאר עם המודל החדש. אחרת חזור למודל הישן.

6) חזור לשלב (1).

את הפרוצדורה הזאת יש להריץ מספר גדול של פעמים. כמה פעמים בדיוק? זה שוב עניין של שיקול דעת.

לאחר שהתכנסנו למודל כלשהו עם 500 משתנים, נוכל להפעיל עליו את אחת השיטות המקובלות של variable/feature selection, למשל LASSO regression.

כעת, אם עדיין יש צורך, אפשר לקחת משתנים המתארים משתנים דומים או קרובים זה לזה (נניח הטמפרטורה בשעה 10 בבוקר והטמפרטורה בשעה 12 בצהריים), ולהחליף אותם במשתנה שירכז בתוכו את רובה של השונות במשתנים אלה, על ידי הפעלת PCA למשל.

תהליך ארוך אך אפשרי. חשוב לציין שזוהי היוריסטיקה בלבד, ואין לי הוכחה מתמטית לכך שההיוריסטיקה עובדת ומגיעה למודל סביר. כל מה שאני יכול לומר הוא שהתמודדתי בעזרתה עם בעיה הרבה יותר גדולה. התחלנו עם 1000000 משתנים מסבירים והגענו בסוף למודל עם 13 משתנים, בעל ערך פרדיקטיבי של 70%.

בהצלחה!

איך להמר (אם אתה מוכרח)

איך להמר (אם אתה מוכרח)

אתם חייבים 100 אלף דולר לשוק האפור, אבל יש לכם רק 50 אלף, וצריך לשלם בערב. זה לא משנה אם יהיו לכם 50 אלף דולר, או 90 אלף, או 99,999. כל סכום קטן מ-100 אלף יגרום לתוצאות הרות אסון. הסיכוי היחיד שלכם נמצא בקזינו. אתם ניגשים לשולחן הרולטה, שם אפשר להמר על אדום-שחור. אם הימרתם בדולר אחד על אדום, והתוצאה היא אדום, תקבלו בחזרה את הדולר שלכם ודולר אחד נוסף. אם התוצאה אינה אדום ((יש עוד שתי אפשרויות – שחור וירוק)) הפסדתם את הדולר. יש לציין כי הסתברות הזכיה כאשר מהמרים על אדום היא קצת פחות מ-50%. מה הכי כדאי לעשות? מהי האסטרטגיה שתביא למקסימום את ההסתברות שתצאו מהקזינו ובכיסכם 100 אלף דולר?

שאלה דומה לזו הוצגה בעמוד הראשון של הספר הקלאסי How to gamble if you must מאת Lester E. Dubins, ‎Leonard J. Savage, andb ‎William Sudderth. כותרת המשנה של הספר היא Inequalities for Stochastic Processes, ומעידה על כך שזהו בהחלט ספר מתמטי. ההוכחה לתשובה שמייד אציג נמצאת בפרק החמישי של הספר, למי שמתעניין. כאן אנסה לתת הסבר אינטואיטיבי לתשובה.

אבל לפני כן קצת שעשועים. בסקר שערכתי בטוויטר השתתפו 46 צייצנים. הדיעות התחלקו פחות או יותר שווה בשווה בין ארבע התשובות האפשריות שהוצעו:

לפני שנדון בתשובות קצת היסטוריה, על קצה המזלג. משחקי הימורים היו נפוצים כבר בזמנים קדומים, ויש תיעוד שלהם בכל התרבויות העתיקות. מחקרים אודות הימורים ומשחקי מזל שערכו מלומדים כקרדנו במאה ה-16, כריסטיאן הויגנס במאה ה-17, ואברהם דה-מואבר ויעקב ברנולי במאה ה-18, ואחרים, הניחו את היסודות לתורת ההסתברות. למעשה, הפתרון שאציג מייד נובע מעבודה של דה-מואבר משנת 1711.

ועוד אנקדוטה (אולי משעשעת): בראשית ימיה, עמדה חברת FedEx בפני משבר. היה עליה לשלם חוב של 24,000 דולר, כשבקופתה היו 5000 דולר בלבד. יו"ר החברה ומייסדה, נטל את הכסף שבקופה, טס ללאס וגאס, הימר בשולחן הבלאק ג'ק וזכה ב-27,000 דולר. כך ניצלה החברה, והשאר, כמו שאומרים, היסטוריה. תודה לשי אלקין שהסב את תשומת ליבי לסיפור.

למתעניינים בהיסטוריה של חקר ההימורים והנחת יסודות תורת ההסתברות, אמליץ לקרוא את הספר נגד האלים מאת פיטר ברנשטיין, או את הספר הקלאסי
Games, Gods and Gambling מאת פלורנס נייטיגייל דייויד (( שאין לבלבל בינה ובין פלורנס נייטינגייל )) .

ועכשיו לתשובות.

תשובה אפשרית אחת היא שלא משנה מה עושים כי ממילא נפסיד הכל. זה נכון. ההימור נוטה לטובת הקזינו. ההסתברות לזכיה ברולטה בהימור על אדום (או על שחור) היא 18/38, בערך 47%. מי שיהמר לאורך זמן יצבור אט אט הפסדים, ומי שימשיך להמר עוד ועוד יפסיד בסופו של דבר את כל כספו.  את זה הוכיח כריסטיאן הויגנס. מי שענה את התשובה הזו בסקר צדק.

אבל חדי העין ישימו לב כי השאלה כפי שנוסחה כאן שונה מעט מהניסוח בטוויטר, גם בגלל מגבלת התוים בטוויטר ואולי גם בגלל חוסר דיוק מצידי. בואו נדון באסטרטגיה שתביא למקסימום את ההסתברות לצאת מהקזינו עם 100 דולר, כאשר מגיעים אליו עם 50 אלף דולר. כאן בגדול יש שתי אפשרויות. אפשרות אחת היא להמר מייד על כל הסכום, בתקוה שתזכה בהימור אדום-שחור וכספך יוכפל. ההסתברות לכך היא, כאמור, בערך 47%.

מה קורה אם מהמרים כל פעם על חלק מהסכום? בואו ניקח לדוגמא את האסטרטגיה הבאה: להמר על 25 אלף דולר, לקוות לזכות ועל ידי כך להגדיל את הונך ל-75 אלף דולר, ואחר כך להמר שוב על 25 אלף דולר, כאשר זכיה תביא אותך אל הסכום הנכסף של 100 אלף דולר. במקרה הטוב ביותר תגיע למטרה על ידי שתי זכיות רצופות של 25 אלף דולר כל אחת. ההסתברות לכך היא 0.47 כפול 0.47 ((בהנחה הסבירה לגמרי שאין תלות בין ההימורים )) , כלומר בערך 22.4%.

יש כמובן אפשרות שתפסיד בהימור הראשון את 25 אלפי הדולרים עליהם הימרת. עכשיו יהיה עליך להכפיל את הונך פי 4, וזה ידרוש שוב לפחות שתי זכיות רצופות ((להמר על 25, לזכות, ואז להמר על 50 ושוב לזכות )) , וההסתברות לכך היא שוב כ-22.4%.

אם מהמרים על סכומים קטנים יותר, יש צורך ביותר זכיות, וההסתברות להגיע ל-100 אלף דולר צונחת בהתאם.

זו האינטואיציה שעומדת מאחורי הקביעה כי האסטרטגיה האופטימלית היא להמר מייד על כל הסכום בתקווה להכפילו. ברנולי ודה-מואבר הבינו זאת כבר בראשית המאה ה-18. הוכחות מתמטיות מלאות לטענות קרובות הופיעו בתחילת המאה ה-20.

רק רגע, יש עוד אפשרות: לעשות משהו אחר. אפשר להמר בשיטת ההכפלות, הידועה גם בשם  שיטת המרטינגייל.

הנה הרעיון: אתה מתחיל בהימור אדום שחור על דולר. אם זכית – קיבלת את הדולר שלך בחזרה ועוד דולר אחד כרווח. אם הפסדת, לא נורא. המר כעת על שני דולר. אם זכית, אתה מקבל את שני הדולרים שלך בחזרה, ועוד שני דולרים כרווח, בסך בכל ארבעה דולרים. אבל הימרת רק על שלושה דולרים! מכאן שהרווחת דולר.

ומה קורה אם הפסדת גם בהימור השני? אין בעיה. הכפל את סכום ההימור והמר כעת על ארבעה דולר. אם זכית, תקבל שמונה דולר, אבל הימרת רק על שבעה דולר (1+2+4). הרווחת דולר.

ומה אם הפסדת בהימור על ארבעת הדולרים? אין בעיה. הכפל את סכום ההימור ל-8 דולר. אם תזכה תקבל בחזרה 16 דולר, כשהימרת רק על 15 דולר – כלומר שוב הרווחת דולר.

ומה יקרה אם הפסדת בהימור על שמונת הדולרים? אולי עדיין אין בעיה, אבל בקרוב תהיה לך בעיה.

קודם כל נתייחס לבעיה הספציפית שלנו – להגיע מ-50 אלף דולר ל-100 אלף דולר. בשיטה הזו זה ייקח קצת זמן, ותצטרך לזכות בהרבה הימורים בדרך.

כמובן, אם עומד לרשותך סכום כסף בלתי מוגבל, השיטה הזו תוביל אותך לזכיה בהסתברות 1. אבל, הסכום שעומר לרשותך (( ולרשות כל אחד, בעצם )) מוגבל, וייתכן מאוד שתגיע למצב בו אין בידיך מספיק כסף כדי להכפיל את ההימור. למעשה, אפשר להוכיח כי אם תהמר בשיטה זו לאורך זמן, תגיע למצב בו אין בידיך די כסף כדי להכפיל את ההימור בהסתברות 1.

שלישית, ברוב בתי הקזינו יש הגבלה על גובה ההימור. שיטת ההכפלות תביא אותך בסופו של דבר אל המחסום הזה ואז לא תוכל למשיך ולהכפיל את ההימור גם אם יש בכיסך את הסכום הדרוש.

באופן אישי, אם היה לי קזינו, לא הייתי מתנגד לכך שיהמרו נגדי בשיטת ההכפלה. אדרבא. אמנם מדי פעם אפסיד דולר, אך ההפסד הזה יכוסה על ידי ההפסדים של כל המכפילים שיגיעו לגבול ההימור שלהם, והפסדים אלה יהיו יותר נפוצים ויותר גדולים מדולר אחד.

אז אם אתם רוצים להמר בשביל הכיף – סבבה. אם אתם רוצים להרוויח כסף מהימורים, כדאי שיהיה לכם קזינו. והכי חשוב, אל תסתבכו עם השוק האפור.

האם כל תוצאה מובהקת היא משמעותית (ולהיפך)?

בכל מחקר כמותי בו נערך ניתוח סטטיסטי של הנתונים, מגיע הרגע הנכסף בו מחושב ה-P-value הנכסף. האם הוא קטן מ-0.05? שואל החוקר את עצמו בהתרגשות. אם כן – הידד! אפשר לפרסם את המאמר, או לרוץ ל-FDA להגיש לאישור תרופה חדשה, או להכניס מוצר חדש ל-production.

אבל, לפני שרצים, יש שאלה נוספת שצריך לשאול: האם התוצאה משמעותית?

נניח שערכנו ניסוי בו השתתפו 1000 איש, מחציתם נשים ומחציתם גברים. ערכנו לכל אחד ואחת מנבדקים מבחן IQ. התברר כי ה-IQ הממוצע של הנשים הוא 100, בעוד שה-IQ הממוצע של הגברים הוא 99. התוצאה מובהקת, עם פי-ואליו של 0.0016.  (( בהסטיית התקן של כל קבוצה היא 5.  תבדקו בעצמכם  )) . לפני שתרוצו לפרסם מאמר סנסציוני בכתב העת המדעי החביב עליכם ((למשל Nature או סיינטיפיק טמקא)) ראוי שתעצרו ותשאלו את עצמכם: אז מה? ההבדל הוא כל כך קטן, האם יש לו משמעות? אם אתם חושבים שלהבדל יש משמעות, עליכם לנמק זאת.

בואו ניקח דוגמה קצת יותר מציאותית. מדען בילה ימים ולילות במעבדה, ופיתח תרופה חדשה לטיפול בטרשת נפוצה  התקפית (( Relapsing Remitting Multiple Sclerosis )). התרופה מקטינה את תדירות ההתקפים ב-10%. הוא רושם פטנט, ומנסה למכור את התרופה לחברת תרופות. הסטטיסטיקאי של חברת התרופות יכול בקלות לתכנן ניסוי קליני, שיזהה את האפקט של התרופה בעוצמה של 90% ((כלומר ההסתברות לתוצאת False Negative  תהיה 10%)) או אפילו 95% או 99%. האם החברה תקנה את התרופה ותפתח אותה? לא ולא. יש כבר תרופות לטיפול בטרשת נפוצה התקפית שמקטינות את תדירות ההתקפים ב-30, 40, ואפילו ב-50%. במצב זה, לתרופה עם אפקט של 10% אין משמעות, לא קלינית ולא מסחרית.

דוגמה שלישית: למשפחה נולד בשעה טובה בן בכור. האם הסיכוי כי הילד השני במשפחה זו יהיה (אם וכאשר יוולד) גם הוא בן, גדל? הנה מאמר שטוען שייתכן שכן. עיקרי הדברים: בדנמרק נאספו נתונים לגבי סדר הלידה ויחס המינים של כ-1.4 מיליון ילדים, בכ-700 אלף משפחות, במשך תקופה של כ-35 שנה. 51.2% מהבכורים היו בנים. בקרב המשפחות שבהן היו 3 בנים, והיה הבן ילד רביעי, 52.4% מקרב הילדים הרביעיים היו בנים. ההבדל מובהק, כמובן (p=0.009). בואו נתעלם מ-cherry picking אפשרי (( מה קרה במשפחות בנות שני ילדים? ומשפחות בנות 3 ילדים? למה זה לא מדווח? אם זה לא באבסטרקט של המאמר, כנראה שזה לא היה מובהק )). כמה משפחות בנות 4 ילדים יש בדנמרק? מחיפוש ראשוני שערכתי עולה כי מדובר בפחות מ-10%מהמשפחות. בואו נניח שזה 10%. אז עכשיו אנחנו מדברים על 70 אלף משפחות בנות 4 ילדים. ההסתברות ששלושת הילדים הראשונים הם בנים היא בעךך 0.013. נעגל את זה ל-0.02. זה מותיר לנו 1400 משפחות בנות ארבעה ילדים שבהן שלושת הילדים הראשונים הם בנים. 51.2% מקרב הילדים הצעירים היו "צריכים" להיות בנים, בפועל היו 52.4% – הפרש של 1.2%.  1.2% מ-1400 זה , 16.8, בואו נעגל ל-17, וזאת בתקופת זמן של 35 שנה, כלומר כל שנה נולדו 0.48 יותר בנים ממה שהיה "צריך" להיות. מי חושב שזה משמעותי?

דוגמה רביעית: חברת אינטרנט עושה AB testing, בה היא בודקת את השפעתו של פיצ'ר חדש במוצר שלה על ההסתברות שלקוח המשתמש במוצר יקנה את גירסת ה-PRO, בתשלום. מסתבר כי אחוז המשלמים יגדל מ-24.6% ל-24.8%, והתוצאה מובהקת  (( כדי לזהות הבדל כזה כמובהק, יש צורך בגודל מדגם של כ-728000 נבדקים, אבל נעזוב את זה כרגע )). האם זה משמעותי? (( נתקלתי בחברה שמעדכנת גירסת תכנה כאשר ביצועי הגירסה החדשה גבוהים נומינלית ב-0.2% מביצועי הגירסה הישנה, על סמך מדגם בגודל 1000, כמובן בלי בדיקת מובהקות )) ובכן, אם נניח שהתשלום לגירסת הפרו הוא 5$ ויש 100000 משתמשים, הרי שמדובר בתוספת הכנסות של 100$. שווה? אם לעומת זאת יש מיליון משתמשים והתשלום הוא 50$, מדובר בתוספת הכנסה של 10000 דולר. 30 מיליון משתמשים ותשלום של 500$ יביאו את תוספת ההכנסות ל-3 מיליון דולר, וזה בהחלט משמעותי. תגידו: אם כבר השקענו את הכסף בפיתוח, אז ניקח את מה שיצא. יש בזה משהו. אבל אני מקווה שעושים קודם כל הערכה של עלויות הפיתוח ושל ההכנסות הצפויות מהפיצ'ר החדש. (( אפשר למשל לערוך סקר משתמשים, או לכנס focus group ))

נחזור לרגע לגודל המדגם הדרוש, כ-728 אלף נבדקים. אולי ענקית כמו גוגל יכולה להרשות לעצמה מדגם כזה. אני מניח שחברות קטנות יותר צריכות להסתפק בגודל מדגם קטן יותר. הן עומדות לכן בפני הברירה הבאה: אפשרות אחת היא לערוך מבחן סטטיסטי ואז רוב הסיכויים הם שאפקט כזה (ואפילו אפקט גדול יותר) לא יזוהה כמובהק. הן כמובן יכולות לשחק בסוגי הטעות, ולאפשר טעות מסוג ראשון (false positive) גבוהה יותר כדי להשיג עוצמה גבוהה יותר. אפשרות אחרת היא לוותר מראש על בדיקת המובהקות, ולסמוך ידיהם על האפקט הנומינלי. יש לכך תומכים, הבולט בהם הוא הסטטיסטיקאי אנדרו גלמן מאוניברסיטת קולומביה. (( אני מתכוון לסקור את הגישה של גלמן ואת הגישה הנגדית, שמוביל ג'ון יואנידיס ברשימה קרובה ))

מסקנות: לפני שרצים לחקור, צריך להעריך מראש איזה תוצאה תיחשב למשמעותית, ולחשוב מה דרוש לעשות כדי לבדוק האם התוצאה אכן מתקיימת. יש להעריך מראש מה ההסתברות לכל אחת משתי הטעויות האפשריות, שכן ההסתברויות האלה קיימות וחיוביות גם אם לא משתמשים במבחנים סטטיסטיים.

בעיית המטריות: איך לא להירטב?

השבוע שוב פרסמתי בטוויטר חידה הסתברותית: לבנאדם יש המון מטריות, חלקן בבית וחלק במשרד. אם יורד גשם הוא לוקח איתו מטריה מהמלאי. אם לא, הוא הולך לדרכו בלי לקחת מטריה. האם הוא יירטב? מספר המשיבים היה קטן יחסית, אבל רובם ידעו את התשובה הנכונה: בסופו של דבר הוא יירטב.

פתרון החידה מתבסס על מודל הסתברותי הנקרא שרשרת מרקוב. בויקיפדיה יש הסבר פורמלי טוב של המושג ההסתברותי. כאן, כהרגלי, אנסה להסביר את המושג באופן יותר אינטואיטיבי. לאחר ההסבר הבסיסי אסביר מדוע שרשרת מרקוב היא מודל טוב עבור החידה, ואראה כיצד מגיעים לפתרון.

שרשרת מרקוב היא תהליך מקרי. לשרשרת יש מספר מצבים (שיכול להיות סופי או אינסופי), ובכל צעד בשרשרת, נמצאים באחד המצבים האפשריים, ובצעד הבא עוברים ממצב זה למצב אחר, או נשארים במקום. המעבר נקבע באופן מקרי על סמך הסתברויות קבועות.

לדוגמא, נניח שיש לנו שרשרת מרקוב שבה יש שלושה מצבים אפשריים. נסמן אותם בספרות 0, 1, ו-2. השרשרת יכולה להראות כך: 0, 2, 1, 0, 0, 2, 1, 2, … וכן הלאה. פירוש הדבר הוא שהתחלנו במצב 0, משם עברנו למצב 2, משם עברנו למצב 1, וכן הלאה.

התכונה החשובה של המודל ההסתברותי הזה היא שלא משנה באיזה מצב נמצאים, המעבר למצב הבא לא תלוי בהיסטוריה של השרשרת, אלא רק במצב הנוכחי. אם השרשרת נמצאת במצב 2, למשל, ההסתברות שהיא תעבור למצב 1 היא אותה הסתברות גם במקרה שהשרשרת הגיע למצב הנוכחי ממצב 0 וגם במקרה שהיא הגיע למצב הנוכחי ממצב 1 או 2. כלל המעבר הוא אותו כלל.

כלל מעבר אפשרי כאשר נמצאים במצב 0, הוא שעוברים ממנו למצב 1 בהסתברות 1/2, עוברים למצב 2 בהסתברות 1/3, או שנשארים במצב 0 בהסתברות 1/6. ((ודאו ששלושת ההסתברויות שציינתי מסתכמות ל-1!)). באופן דומה יש לנו כללי מעבר דומים כאשר נמצאים במצב 1 או במצב 2.

עכשיו נראה איך המושג של שרשרת מרקוב עוזר לנו לפתור את בעיית המטריות.

בואו נסתכל תחילה על מקרה פרטי, בו לאיש שלנו יש רק מטריה אחת. נגדיר את המצבים של השרשרת להיות מספר המטריות שעומדות לרשות האיש. זה פשוט: או שיש לו מטריה במקום שבו הוא נמצא, או שאין לו. לכן המצבים האפשריים יהיו 0 ו-1.

איך הוא עובר ממצב למצב? זה תלוי בהסתברות שירד גשם. ההסתברות הזו לא נתונה לנו, ולכן אניח כי ההסתברות שירד גשם במקום בו הוא נמצא ועומד לצאת לדרכו היא קבועה ושווה ל-P כאשר P הוא מספר כלשהו בין 0 ל-1 (לא כולל את 0 ו-1). בכך הגדרנו מודל המתאר את תנאי החידה. ((אני סבור שגם כאשר P משתנה ואינו קבוע כל הזמן אפשר להגדיר שרשרת מרקוב מתאימה, עם מספר אינסופי של מצבים, ולהגיע לאותה תשובה, אך לא אכנס לזה כאן, או בכלל))

אם האיש שלנו נמצא במצב 1, כלומר יש לו מטריה בהישג יד, ויורד גשם, הוא ייקח עימו את המטריה למחוז חפצו, ושם שוב תעמוד המטריה לרשותו, כלומר הוא יישאר במצב 1. זה קורה בהסתברות P. אם לעומת זאת יש לו מטריה ולא יורד גשם, הוא הולך לדרכו בלי המטריה, ואז, במחוז חפצו, לא תעמוד לרשותו המטריה, כלומר הוא עובר ממצב 1 למצב 0 בהסתברות 1-P.

לעומת זאת, אם הוא נמצא במצב 0, אז הוא יעבור למצב 1 בהסתברות 1, כי לא משנה אם יורד גשם או לא יורד גשם, אין לו ברירה אלא לצאת לדרכו בלי מטריה, והמטריה תחכה לו במחוז חפצו.

כמובן, אם הוא נמצא במצב 0 ויורד גשם, אז הוא יירטב.

כעת אטען כי אם נסתכל על כל הפעמים שהוא נמצא במצב 1, בסופו של דבר הוא יעבור בודאות למצב 0. תחשבו על קוביה. אם תטילו אותה פעם אחת, ההסתברות שהיא תראה 6 היא 1/6. אבל ככל שתטילו אותה יותר ויותר פעמים גדל הסיכוי ש-6 יופיע בסופו של דבר. יתרה מזאת, אם נמשיך להטיל את הקוביה עוד ועוד, המספר 6 יופיע עוד ועוד פעמים. אם נטיל את הקוביה אינסוף פעמים, המספר 6 יופיע אינסוף פעמים, וזאת בהסתברות של 100%. ((אפשר להוכיח זאת באופן מתמטי )).

באופן דומה אפשר להוכיח כי אם נסתכל על כל הפעמים שהוא נמצא במצב 0, ואם השרשרת תרוץ עד איסוף הוא יהיה במצב 0 איסוף פעמים, בסופו של דבר ירד שם גשם, ולכן הוא יירטב.

מה קורה אם יש לו יותר ממטריה אחת?

כעת המצבים הם 0, 1 , ו-2.

אם יש לו מטריה אחת (מצב 1), הוא יעבור למצב 2, בו יש לו שתי מטריות, בהסתברות P (יורד גשם, והוא לוקח איתו את המטריה למקום שיש בו כבר מטריה אחת) או שיישאר במצב 1 (לא יורד גשם, ולכן הוא הולך בלי מטריה למקום ששיש בו מטריה אחת).

אם יש לו 2 מטריות הוא נמצא במצב 2, ויכול לעבור משם למצב 0 (כאשר לא יורד גשם, ולכן הוא הולך למקום בו אין לא אף מטריה) או לעבור למצב 1 (יורד גשם, הוא לוקח עימו מטריה למקום בו אין מטריות, ולכן תעמוד שם לרשותו מטריה 1.

אם הוא במצב 0 ויורד גשם הוא יירטב.

אם השרשרת תרוץ מספיק זמן היא תגיע בסופו של דבר למצב 0, ובסופו של דבר ירד גשם כאשר הוא במצב 0, אז הוא יירטב.

ומה אם יש לו המון מטריות? 4, או 50 או 1000? זזה לא משנה. הטיעון עדיין עובד. בסופו של דבר הוא יגיע למצב 0 כאשר יורד גשם, כלומר בסופו של דבר הוא יירטב.

מסקנה: תמיד תקחו אתכם את המטריה.

אחד מהם הוא בן

לפני יומיים ערכתי סקר בטוויטר. שאלת הסקר הייתה: במשפחה יש שני ילדים. אחד מהם הוא בן. מה הסיכויים שגם הילד האחר הוא בן? הוצעו 4 תשובות אפשריות: חצי, רבע, שליש, או שאף תשובה אינה נכונה. בסקר השתתפו 205 צייצנים (שבשום אופן אינם מדגם מייצג), ולהלן התוצאות:

 

 

 

 

 

 

 

 

לאחר שהעליתי את הסקר נזכרתי כי העליתי בעבר רשימה שהציגה את החידה הזו ובנוסף הציגה ווריאציה קשה יותר של החידה, תחת הכותרת "ילדה ושמה יוספה". אתם מוזמנים לעיין ברשימה שעסקה בפתרון שתי החידות. ברשימה זו אדון שוב בפתרון החידה שהוצגה בסקר והתוצאות  מפתיעות. מתברר שיש יותר מתשובה נכונה אחת.

בואו נדון בתשובות.

התשובה הנפוצה ביותר היא חצי. איני יודע מה הוביל 131 איש לענות "חצי", אך מנסיוני אני סבור כי רובם שקלו את השיקול הבא: ילד אחד הוא בן. הילד השני יכול להיות בן או בת, וההסתברות לכך היא 50:50. הבעיה בתשובה הזו: התשובה מתעלמת מהנתון שאומר כי אחד מהילדים הוא בן. לא נאמר האם הילד הראשון הוא בן, או האם הילד השני הוא בן. צריך לקחת את זה בחשבון.

איך ניקח זאת בחשבון? צריך לשים לב כי יש ארבעה סוגי משפחות בנות שני ילדים:

  • הבכור בן, הצעירה בת
  • הבכור בן, הצעיר בן
  • הבכורה בת, הצעיר בן
  • הבכורה בת, הצעירה בת

לכל אחד מסוגי המשפחות יש הסתברות של 0.5*0.5=0.25 (תחת הנחות מסויימות, שמייד אדון בהן). המשפחה שלנו אינה משפחה עם שתי בנות (כי ידוע לנו שאחד מהילדים הוא בן). זה מותיר אותנו עם 3 סוגי משפחות אפשריות: בן-בן, בן-בת, ובת-בן. מתוכן ישש רק מבנה משפחה אחד עם שני בנים. לכן ההסתברות כי במשפחה יש שני בנים היא 1/3. וזו התשובה הנכונה (או שלא?)

כל זה נכון, בתנאי שמניחים מספר הנחות:

  1. כל ילד הוא בהכרח בן או בת
  2. הסיכוי ללידת בן שווה לסיכוי ללידת בת
  3. אין קשר בין מין הילד הבכור ומין הילד השני.

אפשר לטעון, ובהחלט בצדק כי ההנחות (או חלקן) אינן תקפות. ב-2017 כבר מכירים בעובדה שמגדר אינו הכרח בינארי ((לא מצאתי מקור אמין הסוקר נושא זה. אשמח להפניות)), ולכן הנחה מספר 1 אינה בהכרח נכונה ((היא אולי נכונה כשמדובר בשני ילדים קטנים, אבל הם יכולים להיות גם ילדים גדולים, בני 30 ו-32, למשל)). ידוע כי הנחה מספר 2 אינה נכונה. נולדים יותר בנים מבנות ((קישור לנתוני הלשכה המרכזית לסטטיסטיקה – קובץ pdf)). יש לכך סיבות רבות שלא יידונו כאן. אחת הצייצניות העלתה טענה כי אם במשפחה הילד הבכור הוא בן, אז יש סיכוי גבוה יותר כי הילד השני יהיה בן. ((מצאתי מאמר אחד התומך בטענה הזו, אולם יש לי ביקורת עליו, ולדעתי התוצאה שלו חסרת משמעות. ראו כאן: http://www.sci-princess.info/archives/2055 ))

אם מקבלים את הביקורת על תקפות ההנחות (או חלק מהביקורת) אז התשובה 1/3 אינה בהכרח נכונה, ואז התשובה ש-"אף תשובה אינה התשובה הנכונה" היא התשובה הנכונה, ותשובה זו קבילה בעיניי.

מכאן הדברים מתחילים להסתבך.

הנה טוויסט בעלילה: התשובה 1/2 יכולה להיות נכונה! אפנה אתכם לניתוח המפורט של ד"ר גדי אלכסנדרוביץ, או שאולי תעדיפו את ההסבר בויקיפדיה. ההסבר בקצרה: לא ידוע לנו איך נבחר הבן עליו נאמר לנו כי הוא בן. אם יש בן אחד במשפחה – ברור מיהו הבן עליו נמסרה האינפורמציה. אם זו משפחה עם שני בנים – אז יכול להיות שהבן עליו דיברו הוא הבכור, ויכול להיות כי הבן עליו דיברו הוא הבן הצעיר. בהנחה (שוב הנחה!) שבמקרה של שני בנים הבן עליו דיברה החידה נבחר באופן מקרי ואחיד (כלומר בהסתברות 1/2) מבין שני הבנים, החישוב ההסתברותי (שלא אפרט כאן) מראה כי ההסתברות שבמשפחה יש שני בנים היא 1/2.

אבל רגע: אם לוקחים בחשבון את אופן בחירת הבן שמדברים עליו (למרות שלא נאמר על כך דבר בניסוח החידה), למה שלא ניקח בחשבון משהו אחר שלא נזכר בחידה, נניח אם הילד שעליו מדובר נולד ביום שלישי או לא נולד ביום שלישי? תשאלו מה זה משנה. ובכן, זה משנה. הראיתי כבר כי אינפורמציה נוספת משנה את התמונה ((ילדה ושמה יוספה, זוכרים?)) אסביר. ההסבר טכני, ומי שלא מעוניין יכול לדלג על הדיון והנוסחאות..

ובכן יש לנו משפחה בה שני ילדים, ידוע לנו כי אחד הילדים הוא בן, אבל לא ידוע לנו אם נולד ביום שלישי, או שלא.  מכאן שיש 9 סוגי משפחות, אך כעת לכל סוג משפחה יש הסתברות שונה. אם נסמן את ההסתברות לכך שהבן נולד ביום שלישי באות היוונית ϵ (מסיבות שיובררו בהמשך). לדוגמא, ההסתברות שילד הוא בן וגם שהוא נולד ביום שלשי היא 0.5ε, כי אין תלות בין מין הילד והיום בו הוא נולד.תשעת סוגי המשפחות וההסתברויות שלהם הן ((תחת שלוש ההנחות שצויינו למעלה, והנחה נוספת האומרת כן אין קשר בין מין הילוד ליום בשבוע בו נולד)):

אז מה?

נחבר את ההסתברויות של סוגי המשפחות עם שני בנים שלפחות אחד מהם נולד ביום שלישי (מספר 1, 2, ו-4 ברשימה), ואחר כך נחבר את ההסתברויות של כל המשפחות שבהן יש לפחות בן אחד שנולד ביום שלישי (מספר 1, 2, 3, 4, ו-7 ברשימה) ונקבל, נחלק את ההסתברות הראשונה בהסתברות השנייה ונקבל כי ההסתברות שבמשפחה יש שני בנים אם ידוע שאחד מהם הוא בן שנולד ביום שלישי היא:

 

 

אם נציב במקום ϵ שביעית, נקבל כי ההסתברות היא 13/27. ((זוהי, אגב, התשובה לחידה שפירסמתי כאן, ללא פיתרון))

באופן דומה, נוכל לחשב כי ההסתברות  שבמשפחה יש שני בנים אם ידוע שאחד מהם הוא בן אבל אף בן לא נולד ביום שלישי היא:

 

 

בעזרת נוסחת ההסתברות השלמה נוכל לצרף את שתי ההסתברויות יחד ולמצוא את ההסתברות שבמשפחה יש שני בנים. הנוסחה משקללת את שתי ההסתברויות שחישבנו בהסתברויות התנאי: ההסתברות שלפחות אחד מהילדים הוא בן שנולד ביום שלישי (סכום ההסתברויות של מספרי 1, 2, 3, 4, ו-7 ברשימה)  וההסתברות המשלימה – של המאורע שאומר כי אין המשפחה ילד שנולד ביום שלישי.

על ידי סיכום ההסתברויות  1, 2, 3, 4, ו-7 נקבל כי ההסתברות שלפחות אחד מהילדים הוא בן שנולד ביום שלישי היא

 

 

ומכאן נקבל (על ידי הפחתת ההסתברות הזו מ-1) כי הסתברות המאורע המשלים (אין במשפחה בן שנולד ביום שלישי) היא 

 

כעת נוכל לשקלל את ההסתברויות ולקבל כי ההסתברות שבמשפחה יש שני בנים היא

 

 

עד כאן הנוסחאות.

 

נציב בנוסחה האחרונה שקיבלנו שביעית במקום ϵ ונקבל כי ההסתברות שבמשפחה יש שני בנים היא בערך 0.457. זה אומר שגם במקרה הזה תשובה ד בסקר היא התשובה הנכונה.

אבל למה לעצור כאן? לא ידועים על הילד עוד פרטים. למשל, לא ידוע לנו אם הילד נולד בין ה-1 בינואר ובין הארבעה בספטמבר, או שלא. אם נחליף את המאורע הזה במאורע "נולד ביום שלישי" נקבל כי ϵ הוא 248/365 או בקירוב 0.682. נציב 0.682 בנוסחה ונקבל כי ההסתברות שבמשפחה יש שני בנים היא 0.2501, כלומר גם תשובה ב נכונה!

מבולבלים? גם אני. ((יכול להיות שיש לי טעות, ואם כן, אשמח אם מי מכם יגלה אותה ויספר לי מהי)) .

המסקנה שלי מכל הסיפור הזה היא שאסור לעשות שטויות. כשניצבת מולכם בעיה שכוללת נתונים מסויימים, עליכם להתמקד בנתונים של הבעיה, לבחון היטב את ההנחות, ולוודא כי מספר ההנחות שמניחים הוא קטן ככל האפשר.