ארכיב עבור תגית סטטיסטיקה
מה באמת קורה בלוטו הבולגרי?
האמת: שום דבר מיוחד.
בידיעה שפורסמה ב-Ynet לפני כחודש נמסר כי "אותם מספרים בדיוק יצאו בשתי הגרלות לוטו ברציפות". מדובר בלוטו הבולגרי, שם המספרים 4, 15, 23, 24, 35 ו-42 הוגרלו ב-6 בספטמבר ולאחר מכן שוב, ב-10 לחודש. עוד נמסר בידיעה כי "המתמטיקאי מיכאיל קונסטנטינוב חישב ומצא כי הסיכוי לכך הוא 1 ל-4.2 מיליון". כן נמסר כי שר הספורט של בולגריה הורה לפתוח חקירה מיוחדת בנושא.
המממ.
האם באמת מדובר באירוע כל כך נדיר שמצדיק חקירה, ולא סתם חקירה אלא חקירה "מיוחדת"? האם הסיכוי ל"כך" הוא באמת אחד ל-4.2 מליון, כמו שחישב מר קונסטנטינוב?
התשובה הרבה יותר מסובכת, ועם זאת לא קשה להבנה. כמו תמיד: התשובה המדויקת תלויה בניסוח מדויק של השאלה, כלומר למה מתכוונים כשאומרים "כך". אביא תחילה את התשובות כפי שפורסמו באתר ChanceWiki (אתם מוזמנים לגלוש ולעיין בחישובים המפורטים):
- הסיכוי כי המספרים 4, 15, 23, 24, 35 ו-42 יעלו בגורל בשתי הגרלות בתאריכים נתונים (6 בספטמבר ו-10 בספטמבר) הוא בערך אחד ל-27000 מיליארד.
- הסיכוי כי בשתי הגרלות בתאריכים נתונים יעלו אותם 6 מספרים (אך לא בהכרח הצירוף הנ"ל) הוא בערך אחד ל-5.2 מיליון.
- הסיכוי כי במשך שנה שלמה, בה נערכות 104 הגרלות, יעלו אותם 6 מספרים בשתי הגרלות רצופות, הוא בערך אחד ל-51000.
- הסיכוי כי במשך רצף של 5400 הגרלות (הלוטו הבולגרי קיים יותר מחמישים שנה, וזה בערך מספר ההגרלות שנערכו בו) יעלו אותם 6 מספרים בשתי הגרלות רצופות הוא בערך אחד ל-970.
- הסיכוי כי באיזה הגרלת לוטו, באיזה מקום בעולם, באיזושהי נקודת זמן בתקופה של חמישים שנה בה נערכות הגרלות דו שבועיות, יעלו אותם 6 מספרים בשתי הגרלות רצופות וזאת בהנחה שיש בעולם כ-100 הגרלות לוטו כאלה, הוא בערך 10%.
אז מתברר שדי צפוי שמתישהו, איפהשהו, יעלו אותם מספרים בשתי הגרלות לוטו רצופות. אני מקווה שהחקירה המיוחדת של שר הספורט הבולגרי תעלה על זה.
הנה הסבר אינטואיטיבי למה שקרה באמת.
תחשבו על קוביה. הרי הגרלת הלוטו היא תהליך שבו בוחרים אפשרות אחת מתוך 5245786 אפשרויות (זה מספר הצירופים האפשריים של 6 מספרים מתוך 42, כלומר מספר הצירופים האפשריים בלוטו הבולגרי). במלים אחרות, הגרלת הלוטו שקולה להטלת קוביה עם 5245786 צדדים, ולכן הדיון העקרוני לא צריך להיות שונה מדיון בהטלה קוביה "רגילה" הדומה לקוביות שמתנוססות בראש העמוד הזה.
לקוביה רגילה יש 6 צדדים, ובהחנה שהקוביה "הוגנת", יש סיכוי שווה של שישית לכל אחת מהתוצאות האפשריות של הטלת הקוביה (התוצאות הן הספרות 1-6).
אם נטיל את הקוביה פעמיים, יש סיכוי של אחד ל-36 כי בשתי ההטלות נקבל 6, אבל הסיכוי כי נקבל בשתי ההטלות את אותו הספר, לאו דווקא 6, הוא הרבה יותר גדול, ושווה לאחד ל-6. זאת כי לתוצאה של שתי הטלות יש 36 תוצאות אפשריות, ורק אחת מהן היא 6-6, אבל 6 מתוך ה-36 הן "דאבל" (1-1, 2-2, וכן הלאה עד 6-6).
אם תטילו את הקוביה מספר פעמים, אז הסיכוי כי באיזהו שלב בסדרת ההטלות יופיע אותו מספר בשתי הטלות רצופות עולה, כי יש לכם יותר הזדמנויות לקבל שתי הטלות רצופות. אתם מוזמנים לנסות ולכתוב את כל 216 התוצאות האפשריות של סדרה של 3 הטלות קוביה, ולספור בכמה תוצאות מתקבלת אותה תוצאה פעמיים ברציפות (תוצאת ההטלה הראשונה שווה לשניה, או השניה שווה לשלישית). ככל שסדרת ההטלות תתארך, כל הסיכוי יגדל.
ואם לא רק אתם עושים את התרגיל הזה, אלא גם כמה חברים, הסיכוי כי מישהו יקבל מתישהו שתי הטלות קוביה רצופות עם אותה תוצאה שוב עולה.
מתברר כי אירועים שנתפסים בעיננו כנדירים אינם נדירים כלל ועיקר. אם אתם חולמים בלילה כח מחר ירד גשם, או שתזכו בלוטו, ולמחרת הדבר אכן קורה, מה הסיכוי לכך? הסיכוי כי אתה או את תחלמו הלילה כי תזכו בפרס הגדול בלוטו וכן תזכו בו בהגרלה הגדולה נמוך למדי. הסיכוי כי מישהו איפהשהו יחלום משהו והמשו הזה יתקיים סביר למדי.
הסיכוי כי אתם תיכנסו למסעדה בבנגקוק ותפגשו שם את איציק שעבד ביחד איתכם לפני כמה שנים ולא ראיתם אותו המון זמן הוא קטן מאוד (זה קרה לי, למעשה). הסיכוי שמישהו יכנס לאיזשהו מקום בעולם ויפגוש שם מישהו שלא ראה כבר המון זמן הוא גבוה מאוד. הסיכוי שאתם תזכו בפרס הגדול בלוטו פעמיים הוא קטן מאוד. הסיכוי שמישהו איפהשהו מתישהו יזכה בפרס הדגול בלוטו פעמיים הוא סביר, וגם זה קרה, יותר מפעם אחת. אני ממליץ לכם לקרוא את המאמר הזה שפורסם בניו-יורק טיימס כבר ב-1990. בכתבה זו מרואיינים מספר סטטיסטיקאים נודעים, ובהם פרסי דיאקוניס, ברדלי אפרון (מספר 8 ברשימת הסטטיסטיקאים הגדולים) ואריק להמן. דיאקוניס ופרדריק מוסטלר גם נתנו שם לתופעה הזו: חוק המספרים הגדולים מאוד.
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 15 באוקטובר, 2009. נושאים: האנשים שמאחורי הסטטיסטיקה, הימורים, מה אומרת הסטטיסטיקה.
תגובות: 22
| טראקבק
קריירה בסטטיסטיקה – גליון מיוחד של AMSTAT NEWS
גליון חודש ספטמבר 2009 של AMSTAT NEWS, המגזין החודשי של האיגוד האמריקני לסטטיסטיקה, מוקדש לנושא המעניין במיוחד של קריירה בסטטיסטיקה. בין היתר, תוכלו למצוא שם כתבה בנושא עבודה מול ממשקים, מאמר על אסטרטגיה בחיפוש עבודה, וטיפים לכתיבת תוצאות מחקר במאמר מדעי – שלושה נושאים שיכולים לעניין גם את אלה שאינם סטטיסטיקאים.
במאמרים שיעניינו יותר את ציבור הסטטיסטיקאים מסביר הסטטיסטיקאי סיו-לי מנג מדוע הסטטיסטיקה היא הסיכוי שלך לאושר (או לסבל), וסטטיסטיקאים מרחבי ארצות הברית מתארים את עיסוקיהם הרבים והמגוונים.
חמישה מאמרים נוספים מביטים לאחור ומסכמים את הקריירות של חמישה סטטיסטיקאים נודעים.
ניתן לעיין בגליון און-ליין באתר האיגוד האמריקני לסטטיסטיקה.
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 22 בספטמבר, 2009. נושאים: האנשים שמאחורי הסטטיסטיקה.
תגובות: אין
| טראקבק
סטטיסטיקה זה סקסי
סטטיסטיקה זה סקסי. אני ידעתי את זה מאז ומתמיד, אבל עכשיו כולם (כנראה) מתחילים לראות את האור.
האל וריאן הוא פרופסור למדעי המידע, עסקים וכלכלה באוניברסיטת קליפורניה בברקלי. הוא גם הכלכלן הראשי של חברה שאולי שמעתם עליה, שנקראת בשם המוזר גוגל. בראיון שנתן וריאן בתחילת השנה לכתב העת של חברת הייעוץ מקינזי, אמר וריאן:
.I keep saying the sexy job in the next ten years will be statisticians
והסביר את דבריו (תרגום חופשי שלי):
"היכולות לקחת נתונים, להבין אותם, לעבד אותם, להעניק להם ערך, להציג אותם, לתקשר אותם – יהיו כישורים בעלי חשיבות עצומה בעשורים הקרובים, לא רק ברמה המקצועית, אלא גם ברמה החינוכית מבית הספר היסודי ועד לאוניברסיטה. הנתונים זמינים לכולנו באופן חפשי. היתרון נמצא ביכולת להבין את הנתונים ואת ערכם.
דבריו של וריאן הגיעו במהירות אל הניו-יורק טיימס, שם הופיעה אתמול כתבה תחת הכותרת: "For Today’s Graduate, Just One Word: Statistics", ובה מתוארים השימושים המתקדמים של הסטטיסטיקה בתחומים שונים, החל ממדעי המחשב וכלה בארכיאולוגיה. אתם מוזמנים לקרוא.
ובכל זאת, אני לא התרגשתי מהדברים. וריאן רק חזר, במלים אחרות, על דבריו של סופר המדע הבדיוני ה. ג'. וולס:
"Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write." – H. G. Wells
ששימשו אותי כמוטו להרצאה שנתתי לפני כשנתיים וחצי ביום העיון של האיגוד הישראלי לסטטיסטיקה שעסק בנושא "הסטטיסטיקה בתעשייה לאן?".
תודה לכל מי ששלח לי את הלינקים לשתי הכתבות.
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 7 באוגוסט, 2009. נושאים: האנשים שמאחורי הסטטיסטיקה, הממ... מעניין..., על סדר היום.
תגובות: 4
| טראקבק
כנס האיגוד הישראלי לסטטיסטיקה 2009
כנס האיגוד הישראלי לסטטיסטיקה ייערך השנה בבאר שבע בתאריך 17.6.התכנית (הלא סופית) של הכנס פורסמה היום באתר האיגוד.
מי שיעיין בתכנית יוכל לראות שאני אהיה שם. אני מארגן את אחד המושבים, שיעסוק בביוסטטיסטיקה (הכותרת הלא מדוייקת של המושב היא "סטטיסטיקה בתעשיית התרופות"), וגם אתן את אחת ההרצאות במושב הזה, שתעסוק באספקט מסויים של ניסויים קליניים להערכת שרידות (survival). מצגת ההרצאה תהיה זמינה כאן בסמוך למועד הכנס. כמו כן ירצו במושב זה: אלי אייל – על תכנון ניסוי קליני במחלת הפרקינסון, דני רוטשטיין – על תפקיד הסטטיסטיקאי בתעשיה הפרמצבטית, וחבי מורד – בהרצאה יותר מתודולוגית על אמידה ובדיקה של אינטראקציות במודל רגרסיה כאשר טעות המדידה לא מקיימת את הנחות הקלאסיות.
גם המושבים האחרים יהיו מעניינים, ונראה שתהיה לי התלבטות קשה בין מושב הביוסטטיסטיקה השני ומושב הסטטיסטיקה התעשייתית שבשניהם יש לי עניין רב.
וכמובן, יהיה משמח לראות שוב כל כך הרבה סטטיסטיקאים במקום אחד.
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 28 במאי, 2009. נושאים: ביוסטטיסטיקה, האנשים שמאחורי הסטטיסטיקה.
תגובות: אין
| טראקבק
הרהורים מקליפורניה
1) רשימה זו נכתבת בחדר המלון בו אני שוהה כעת, אי שם בדרום קליפורניה. כאשר הגעתי אתמול בצהריים למלון, 25 שעות לאחר שיצאתי לדרכי מביתי, הייתי עייף, אך עוד יותר רעב. לאחר מקלחת מהירה, ירדתי לארוחת צהריים במסעדת המלון. לא חיפשתי ארוחת גורמה, ולמעשה בחרתי מהתפריט המבורגר, זה הכל. אבל בקליפורניה כמו בקליפורניה. ההמבורגר הוגש עם כרובית, גזר ואספרגוס כתוספת.
2) קליפורניה (ולמעשה ארה"ב כולה) רועשת לאחר שהיום הושעה כוכב קבוצת הבייסבול לוס-אנג'לס דודג'רס מני ראמירז ל-50 משחקים, לאחר שבבדיקת סמים שנערכה לו התקבלה תוצאה חיובית. למי שזוכר, זה אותו ראמירז שסירב לחתום על חוזה שיעניק לו שכר מעליב של 45 מליון דולר במשך שנתיים (אם כי לבסוף נכנע וחתם). הנה שתי נקודות למחשבה: לאור העובדה שבבדיקה התקבלה תוצאה חיובית, מה ההסתברות כי רמירז אכן השתמש בסמים אסורים? ומה בכלל לא בסדר בשימוש בסמים? רמזים: התשובה לשאלה הראשונה נמצאת בעולם הסטטיסטיקה (רמז עבה: מספר 4 ברשימת 15 הסטטיסטיקאים הגדולים), והתשובה לשאלה השניה נמצאת בעולם הכלכלה. תשובות יגיעו מתישהו כשאתפנה לכתוב רשימות על שני הנושאים. עדכון (19.8.2009): הנה הרשימה עם התשובה לשאלה הראשונה. עדכון (27.1.2010): הנה הרשימה עם התשובה לשאלה השניה.
3) הנסיעה הארוכה אפשרה לי לקרוא סוף סוף בספר The Drunkard's Walk שקניתי לי בנסיעתי הקודמת לארה"ב. בנקודה מסויימת הספר עוסק באפשרות (או אי האפשרות) לייצר מספרים מקריים (ראו גם את רשימתו של גדי אלכסנדרוביץ’ על הנושא בבלוג שלו). בדיון שבספר מצוטט סטטיסטיקאי ירושלמי העונה לשם משה, שטען כי אין אפשרות לייצר סדרה אמיתית של מספרים מקריים, בודאי לא באמצעות מחשב, ואף לא באמצעות הטלת קוביה, למשל, וזאת בשל חוסר האפשרות הפיזית לייצר קוביה הוגנת מושלמת. בטווח הארוך, טען משה, יתגלו אי סדירויות בסדרה של תוצאות ההטלות, שישקפו את היות הקוביה בלתי מושלמת. אני מכיר שני סטטיסטיקאים באוניברסיטה העברית שעונים לשם משה, אולם מחבר הספר צמצם את מספר האפשרויות, כמסר גם כי אותו משה הוא יהודי דתי. האימות בוצע במייל, ומשה מהספר הוא פרופ' משה פולק מהאוניברסיטה העברית, האדם אשר פתח לפני את שערי עולם הסטטיסטיקה כאשר הייתי תלמיד שנה א.
4) זהו ביקורי השני בקליפורניה. הביקור הקודם היה בקיץ 1997. הטיסה חזרה אז כללה עצירת ביניים והחלפת מטוס בפניקס, אריזונה, שהתארכה הרבה מעבר לצפוי עקב תקלה טכנית במטוס. אני ומשפחתי ניסינו לשרוד בטרמינל הצפוף והמחניק, כלפתע הופיעו מולנו חברת הילדות של דודתי ובעלה. וואו! מה הסיכוי שזה יקרה? הסיכוי שאני ומשפחתי נפגוש את חברת הילדות של דודתי בפניקס אריזונה הוא קטן למדי, אבל הסיכוי שמתישהו אפגוש מישהו שאני מכיר במקום לא צפוי הוא כבר גדול למדי. אני מניח שחלק ניכר מהקוראים יכולים להזכר באירוע דומה (או אפילו יותר מאחד) שאירע להם. ומה עם הטלפון המצלצל שמעברו השני נמצא מישהו שבדיוק חשבת עליו? או החלום שחלמתם ש"התגשם"? צירופי מקרים קורים, וקורים כל הזמן. הסיפור שסיפרתי לא ממש מפתיע. מי שלא ממש מבין למה, יכול לנסות לצפות בסרטון הבא, שמסביר מדוע צירופי מקרים אינם כה נדירים, ואין בהם כל משמעות נסתרת:
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 8 במאי, 2009. נושאים: בנימה אישית, האנשים שמאחורי הסטטיסטיקה, כללי.
תגובות: 5
| טראקבק