חיפוש באתר

קישורים

עמודים

קטגוריות

ארכיב עבור תגית ספורט

איך חוזים תוצאה של מונדיאל?

עכשיו, כשנאלמה תרועת הפסטיבלים והמונדיאל הסתיים, זה זמן טוב לדבר על כל המודלים שסיפקו תחזיות מונדיאל ועל מודלים של תחזיות בכלל.

ברשימה זו אסקור את הבסיס למודלים שניסו לחזות את תוצאות המונדיאל, ומשם אעבור לדיון בחלק מהתכונות של מודלים לחיזוי, במשמעות של החיזוי ובמגבלות של המודלים האלה.

איך חוזים תוצאה של מונדיאל?

הסקירה הזו מתבססת בחלקה על המאמר הזה שפורסם באקונומיסט לפני פתיחת המונדיאל של 2018[1].

כדי לחזות את התוצאה של המונדיאל (או כל טורניר ספורט אחר) יש צורך במספר שלבים. ראשית, צריך לדרג באופן כלשהו את הנבחרות/קבוצות המשתתפות בטורניר ואת הבדלי הרמות ביניהן. בשלב השני צריך לספק הערכה/חיזוי לתוצאות של משחקים ספציפיים[2], ובשלב השלישי לנסות לחזות על סמך החיזויים של תוצאות המשחקים את המנצחת הסופית. המאמר שפורסם באקונומיסט מתעמק בעיקר בשלב הראשון.

שלב ראשון: דירוג הנבחרות

יש שתי דרכים לדרג את האיכות של נבחרת או קבוצת ספורט: על ידי הערכת ביצועי הקבוצה, או על ידי הערכת ביצועי השחקנים.

להערכת ביצועי הקבוצה משתמשים בעיקר במודלים מסוג Elo , מודל שפותח במקור עבור משחק השחמט. הרעיון הוא שכל קבוצה מקבלת ניקוד על כל משחק שהיא שיחקה, אבל בניגוד לליגה או לטורנירים שבהם מקבלים 3 נקודות על כל ניצחון, לא משנה באיזה משחק, ב- Elo הניקוד משתנה בהתאם ליריבה, מיקום המשחק, חשיבותו, וכדומה. אם למשל גרמניה מנצחת את סעודיה במשחק ידידות שנערך בלוורקוזן, הניצחון הזה לא שווה הרבה נקודות, כי היריבה נחותה, המשחק לא ממש חשוב, וגרמניה שיחקה במגרש הביתי. לעומת זאת, ניצחון על ברזיל, במשחק שנערך בברזיל, במסגרת חצי הגמר של המונדיאל, שווה הרבה מאוד נקודות. יש כל מיני וריאציות למודל, מה שמסביר חלק מההבדלים בניבויים השונים. למודלים שונים יש מפתח נקודות שונה, ויש גם מודל שנותן ניקוד לא על פי תוצאת המשחק אלא על פי מספר השערים שהובקעו, וכך ניצחון בתוצאה 7:1 שווה הרבה יותר מניצחון 1:0. כמו כן, צריך להחליט על איזה אופק זמן מסתכלים. יכול להיות משחק ששוחק במונדיאל מקסיקו 70 או אפילו בדרום אפריקה ב-2010 כבר לא ממש משמעותי. עם זאת, באחת הכתבות תואר מודל שלקח בחשבון את כל התוצאות מאז המונדיאל הראשון שנערך ב-1930. אני מניח שהמודלים משקללים את המשמעות של כל משחק בהתחשב בזמן שעבר.

הדרך השנייה היא להעריך כל שחקן לחוד, ואז לקבל הערכה של הקבוצה כסך כל שחקניה. יש כל מיני דרכים לעשות את זה. אפשר למדוד את הביצועים של כל שחקן בכל משחק (כמה מסירות טובות הוא מסר, כמה תיקולים מוצלחים וכדומה). לדעתי צריך לקחת בחשבון גם פעולות שהשחקן לא עשה ואולי היה צריך לעשות (לא ברור לי אם יש בכלל נתונים כאלה). כמו כן, יש דברים ששחקנים תורמים לקבוצה ולא ניתנים למדידה – מנהיגות למשל.

דרך אחרת היא לבדוק מה היו ביצועי הקבוצה כשהשחקן שיחק בהרכב ומה הם היו כשהוא לא שיחק. בכדורגל זה פחות יעיל כי יש יחסית מעט משחקים, יש מעט חילופים, ובדרך כלל אין הרבה שינויים בהרכבים. עם זאת, זו שיטה מאוד מקובלת ויעילה בענפים כמו כדורסל ובייסבול.

ראיתי באחת הכתבות גם מודל שהכניס לשקלול את משכורות השחקנים. המודל הזה חזה שצרפת תזכה בטורניר, ואנחנו כבר יודעים שהוא צדק. זה לא בהכרח אומר שהוא מודל טוב. אם יש הרבה מודלים, אז הסיכוי שאיזשהו מודל יצדק הוא לא נמוך. זה כמו בלוטו. הסיכוי שאתה תזכה בפרס הגדול הוא קטן, אבל הסיכוי שמישהו יזכה הוא מאוד גבוה. עם זאת, אין להבין מדבריי כי אני חושב שזה מודל לא טוב. האמת היא שאי אפשר לקבוע.

אפשר גם לשקלל את את הערכת הנבחרת עם הערכת השחקנים, ויש כל מיני שקלולים: 50-50, 75-25 וכולי. זה כנראה לא כל כך משנה. לפחות לפי הנתונים שהובאו באקונומיסט, יש מתאם גבוה בין שתי שיטות ההערכה:

 

שלב שני: חיזוי תוצאות של משחקים

אחרי שיש לנו מדד שמעריך את האיכות של כל נבחרת, אפשר להתחיל לדבר על חיזוי תוצאות של משחקים. שוב, יש כל מיני דרכים לעשות את זה, אבל העיקרון דומה. לוקחים נתונים של המון משחקים שרלוונטיים בעינכם. אתם יכולים לקחת את הנתונים של המשחק בן גרמניה וסעודיה שנערך בלוורקוזן ביוני 2018 (גרמניה ניצחה 2:1), וגם את המשחק בין גרמניה והולנד בגמר מונדיאל 1974 (מצטער שאני משבית שמחות). לכל משחק הנתונים יכולים לכלול כל מיני פרטים שנראים חשובים למי שבונה את המודל – כגון הערכת הנבחרות לפי מודל Elo כזה או אחר, מקום משחק, חשיבותו, מסורת ניצחונות, מזג האוויר, המשכורת של השחקנים, או מספר הנעליים של השוער. אלה הם המשתנים המסבירים. לכל משחק יש גם תוצאה – זה המשתנה המוסבר, ויש שלוש תוצאות אפשריות. אפשר לשפוך את כל הנתונים לתוך אלגוריתם שמיישם מודלרגרסיה לוגיסטית, random forest, דיפ לרנינג, מה שבא לכם.

לאחר שאמדתם את הפרמטרים של המודל[3] ווידאתם שהוא פועל היטב גם על נתונים ששמרתם בצד ולא נכנסו למודל, אתם יכולים לקחת את הנתונים של נבחרת גרמניה ושל נבחרת מקסיקו, להפעיל עליהם את המודל שלכם, ולקבל תוצאה. התוצאה תהיה בעצם שלוש הסתברויות: ההסתברות שגרמניה תנצח במשחק, ההסתברות שמקסיקו תנצח, וכמובן גם את ההסתברות שהמשחק יסתיים בתיקו. חשוב לזכור שאלה לא הסתברויות "אמיתיות". אלה הם אומדנים להסתברויות, שקיבלתם מהמודל שלכם, והם מתבססים על כל ההנחות שהנחתם בדרך.

שלב שלישי: חיזוי מהלך הטורניר

עכשיו מתחיל הכיף האמיתי. אני מניח שכל מודל שהוא שניסה לחזות את תוצאת המשחק בין מקסיקו לגרמניה נתן הסתברות גבוהה לניצחון של גרמניה, הסתברות יותר נמוכה לתיקו, ולניצחון של מקסיקו ניתנה ההסתברות הנמוכה ביותר. אבל דברים יכולים לקרות (ואכן קרו). מה עושים? סימולציה.

נניח לצורך הדוגמה שההסתברויות שהפיק המודל היו 70% לניצחון גרמניה, 20% לתיקו, ו-10% לניצחון מקסיקו. שמים בתוך שק 10 כדורים: 7 לבנים, 2 ירוקים, וכדור שחור אחד. מערבבים טוב טוב את הכדורים ומוציאים כדור אחד. אם הוא לבן, נגיד שגרמניה "ניצחה", אם הוא ירוק נגיד שהמשחק "הסתיים בתיקו", ואם הכדור שהוצאנו הוא שחור נגיד שזה היה יום שחור לגרמניה. אפשר לעשות את זה גם בעזרת מחשב כמובן.

צריך לזכור שבבית שבו שיחקו גרמניה ומקסיקו היו עוד שתי נבחרות ובסך הכל שוחקו בו שישה משחקים. אז עושים את התרגיל הזה לכל אחד מששת המשחקים, וכשיש לנו את כל תוצאות המשחקים שהתקבלו בסימולציה, מקבלים את טבלת הבית, ואת שתי הנבחרות שעלו לשלב הבא.

את התרגיל הזה עושים לכל הבתים בשלב המוקדם, ובסיומו "נדע" מי הן 16 הנבחרות שעלו לשמינית הגמר, ואיזה נבחרת תשחק מול איזה נבחרת. את התוצאות של המשחקים אנחנו יכולים לחזות באותו אופן, ומשם "נדע" מה יהיו משחקי רבע הגמר וכך הלאה. בסופו של כל התהליך נקבל את הזוכה.

כל התוצאות שקיבלנו מתבססות של הגרלות ושליפה וירטואלית של כדורים מתוך שקים. אם נבצע שוב את התהליך מההתחלה, סביר להניח שנקבל תרחיש אחר ותוצאה שונה. נו פרובלם. נחזור על התרגיל הזה המון פעמים, 10000 נניח, או מיליון, ונחשב איזשהו ממוצע של כל התרחישים שהגרלנו. למשל, אם ב-900 מתוך 10000 תרחישים קיבלנו שגרמניה זכתה בסופו של דבר, נאמוד את הסיכוי שגרמניה תזכה במונדיאל ב-900 חלקי 10000 שהם 9%. החיזוי האולטימטיבי  של הזוכה במונדיאל הוא הנבחרת שניצחה ברוב התרחישים מבין ה-10000.

אם המודל שממנו התחלנו הוא מודל טוב, והנתונים שבהם השתמשנו כדי לאמוד את הפרמטרים של המודל הם נתונים טובים, אז גם התחזיות יהיו טובות. אבל…

נקודת תורפה: הנחת אי-תלות

אבל יש כאן בעיה גדולה: כל מה שתואר עד כאן מניח שהמשחקים בלתי תלויים, והם לא. תוצאה של משחק אחד בהחלט יכולה להשפיע על תוצאה של משחק אחר. אם למשל, נבחרת הבטיחה את עלייתה לשמינית הגמר אחרי שני משחקים, ייתכן כי השחקנים החשובים, הכוכבים, יקבלו מנוחה, כי אין טעם להשקיע מאמצים במשחק שלא משנה כלום. אירוע כמו פציעה של שחקן במשחק בהחלט יכול להשפיע על המשחק הבא. קבוצה שהשקיעה הרבה מאוד מאמץ כדי לנצח בשמינית הגמר (הארכה, יריבה קשה במיוחד) תגיע מותשת יותר למשחק הבא, ויד עוד הרבה דוגמאות. כל המודלים לטווח ארוך (שמנסים לחזות מי תזכה בטורניר לפני שהוא התחיל) לא יכולים לקחת את כל הפרמטרים האלה בחשבון. כאן יש יתרון ברור לסוכנויות ההימורים, שיכולות לעדכן את אמדני הסיכויים ושערי ההימורים ממשחק למשחק.

למה בכלל צריך סימולציה?

בדף של הבלוג בפייסבוק, Mickey Ktv שאל את השאלה הזו: "מה המשמעות של ביצוע הסימולציה? הרי אם יש לנו הסתברות מסויימת לכל משחק, אנחנו יכולים לפי זה לחשב את ההסתברות של כל קבוצה לנצח. בגלל חוק המספרים הגדולים, תוחלת הסימולציה צריכה לצאת קרובה מאוד להסתברות שמחושבת 'ידנית'. האם זה בגלל שיותר פשוט להריץ סימולציה במחשב מאשר לחשב את ההסתברות? (למרות שבמידה שקולה ניתן לבנות מודל שמחשב את ההסתברות עצמה)"

בתיאוריה אין שום בעיה לקחת נייר ועיפרון ולחשב את כל ההסתברויות וההסתברויות המותנות. אבל הנה ההבדל בין התיאוריה והמציאות. בכל בית יש ארבע נבחרות, ולכן יש 24 אפשרויות שונות לתוצאה הסופית של טבלת הבית. אבל בואו ניתן הנחה – מה שמעניין זה מיהן שתי הנבחרות שמסיימות במקום הראשון והשני, ולכך יש רק 12 תוצאות אפשריות. פרט למקרים מאוד נדירים, לכל התוצאות האלה יש הסתברות חיובית. יש 8 בתים מוקדמים, ולכן מפר התרחישים האפשריים לשמינית הגמר הוא 12 בחזקת 8. זה יוצא קצת פחות מ-430 מיליון (429981696). אז קצת קשה לעשות את זה עם נייר ועיפרון. גם אם נכתוב תכנית מחשב שתבצע את כל החישובים, לא סביר שהיא תסיים לרוץ לפני סיום המונדיאל הבא… במקרה כזה הדרך ובכן, בתיאוריה אין שום בעיה לקחת נייר ועיפרון ולחשב את כל ההסתברויות וההסתברויות המותנות. אבל הנה ההבדל בין התיאוריה והמציאות. בכל בית יש ארבע נבחרות, ולכן יש 24 אפשרויות שונות לתוצאה הסופית של טבלת הבית. אבל בוא ניתן הנחה – מה שמעניין זה מיהן שתי הנבחרות שמסיימות במקום הראשון והשני, ולכך יש רק 12 תוצאות אפשריות. פרט למקרים מאוד נדירים, לכל התוצאות האלה יש הסתברות חיובית. יש 8 בתים מוקדמים, ולכן מפר התרחישים האפשריים לשמינית הגמר הוא 12 בחזקת 8. זה יוצא קצת פחות מ-430 מיליון (429981696). אז קצת קשה לעשות את זה עם נייר ועיפרון. גם אם תכתוב תכנית מחשב שתבצע את כל החישובים, לא סביר שהיא תסיים לרוץ לפני סיום המונדיאל הבא.. היחידה לאמוד את ההסתברויות באופן יעיל היא בעזרת סימולציה.

מה עשו המודלים?

בטבלה שפורסמה באקונומיסט יש תחזיות של כמה מודלים. הסיכויים של ברזיל נעו בין 13 ל-32%, של גרמניה בין 5 ל-16%, של צרפת בין 5 ל-11%, ושל קרואטיה בין 1 ל-3%. שימו לב שהאחוזים בטורים לא מסתכמים ל-100%. מכאן שהמודלים האלה נתנו הסתברויות חיוביות לזכייה של נבחרות "פחות נחשבות" – אולי מצרים או קמרון.

האם המודלים האלה הצליחו או נכשלו? זה תלוי כמובן איך מגדירים הצלחה או כישלון. המודל של Goldman Sachs, למשל, נתן לצרפת הסתברות של 11% לזכות. הוא לא אמר שצרפת לא תזכה. גם מאורעות שהסתברותם 11% מתרחשים לפעמים. הוא גם נתן לברזיל הסתברות של 19% לזכות, או במילים אחרות, אמר כי יש הסתברות של 81% שברזיל לא תזכה. צדק או לא צדק?[4]

על המשמעות של המודלים

הבעיה של כל המודלים לתחזיות, מכל סוג שהוא, ולכל מה שאתם רוצים לחזות, היא שהם מנסים לחזות משהו שעוד לא קרה, כלומר את העתיד. ולחזות את העתיד, כפי שציין בצדק נילס בוהר, זה קשה מאוד. ואין הבדל עקרוני בין תחזית למשחק כדורגל בודד, לתוצאה הסופית של מונדיאל שלם, למזג האוויר של מחר[5], או לשאלה החשובה מאוד האם אני אקנה באמזון ספר שיציע לי האלגוריתם כאשר אכנס לאתר הזה בפעם הבאה. כל המאורעות האלה הם מאורעות חד פעמיים. תסלחו לי על האמירה הבוטה, אבל התחזית של המודל היא בסך הכל ניחוש אינטליגנטי[6].

בעולם שלנו יש שונות אינהרנטית, או כמו שכתבתי למעלה, דברים קורים. מה קרה במשחק של גרמניה מול מקסיקו? קרו המון דברים, ואת רובם אנחנו אפילו לא יודעים. אולי לאחד השחקנים של גרמניה כאב הראש, ושחקן אחר סתם בא במצב רוח לא טוב, ואילו השוער של מקסיקו מאוד נהנה בארוחת הבוקר ועקב כך חש אנרגיות חיוביות. לך תדע. מצד שני, בעשרים השנים האחרונות גרמניה מנצחת באופן עקבי ולאורך זמן ב-75% מהמשחקים שלה, ולכן אני מוכן להתערב שאם גרמניה ומקסיקו יישחקו 100 משחקים, גרמניה תנצח לפחות ב-75 מהמשחקים האלה[7].

וזו הפרשנות שאני נותן לחיזוי – פרשנות שכיחותנית[8].

לפי הפרשנות הזאת, אם אומרים לכם שמחר יש 30% סיכוי לגשם[9], המשמעות היא שבשלושים אחוז מהימים שדומים ליום שיהיה מחר ירד גשם. שימו לב שהפרשנות לפיה ב-30% ממשך היום יורד גשם אינה נכונה – זה כמו להגיד שברזיל תזכה ב-19% מהגביע. ואם המודל של אמזון חוזה שיש סיכוי של 20% שאקנה את הספר שהאלגוריתם מציע לי – פירוש הדבר הוא ש-20% מהאנשים שדומים לי יקנו את הספר.

ומכאן נובעת המגבלה העיקרית של כל המודלים: טיב החיזוי מוגבל על ידי כמות המאורעות. לחזות תוצאה של אירוע חד פעמי כמו המונדיאל זה קשה מאוד. אם נתחיל מחר את כל המונדיאל מחדש עם אותן הנבחרות, אף אחד לא יכול להבטיח לנו שתתקבל אותה התוצאה.

אם לעומת זאת, אנחנו מנסים לחזות תוצאות של הרבה מאורעות דומים ו/או נשנים, התחזיות הופכות להיות יותר אמינות, או כפי שאני מעדיף לומר, יותר סבירות. היו בלונדון הרבה ימים כמו מחר, וב-30% מהם ירד גשם, ולכן התחזית כי מחר יש סיכוי של 30% לגשם היא סבירה. ולאמזון יש מיליון לקוחות כמוני[10], ואם המודל שמציע את הספר הוא מודל טוב, אז 20% מהאנשים האלה יקנו אותו, ובעלי המניות של אמזון מרוצים.


הערות
  1. תודה לצליל אברהם שהפנתה את תשומת ליבי אליו []
  2. גרמניה מול מקסיקו, מישהו? תיכף נדבר על זה []
  3. או כמו שאנשי המשין לרנינג אוהבים להגיד – "אימנתם אותו" []
  4. יש הרבה דרכים להעריך את האיכות של מודלים האופן כמותי. לא אכנס לפרטים []
  5. אם אתם לא בישראל, כמובן []
  6. זו לא תובנה מקורית שלי, שמעתי אותה ממורי ורבי פרופ' צבי גילולה []
  7. על איזה סכום להתערב? צריך כמובן לחשב את ההסתברות שגרמניה תנצח ב-75 משחקים לפחות אם הסיכוי שלה לנצח במשחק בודד הוא 75% []
  8. סטטיסטיקאים אחרים ייתנו אולי פרשנויות אחרות, ואני לא אכנס כאן לפרטים []
  9. כמובן בהנחה שאתם לא בתל אביב אלא בלונדון []
  10. רק שלא קוראים להם יוסי לוי, ואם יש ביניהם יוסי לוי אחר, אז הוא חיקוי זול []

איך אפשר לדעת מי תזכה במונדיאל?

לכאורה, אין דבר יותר פשוט מזה. חפשו בגוגל "מי תזכה במונדיאל", ותקבלו המון תחזיות: תוכלו לדעת מה הייתה התוצאה של סימולציה שאיזה סטארט-אפ עשה, מה קבעו המומחים הפיננסיים, מה החליטו הקוראים של הארץ, והכי חשוב, מה חושבים נהגי המוניות:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

הבעיה העיקרית היא שהדרך הכי טובה לדעת מה יקרה במונדיאל כבר לא קיימת. פול התמנון, עליו השלום, כבר לא איתנו. אני מקווה שנשמתו צרורה בצרור החיים.

אבל יש מי שמנסה למצוא יורש לפול. האתר psychic-pets.com קורא לעזרתם של בעלי חיות מחמד מכל העולם ומבקש מהם לנסות לברר מה יקרה. נכון למועד כתיבת שורות אלו, קרוב לאלף חיות מחמד נרתמו למשימה, מתוכן 85 חיות מחמד מגרמניה ושתיים מאירן. גם חיית המחמד שלי נמצאת שם. זהו ברווז, כמובן. לא סתם ברווז אלא ברווז פלא, העונה לשם Coin.

אז מה הסיכוי שהחיות האלה, או אפילו רק אחת מהן, יחזו את תוצאות המונדיאל? בואו נשתעשע במספרים.[1]

קודם כל, למען הפשטות אני מוציא (בינתיים) מהמשחק את שלב הבתים, ומתרכז בשלב שאחריו, בו 16 נבחרות מתחרות בשיטת הנוק אאוט. יש בשלב הזה 15 משחקים משמעותיים (ועוד משחק אחד על המקום השלישי שהוא פחות מעניין). דרך אגב, כמה משחקים היו נערכים בשיטת הנוק אאוט אם לשלב הזה היו מגיעות לא 16 אלא 53 נבחרות? תחשבו על זה.

אז החיות שלנו צריכות לחזות את התוצאות של 15 משחקים. אני אשחק כאן את תפקיד פרקליטו של השטן ואטען שהחיות לא חוזות את התוצאות אלא מנחשות. אם כך, מה הסיכוי שחיה אחת תחזה את כל התוצאות של כל 15 המשחקים? לכל משחק יש שתי תוצאות אפשריות (אין תיקו). הסיכוי לניחוש נכון הוא לכן 50% או חצי. יש 15 משחקים, והם לא תלויים זה בזה (בדרך כלל): התוצאה של משחק קודם בדרך כלל לא משפיעה על התוצאה של המשחק הבא. אני יודע שההנחה הזו לא נכונה ב-100%. יכול להיות שנבחרת שהתאמצה מאוד במשחק מסויים תגיע יותר עייפה ומוחלשת לשלב הבא, יכול להיות ששחקן מפתח הורחק או נפצע, ועוד. אבל אם חיות המחמד מנחשות, הן לא לוקחות את כל הדברים האלה בחשבון, והניחושים שלהן לא תלויים זה בזה. לכן, ההסתברות לניחוש התוצאות של 15 משחקים היא ההסתברות לניחוש נכון של משחק אחד מוכפלת בעצמה 15 פעמים. זה יוצא 1 ל-32768, או 0.003%. סיכוי נמוך? בהחלט, אבל בכל זאת גדול מאפס.

אבל יש לנו קרוב ל-1000 חיות שמנסות לבצע את אותו התרגיל.  אולי אחת מהן תצליח? כאן אפשר להשתמש בהתפלגות פואסון כדי לחשב את ההסתברות שאף חיה לא תצליח לחזות את כל התוצאות של כל המשחקים, שחיה אחת תצליח, ששתיים יצליחו וכולי. ובכן, ההסתברות שאף חיה מתוך האלף לא תצליח לחזות את התוצאות של כל 15 המשחקים היא 96.99%, ויש הסתברות של 2.96% שחיה אחת מבין האלף תצליח במשימה (אבל לא ניתן לדעת מראש איזה).

מצד שני, אני מטיל על החיות משימה לא הוגנת. בנדיק החתול מאיסלנד לא מתעניין בתוצאת המשחק שבין הונגריה ומיקרונזיה (אם יש בכלל משחק כזה). גם פול התמנון התמחה בנבחרת שלו, גרמניה. אז בואו נתרכז במשחקים של גרמניה.

אני מניח שגרמניה תשחק בסך הכל 7 משחקים – 3 בשלב המוקדם, ועוד ארבעה בשלב הנוק אאוט (כלומר, אני מניח שתגיע לחצי הגמר). לכן המשימה של מוקמוק הארנב ושאר חבריו מגרמניה אמורה יותר קלה – בואו נראה עד כמה היא יותר קלה.

שוב, לכל משחק יש שתי תוצאות: או שגרמניה מנצחת, וזה מה שחשוב, או שלא (ואני אתעלם כאן באלגנטיות ממה שלגארי לינקר היה לומר בעניין).

הסיכוי לניחוש נכון הוא חצי, ולכן הסיכוי לסדרה של שבעה ניחושים נכונים הוא חצי מוכפל בעצמו שבע פעמים. זה יוצא 1 ל-128, או 0.78%. עדיין נמוך, ועם זאת אפשרי.

אבל רגע. יש לנו 85 חיות מחמד מגרמניה. מה הסיכוי שלפחות אחת מהן תצליח? אנו נגייס שוב את התפלגות פואסון לעזרתנו. החישוב מראה לנו כי ההסתברות שאף אחת מבין 85 חיות המחמד לא תנחש את התוצאות של כל שבעת המשחקים היא כמעט 51.5%, ומכאן שיש הסתברות של 48.5% שלפחות אחת מהן תצליח במשימה. תיראו מופתעים.

אפשר כמובן לרדת לפרטים יותר קטנים: מה ההסתברות שלפחות חיה אחת תצליח לחזות תוצאה של שישה משחקים לפחות משבעת המשחקים של גרמניה (יותר מ-48.5%) או שלפחות חיה אחת תצליח לחזות את כל התוצאות של המשחקים של גרמניה בשלב הנוק אאוט בלבד (הרבה יותר מ-48.5%). לא ערכתי את החישובים האלה. אתם מוזמנים לנסות.

ועכשיו ברצינות. משחקי הניחושים האלה הם משעשעים ובדרך כל לא מזיקים. אולם יש אנשים שמהמרים על תוצאות המשחקים האלה. במקרה כזה לשאול את דג הזהב שלך מה תהיה התוצאה לדעתו זו לא אסטרטגיה טובה. אני מחזיר אתכם לחישובי הסטארט-אפ שהוזכר בפיסקה הראשונה ולאמירתו הבלתי נשכחת של גארי לינקר: "כדורגל משחקים תשעים דקות ובסוף גרמניה מנצחת".  ב-2014, למשל, גרמניה ניצחה ב-6 משחקים מתוך השבעה ששיחקה (משחק אחד הסתיים בתיקו). הסטארט-אפ הנ"ל הכניס למודל שלו את תוצאות כל המשחקים שנערכו מאז 1930. אני אמנע מלהביע את דעתי כי אני לא מכיר את כל פרטי המודל.

אני הסתכלתי על התוצאות של נבחרת גרמניה בארבעת הטורנירים האחרונים: מ-2002 עד 2014. בתקופה הזו גרמניה ניצחה ב-9 משחקים מתוך 12 בשלב הבתים – 75% הצלחה. בשלבי הנוק אאוט גרמניה ניצחה ב-13 משחקים מתוך 16 (כולל שני משחקים על המקום השלישי) – 81% הצלחה.

לכן, בשלב הבתים ברווז הפלא שלי יטיל מטבע שנופל על עץ בהסתברות 75% ועל פלי בהסתברות 25%.  יש לו סיכוי של קצת יותר מ-42% לנחש את התוצאות של שלושת המשחקים, פי 3.4 מסיכויי הניחוש של חיית מחמד אחרת שלא יודעת סטטיסטיקה. בשלב הבתים הברווז שלי יטיל מטבע שנופלת על עץ בהסתברות של 80%, ויהיה לו סיכוי של כמעט 41% לחזות את התוצאות של כל המשחקים, סיכוי גבוה פי 6.6 מהסיכוי של מוקמוק הארנב. הברווז שלי יכול לעשות הרבה יותר טוב מזה: הוא יכול "לנחש" תמיד שגרמניה תנצח: כך הסיכוי שלו לנחש נכונה את תוצאות כל המשחקים יהיה מעל ל-75%.

לפני שאתם רצים להמר אל תשכחו שסוכנויות ההימורים מכירות אל כל החישובים האלה (וגם חישובים יותר מסובכים) ולכן קובעות את שערי ההימורים כך שבסופו של דבר הן ירוויחו.

אני, אגב, לא צופה במשחקים, אבל מאחל שעות של הנאה למי שכן.


הערות
  1. את החישובים ביצעתי בערת תוכנת R []

על מכבי תל אביב ורוג’ר פדרר

האמת, לא ראיתי את המשחק בין מכבי תל-אביב וצסק"א מוסקבה בפיינל פור 2014 של היורוליג. אני לא צופה במשחקי כדורסל מאז הזכיה האחרונה של שיקגו בולז באליפות ה-NBA, ב-1998. בלי מיקל ג'ורדן, אני פשוט משתעמם. אבל על מה שקרה במשחק של מכביי שמעתי גם שמעתי.

למי שלא שמע: כשקבוצתו בפיגור של 15 נקודות בסוף הרבע השלישי של המשחק, הורה דייויד בלאט,  מאמן מכבי, לשחקניו לנסות ללכת על כל הקופה: לעבור למשחק מהיר, הגנה אגרסיבית, וזריקות לשלוש נקודות, תוך תקווה שהיריבה תעשה יותר טעויות מהרגיל.

במונחי ספורט, אולי זה היה הימור. במונחים סטטיסטיים, בלאט החליט להגדיל את השונות. לאחר 3 הרבעים הראשונים, המשחק כבר לא היה שקול. האסטרטגיה של בלאט הגדילה את ההסתברות לתבוסה: המשחק היה יכול להגמר ב-30 נקודות הפרש לטובת צסק"א, אבל במשחק של הכל או לא כלום, זה באמת לא משנה אם ההפסד הוא בהפרש של 15 נקודות או 30 נקודות. לעומת זאת, לקיחת הסיכון גם אפשרה הסתברות לרבע שייגמר ב-16 נקודות הפרש לטובת מכבי, בניגוד לאסטרטגיות של 3 הרבעים הראשונים במשחק שמהלכם לא היה טוב במיוחד מנקודת הראות של הצהובים.

איך זה קשור לרוג’ר פדרר?

הסבר קצר על משחק הטניס. המשחק הטיפוסי מורכב משלוש מערכות, וכדי לנצח על הזוכה לנצח בשתי מערכות מתוך ה-3[1]. כל מערכה מורכבת ממשחקונים, וכדי לנצח במערכה יש לנצח ב-6 (ולפעמים 7 או יותר) משחקונים. כך יכול להווצר מצב מוזר: שחקן שהפסיד 6:1 במערכה הראשונה (כלומר ניצח במשחקון אחד והפסיד ב-6), וניצח בשתי המערכות הבאות בתוצאה 6:4, זכה המשחק כי ניצח ב-2 מערכות מתוך ה-3, אבל ניצח בסך הכל ב-13 משחקונים, בעוד שיריבו ניצח  ב-14 משחקונים. תופעה זו, המזכירה את פרדוקס סימפסון,  קורה בערך ב-5% ממשחקי הטניס המקצועניים[2]. דבר דומה קרה גם במשחק הכדורסל: צסק"א ניצחה ב-3 מתוך 4 רבעי המשחק, אך הפסידה במשחק כולו.

מסתבר כי אלוף העולם בהפסדים ב-"משחקי סימפסון" בענף הטניס הוא לא אחר מאשר רוג’ר פדרר, אחד מגדולי הטניס בכל הזמנים. הוא שיחק ב-28 משחקים בהם המפסיד זכה ביותר משחקונים מאשר המנצח. המאזן שלו? 24 הפסדים, רק 4 ניצחונות.

מעניין לציין כי השחקן בעל המאזן הטוב ביותר במשחקים כאלה הוא ג'ון אייזנר , עם מאזן של 19 נצחונות ו-5 הפסדים. אייזנר זכור גם כמנצח במשחק הארוך ביותר בהיסטוריה, בטוניר וימבלדון ב-2010, בו ניצח את יריבו בתוצאה 70:68 במערכה החמישית. במשחק הנ"ל, אייזנר זכה ב-24 נקודות פחות מאשר יריבו.[3] אייזנר מבסס את כל משחקו על חבטת הגשה חזקה במיוחד שמותירה את היריב ללא מענה במקרים רבים. כאשר ליריב יש מענה, לאייזנר בדרך כלל אין.

למי שמשחק מול פדרר אין הרבה סיכויים לנצח; פדרר ניצח ביותר מ-80% המשחקים בהם השתתף. מעבר לכך – שיטת הניקוד בטניס מוטה לטובת השחקן הטוב יותר. יתרון קטן על היריב מתורגם על ידי שיטת הניקוד להבדל משמעותי בסיכויי הניצחון במשחק. הדרך הכמעט יחידה לנסות לנצח את פדרר היא להגדיל את הסיכון על ידי משחק אגרסיבי. אתה עלול להפסיד שתי מערכות בתוצאה 6:0, אבל יש לך גם סיכוי להפסיד פחות משחקונים מאשר בדרך כלל, ואם תנצח מספיק משחקונים, אולי זה יספיק לך לנצח בשתי מערכות צמודות, ואז למי איכפת מהמערכה בה פדרר הביס אותך?


הערות
  1. 1. ישנם טורנירים בהם המנצח נקבע בשיטת הטוב מ-5 מערכות []
  2. 2. Wright, B., Rodenberg, R. M., & Sackmann, J. (2013). Incentives in Best of N Contests: Quasi-Simpson's Paradox in Tennis.International Journal of Performance Analysis in Sport13(3), 790-802. []
  3. 3. כדי לנצח במשחקון, יש לצבור יותר נקודות מאשר היריב []

ספקנים בפאב – ערב הרצאות מיוחד לכבוד יום הסטטיסטיקה הבינלאומי

"ספקנים בפאב" הם מפגשים המיועדים לכל מי שמתעניין במדע, היסטוריה, פילוסופיה ובחינה רציונלית של המציאות. המפגשים מתקיימים בפאבים או במקומות אחרים שמאפשרים אווירה חברית ובלתי פורמלית, וכוללים בדרך כלל הרצאה  ודיון. "ספקנים בפאב" נערך לראשונה בלונדון בשנת 1999, וכיום קיימות עשרות קבוצות ברחבי העולם. במסגרת הקהילה הספקנית בישראל קיימות ארבע קבוצות של ספקנים בפאב, בחיפה, תל-אביב, באר שבע וירושלים.

ב-20 באוקטובר צויין ברחבי העולם יום הסטטיסטיקה הבינלאומי. לציון(מאוחר) של האירוע ייערך בתאריך 14.11.2011 ערב הרצאות מיוחד במסגרת "ספקנים בפאב" בתל-אביב בשיתוף פעולה עם האיגוד הישראלי לסטטיסטיקה (ששת קוראיי יודעים בודאי על הקשרים ההדוקים שיש לי גם עם הקהילה הספקנית וגם עם איגוד הסטטיסטיקה).

הערב יכלול חמש הרצאות קצרות (15 דקות כל אחת) שיסקרו את נושא הסטטיסטיקה מכיוונים שונים.

האירוע יתקיים בתאריך 14.11.2011 בפאב "גורדו", בחוף גורדון בטיילת תל אביב. ההתכנסות היא בשעה 8 בערב, וההרצאות יחלו בשעה 8.30. דמי הכניסה הם 10 ש"ח, ומיועדים לכיסוי הוצאות הפקת האירוע.

 

המרצים, (באופן מפתיע, לא כולם סטטיסטיקאים) וכותרות ההרצאות הם:

  • טל גלילי – כיצד חוקרים עכברים שחוקרים את סביבתם
  • יוסי לוי – כדור הכסף
  • דובי קננגיסר – מחשב, מחשב שעל הקיר
  • רון קנת – 42
  • אבנר שחר קשתן – שקרים יפים

אני מניח כי מי שקרא עד כאן כבר הבין שגם אני נמנה עם המרצים 🙂

אשמח לראותם!

מקבץ 5

ושוב, אוסף לינקים בנושאי הבלוג שהצטברו מאז המקבץ הקודם.

  • המקבץ הקודם הסתיים בלינק לפוסט בבלוג "עבודה שחורה", שהודיע על העובדה הלא מפתיעה כי התפלגות השכר בישראל מוטה, או יותר נכון, אינה סימטרית. האמת, זה קצת כמו להודיע שכלב נשך אדם. זה המצב בכל התפלגויות השכר בכל מקום, וזאת כיוון שהשכר מוגבל מלמטה (על ידי שכר המינימום, או על ידי האפס) אך אינו מוגבל מלמעלה, ותיאורטית (וגם מעשית) יש קבוצה קטנה של מקבלי שכר גבוה במיוחד שיוצרים "זנב" להתפלגות. כל זה לא מעניין במיוחד את שלומית יהב, יועצת כלכלית לעת מצוא. היא פירסמה בווינט כתבה בה הוכיחה באותות ובמופתים כי משפחה שבה שני בני הזוג מרוויחים את השכר הממוצע במשק יכולה "לחיות טוב" בארצנו. אתם יודעים מה, היא גם צודקת. כי השכר הממוצע המשק גבוה מאוד, ומי ששכרו שווה לשכר הממוצע ניצב בגאון בעשירון השלישי, כלומר, 70% מהאוכלוסיה מרוויחים פחות מהשכר הממוצע. הבעיה היא שמספר המשפחות בהן שני בני הזוג עובדים ומרוויחים את השכר הממוצע במשק זניח. אם אחד מבני הזוג מרוויח את השכר הממוצע, יש סיכוי יותר גדול כי השני מרוויח פחות מכך. כן, גם אם לוקחים בחשבון שיש תלות בין השכר של שני בני הזוג, וזאת כיוון שהשכר הממוצע למשפחה הוא פחות מפעמיים השכר הממוצע במשק. דובי קננגיסר כתב היטב על הכשלים של גברת יהב, והעריך כי התחשיב שלה נכון לגבי לא יותר מ- 10% ממשקי הבית בישראל. השורה התחתונה: אם אתה בעשירון העליון, אתה באמת יכול לחיות טוב בארץ הזו.
  • ראיון עם פרופסור אילון לינדנשטראוס, שזכה במדליית פילדס, הפרס היוקרתי ביותר במתמטיקה.
  • אין שידור טלוויזיה של משחק כדורסל, בייסבול או פוטבול (אמריקני) שאינו מלווה בשפע של נתונים סטטיסטיים אודות המתרחש במשחק. יותר מכך: ניתוחים סטטיסטיים מהווים היום חלק מתהליך קבלת ההחלטות בכל ארגון ספורט בענפים האלה. ומה קורה בכדורגל? לא הרבה. הניו יורק טיימס מנסה לברר מדוע. חלק מהסיבות: האוהדים לא מעוניינים. הקבוצות לא מתעניינות. קשה יותר להשיג נתונים סטטיסטיים על משחקי כדורגל, בין היתר בגלל האופי השונה של המשחק.
  • לא רק לענף הכדורגל יש בעיות עם הסטטיסטיקה. גם לרופאים (שוב, ידיעה מהסוג של "כלב נשך אדם"). אתר ABC מדווח על מחקר שפורסם לאחרונה לפיו רוב הרופאים אינם מבינים נתונים סטטיסטיים אודות תופעות לוואי אפשריות של תרופות. עורכי המחקר מאשימים, איך לא, את חברות התרופות. האפשרות שרופאים ילמדו קצת סטטיסטיקה לא עולה בדעתם.
  • בגליון ספטמבר של Amstat News, המגזין החודשי של האיגוד האמריקני לסטטיסטיקה – ראיון עם שלושה בלוגרים סטטיסטיקאים: אנדרו גלמן, נתן יאו וקייזר פאנג.
  • ובגליון אוגוסט מובאים הזוכים בתחרות הפוסטרים השנתית של האיגוד האמריקני לסטטיסטיקה – הנערכת בקרב תלמידי בתי הספר בארה"ב. מה שמראה שלא צריך להיות רופא, או סטטיסטיקאי, כדי "לעשות" סטטיסטיקה טובה. צריך רק לרצות. הנה טעימה: הזוכה במקום הראשון בקרב תלמידים מכיתות א עד ג: