עכשיו, כשנאלמה תרועת הפסטיבלים והמונדיאל הסתיים, זה זמן טוב לדבר על כל המודלים שסיפקו תחזיות מונדיאל ועל מודלים של תחזיות בכלל.
ברשימה זו אסקור את הבסיס למודלים שניסו לחזות את תוצאות המונדיאל, ומשם אעבור לדיון בחלק מהתכונות של מודלים לחיזוי, במשמעות של החיזוי ובמגבלות של המודלים האלה.
איך חוזים תוצאה של מונדיאל?
הסקירה הזו מתבססת בחלקה על המאמר הזה שפורסם באקונומיסט לפני פתיחת המונדיאל של 2018 ((תודה לצליל אברהם שהפנתה את תשומת ליבי אליו)).
כדי לחזות את התוצאה של המונדיאל (או כל טורניר ספורט אחר) יש צורך במספר שלבים. ראשית, צריך לדרג באופן כלשהו את הנבחרות/קבוצות המשתתפות בטורניר ואת הבדלי הרמות ביניהן. בשלב השני צריך לספק הערכה/חיזוי לתוצאות של משחקים ספציפיים ((גרמניה מול מקסיקו, מישהו? תיכף נדבר על זה)), ובשלב השלישי לנסות לחזות על סמך החיזויים של תוצאות המשחקים את המנצחת הסופית. המאמר שפורסם באקונומיסט מתעמק בעיקר בשלב הראשון.
שלב ראשון: דירוג הנבחרות
יש שתי דרכים לדרג את האיכות של נבחרת או קבוצת ספורט: על ידי הערכת ביצועי הקבוצה, או על ידי הערכת ביצועי השחקנים.
להערכת ביצועי הקבוצה משתמשים בעיקר במודלים מסוג Elo , מודל שפותח במקור עבור משחק השחמט. הרעיון הוא שכל קבוצה מקבלת ניקוד על כל משחק שהיא שיחקה, אבל בניגוד לליגה או לטורנירים שבהם מקבלים 3 נקודות על כל ניצחון, לא משנה באיזה משחק, ב- Elo הניקוד משתנה בהתאם ליריבה, מיקום המשחק, חשיבותו, וכדומה. אם למשל גרמניה מנצחת את סעודיה במשחק ידידות שנערך בלוורקוזן, הניצחון הזה לא שווה הרבה נקודות, כי היריבה נחותה, המשחק לא ממש חשוב, וגרמניה שיחקה במגרש הביתי. לעומת זאת, ניצחון על ברזיל, במשחק שנערך בברזיל, במסגרת חצי הגמר של המונדיאל, שווה הרבה מאוד נקודות. יש כל מיני וריאציות למודל, מה שמסביר חלק מההבדלים בניבויים השונים. למודלים שונים יש מפתח נקודות שונה, ויש גם מודל שנותן ניקוד לא על פי תוצאת המשחק אלא על פי מספר השערים שהובקעו, וכך ניצחון בתוצאה 7:1 שווה הרבה יותר מניצחון 1:0. כמו כן, צריך להחליט על איזה אופק זמן מסתכלים. יכול להיות משחק ששוחק במונדיאל מקסיקו 70 או אפילו בדרום אפריקה ב-2010 כבר לא ממש משמעותי. עם זאת, באחת הכתבות תואר מודל שלקח בחשבון את כל התוצאות מאז המונדיאל הראשון שנערך ב-1930. אני מניח שהמודלים משקללים את המשמעות של כל משחק בהתחשב בזמן שעבר.
הדרך השנייה היא להעריך כל שחקן לחוד, ואז לקבל הערכה של הקבוצה כסך כל שחקניה. יש כל מיני דרכים לעשות את זה. אפשר למדוד את הביצועים של כל שחקן בכל משחק (כמה מסירות טובות הוא מסר, כמה תיקולים מוצלחים וכדומה). לדעתי צריך לקחת בחשבון גם פעולות שהשחקן לא עשה ואולי היה צריך לעשות (לא ברור לי אם יש בכלל נתונים כאלה). כמו כן, יש דברים ששחקנים תורמים לקבוצה ולא ניתנים למדידה – מנהיגות למשל.
דרך אחרת היא לבדוק מה היו ביצועי הקבוצה כשהשחקן שיחק בהרכב ומה הם היו כשהוא לא שיחק. בכדורגל זה פחות יעיל כי יש יחסית מעט משחקים, יש מעט חילופים, ובדרך כלל אין הרבה שינויים בהרכבים. עם זאת, זו שיטה מאוד מקובלת ויעילה בענפים כמו כדורסל ובייסבול.
ראיתי באחת הכתבות גם מודל שהכניס לשקלול את משכורות השחקנים. המודל הזה חזה שצרפת תזכה בטורניר, ואנחנו כבר יודעים שהוא צדק. זה לא בהכרח אומר שהוא מודל טוב. אם יש הרבה מודלים, אז הסיכוי שאיזשהו מודל יצדק הוא לא נמוך. זה כמו בלוטו. הסיכוי שאתה תזכה בפרס הגדול הוא קטן, אבל הסיכוי שמישהו יזכה הוא מאוד גבוה. עם זאת, אין להבין מדבריי כי אני חושב שזה מודל לא טוב. האמת היא שאי אפשר לקבוע.
אפשר גם לשקלל את את הערכת הנבחרת עם הערכת השחקנים, ויש כל מיני שקלולים: 50-50, 75-25 וכולי. זה כנראה לא כל כך משנה. לפחות לפי הנתונים שהובאו באקונומיסט, יש מתאם גבוה בין שתי שיטות ההערכה:
שלב שני: חיזוי תוצאות של משחקים
אחרי שיש לנו מדד שמעריך את האיכות של כל נבחרת, אפשר להתחיל לדבר על חיזוי תוצאות של משחקים. שוב, יש כל מיני דרכים לעשות את זה, אבל העיקרון דומה. לוקחים נתונים של המון משחקים שרלוונטיים בעינכם. אתם יכולים לקחת את הנתונים של המשחק בן גרמניה וסעודיה שנערך בלוורקוזן ביוני 2018 (גרמניה ניצחה 2:1), וגם את המשחק בין גרמניה והולנד בגמר מונדיאל 1974 (מצטער שאני משבית שמחות). לכל משחק הנתונים יכולים לכלול כל מיני פרטים שנראים חשובים למי שבונה את המודל – כגון הערכת הנבחרות לפי מודל Elo כזה או אחר, מקום משחק, חשיבותו, מסורת ניצחונות, מזג האוויר, המשכורת של השחקנים, או מספר הנעליים של השוער. אלה הם המשתנים המסבירים. לכל משחק יש גם תוצאה – זה המשתנה המוסבר, ויש שלוש תוצאות אפשריות. אפשר לשפוך את כל הנתונים לתוך אלגוריתם שמיישם מודל – רגרסיה לוגיסטית, random forest, דיפ לרנינג, מה שבא לכם.
לאחר שאמדתם את הפרמטרים של המודל (( או כמו שאנשי המשין לרנינג אוהבים להגיד – “אימנתם אותו”)) ווידאתם שהוא פועל היטב גם על נתונים ששמרתם בצד ולא נכנסו למודל, אתם יכולים לקחת את הנתונים של נבחרת גרמניה ושל נבחרת מקסיקו, להפעיל עליהם את המודל שלכם, ולקבל תוצאה. התוצאה תהיה בעצם שלוש הסתברויות: ההסתברות שגרמניה תנצח במשחק, ההסתברות שמקסיקו תנצח, וכמובן גם את ההסתברות שהמשחק יסתיים בתיקו. חשוב לזכור שאלה לא הסתברויות “אמיתיות”. אלה הם אומדנים להסתברויות, שקיבלתם מהמודל שלכם, והם מתבססים על כל ההנחות שהנחתם בדרך.
שלב שלישי: חיזוי מהלך הטורניר
עכשיו מתחיל הכיף האמיתי. אני מניח שכל מודל שהוא שניסה לחזות את תוצאת המשחק בין מקסיקו לגרמניה נתן הסתברות גבוהה לניצחון של גרמניה, הסתברות יותר נמוכה לתיקו, ולניצחון של מקסיקו ניתנה ההסתברות הנמוכה ביותר. אבל דברים יכולים לקרות (ואכן קרו). מה עושים? סימולציה.
נניח לצורך הדוגמה שההסתברויות שהפיק המודל היו 70% לניצחון גרמניה, 20% לתיקו, ו-10% לניצחון מקסיקו. שמים בתוך שק 10 כדורים: 7 לבנים, 2 ירוקים, וכדור שחור אחד. מערבבים טוב טוב את הכדורים ומוציאים כדור אחד. אם הוא לבן, נגיד שגרמניה “ניצחה”, אם הוא ירוק נגיד שהמשחק “הסתיים בתיקו”, ואם הכדור שהוצאנו הוא שחור נגיד שזה היה יום שחור לגרמניה. אפשר לעשות את זה גם בעזרת מחשב כמובן.
צריך לזכור שבבית שבו שיחקו גרמניה ומקסיקו היו עוד שתי נבחרות ובסך הכל שוחקו בו שישה משחקים. אז עושים את התרגיל הזה לכל אחד מששת המשחקים, וכשיש לנו את כל תוצאות המשחקים שהתקבלו בסימולציה, מקבלים את טבלת הבית, ואת שתי הנבחרות שעלו לשלב הבא.
את התרגיל הזה עושים לכל הבתים בשלב המוקדם, ובסיומו “נדע” מי הן 16 הנבחרות שעלו לשמינית הגמר, ואיזה נבחרת תשחק מול איזה נבחרת. את התוצאות של המשחקים אנחנו יכולים לחזות באותו אופן, ומשם “נדע” מה יהיו משחקי רבע הגמר וכך הלאה. בסופו של כל התהליך נקבל את הזוכה.
כל התוצאות שקיבלנו מתבססות של הגרלות ושליפה וירטואלית של כדורים מתוך שקים. אם נבצע שוב את התהליך מההתחלה, סביר להניח שנקבל תרחיש אחר ותוצאה שונה. נו פרובלם. נחזור על התרגיל הזה המון פעמים, 10000 נניח, או מיליון, ונחשב איזשהו ממוצע של כל התרחישים שהגרלנו. למשל, אם ב-900 מתוך 10000 תרחישים קיבלנו שגרמניה זכתה בסופו של דבר, נאמוד את הסיכוי שגרמניה תזכה במונדיאל ב-900 חלקי 10000 שהם 9%. החיזוי האולטימטיבי של הזוכה במונדיאל הוא הנבחרת שניצחה ברוב התרחישים מבין ה-10000.
אם המודל שממנו התחלנו הוא מודל טוב, והנתונים שבהם השתמשנו כדי לאמוד את הפרמטרים של המודל הם נתונים טובים, אז גם התחזיות יהיו טובות. אבל…
נקודת תורפה: הנחת אי-תלות
אבל יש כאן בעיה גדולה: כל מה שתואר עד כאן מניח שהמשחקים בלתי תלויים, והם לא. תוצאה של משחק אחד בהחלט יכולה להשפיע על תוצאה של משחק אחר. אם למשל, נבחרת הבטיחה את עלייתה לשמינית הגמר אחרי שני משחקים, ייתכן כי השחקנים החשובים, הכוכבים, יקבלו מנוחה, כי אין טעם להשקיע מאמצים במשחק שלא משנה כלום. אירוע כמו פציעה של שחקן במשחק בהחלט יכול להשפיע על המשחק הבא. קבוצה שהשקיעה הרבה מאוד מאמץ כדי לנצח בשמינית הגמר (הארכה, יריבה קשה במיוחד) תגיע מותשת יותר למשחק הבא, ויד עוד הרבה דוגמאות. כל המודלים לטווח ארוך (שמנסים לחזות מי תזכה בטורניר לפני שהוא התחיל) לא יכולים לקחת את כל הפרמטרים האלה בחשבון. כאן יש יתרון ברור לסוכנויות ההימורים, שיכולות לעדכן את אמדני הסיכויים ושערי ההימורים ממשחק למשחק.
למה בכלל צריך סימולציה?
בדף של הבלוג בפייסבוק, Mickey Ktv שאל את השאלה הזו: “מה המשמעות של ביצוע הסימולציה? הרי אם יש לנו הסתברות מסויימת לכל משחק, אנחנו יכולים לפי זה לחשב את ההסתברות של כל קבוצה לנצח. בגלל חוק המספרים הגדולים, תוחלת הסימולציה צריכה לצאת קרובה מאוד להסתברות שמחושבת ‘ידנית’. האם זה בגלל שיותר פשוט להריץ סימולציה במחשב מאשר לחשב את ההסתברות? (למרות שבמידה שקולה ניתן לבנות מודל שמחשב את ההסתברות עצמה)”
בתיאוריה אין שום בעיה לקחת נייר ועיפרון ולחשב את כל ההסתברויות וההסתברויות המותנות. אבל הנה ההבדל בין התיאוריה והמציאות. בכל בית יש ארבע נבחרות, ולכן יש 24 אפשרויות שונות לתוצאה הסופית של טבלת הבית. אבל בואו ניתן הנחה – מה שמעניין זה מיהן שתי הנבחרות שמסיימות במקום הראשון והשני, ולכך יש רק 12 תוצאות אפשריות. פרט למקרים מאוד נדירים, לכל התוצאות האלה יש הסתברות חיובית. יש 8 בתים מוקדמים, ולכן מפר התרחישים האפשריים לשמינית הגמר הוא 12 בחזקת 8. זה יוצא קצת פחות מ-430 מיליון (429981696). אז קצת קשה לעשות את זה עם נייר ועיפרון. גם אם נכתוב תכנית מחשב שתבצע את כל החישובים, לא סביר שהיא תסיים לרוץ לפני סיום המונדיאל הבא… במקרה כזה הדרך המעשית היחידה לאמוד את ההסתברויות באופן יעיל היא בעזרת סימולציה.
מה עשו המודלים?
בטבלה שפורסמה באקונומיסט יש תחזיות של כמה מודלים. הסיכויים של ברזיל נעו בין 13 ל-32%, של גרמניה בין 5 ל-16%, של צרפת בין 5 ל-11%, ושל קרואטיה בין 1 ל-3%. שימו לב שהאחוזים בטורים לא מסתכמים ל-100%. מכאן שהמודלים האלה נתנו הסתברויות חיוביות לזכייה של נבחרות “פחות נחשבות” – אולי מצרים או קמרון.
האם המודלים האלה הצליחו או נכשלו? זה תלוי כמובן איך מגדירים הצלחה או כישלון. המודל של Goldman Sachs, למשל, נתן לצרפת הסתברות של 11% לזכות. הוא לא אמר שצרפת לא תזכה. גם מאורעות שהסתברותם 11% מתרחשים לפעמים. הוא גם נתן לברזיל הסתברות של 19% לזכות, או במילים אחרות, אמר כי יש הסתברות של 81% שברזיל לא תזכה. צדק או לא צדק? (( יש הרבה דרכים להעריך את האיכות של מודלים האופן כמותי. לא אכנס לפרטים))
על המשמעות של המודלים
הבעיה של כל המודלים לתחזיות, מכל סוג שהוא, ולכל מה שאתם רוצים לחזות, היא שהם מנסים לחזות משהו שעוד לא קרה, כלומר את העתיד. ולחזות את העתיד, כפי שציין בצדק נילס בוהר, זה קשה מאוד. ואין הבדל עקרוני בין תחזית למשחק כדורגל בודד, לתוצאה הסופית של מונדיאל שלם, למזג האוויר של מחר ((אם אתם לא בישראל, כמובן)), או לשאלה החשובה מאוד האם אני אקנה באמזון ספר שיציע לי האלגוריתם כאשר אכנס לאתר הזה בפעם הבאה. כל המאורעות האלה הם מאורעות חד פעמיים. תסלחו לי על האמירה הבוטה, אבל התחזית של המודל היא בסך הכל ניחוש אינטליגנטי (( זו לא תובנה מקורית שלי, שמעתי אותה ממורי ורבי פרופ’ צבי גילולה)).
בעולם שלנו יש שונות אינהרנטית, או כמו שכתבתי למעלה, דברים קורים. מה קרה במשחק של גרמניה מול מקסיקו? קרו המון דברים, ואת רובם אנחנו אפילו לא יודעים. אולי לאחד השחקנים של גרמניה כאב הראש, ושחקן אחר סתם בא במצב רוח לא טוב, ואילו השוער של מקסיקו מאוד נהנה בארוחת הבוקר ועקב כך חש אנרגיות חיוביות. לך תדע. מצד שני, בעשרים השנים האחרונות גרמניה מנצחת באופן עקבי ולאורך זמן ב-75% מהמשחקים שלה, ולכן אני מוכן להתערב שאם גרמניה ומקסיקו יישחקו 100 משחקים, גרמניה תנצח לפחות ב-75 מהמשחקים האלה (( על איזה סכום להתערב? צריך כמובן לחשב את ההסתברות שגרמניה תנצח ב-75 משחקים לפחות אם הסיכוי שלה לנצח במשחק בודד הוא 75%)).
וזו הפרשנות שאני נותן לחיזוי – פרשנות שכיחותנית (( סטטיסטיקאים אחרים ייתנו אולי פרשנויות אחרות, ואני לא אכנס כאן לפרטים)).
לפי הפרשנות הזאת, אם אומרים לכם שמחר יש 30% סיכוי לגשם ((כמובן בהנחה שאתם לא בתל אביב אלא בלונדון )), המשמעות היא שבשלושים אחוז מהימים שדומים ליום שיהיה מחר ירד גשם. שימו לב שהפרשנות לפיה ב-30% ממשך היום יורד גשם אינה נכונה – זה כמו להגיד שברזיל תזכה ב-19% מהגביע. ואם המודל של אמזון חוזה שיש סיכוי של 20% שאקנה את הספר שהאלגוריתם מציע לי – פירוש הדבר הוא ש-20% מהאנשים שדומים לי יקנו את הספר.
ומכאן נובעת המגבלה העיקרית של כל המודלים: טיב החיזוי מוגבל על ידי כמות המאורעות. לחזות תוצאה של אירוע חד פעמי כמו המונדיאל זה קשה מאוד. אם נתחיל מחר את כל המונדיאל מחדש עם אותן הנבחרות, אף אחד לא יכול להבטיח לנו שתתקבל אותה התוצאה.
אם לעומת זאת, אנחנו מנסים לחזות תוצאות של הרבה מאורעות דומים ו/או נשנים, התחזיות הופכות להיות יותר אמינות, או כפי שאני מעדיף לומר, יותר סבירות. היו בלונדון הרבה ימים כמו מחר, וב-30% מהם ירד גשם, ולכן התחזית כי מחר יש סיכוי של 30% לגשם היא סבירה. ולאמזון יש מיליון לקוחות כמוני ((רק שלא קוראים להם יוסי לוי, ואם יש ביניהם יוסי לוי אחר, אז הוא חיקוי זול)), ואם המודל שמציע את הספר הוא מודל טוב, אז 20% מהאנשים האלה יקנו אותו, ובעלי המניות של אמזון מרוצים.
השאלה היא מה בכלל המשמעות של הנתון שצרפת תזכה ב 11%? מונדיאל 2018 מתרחש פעם אחת, אז מה בכלל אומר הנתון האחוזי? הרי בשעור הראשון בקורס המבוא להסתברות וסטטיסטיקה לומדים שמדובר על שכיחות של מאורעות חוזרים, וכאן המאורע מונדיאל 2018 ממילא לא חוזר (לצערנו).
ראשית כל תודה , מעניין מאוד .
לתשומת ליבך שתחת הפיסקה “למה בכלל צריך סימולציה?” , יש פיסקה המופיעה פעמיים .
מעניין לציין את השונות העצומה בין החברות השונות לגבי סיכויי הזכייה שפורטו בטבלה . הייתי מצפה לשונות נמוכה יותר , אבל אולי זה “דבר חיובי” בעצם , כי זה יכול להראות על פיתוחים יצירתיים ושונים של חלק מהן …