נסיכת המדעים

ארכיב עבור 'ספורט'

עוד שימוש מפתיע לרנדומיזציה: קבלת החלטות

לפני שבוע, הצייצן eSivion העלה סקר לא שגרתי בטוויטר, בו ביקש מהמשיבים להצביע כך התפלגות התשובות לסקר תהיה 10% לתשובה א, 20% לתשובה ב, 30% לתשובה ג ו-40% לתשובה ד:

הניסוי הצליח! ((אם כי מבחן כי בריבוע מראה כי ההתפלגות של ההצבעות שונה באופן מובהק סטטיסטית מההתפלגות לה קיווה אי-שיוויון ))

איך עושים את זה, או יותר נכון, איך הציבור הצליח לעשות את זה?

אחת המגיבים לסקר סיפק ספוילר כחצי שעה לאחר שהסקר פורסם:

טוב, אני לא יודע עד כמה הספוילר הזה השפיע על התוצאה הסופית. אומר רק שאני נתבקשתי לחוות את דעתי כמה דקות אחרי שהסקר עלה, ועניתי שאתייחס רק לאחר שהוא הסתיים. התשובה אל אותו ליאור היא אכן הדרך הנכונה להגיע להתפלגות שרוצים: רנדומיזציה, אם כי אני הייתי ממליץ על ספרת היחידות של השניות, או על מחוג השניות.

לפני כמה ימים כתבתי על רנדומיזציה בהקשר על ניסויים מבוקרים, אבל רעיון הרנדומיזציה טוב גם לדרים אחרים, כמו להשיג תוצאה מסויימת בסקר של טוויטר. אבל…

אם תצפו במשחקי טניס מקצוענים, תראו שרבים מן השחקנים עונדים שעון יד. זה לא בהכרח בלל שהם ממהרים לאן שהוא, ורוצים לסיים את המשחק בהתאם לתוכניות שלהם (( כמו שקרה בסרטו של אלפרד היצ'קוק זרים הרכבת )). כאשר מגיע תורו של שחקן טניס לחבוט את חבטת הפתיחה, יש לו בגדול שתי אפשרויות: לחבוט ימינה או לחבוט שמאלה (( אני מפשט קצת את הדברים )) . אם יחבוט כל הזמן ימינה, היריב ייערך בהתאם, וזה גם מה שיקרה אם יחבוט כל הזמן שמאלה. גם אם יחבוט ימינה ושמאלה לסירוגין, היריב יעלה על זה מהר מאוד. חייבים לשמור כל הזמן על יתרון ההפתעה. איך עושים את זה? מציצים בשעון. אם מספר השניות שעברו בדקה הנוכחית קטן משלושים, חובטים ימינה. אחרת – חובטים שמאלה. כך ליריב לא תהיה דרך טובה לחזות לאן תיחבט החבטה הבאה.

זה קורה גם בבייסבול. כאן יש פיצ'ר, שהוא השחקן שזורק את הכדור לעבר החובט. יש כל מיני סוגי זריקות שהפיצ'ר יכול לזרוק: כדור מהיר, כדור מסובב, וכדומה. אם החובט יודע מראש איזה סוג זריקה יזרוק הפיצ'ר, זה ישפר את סיכוייו לחבוט בכדור (( גם ככה הסכוי לחבוט נמוך למדי. החובטים הממש טובים מצליחים לחבוט בכדור בכ-30% מהפעמים )).

הפתרון הוא כמובן לזרוק את הכדור באופן שיקשה על החובט לנחש מראש מה יהיה סוג הזריקה. אפשר לעשות את זה על ידי רנדומיזציה, למשל על ידי מבט מהיר בשעון. גרג מאדוקס, אחד מגדולי הפיצ'רים בכל הזמנים, סיפר כי הוא השתמש בשיטה הזו כדי לקבל החלטות באשר לזריקה שאותה יזרוק. זה כמובן לא מספיק, כדי להיות כמו גרג מאדוקס צריך גם כשרון נדיר, אבל הרנדומיזציה בודאי שלא הזיקה לא.

נשלח: 15 בנובמבר, 2019. נושאים: הממ... מעניין..., ספורט, קבלת החלטות.
תגובות: 1 | טראקבק

איך חוזים תוצאה של מונדיאל?

עכשיו, כשנאלמה תרועת הפסטיבלים והמונדיאל הסתיים, זה זמן טוב לדבר על כל המודלים שסיפקו תחזיות מונדיאל ועל מודלים של תחזיות בכלל.

ברשימה זו אסקור את הבסיס למודלים שניסו לחזות את תוצאות המונדיאל, ומשם אעבור לדיון בחלק מהתכונות של מודלים לחיזוי, במשמעות של החיזוי ובמגבלות של המודלים האלה.

איך חוזים תוצאה של מונדיאל?

הסקירה הזו מתבססת בחלקה על המאמר הזה שפורסם באקונומיסט לפני פתיחת המונדיאל של 2018 ((תודה לצליל אברהם שהפנתה את תשומת ליבי אליו)).

כדי לחזות את התוצאה של המונדיאל (או כל טורניר ספורט אחר) יש צורך במספר שלבים. ראשית, צריך לדרג באופן כלשהו את הנבחרות/קבוצות המשתתפות בטורניר ואת הבדלי הרמות ביניהן. בשלב השני צריך לספק הערכה/חיזוי לתוצאות של משחקים ספציפיים ((גרמניה מול מקסיקו, מישהו? תיכף נדבר על זה)), ובשלב השלישי לנסות לחזות על סמך החיזויים של תוצאות המשחקים את המנצחת הסופית. המאמר שפורסם באקונומיסט מתעמק בעיקר בשלב הראשון.

שלב ראשון: דירוג הנבחרות

יש שתי דרכים לדרג את האיכות של נבחרת או קבוצת ספורט: על ידי הערכת ביצועי הקבוצה, או על ידי הערכת ביצועי השחקנים.

להערכת ביצועי הקבוצה משתמשים בעיקר במודלים מסוג Elo , מודל שפותח במקור עבור משחק השחמט. הרעיון הוא שכל קבוצה מקבלת ניקוד על כל משחק שהיא שיחקה, אבל בניגוד לליגה או לטורנירים שבהם מקבלים 3 נקודות על כל ניצחון, לא משנה באיזה משחק, ב- Elo הניקוד משתנה בהתאם ליריבה, מיקום המשחק, חשיבותו, וכדומה. אם למשל גרמניה מנצחת את סעודיה במשחק ידידות שנערך בלוורקוזן, הניצחון הזה לא שווה הרבה נקודות, כי היריבה נחותה, המשחק לא ממש חשוב, וגרמניה שיחקה במגרש הביתי. לעומת זאת, ניצחון על ברזיל, במשחק שנערך בברזיל, במסגרת חצי הגמר של המונדיאל, שווה הרבה מאוד נקודות. יש כל מיני וריאציות למודל, מה שמסביר חלק מההבדלים בניבויים השונים. למודלים שונים יש מפתח נקודות שונה, ויש גם מודל שנותן ניקוד לא על פי תוצאת המשחק אלא על פי מספר השערים שהובקעו, וכך ניצחון בתוצאה 7:1 שווה הרבה יותר מניצחון 1:0. כמו כן, צריך להחליט על איזה אופק זמן מסתכלים. יכול להיות משחק ששוחק במונדיאל מקסיקו 70 או אפילו בדרום אפריקה ב-2010 כבר לא ממש משמעותי. עם זאת, באחת הכתבות תואר מודל שלקח בחשבון את כל התוצאות מאז המונדיאל הראשון שנערך ב-1930. אני מניח שהמודלים משקללים את המשמעות של כל משחק בהתחשב בזמן שעבר.

הדרך השנייה היא להעריך כל שחקן לחוד, ואז לקבל הערכה של הקבוצה כסך כל שחקניה. יש כל מיני דרכים לעשות את זה. אפשר למדוד את הביצועים של כל שחקן בכל משחק (כמה מסירות טובות הוא מסר, כמה תיקולים מוצלחים וכדומה). לדעתי צריך לקחת בחשבון גם פעולות שהשחקן לא עשה ואולי היה צריך לעשות (לא ברור לי אם יש בכלל נתונים כאלה). כמו כן, יש דברים ששחקנים תורמים לקבוצה ולא ניתנים למדידה – מנהיגות למשל.

דרך אחרת היא לבדוק מה היו ביצועי הקבוצה כשהשחקן שיחק בהרכב ומה הם היו כשהוא לא שיחק. בכדורגל זה פחות יעיל כי יש יחסית מעט משחקים, יש מעט חילופים, ובדרך כלל אין הרבה שינויים בהרכבים. עם זאת, זו שיטה מאוד מקובלת ויעילה בענפים כמו כדורסל ובייסבול.

ראיתי באחת הכתבות גם מודל שהכניס לשקלול את משכורות השחקנים. המודל הזה חזה שצרפת תזכה בטורניר, ואנחנו כבר יודעים שהוא צדק. זה לא בהכרח אומר שהוא מודל טוב. אם יש הרבה מודלים, אז הסיכוי שאיזשהו מודל יצדק הוא לא נמוך. זה כמו בלוטו. הסיכוי שאתה תזכה בפרס הגדול הוא קטן, אבל הסיכוי שמישהו יזכה הוא מאוד גבוה. עם זאת, אין להבין מדבריי כי אני חושב שזה מודל לא טוב. האמת היא שאי אפשר לקבוע.

אפשר גם לשקלל את את הערכת הנבחרת עם הערכת השחקנים, ויש כל מיני שקלולים: 50-50, 75-25 וכולי. זה כנראה לא כל כך משנה. לפחות לפי הנתונים שהובאו באקונומיסט, יש מתאם גבוה בין שתי שיטות ההערכה:

שלב שני: חיזוי תוצאות של משחקים

אחרי שיש לנו מדד שמעריך את האיכות של כל נבחרת, אפשר להתחיל לדבר על חיזוי תוצאות של משחקים. שוב, יש כל מיני דרכים לעשות את זה, אבל העיקרון דומה. לוקחים נתונים של המון משחקים שרלוונטיים בעינכם. אתם יכולים לקחת את הנתונים של המשחק בן גרמניה וסעודיה שנערך בלוורקוזן ביוני 2018 (גרמניה ניצחה 2:1), וגם את המשחק בין גרמניה והולנד בגמר מונדיאל 1974 (מצטער שאני משבית שמחות). לכל משחק הנתונים יכולים לכלול כל מיני פרטים שנראים חשובים למי שבונה את המודל – כגון הערכת הנבחרות לפי מודל Elo כזה או אחר, מקום משחק, חשיבותו, מסורת ניצחונות, מזג האוויר, המשכורת של השחקנים, או מספר הנעליים של השוער. אלה הם המשתנים המסבירים. לכל משחק יש גם תוצאה – זה המשתנה המוסבר, ויש שלוש תוצאות אפשריות. אפשר לשפוך את כל הנתונים לתוך אלגוריתם שמיישם מודל – רגרסיה לוגיסטית, random forest, דיפ לרנינג, מה שבא לכם.

לאחר שאמדתם את הפרמטרים של המודל (( או כמו שאנשי המשין לרנינג אוהבים להגיד – "אימנתם אותו")) ווידאתם שהוא פועל היטב גם על נתונים ששמרתם בצד ולא נכנסו למודל, אתם יכולים לקחת את הנתונים של נבחרת גרמניה ושל נבחרת מקסיקו, להפעיל עליהם את המודל שלכם, ולקבל תוצאה. התוצאה תהיה בעצם שלוש הסתברויות: ההסתברות שגרמניה תנצח במשחק, ההסתברות שמקסיקו תנצח, וכמובן גם את ההסתברות שהמשחק יסתיים בתיקו. חשוב לזכור שאלה לא הסתברויות "אמיתיות". אלה הם אומדנים להסתברויות, שקיבלתם מהמודל שלכם, והם מתבססים על כל ההנחות שהנחתם בדרך.

שלב שלישי: חיזוי מהלך הטורניר

עכשיו מתחיל הכיף האמיתי. אני מניח שכל מודל שהוא שניסה לחזות את תוצאת המשחק בין מקסיקו לגרמניה נתן הסתברות גבוהה לניצחון של גרמניה, הסתברות יותר נמוכה לתיקו, ולניצחון של מקסיקו ניתנה ההסתברות הנמוכה ביותר. אבל דברים יכולים לקרות (ואכן קרו). מה עושים? סימולציה.

נניח לצורך הדוגמה שההסתברויות שהפיק המודל היו 70% לניצחון גרמניה, 20% לתיקו, ו-10% לניצחון מקסיקו. שמים בתוך שק 10 כדורים: 7 לבנים, 2 ירוקים, וכדור שחור אחד. מערבבים טוב טוב את הכדורים ומוציאים כדור אחד. אם הוא לבן, נגיד שגרמניה "ניצחה", אם הוא ירוק נגיד שהמשחק "הסתיים בתיקו", ואם הכדור שהוצאנו הוא שחור נגיד שזה היה יום שחור לגרמניה. אפשר לעשות את זה גם בעזרת מחשב כמובן.

צריך לזכור שבבית שבו שיחקו גרמניה ומקסיקו היו עוד שתי נבחרות ובסך הכל שוחקו בו שישה משחקים. אז עושים את התרגיל הזה לכל אחד מששת המשחקים, וכשיש לנו את כל תוצאות המשחקים שהתקבלו בסימולציה, מקבלים את טבלת הבית, ואת שתי הנבחרות שעלו לשלב הבא.

את התרגיל הזה עושים לכל הבתים בשלב המוקדם, ובסיומו "נדע" מי הן 16 הנבחרות שעלו לשמינית הגמר, ואיזה נבחרת תשחק מול איזה נבחרת. את התוצאות של המשחקים אנחנו יכולים לחזות באותו אופן, ומשם "נדע" מה יהיו משחקי רבע הגמר וכך הלאה. בסופו של כל התהליך נקבל את הזוכה.

כל התוצאות שקיבלנו מתבססות של הגרלות ושליפה וירטואלית של כדורים מתוך שקים. אם נבצע שוב את התהליך מההתחלה, סביר להניח שנקבל תרחיש אחר ותוצאה שונה. נו פרובלם. נחזור על התרגיל הזה המון פעמים, 10000 נניח, או מיליון, ונחשב איזשהו ממוצע של כל התרחישים שהגרלנו. למשל, אם ב-900 מתוך 10000 תרחישים קיבלנו שגרמניה זכתה בסופו של דבר, נאמוד את הסיכוי שגרמניה תזכה במונדיאל ב-900 חלקי 10000 שהם 9%. החיזוי האולטימטיבי של הזוכה במונדיאל הוא הנבחרת שניצחה ברוב התרחישים מבין ה-10000.

אם המודל שממנו התחלנו הוא מודל טוב, והנתונים שבהם השתמשנו כדי לאמוד את הפרמטרים של המודל הם נתונים טובים, אז גם התחזיות יהיו טובות. אבל…

נקודת תורפה: הנחת אי-תלות

אבל יש כאן בעיה גדולה: כל מה שתואר עד כאן מניח שהמשחקים בלתי תלויים, והם לא. תוצאה של משחק אחד בהחלט יכולה להשפיע על תוצאה של משחק אחר. אם למשל, נבחרת הבטיחה את עלייתה לשמינית הגמר אחרי שני משחקים, ייתכן כי השחקנים החשובים, הכוכבים, יקבלו מנוחה, כי אין טעם להשקיע מאמצים במשחק שלא משנה כלום. אירוע כמו פציעה של שחקן במשחק בהחלט יכול להשפיע על המשחק הבא. קבוצה שהשקיעה הרבה מאוד מאמץ כדי לנצח בשמינית הגמר (הארכה, יריבה קשה במיוחד) תגיע מותשת יותר למשחק הבא, ויד עוד הרבה דוגמאות. כל המודלים לטווח ארוך (שמנסים לחזות מי תזכה בטורניר לפני שהוא התחיל) לא יכולים לקחת את כל הפרמטרים האלה בחשבון. כאן יש יתרון ברור לסוכנויות ההימורים, שיכולות לעדכן את אמדני הסיכויים ושערי ההימורים ממשחק למשחק.

למה בכלל צריך סימולציה?

בדף של הבלוג בפייסבוק, Mickey Ktv שאל את השאלה הזו: "מה המשמעות של ביצוע הסימולציה? הרי אם יש לנו הסתברות מסויימת לכל משחק, אנחנו יכולים לפי זה לחשב את ההסתברות של כל קבוצה לנצח. בגלל חוק המספרים הגדולים, תוחלת הסימולציה צריכה לצאת קרובה מאוד להסתברות שמחושבת 'ידנית'. האם זה בגלל שיותר פשוט להריץ סימולציה במחשב מאשר לחשב את ההסתברות? (למרות שבמידה שקולה ניתן לבנות מודל שמחשב את ההסתברות עצמה)"

בתיאוריה אין שום בעיה לקחת נייר ועיפרון ולחשב את כל ההסתברויות וההסתברויות המותנות. אבל הנה ההבדל בין התיאוריה והמציאות. בכל בית יש ארבע נבחרות, ולכן יש 24 אפשרויות שונות לתוצאה הסופית של טבלת הבית. אבל בואו ניתן הנחה – מה שמעניין זה מיהן שתי הנבחרות שמסיימות במקום הראשון והשני, ולכך יש רק 12 תוצאות אפשריות. פרט למקרים מאוד נדירים, לכל התוצאות האלה יש הסתברות חיובית. יש 8 בתים מוקדמים, ולכן מפר התרחישים האפשריים לשמינית הגמר הוא 12 בחזקת 8. זה יוצא קצת פחות מ-430 מיליון (429981696). אז קצת קשה לעשות את זה עם נייר ועיפרון. גם אם נכתוב תכנית מחשב שתבצע את כל החישובים, לא סביר שהיא תסיים לרוץ לפני סיום המונדיאל הבא… במקרה כזה הדרך המעשית היחידה לאמוד את ההסתברויות באופן יעיל היא בעזרת סימולציה.

מה עשו המודלים?

בטבלה שפורסמה באקונומיסט יש תחזיות של כמה מודלים. הסיכויים של ברזיל נעו בין 13 ל-32%, של גרמניה בין 5 ל-16%, של צרפת בין 5 ל-11%, ושל קרואטיה בין 1 ל-3%. שימו לב שהאחוזים בטורים לא מסתכמים ל-100%. מכאן שהמודלים האלה נתנו הסתברויות חיוביות לזכייה של נבחרות "פחות נחשבות" – אולי מצרים או קמרון.

האם המודלים האלה הצליחו או נכשלו? זה תלוי כמובן איך מגדירים הצלחה או כישלון. המודל של Goldman Sachs, למשל, נתן לצרפת הסתברות של 11% לזכות. הוא לא אמר שצרפת לא תזכה. גם מאורעות שהסתברותם 11% מתרחשים לפעמים. הוא גם נתן לברזיל הסתברות של 19% לזכות, או במילים אחרות, אמר כי יש הסתברות של 81% שברזיל לא תזכה. צדק או לא צדק? (( יש הרבה דרכים להעריך את האיכות של מודלים האופן כמותי. לא אכנס לפרטים))

על המשמעות של המודלים

הבעיה של כל המודלים לתחזיות, מכל סוג שהוא, ולכל מה שאתם רוצים לחזות, היא שהם מנסים לחזות משהו שעוד לא קרה, כלומר את העתיד. ולחזות את העתיד, כפי שציין בצדק נילס בוהר, זה קשה מאוד. ואין הבדל עקרוני בין תחזית למשחק כדורגל בודד, לתוצאה הסופית של מונדיאל שלם, למזג האוויר של מחר ((אם אתם לא בישראל, כמובן)), או לשאלה החשובה מאוד האם אני אקנה באמזון ספר שיציע לי האלגוריתם כאשר אכנס לאתר הזה בפעם הבאה. כל המאורעות האלה הם מאורעות חד פעמיים. תסלחו לי על האמירה הבוטה, אבל התחזית של המודל היא בסך הכל ניחוש אינטליגנטי (( זו לא תובנה מקורית שלי, שמעתי אותה ממורי ורבי פרופ' צבי גילולה)).

בעולם שלנו יש שונות אינהרנטית, או כמו שכתבתי למעלה, דברים קורים. מה קרה במשחק של גרמניה מול מקסיקו? קרו המון דברים, ואת רובם אנחנו אפילו לא יודעים. אולי לאחד השחקנים של גרמניה כאב הראש, ושחקן אחר סתם בא במצב רוח לא טוב, ואילו השוער של מקסיקו מאוד נהנה בארוחת הבוקר ועקב כך חש אנרגיות חיוביות. לך תדע. מצד שני, בעשרים השנים האחרונות גרמניה מנצחת באופן עקבי ולאורך זמן ב-75% מהמשחקים שלה, ולכן אני מוכן להתערב שאם גרמניה ומקסיקו יישחקו 100 משחקים, גרמניה תנצח לפחות ב-75 מהמשחקים האלה (( על איזה סכום להתערב? צריך כמובן לחשב את ההסתברות שגרמניה תנצח ב-75 משחקים לפחות אם הסיכוי שלה לנצח במשחק בודד הוא 75%)).

וזו הפרשנות שאני נותן לחיזוי – פרשנות שכיחותנית (( סטטיסטיקאים אחרים ייתנו אולי פרשנויות אחרות, ואני לא אכנס כאן לפרטים)).

לפי הפרשנות הזאת, אם אומרים לכם שמחר יש 30% סיכוי לגשם ((כמובן בהנחה שאתם לא בתל אביב אלא בלונדון )), המשמעות היא שבשלושים אחוז מהימים שדומים ליום שיהיה מחר ירד גשם. שימו לב שהפרשנות לפיה ב-30% ממשך היום יורד גשם אינה נכונה – זה כמו להגיד שברזיל תזכה ב-19% מהגביע. ואם המודל של אמזון חוזה שיש סיכוי של 20% שאקנה את הספר שהאלגוריתם מציע לי – פירוש הדבר הוא ש-20% מהאנשים שדומים לי יקנו את הספר.

ומכאן נובעת המגבלה העיקרית של כל המודלים: טיב החיזוי מוגבל על ידי כמות המאורעות. לחזות תוצאה של אירוע חד פעמי כמו המונדיאל זה קשה מאוד. אם נתחיל מחר את כל המונדיאל מחדש עם אותן הנבחרות, אף אחד לא יכול להבטיח לנו שתתקבל אותה התוצאה.

אם לעומת זאת, אנחנו מנסים לחזות תוצאות של הרבה מאורעות דומים ו/או נשנים, התחזיות הופכות להיות יותר אמינות, או כפי שאני מעדיף לומר, יותר סבירות. היו בלונדון הרבה ימים כמו מחר, וב-30% מהם ירד גשם, ולכן התחזית כי מחר יש סיכוי של 30% לגשם היא סבירה. ולאמזון יש מיליון לקוחות כמוני ((רק שלא קוראים להם יוסי לוי, ואם יש ביניהם יוסי לוי אחר, אז הוא חיקוי זול)), ואם המודל שמציע את הספר הוא מודל טוב, אז 20% מהאנשים האלה יקנו אותו, ובעלי המניות של אמזון מרוצים.

נשלח: 15 ביולי, 2018. נושאים: דטה סיינס, מה אומרת הסטטיסטיקה, ספורט.
תגובות: 2 | טראקבק

איך אפשר לדעת מי תזכה במונדיאל?

לכאורה, אין דבר יותר פשוט מזה. חפשו בגוגל "מי תזכה במונדיאל", ותקבלו המון תחזיות: תוכלו לדעת מה הייתה התוצאה של סימולציה שאיזה סטארט-אפ עשה, מה קבעו המומחים הפיננסיים, מה החליטו הקוראים של הארץ, והכי חשוב, מה חושבים נהגי המוניות:

הבעיה העיקרית היא שהדרך הכי טובה לדעת מה יקרה במונדיאל כבר לא קיימת. פול התמנון, עליו השלום, כבר לא איתנו. אני מקווה שנשמתו צרורה בצרור החיים.

אבל יש מי שמנסה למצוא יורש לפול. האתר psychic-pets.com קרא לעזרתם של בעלי חיות מחמד מכל העולם ומבקש מהם לנסות לברר מה יקרה. נכון למועד כתיבת שורות אלו, קרוב לאלף חיות מחמד נרתמו למשימה, מתוכן 85 חיות מחמד מגרמניה ושתיים מאירן. גם חיית המחמד שלי נמצאת שם. זהו ברווז, כמובן. לא סתם ברווז אלא ברווז פלא, העונה לשם Coin.

אז מה הסיכוי שהחיות האלה, או אפילו רק אחת מהן, יחזו את תוצאות המונדיאל? בואו נשתעשע במספרים. ((את החישובים ביצעתי בערת תוכנת R ))

קודם כל, למען הפשטות אני מוציא (בינתיים) מהמשחק את שלב הבתים, ומתרכז בשלב שאחריו, בו 16 נבחרות מתחרות בשיטת הנוק אאוט. יש בשלב הזה 15 משחקים משמעותיים (ועוד משחק אחד על המקום השלישי שהוא פחות מעניין). דרך אגב, כמה משחקים היו נערכים בשיטת הנוק אאוט אם לשלב הזה היו מגיעות לא 16 אלא 53 נבחרות? תחשבו על זה.

אז החיות שלנו צריכות לחזות את התוצאות של 15 משחקים. אני אשחק כאן את תפקיד פרקליטו של השטן ואטען שהחיות לא חוזות את התוצאות אלא מנחשות. אם כך, מה הסיכוי שחיה אחת תחזה את כל התוצאות של כל 15 המשחקים? לכל משחק יש שתי תוצאות אפשריות (אין תיקו). הסיכוי לניחוש נכון הוא לכן 50% או חצי. יש 15 משחקים, והם לא תלויים זה בזה (בדרך כלל): התוצאה של משחק קודם בדרך כלל לא משפיעה על התוצאה של המשחק הבא. אני יודע שההנחה הזו לא נכונה ב-100%. יכול להיות שנבחרת שהתאמצה מאוד במשחק מסויים תגיע יותר עייפה ומוחלשת לשלב הבא, יכול להיות ששחקן מפתח הורחק או נפצע, ועוד. אבל אם חיות המחמד מנחשות, הן לא לוקחות את כל הדברים האלה בחשבון, והניחושים שלהן לא תלויים זה בזה. לכן, ההסתברות לניחוש התוצאות של 15 משחקים היא ההסתברות לניחוש נכון של משחק אחד מוכפלת בעצמה 15 פעמים. זה יוצא 1 ל-32768, או 0.003%. סיכוי נמוך? בהחלט, אבל בכל זאת גדול מאפס.

אבל יש לנו קרוב ל-1000 חיות שמנסות לבצע את אותו התרגיל. אולי אחת מהן תצליח? כאן אפשר להשתמש בהתפלגות פואסון כדי לחשב את ההסתברות שאף חיה לא תצליח לחזות את כל התוצאות של כל המשחקים, שחיה אחת תצליח, ששתיים יצליחו וכולי. ובכן, ההסתברות שאף חיה מתוך האלף לא תצליח לחזות את התוצאות של כל 15 המשחקים היא 96.99%, ויש הסתברות של 2.96% שחיה אחת מבין האלף תצליח במשימה (אבל לא ניתן לדעת מראש איזה).

מצד שני, אני מטיל על החיות משימה לא הוגנת. בנדיק החתול מאיסלנד לא מתעניין בתוצאת המשחק שבין הונגריה ומיקרונזיה (אם יש בכלל משחק כזה). גם פול התמנון התמחה בנבחרת שלו, גרמניה. אז בואו נתרכז במשחקים של גרמניה.

אני מניח שגרמניה תשחק בסך הכל 7 משחקים – 3 בשלב המוקדם, ועוד ארבעה בשלב הנוק אאוט (כלומר, אני מניח שתגיע לחצי הגמר). לכן המשימה של מוקמוק הארנב ושאר חבריו מגרמניה אמורה יותר קלה – בואו נראה עד כמה היא יותר קלה.

שוב, לכל משחק יש שתי תוצאות: או שגרמניה מנצחת, וזה מה שחשוב, או שלא (ואני אתעלם כאן באלגנטיות ממה שלגארי לינקר היה לומר בעניין).

הסיכוי לניחוש נכון הוא חצי, ולכן הסיכוי לסדרה של שבעה ניחושים נכונים הוא חצי מוכפל בעצמו שבע פעמים. זה יוצא 1 ל-128, או 0.78%. עדיין נמוך, ועם זאת אפשרי.

אבל רגע. יש לנו 85 חיות מחמד מגרמניה. מה הסיכוי שלפחות אחת מהן תצליח? אנו נגייס שוב את התפלגות פואסון לעזרתנו. החישוב מראה לנו כי ההסתברות שאף אחת מבין 85 חיות המחמד לא תנחש את התוצאות של כל שבעת המשחקים היא כמעט 51.5%, ומכאן שיש הסתברות של 48.5% שלפחות אחת מהן תצליח במשימה. תיראו מופתעים.

אפשר כמובן לרדת לפרטים יותר קטנים: מה ההסתברות שלפחות חיה אחת תצליח לחזות תוצאה של שישה משחקים לפחות משבעת המשחקים של גרמניה (יותר מ-48.5%) או שלפחות חיה אחת תצליח לחזות את כל התוצאות של המשחקים של גרמניה בשלב הנוק אאוט בלבד (הרבה יותר מ-48.5%). לא ערכתי את החישובים האלה. אתם מוזמנים לנסות.

ועכשיו ברצינות. משחקי הניחושים האלה הם משעשעים ובדרך כל לא מזיקים. אולם יש אנשים שמהמרים על תוצאות המשחקים האלה. במקרה כזה לשאול את דג הזהב שלך מה תהיה התוצאה לדעתו זו לא אסטרטגיה טובה. אני מחזיר אתכם לחישובי הסטארט-אפ שהוזכר בפיסקה הראשונה ולאמירתו הבלתי נשכחת של גארי לינקר: "כדורגל משחקים תשעים דקות ובסוף גרמניה מנצחת". ב-2014, למשל, גרמניה ניצחה ב-6 משחקים מתוך השבעה ששיחקה (משחק אחד הסתיים בתיקו). הסטארט-אפ הנ"ל הכניס למודל שלו את תוצאות כל המשחקים שנערכו מאז 1930. אני אמנע מלהביע את דעתי כי אני לא מכיר את כל פרטי המודל.

אני הסתכלתי על התוצאות של נבחרת גרמניה בארבעת הטורנירים האחרונים: מ-2002 עד 2014. בתקופה הזו גרמניה ניצחה ב-9 משחקים מתוך 12 בשלב הבתים – 75% הצלחה. בשלבי הנוק אאוט גרמניה ניצחה ב-13 משחקים מתוך 16 (כולל שני משחקים על המקום השלישי) – 81% הצלחה.

לכן, בשלב הבתים ברווז הפלא שלי יטיל מטבע שנופל על עץ בהסתברות 75% ועל פלי בהסתברות 25%. יש לו סיכוי של קצת יותר מ-42% לנחש את התוצאות של שלושת המשחקים, פי 3.4 מסיכויי הניחוש של חיית מחמד אחרת שלא יודעת סטטיסטיקה. בשלב הבתים הברווז שלי יטיל מטבע שנופלת על עץ בהסתברות של 80%, ויהיה לו סיכוי של כמעט 41% לחזות את התוצאות של כל המשחקים, סיכוי גבוה פי 6.6 מהסיכוי של מוקמוק הארנב. הברווז שלי יכול לעשות הרבה יותר טוב מזה: הוא יכול "לנחש" תמיד שגרמניה תנצח: כך הסיכוי שלו לנחש נכונה את תוצאות כל המשחקים יהיה מעל ל-75%.

לפני שאתם רצים להמר אל תשכחו שסוכנויות ההימורים מכירות אל כל החישובים האלה (וגם חישובים יותר מסובכים) ולכן קובעות את שערי ההימורים כך שבסופו של דבר הן ירוויחו.

אני, אגב, לא צופה במשחקים, אבל מאחל שעות של הנאה למי שכן.

נשלח: 16 ביוני, 2018. נושאים: אותי זה מצחיק, הממ... מעניין..., חשבון פשוט, מה אומרת הסטטיסטיקה, ספורט.
תגובות: 5 | טראקבק

על מכבי תל אביב ורוג’ר פדרר

האמת, לא ראיתי את המשחק בין מכבי תל-אביב וצסק"א מוסקבה בפיינל פור 2014 של היורוליג. אני לא צופה במשחקי כדורסל מאז הזכיה האחרונה של שיקגו בולז באליפות ה-NBA, ב-1998. בלי מיקל ג'ורדן, אני פשוט משתעמם. אבל על מה שקרה במשחק של מכביי שמעתי גם שמעתי.

למי שלא שמע: כשקבוצתו בפיגור של 15 נקודות בסוף הרבע השלישי של המשחק, הורה דייויד בלאט, מאמן מכבי, לשחקניו לנסות ללכת על כל הקופה: לעבור למשחק מהיר, הגנה אגרסיבית, וזריקות לשלוש נקודות, תוך תקווה שהיריבה תעשה יותר טעויות מהרגיל.

במונחי ספורט, אולי זה היה הימור. במונחים סטטיסטיים, בלאט החליט להגדיל את השונות. לאחר 3 הרבעים הראשונים, המשחק כבר לא היה שקול. האסטרטגיה של בלאט הגדילה את ההסתברות לתבוסה: המשחק היה יכול להגמר ב-30 נקודות הפרש לטובת צסק"א, אבל במשחק של הכל או לא כלום, זה באמת לא משנה אם ההפסד הוא בהפרש של 15 נקודות או 30 נקודות. לעומת זאת, לקיחת הסיכון גם אפשרה הסתברות לרבע שייגמר ב-16 נקודות הפרש לטובת מכבי, בניגוד לאסטרטגיות של 3 הרבעים הראשונים במשחק שמהלכם לא היה טוב במיוחד מנקודת הראות של הצהובים.

איך זה קשור לרוג’ר פדרר?

הסבר קצר על משחק הטניס. המשחק הטיפוסי מורכב משלוש מערכות, וכדי לנצח על הזוכה לנצח בשתי מערכות מתוך ה-3 (( 1. ישנם טורנירים בהם המנצח נקבע בשיטת הטוב מ-5 מערכות)). כל מערכה מורכבת ממשחקונים, וכדי לנצח במערכה יש לנצח ב-6 (ולפעמים 7 או יותר) משחקונים. כך יכול להווצר מצב מוזר: שחקן שהפסיד 6:1 במערכה הראשונה (כלומר ניצח במשחקון אחד והפסיד ב-6), וניצח בשתי המערכות הבאות בתוצאה 6:4, זכה המשחק כי ניצח ב-2 מערכות מתוך ה-3, אבל ניצח בסך הכל ב-13 משחקונים, בעוד שיריבו ניצח ב-14 משחקונים. תופעה זו, המזכירה את פרדוקס סימפסון, קורה בערך ב-5% ממשחקי הטניס המקצועניים (( 2. Wright, B., Rodenberg, R. M., & Sackmann, J. (2013). Incentives in Best of N Contests: Quasi-Simpson's Paradox in Tennis.International Journal of Performance Analysis in Sport, 13(3), 790-802. )). דבר דומה קרה גם במשחק הכדורסל: צסק"א ניצחה ב-3 מתוך 4 רבעי המשחק, אך הפסידה במשחק כולו.

מסתבר כי אלוף העולם בהפסדים ב-"משחקי סימפסון" בענף הטניס הוא לא אחר מאשר רוג’ר פדרר, אחד מגדולי הטניס בכל הזמנים. הוא שיחק ב-28 משחקים בהם המפסיד זכה ביותר משחקונים מאשר המנצח. המאזן שלו? 24 הפסדים, רק 4 ניצחונות.

מעניין לציין כי השחקן בעל המאזן הטוב ביותר במשחקים כאלה הוא ג'ון אייזנר , עם מאזן של 19 נצחונות ו-5 הפסדים. אייזנר זכור גם כמנצח במשחק הארוך ביותר בהיסטוריה, בטוניר וימבלדון ב-2010, בו ניצח את יריבו בתוצאה 70:68 במערכה החמישית. במשחק הנ"ל, אייזנר זכה ב-24 נקודות פחות מאשר יריבו. (( 3. כדי לנצח במשחקון, יש לצבור יותר נקודות מאשר היריב)) אייזנר מבסס את כל משחקו על חבטת הגשה חזקה במיוחד שמותירה את היריב ללא מענה במקרים רבים. כאשר ליריב יש מענה, לאייזנר בדרך כלל אין.

למי שמשחק מול פדרר אין הרבה סיכויים לנצח; פדרר ניצח ביותר מ-80% המשחקים בהם השתתף. מעבר לכך – שיטת הניקוד בטניס מוטה לטובת השחקן הטוב יותר. יתרון קטן על היריב מתורגם על ידי שיטת הניקוד להבדל משמעותי בסיכויי הניצחון במשחק. הדרך הכמעט יחידה לנסות לנצח את פדרר היא להגדיל את הסיכון על ידי משחק אגרסיבי. אתה עלול להפסיד שתי מערכות בתוצאה 6:0, אבל יש לך גם סיכוי להפסיד פחות משחקונים מאשר בדרך כלל, ואם תנצח מספיק משחקונים, אולי זה יספיק לך לנצח בשתי מערכות צמודות, ואז למי איכפת מהמערכה בה פדרר הביס אותך?

נשלח: 17 במאי, 2014. נושאים: ניהול סיכונים, ספורט, קבלת החלטות.
תגובות: 1 | טראקבק

מקבץ 5

ושוב, אוסף לינקים בנושאי הבלוג שהצטברו מאז המקבץ הקודם.

המקבץ הקודם הסתיים בלינק לפוסט בבלוג "עבודה שחורה", שהודיע על העובדה הלא מפתיעה כי התפלגות השכר בישראל מוטה, או יותר נכון, אינה סימטרית. האמת, זה קצת כמו להודיע שכלב נשך אדם. זה המצב בכל התפלגויות השכר בכל מקום, וזאת כיוון שהשכר מוגבל מלמטה (על ידי שכר המינימום, או על ידי האפס) אך אינו מוגבל מלמעלה, ותיאורטית (וגם מעשית) יש קבוצה קטנה של מקבלי שכר גבוה במיוחד שיוצרים "זנב" להתפלגות. כל זה לא מעניין במיוחד את שלומית יהב, יועצת כלכלית לעת מצוא. היא פירסמה בווינט כתבה בה הוכיחה באותות ובמופתים כי משפחה שבה שני בני הזוג מרוויחים את השכר הממוצע במשק יכולה "לחיות טוב" בארצנו. אתם יודעים מה, היא גם צודקת. כי השכר הממוצע המשק גבוה מאוד, ומי ששכרו שווה לשכר הממוצע ניצב בגאון בעשירון השלישי, כלומר, 70% מהאוכלוסיה מרוויחים פחות מהשכר הממוצע. הבעיה היא שמספר המשפחות בהן שני בני הזוג עובדים ומרוויחים את השכר הממוצע במשק זניח. אם אחד מבני הזוג מרוויח את השכר הממוצע, יש סיכוי יותר גדול כי השני מרוויח פחות מכך. כן, גם אם לוקחים בחשבון שיש תלות בין השכר של שני בני הזוג, וזאת כיוון שהשכר הממוצע למשפחה הוא פחות מפעמיים השכר הממוצע במשק. דובי קננגיסר כתב היטב על הכשלים של גברת יהב, והעריך כי התחשיב שלה נכון לגבי לא יותר מ- 10% ממשקי הבית בישראל. השורה התחתונה: אם אתה בעשירון העליון, אתה באמת יכול לחיות טוב בארץ הזו.
ראיון עם פרופסור אילון לינדנשטראוס, שזכה במדליית פילדס, הפרס היוקרתי ביותר במתמטיקה.
אין שידור טלוויזיה של משחק כדורסל, בייסבול או פוטבול (אמריקני) שאינו מלווה בשפע של נתונים סטטיסטיים אודות המתרחש במשחק. יותר מכך: ניתוחים סטטיסטיים מהווים היום חלק מתהליך קבלת ההחלטות בכל ארגון ספורט בענפים האלה. ומה קורה בכדורגל? לא הרבה. הניו יורק טיימס מנסה לברר מדוע. חלק מהסיבות: האוהדים לא מעוניינים. הקבוצות לא מתעניינות. קשה יותר להשיג נתונים סטטיסטיים על משחקי כדורגל, בין היתר בגלל האופי השונה של המשחק.
לא רק לענף הכדורגל יש בעיות עם הסטטיסטיקה. גם לרופאים (שוב, ידיעה מהסוג של "כלב נשך אדם"). אתר ABC מדווח על מחקר שפורסם לאחרונה לפיו רוב הרופאים אינם מבינים נתונים סטטיסטיים אודות תופעות לוואי אפשריות של תרופות. עורכי המחקר מאשימים, איך לא, את חברות התרופות. האפשרות שרופאים ילמדו קצת סטטיסטיקה לא עולה בדעתם.
בגליון ספטמבר של Amstat News, המגזין החודשי של האיגוד האמריקני לסטטיסטיקה – ראיון עם שלושה בלוגרים סטטיסטיקאים: אנדרו גלמן, נתן יאו וקייזר פאנג.
ובגליון אוגוסט מובאים הזוכים בתחרות הפוסטרים השנתית של האיגוד האמריקני לסטטיסטיקה – הנערכת בקרב תלמידי בתי הספר בארה"ב. מה שמראה שלא צריך להיות רופא, או סטטיסטיקאי, כדי "לעשות" סטטיסטיקה טובה. צריך רק לרצות. הנה טעימה: הזוכה במקום הראשון בקרב תלמידים מכיתות א עד ג:

נשלח: 12 בספטמבר, 2010. נושאים: חינוך, כלכלה וחברה, מדע, מה אומרת הסטטיסטיקה, ספורט.
תגובות: 2 | טראקבק

מקבץ (2) – מוקדש לפול התמנון

מקבץ השבוע מוקדש לפול התמנון.

מי שלא יודע, פול התמנון חי לו בגן חיות אי שם במזרחה של גרמניה, ובמקביל לעיסוקים השגרתיים של גן החיות פיתח לו קריירה של אוראקל החוזה את תוצאות משחקיה של נבחרת גרמניה במונדיאל. לפני שעה קלה השלים פול מונדיאל מוצלח יחסית, בו ניבא ללא טעות את תוצאות כל שבעת המשחקים של נבחרת גרמניה. מוצלח "יחסית", כתבתי, כיוון שעתידו עדיין לוט בערפל, לאור הניבוי של הפסד גרמניה לספרד בחצי הגמר.

עוד לפני המשחק הגורלי (לעתידו של פול) מול ספרד ביקש ממני במייל גדי איידלהייט להתייחס לנושא בבלוג. הסתפקתי בטוויט, בו כתבתי כי יש סיכוי די גבוה שמתישהו איפהשהו תמנון או חיה אחרת תצליח לנחש סדרה של תוצאות משחקים. על הגירפה שלא הצליחה לנחש אף תוצאה, לעומת זאת, אף אחד לא מדווח. וזה בסך הכל תמצות של 140 תווים לרשימה שכתבתי בעקבות האירוע "יוצא הדופן" שאירע בלוטו הבולגרי.

הנה עוד כמה התייחסויות של פול השבוע ברשת:

דויד שפיגלהלטר מהבלוג understanding uncertainty נטען טיעון דומה לשלי, לפיו יש כאן הטיית פרסום, ומשום מה כל היצורים הימיים החוזים כי צפון קוריאה תזכה בגביע סובלים מהתעלמות התקשורת.

וילאים בריגס מדווח על מני, התוכי מסינגפור, שחזה נכונה את כל ארבע הנבחרות שהגיעו לחצי הגמר. אבל גם בריגס קובל על התעלמות התקשורת מבני הבולדוג וסמי הסנאי שהתחזיות שלהם היו קצת פחות מוצלחות. בריגס גם חישב ומצא כי אם יש 200 חיות המנסות לנחש תוצאות של שבעה משחקים, וכל אחת מהן מנחשת את התוצאה הנכונה של כל משחק בהסתברות של 50%, הרי יש הסתברות של 93% כי אחת מהן תצליח לנחש שבע תוצאות נכונות.

ולסיום, הנה עוד מתחרים לפול התמנון: שני מתמטיקאים מאוניברסיטת לונדון פיתחו מודל המשתמש בתורת הגרפים כדי לחזות את נצחונה של ספרד על הולנד בגמר, מחר. כיוון שלפני שבוע דיווחתי כאן על מתמטיקאי סקוטי שחוזה את נצחונה של הולנד, אני מעז להעלות כאן תחזית שבודאי תתגשם: מישהו מהחוזים האלה יטעה.

נשלח: 11 ביולי, 2010. נושאים: הממ... מעניין..., מה אומרת הסטטיסטיקה, ספורט.
תגובות: 5 | טראקבק

מקבץ

מי שעוקב אחרי הבלוג הזה בטח כבר שם לב שלאחרונה אין לי כח לכתוב פוסטים מושקעים, עקב עייפות החומר והרוח. זה לא אומר שהבלוג הולך למות, ואני בהחלט מקווה לחזור ולכתוב בהרחבה על נושאים שברומו של הבלוג.

זה לא אומר שנעלמתי לחלוטין. מי שעוקב אחרי בטוויטר רואה את הגיגיי ולינקים שונים שאני מפרסם. מאחר ואני יודע כי כאן בבלוג יש יותר קוראים מאשר עוקבים בטוויטר, הנה מקבץ לינקים שפרסמתי בזמן האחרון, שעוסקים בעיקר בשלושה נושאים: סטטיסטיקה, כדורגל (לכבוד המונדיאל), וסטטיסטיקה וכדורגל.

נתחיל בסטטיסטיקה.

בעיר סן-דייגו בקליפורניה ניתן לאסוף חתימות של 15% מבעלי זכות הבחירה ובכך לכפות העלאת נושא להצבעה במעין "משאל עם" עירוני. הצעה שעוסקת בהפרטת שירותים עירוניים זכתה לתמיכה של כ-135000 חתימות, כ-40000 יותר מהדרוש. האם הנושא יועלה להצבעה? לא. בדיקה מדגמית ל כ-4000 מהחתימות גילתה כ-30 חתימות כפולות. המסקנה המפתיעה את מי שלא מבין סטטיסטיקה: נאספו למעשה רק כ-74000 חתימות כשרות ההצעה נפלה.
ג'ף סלואן, עורך במגזין compositesworld כותב "המלצה נדירה על ספר שיצא לאחרונה אודות אירועים נדירים שבקושי עונים על ציפיותינו" (באנגלית זה הרבה יותר טוב). הספר המדובר הוא "הברבור השחור" מאת נסים טאלב. אני קורא כרגע את הספר, ומתלהב פחות. מקוווה לכתוב על התרשמותי.
מי רוצה להיות ביוסטטיסטיקאי? מאמר במגזין של האיגוד האמריקני לסטטיסטיקה.
אנדרו גלמן מאוניברסיטת קולומביה סוקר כמה מהמאמרים הקלאסיים של הסטטיסטיקה.
עוד מאמר על אשליית זיכויי הזכיה בלוטו, הפעם בוואנקובר סאן.
מאמר על חייו ופועלו של ואלודי וייבול, האיש שהתפלגות וויבול קרויה על שמו, במלאות 123 להולדתו, וזאת באתר המוקדש להתפלגות וייבול ויישומיה.
והנה מאמר על חייו ופועלו של סיר פרנסיס גאלטון, שהיה, בין היתר, אחד מחלוצי הסטטיסטיקה המודרנית.
בנמל התעופה של וושינגטון הדלתות האוטומטיות נסגרות ומכות שוב ושוב במזוודות של הנוסעים. הנזק המצטבר על הדלתות הוא בצורת הפעמון המפורסם של ההתפלגות הנורמלית.

ונעבור לכדורגל.

מתי שתי הקבוצות המשחקות רוצות להבקיע שער עצמי? הסיפור מתואר בבלוג הכלכלי "marginal revolution", ולמאותגרי אנגלית הוא מתורגם לעברית בבלוג של שמוליק.
10 השערים המוזרים ביותר. מעניין לראות את הבדלי התרבויות בין הולנד (איפופה, לצורך העניין) וברזיל (או דרום אמריקה). בשער השני ברשימה, שחקן הולנדי מבקיע שער בטעות (הוא התכוון לבעוט את הכדור החוצה כדי לאפשר טיפול בשחקן פצוע של הקבוצה היריבה, אך הכדור נחת ברשת). כשהמשחק מתחדש, הקבוצה שהבקיעה נותנת ליריבה להבקיע שער משלה כדי להחזיר את המצב לקדמותו. בשער מספר שלוש, לעומת זאת, במשחק שנערך בברזיל, כדור שנבעט לשער יוצא החוצה, אך מישהו שעומד ליד השער לוקח את הכדור ומשליך אותו לתוך הרשת. השופט פספס את כל המהלך וראה רק כדור ברשת, וממהר לשרוק שער. שחקני הקבוצה שזכתה בשער מן ההפקר מרימים ידיים בשמחה. אף אחד לא מעלה בדעתו לגשת לשופט ולהגיד לו "שמע, זה לא באמת גול". אז מי שחשב שההצגה של ריוואלדו ב-2002 שגרמה להרחקת שחקן יריב על לא עוול בכפו, או השער שהבקיעה ברזיל במונדיאל הזה תוך שימוש ביד של אחד משחקניה הם סתם מקרים, שיחשוב שוב. זו תרבות. זה בא מלמטה.

ואסיים, כמובטח, בסטטיסטיקה וכדורגל: מאמר שהופיע בעיתון סקוטי מתאר מודל סטטיסטי המנבא כי הולנד תזכה במונדיאל הקרוב. המאמר הופיע לפני הנצחון של הולנד על ברזיל. טוב, לנסים טאלב בטח יש מה להגיד על הניבוי הזה (וגם לי), אבל כרגע הסיכויים של הולנד הרבה יותר גדולים מאלה של ברזיל, וגם זה משהו.

נשלח: 3 ביולי, 2010. נושאים: הממ... מעניין..., מה אומרת הסטטיסטיקה, ספורט.
תגובות: 4 | טראקבק

הפעם הראשונה שלי

זמן קצר לאחר שהגעתי לשיקגו, בקיץ 1996, נסענו אני ומשפחתי לבקר מכרים ישראלים שגרו ברחוב שפילד בעיר. הם הציעו שנצא לערוך סיור רגלי בשכונה, וכך עשינו. להפתעתי הרבה, במרחק כמה בלוקים ממקום מגוריהם, ניצב לו אצטדיון. זהו ריגלי פילד, האצטדיון של קבוצת הבייסבול של שיקגו, הקאבס, הם הסבירו לנו. הם ניצחו היום, הוסיף המארח, והצביע על הדגל שהתנוסס מעל האצטדיון, דגל לבן שעליו אות W כחולה. בייסבול, את מי זה מעניין? חשבתי לעצמי.

לשעריו של אותו אצטדיון נכנסתי לראשונה כעשרה חודשים מאוחר יותר, ב-3 ביוני 1997. לא שהתאריך הזה נחרט בזכרוני. שחזרתי אותו לכבוד הרשימה הזו, בעזרת כמה פרטים שדליתי מזכרוני והצלבה עם נתונים מאתר baseball-reference.com . אני כן זוכר שזה יום אביבי, חמים למדי, השמש זרחה. המשחק היה משחק יום, כלומר התחיל בשעת אחר הצהריים מוקדמת. הגעתי למשחק בחברת חבריה לעבודה של אשתי דאז, שהזמינו אותנו להצטרף אליהם. התמקמנו במרומי היציע הדרומי של האצטדיון שהיה ריק ברובו, ושיפרנו עמדות בהמשך והתמקמנו סמוך לאזור ה-right field. אחד המלווים שלנו הסביר לנו ממש בקצרה את חוקי המשחק, ומצוידים בידע הזה התחלנו לצפות. היו לי שני חששות עיקריים לקראת המשחק. ראשית, האם נספיק לאסוף את הילדים בזמן מהמעון. שנית, מה אעשה במשך כל הזמן הזה, זה אמור להיות משחק נורא משעמם, והוא אמור להמשך כשעתיים וחצי.

אובייקטיבית, כמעט 13 שנה לאחר מכן, המשחק הזה היה אכן משעמם. הקבוצה שהתמודדה מול הקאבס היייתה הפיטסבורג פיראטס. הקאבס אמנם ניצחו את הפירטים מפיטסבורג יום קודם לכן, ומאזנם עמד טרם תחילת המשחק על 23 נצחונות ו-32 הפסדים, מה שהציב אותם במקום הרביעי (מתוך 5) בבית המרכזי של הנשיונל ליג. לפירטים היה מאזן של 27 נצחונות ו-28 הפסדים, שהספיק להם כדי להתנחל במקום הראשון של אותו בית. אז במובן מסויים, זה היה משחק קצוות. מצד שני, העובדה שאפילו לקבוצה שהובילה את הבית היה מאזן שלילי לא הבטיחה רבות לגבי איכות המשחק הצפויה (לא שידעתי את זה אז). מהצד החיובי, הקאבס היו דווקא בתקופה טובה, עם מאזן של 23 נצחונות ו-18 הפסדים בחודש וחצי האחרונים, בהחלט שיפור ביחס לשלושת השבועות הראשונים של העונה שנפתחה ב-14 הפסדים רצופים.

פרטים רבים וחשובים מהמשחק הזה אני לא זוכר, והם ידועים לי רק מתיעוד המשחק באתר בייסבול רפרנס נקודה קום. הפיצ'ר הפותח של הקאבס היה סטיב טראשל, אותו סטיב טראשל ששנה לאחר מכן העלה את הקאבס במו ידיו לפלייאוף, בתצוגה מבריקה מול הסן פרנציסקו ג'יאנטס. על הבסיס השני של הקאבס שיחק אחד מאגדות הבייסבול, ריין סנדברג, שלבש ככל הנראה את חולצה מספר 23 של הקאבס, שכיום איש אינו מורשה ללבוש אותה. זו הייתה העונה האחרונה שבה סנדברג שיחק לפני שפרש סופית, וכך אני יכול לומר היום כי ראיתי אותו בפעולה על המגרש. עוד אגדת קאבס שלא הייתי מודע לקיומה באותה עת היה מארק גרייס, ששיחק על הבסיס הראשון. אותו זכיתי לראות משחק במדי הקאבס עוד כמה פעמים.

מספרי החולצות של וויליאמס וסנדברג שהוצאו לפנסיה. שום שחקן של הקאבס לא יורשה ללבוש את חולצה מספר 23. מספר זה שייך לריין סנדברג.

אני דווקא כן זוכר את אחד השחקנים ששיחקו באותו משחק, כיוון ששמו שיעשע אותי. הוא הזכיר לי תכנית ילדים ששודרה בטלויזיה הישראלית בסוף שנות השישים.

סמי סוסה

עוד אירוע שנחרט בזכרוני מהמשחק הזה: באמצע הסיבוב השביעי, כל הקהל קם על רגליו ופצח בשירה. לא הבנתי מה קורה. המארח שלנו ניסה להסביר לנו במהירות על המסורת של השירה באמצע הסיבוב השביעי, אבל בהחלטה מהירה העדיף קודם כל להצטרף לשירה, ולהסביר לנו אחר כך מה קרה כאן.

למי שממש מתעניין, הנה מהלך המשחק: הפיראטס עלו ליתרון 1:0 בתחילת הסיבוב השלישי. הקאבס הגיבו מייד בהום ראן שהשווה את התוצאה ל-1:1, אך השוויון לא נשמר זמן רב, כי כבר בסיבוב הרביעי עלו הפיראטס ליתרון 2:1. בסיבוב התשיעי הגדילו הפיראטס את יתרונם ל-3:1, לקול שריקות בוז שקיבל הפיצ'ר המחליף מל רוחס (דווקא אותו אני זוכר מהמשחק הזה, ולא, לא מגיע לו לינק). כל הסיפור נמשך שעתיים וחצי, הגענו לגן בזמן.

מדהים שבכל זאת הפכתי לחובב בייסבול למרות החוויה המתסכלת הזו.

נשלח: 11 בפברואר, 2010. נושאים: בנימה אישית, ספורט.
תגובות: 6 | טראקבק

מה רע בקצת סטרואידים?

עולם הבייסבול הזדעזע קלות השבוע. מרק מגווייר, בעבר כוכב הסנט לואיס קרדינלס וכיום מאמן החובטים של הקבוצה, התוודה והודיע כי השתמש בסמים אסורים (סטרואידים וכולי) שסייעו לו לשבור בשנת 1998 את שיא ההום ראנס ההיסטורי של רוג'ר מאריס (61 הום ראנס) ולהעמידו של 70 הום ראנס. (השיא, דרך אגב, החזיק מעמד במשך שלוש שנים בלבד. בארי בונדס חבט 73 הום ראנס בשנת 2001, ככל הנראה גם בעזרת סטרואידים).

הוידוי המפתיע (בעל התוכן המאוד לא מפתיע) של מגווייר מספקים לי הזדמנות למלא הבטחה שנתתי כאן לפני כשמונה חדשים, לאחר שכוכב בייסבול אחר, מני רמירז, הושעה לחמישים משחקים עקב שימוש בסמים אסורים. מה בכלל לא בסדר בשימוש בסמים? למה לא להרשות לספורטאי שרוצה בכך להלעיט את גופו בסטרואידים, הורמוני גדילה ושאר ירקות, ובכך לשפר את יכולותיו? התשובה, רמזתי אז, מגיעה מתחום הכלכלה. עתה אביא אותה במלואה.

לפני שאמשיך, אציין כי ההסבר שיובא כאן מתבסס על פרק מספרו של ג'יי סי ברדבורי: "כלכלן הבייסבול", ואני רק מביא את הדברים בשם אומרם (אם כי בהמשך אחווה גם את דעתי בנושא).

סטרואידים, אומר ברדבורי, הם רק עוד דרך לשיפור הביצועים (של הספורטאי), כמו שמירה על תזונה נכונה או אימונים מרובים. ובכל זאת אנשים נוטים להתייחס בצורה שונה (ושלילית) כלפי ספורטאים שמשתמשים בהם. טענה אחת היא שהסטרואידים "אינם טבעיים". ברדבורי טוען שזה לא העניין. התערבויות "לא טבעיות" אחרות, כגון ניתוחים למיניהם (החל בניתוחי לייזר לשיפור הראיה וכלה בניתוח "טומי ג'ון"), זריקות קורטיזון וכדומה נחשבות כלגיטימיות. גם הטענה כי שימוש בסמים למינהם אינה לגיטימית כי אנשים "רגילים" אינם משתמשים בחומרים ממריצים נדחית על ידי ברדבורי: ניקוטין, קפאין וסוכר הם כולם סטימולנטים לגיטימיים שנמצאים בשימוש נרחב. אענה אפשרית נוספת היא שסטרואידים למינהם מסכנים את בריאות הספורטאים. גם אם זה נכון, אומר ברדבורי, זה לא צריך לשנות. זכותו של כל אחד לקחת על עצמו סיכונים. העיסוק בבייסבול עצמו הוא מסוכן (אחרי הכל, מישהו שעומד במרחק של 18 מטר ממך זורק לעברך כדור שמשקלו 150 גרם במהירות של כ-150 קמ"ש). ואם באמת הדאגה לבריאות השחקנים חשובה, עדיף לאסור עליהם לעשן ולצרוך אלכוהול, זה יועיל להם הרבה יותר.

הבעיה העיקרית, טוען ברדבורי, היא שהחלטה של שחקן להשתמש בסטרואידים משפיעה גם על השחקנים האחרים. שחקן שמשתמש בסטרואידים משפר את ביצועיו, ועקב כך ישפר ככל הנראה גם את שכרו. מי שייפגע עקב כך הם שחקנים אחרים, שרמת משחקם דומה לשחקן שמשתמש בסטרואידים, ששכרם ייפגע, אם באופן מוחלט ואם באופן יחסי לאותו שחקן סורר. מה יכולים אותם שחקנים לעשות כדי לסגור את הפער? לקחת סטרואידים גם הם. ובסופו של דבר, נגיע למצב בו כולם (או כמעט כולם) לוקחים סטרואידים, והיתרון של שימוש בסטרואידים מתבטל. אשתמש בפרפרזה על לואיס קרול: נוצר מצב שבו כולם רצו בכל הכח קדימה וכולם נשארו במקום. זהו מצב קלאסי של דילמת האסירים.

עד כאן עיקרי טיעוניו של ברדבורי.

אין לי ביקורת על הניתוח המתמטי של ברדבורי, הוא מדוייק לחלוטין. הבעיה שלי עם ברדבורי היא שהוא טוען שההסבר הרציונלי שנתן הוא היחיד התקף. הנימוקים שנתן נגד הטענות המקובלות (לא טבעי, לא לגיטימי, וכולי) הם נכונים ורציונליים, אבל האם רק השיקולים הרציונליים תקפים? ומה בדבר המושג הבסיסי של "הוגנות"? האם הוא לא משחק תפקיד? אני חושב שכן, ברדבורי לא התייחס לכך.

עוד בעיה עם הטיעונים של ברדבורי: הוא מניח שגודל העוגה נשאר קבוע. בפועל, במהלך תקופת הסטרואידים בבייסבול חל סחרור שדחף את משכורות כל השחקנים כלפי מעלה, כולל את משכורותיהם של אלה שלא השתמשו בסטרואידים. השחקנים הרוויחו בגדול, למגינת ליבם של בעלי הקבוצות. הסטרואידים השתלמו לשחקנים. מי שבאמת מתנגד לסטרואידים הם בעלי הקבוצות.

ובואו לא נשכח – אין ספק שהמשחק היה מלהיב יותר בשיא תקופת הסטרואידים. גרתי בשיקגו בתקופת המירוץ לשבירת שיא ההום ראנס שנערך בין מרק מגווייר לסמי סוסה. זו הייתה תקופה נפלאה. דיבורים על סטרואידים היו גם אז, אבל לאף אחד לא היה איכפת. זכיתי לראות את שני השחקנים האלה בפעולה, ואף הייתי אחד מבין כ-40000 העדים להום ראן מספר 60 של סוסה. הספורט המקצועני הוא בראש ובראשונה בידור, ובסוף שנות התשעים גם בעלי הקבוצות הרוויחו מהשימוש בסטרואידים, ולכן כולם עצמו את עינהם. ההתעוררות חלה כאשר בעלי הקבוצות הבינו כי הנזק הכספי הצפוי להם בטווח הארוך עקב העליה בשכר השחקנים עולה על הרווחים של הטווח הקצר.

נשלח: 15 בינואר, 2010. נושאים: הממ... מעניין..., ספורט.
תגובות: 22 | טראקבק

על בייסבול, גרפיקה והימורים

פיד הרסס של del.ico.us שמסנן את כל הלינקים שתויגו תחת סטטיסטיקה והומור הינו משעממם למדי. גולשים מתייגים שוב ושוב את אותם לינקים, שבדרך כלל לא קשורים לסטטיסטיקה, וגם לא ממש מצחיקים (אותי לפחות). ובכל זאת, לפעמים אני מצליח לדוג שם דברים מעניינים.

הנה למשל הלינק Flip Flop Fly Ball. לא תמצאו סטטיסטיקה, וגם לא שום דבר הומוריסטי, אבל הוא בכל זאת יכול להעלות לכם חיוך על השפתיים, בייחוד אם אתם אוהבים תיאורים גרפיים של נתונים או בייסבול (או שניהם, כמובן). הנה למשל דיאגרמה שעונה לשאלה האם קבוצת הביססבול קליבלנד אינדיאנס אכן ראויה לשמה. הדיאגרמה שמשמאל מראה את שיעורם של התושבים האמריקניים-ילידים בתוך אוכלוסיית קליבלנד. הדיאגרמה הנוספת שמוצגת כאן משווה בין אספקטים שונים של 30 האיצטדיונים של המייג'ור ליג (MLB). לחצו על התמונה כדי לעבור לאתר פליפ פלופ ולצפות בפרטים.

את התיאורים הגרפיים האלה יצר קרייג רובינסון, חובב בייסבול מסיאטל, שלא מגביל את עצמו לבייסבול, ויוצר תיאורים גרפיים של נתונים מענפי ספורט נוספים. אם תמשיכו לשוטט באתר שלו, תמצאו עוד הרבה דברים מעניינים אחרים. אני למשל התלהבתי מהתמונה הזו, שנמצאת בפליקר שלו. זהו צילום של הלוח האלקטרוני בסיטי פארק של ניו-יורק, האיצטדיון החדש של הניו-יורק מטס:

בתמונה אתם רואים שתי פרסומות שונות שהופיעו באותו זמן על הלוח, האחת לחברת ביטוח והשניה לקזינו, שתי תעשיות שהמודל העסקי שלהן בנוי על הסטטיסטיקה, אולם ההבדל בינהן הוא… אממממ…

נשלח: 1 ביולי, 2009. נושאים: הימורים, ויזואליזציה, ספורט.
תגובות: 6 | טראקבק