חיפוש באתר

קישורים

עמודים

RSS סטטיסטיקה ברשת

תגים

בחירות ביוסטטיסטיקה בייסבול בנימה אישית בריאות גרפים דו"ח העוני דילמת האסירים הומור הומיאופתיה הימורים היסטוריה המשפטים הגדולים של הסטטיסטיקה הסתברות השכלה גבוהה חברה חידות חינוך חשבון יישומים כלכלה מדגם מדע מונטי הול מחקרים מירב ארלוזורוב ממוצע מצחיק משרד האוצר מתאם מתמטיקה ניהול סיכונים ניסויים קליניים סטטיסטיקה ספורט ספרים סקרים עיוות נתונים קבלת החלטות שכר שכר לימוד תאונות דרכים תורת המשחקים תקשורת p-value

ארכיב עבור 'הממ… מעניין…'

מקבץ 4

שלום לכולם. הפעם מקבץ ארוך למדי, עקב משך הזמן הארוך מאז המקבץ הקודם.

  • השבוע צוינו 100 שנה למותה של פלורנס נייטינגייל.
  • בעיית המעטפות (עליה כתבתי לפני כשנתיים)  הרימה שוב את ראשה, הפעם בבלוג של וייאם בריגס, שהקדיש שתי רשימות לנושא. את הרשימה הראשונה אפילו קראתי. (המשך הפריט גולש לפרטים טכניים, אז מי שלא מעוניין מוזמן פשוט לדלג עליו). בתחילה בריגס מציג את החישוב השגוי לפיו החלפת המעטפות תביא לתוחלת רווח של 1.25X (כאשר  X הוא הסכום במעטפה שקיבלת), ולכן מתקבלת המסקנה הפרדוקסלית לפיה כדאי להחליף את המעטפה שוב ושוב ושוב. אולם בריגס אינו מסיק מכך כי יש לנסות לערוך את החישוב בצורה נאותה יותר. המסקנה של בריגס היא שיש להשליך את התוחלת לכל הרוחות בבעיות החלטה (טוב, הוא השתמש במלים קצת יותר מעודנות). וכיוון שכך, הוא פונה מייד אל העולם הבייסיאני (הבייסיאניים לא משתמשים בתוחלת? אלה חדשות אפילו בשבילי), ומתחיל להציג שלל פתרונות מהסוג שגרמו לי לא להתלהב מהענף הזה של הסטטיסטיקה. עלי לציין כי הגבתי לרשימה וציינתי מהיכן מגיע הפרדוקס, ומדוע תוחלת הרווח מהחלפת המעטפות היא אפס (ולכן לא משנה אם מחליפים או לא). בתגובה בריגס דרש ממני "להוכיח" (?!) כי החישוב שלו לפיו התוחלת היא 1.25X אינו נכון. אני לא מבין את זה. הוא הוא יטען כי 2 ועוד 2 שווים ל-5 ואני אטען כי התשובה הנכונה היא 4 (למניעת תשובות מתחכמות – אני מדבר על שדה הממשיים), האם אדרש להוכיח כי התשובה 5 אינה נכונה? בריגס הוסיף וטען כי התוחלת הוא מושג שכיחותי (frequentist) ואילו ניסוי המעטפות נערך פעם אחת בלבד, ולכן מושג התוחלת אינו תקף. אני לא מבין את הטיעון הזה. ואם נערוך סדרה של ניסויים זהים, אז הטיעון שלי יהיה תקף לפתע? אשמח למי שיאיר את עיניי. את הרשימה השניה של בריגס כבר לא קראתי, אבל אתם מוזמנים.
  • נתן יאו מהבלוג Flowing Data העוסק בויזואליזציה של נתונים כתב רשימה על 7 הכללים הבסיסיים ליצירת גרפים ותרשימים. 7 הכללים הם: בדוק את הנתונים, הסבר את הקידוד, הוסף תוויות לצירים, ציין את יחידות המדידה, שמור על פרופרציות גיאומטריות נכונות, ציין את מקור הנתונים, וזכור מי קהל היעד שלך. כעת פוצח יאו בסדרה של שבע רשימות שתסביר ביתר פירוט את כל אחד מהכללים. הנה הלינק לרשימה הראשונה בסדרה: בדוק את הנתונים.
  • שמוליק הביא בבלוג שלו דוגמא בה הכלל החמישי של יאו מופר בגסות.
  • והנה הצגה גרפית יפה (בוושינגטון פוסט) המשווה בין תכניות המס של שני נשיאי ארה"ב האחרונים, בוש ואובאמה.
  • רנדום ג'ון מדווח על הרצאה של פרנק הארל בכנס useR!  שעסקה ב"אלרגיה לאינפורמציה". תופעה זו באה לידי ביטוי בהתנגדות להשיג אינפורמציה הדרושה לקבלת החלטה נכונה ובהתעלמות מאינפורמציה חשובה וזמינה. הוא מביא לינק למצגת של גירסה יותר ישנה של ההרצאה.
  • ועוד דיווח מכנס: ג'ון ג'ונסון מחברת קאטו מדווח על התובנות שלו מכנס JSM2010 שנערך בואנקובר בתחילת החודש.
  • למתעניינים בכריית נתונים (שלאחרונה הצטרפתי לשורותיהם): ג'ון אלדר כותב על עשרת הטעויות האפשריות הגדולות ביתר בדאטה מיינינג. כשערך את ספירת המלאי גילה שיש לו למעשה 11 טעויות ברשימה. הפתרון שלו: הן דורגו החל מ-0 ועד 10. זה לא רעיון מקורי. גם בליגת המכללות הנקראת "Big10" יש 11 מכללות (שימו לב ללוגו).
  • וזה לא שייך למקבץ, אבל הפריט הקודם הזכיר לי אנקדוטה על המתמטיקאי נורברט ווינר, אולי האבטיפוס של דמות הפרופסור המפוזר. באחת הפעמים שעבר דירה, ביקשה ממנו אשתו לברר כי אל הדירה החדשה הגיעו 10 מזוודות. ווינר חזר ודיווח לרעייתו כי ספר 9 מזוודות בלבד, והדגים בנוכחותה את הספירה החוזרת: 0, 1, 2,…
  • כריסטיאן רוברט (Xian) מאוניברסיטת דופין בפריז החליט להעביר סמינר על המארים הקלאסיים של הסטטיסטיקה. כדי להחליט אלו מאמרים ילמדו בסמינר, הוא ערך סקר בין קוראי הבלוג שלו. בין המועמדים: מאמרם הקלאסי של ניימן ופירסון, מאמרו של ברדלי אפרון (מספר 8 ברשימת 15 הסטטיסטיקאים הגדולים שערכתי), מאמרו של קוקס (מספר 10) על ניתוח השרדות, ועוד רבים וטובים. בולטים בהעדרם מהרשימה  מאמר כלשהו מאת פישר (עליו כתבתי כאן רבות, הקישור לביוגרפיה קצרה שכתבתי עליו בפורום מתמטיקה של התפוז) ומאמרו של בייס (עליו כתבתי ברשימה "הכוכב, הסמים והכומר"). כשצפיתי בתוצאות הסקר הופתעתי: המאמר של ניימן ופירסון הגיע רק למקום החמישי, אותו הוא חולק במשותף עם מאמרו של הייסטינגס על שיטת MCMC. למקום הראשון הגיע מאמרו של אפרון על שיטת הבוטסטרפ; במקום השני: דמפסטר, ליירד ורבין במאמרם על שאלגוריתם EM. שלישי היה מאמרו של רוברט טיבשירני על שיטת הלאסו, ובמקום הרביעי – ישראל על המפה: מאמרם של יוסי הוכברג ויואב בנימיני מאוניברסיטת תל אביב על גישת ה-FDR  לבדיקת השערות מרובות.
  • תמר בן יוסף כותבת על התייקרות הדירות בישראל, ובפרט על הקשיים והכשלים במדידת מחירי הדירות.
  • בבלוג עבודה שחורה כותב יפתח גולדמן על סקר שערך משרד התמ"ת אודות התפלגות השכר בישראל ומסקנתו: התפלגות השכר מוּטה, והשכר הממוצע לא מייצג את התפלגות השכר במשק. קוראי הבלוג הותיקים, שקראו את רשימתי על המנהל והפועלים, בודאי לא מופתעים.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

כמה מצלמות אבטחה יש בבריטניה?

הנושא ישן (כפי שהתברר לי). הגעתי אליו משני כיוונים שונים. במגזין כלכליסט מהשבוע שעבר הובא ראיון עם נביא זעם בשם ג'ון קמפנר, שדן ב-"עיסקה הפופולרית בעולם", לדבריו, "במסגרתה אנחנו מוכרים את כל החירויות שלנו רק כדי לשמור על החופש להרוויח". דבריו של קמפנר אכן מעוררים מחשבה, וראויים לדיון נפרד, אבל אני רוצה להטפל רק לדוגמא אחת שהובאה בכתבה (כנראה על ידי הכתב אורי פסןבסקי, ולא על ידי קמפנר עצמו). בבריטניה, נטען, יש כ-5 מליון מצלמות אבטחה, מצלמה אחת לכל 12 תושבים. האח הגדול כבר כאן.

הידיעה הזו אינה חדשה. כבר ביולי 2008 דיווח יוסי גורביץ בכלכליסט כי "4.2 מיליון מצלמות במעגל סגור מותקנות בבריטניה, מצלמה על כל 14 תושבים". עברו שנתיים, נוספו עוד 800,000 מצלמות. נשמע הגיוני.

לנושא הזה הגעתי גם מכיוון אחר לגמרי. בכנס בואנקובר בו הייתי בשבוע שעבר חילקה הוצאת וויילי חוברות ישנות של המגזין Significance , שמוציאה לאור האגודה המלכותית לסטטיסטיקה (החל מהחודש, בשיתוף עם האיגוד האמריקני לסטטיסטיקה, וכך נעשיתי למנוי על המגזין). בחוברת של דצמבר 2009 הובאה כתבתה של אליס טרלטון  מערוץ 4 של ה-BBC, שכותרתה: "כמה מצלמות אבטחה?". הכתבה זכתה בפרס למצויינות סטטיסטית בעיתונות המוענק על ידי האגודה המלכותית לסטטיסטיקה. הלינק האחרון מוביל לכתבה באתר של ערוץ 4. אני אתאר מייד את עיקר הממצאים.

ובכן, איך הגיעו למספר של 4.2 מליון מצלמות אבטחה?

הכל התחיל במאמר שפרסמו ביוני 2002 שני חוקרים (קישור לקובץ pdf), מייקל מקהייל מאוניברסיטת האל וקלייב נוריס מאוניברסיטת שפילד. כל מה שצריך זה לקרוא את המאמר, וזה בדיוק מה שעשתה טרלטון. החוקרים סקרו שני רחובות מרכזיים בלונדון: Putney High Street (פוטני) ו-Upper Richmond Road (ריצמונד). הם דגמו 211 בתי עסק בשני הרחובות, ומצאו כי ב-41% מהם מותקנות מצלמות אבטחה, ובממוצע יש בכל מערכת 4.1 מצלמות. בלונדון יש כרבע מליון בתי עסק. הכפלה של 3 מספרים נתנה תוצאה של כ-422 אלף מצלמות. למספר זה הוסיפו החוקרים את הערכתם למספר המצלמות הנמצאות באזורים ציבוריים : רחובות, תחבורה ציבורית, בתי חולים וכו'. הם העריכו את מספרן של מצלמות אלה (והשתמשו בפירוש במילה "guesstimate" – שילוב של אמדן וניחוש) בכ-80 אלף, וכך הגיעו למספר כולל של כחצי מליון מצלמות בלונדון. ומכיוון שבלונדון יש כ-7 מליון תושבים, המסקנה היא שיש בלונדון מצלמת אבטחה אחת לכל 14 תושבים. ואם זה בלונדון, זה גם בכל בריטניה, לא?

אז זהו, שלא.

קודם כל, יש לשים לב לשונות בין שני הרחובות שנסקרו. ברחוב פוטני נמצאו מצלמות ב-49% מבתי העסק, בריצמונד ב-34% בלבד. ייתכן כי רחוב ריצמונד הוא המייצג את המצב בלונדון, ואז נופלת הערכת מספר המצלמות בלונדון ב-30%, ל-350 אלף מצלמות בלבד. מצד שני, ייתכן כי דווקא רחוב פוטני הוא המייצג, ואז ההערכה של מצלמה ל-14 תושבים היא הערכת חסר. מה שיותר סביר הוא ששני הרחובות האלה גם יחד אינם מהווים מדגם מייצג מספיק. קל לברר, וטרלטון עשתה זאת, כי תמהיל העסקים בשני הרחובות האלה שונה מהותית מתמהיל העסקים הכללי בלונדון. ה"מדגם" לא ממש מייצג. מה ששני החוקרים קיבלו הוא לכל היותר הערכה של מספר המצלמות בשני הרחובות שסקרו (בהנחה שמדגם בתי העסק שלקחו ברחובות האלה היה מייצג). האקסטרפולציה שעשו משם אל לונדון, ואח"כ אל כל הממלכה המאוחדת, לא ממש ולידית.

טרלטון מצאה דרך אחרת להעריך את מספר מצלמות האבטחה בבריטניה. היא פנתה אל קבוצת משתמשי מצלמות האבטחה בבריטניה. הם הודו שהם לא יודעים את המספר המדויק, אך העריכו (שוב guesstimate) כי מספרן הוא לא יותר ממליון ורבע בכל בריטניה.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

מקבץ 3

במקבץ השבוע גם כמה קישורים מהשבוע הקודם שנדחו בגלל פול התמנון.

  • ב-7 ביולי צוין יום השנה ה-104 להולדתו של הסטטיסטיקאי וחוקר תורת ההסתברות ויליאם פלר. צייצתי את המאורע בתוספת הערה כי "מי שלא ציטט את ספרו של פלר בעבודת המאסטר או הדוקטורט שלו, לא באמת עשה תואר בסטטיסטיקה". טוב, אולי קצת הגזמתי, אבל הספר אכן מצוטט בעבודת המוסמך שלי.
  • כאשר ערכתי את רשימת 15 הסטטיסטיקאים הגדולים כללתי בה 5 סטטיסטיקאים חיים.  אחד מהם הלך לעולמו ב-8 ביולי, בגיל 91. דויד בלקוול, בנו של פועל רכבת מדרום אילינוי, אשר לימד את עצמו לקרוא, הפך לאחד הסטטיסטיקאים המשפיעים ביותר במאה העשרים. בלקוול חקר גם את תורת המשחקים, וכתב ספר לימוד פופולרי בתחום. ויליאם בריגס כותב גם הוא בבלוג שלו על בלקוול, ומתאר שם את פתרונו של בלקוול לבעית ההימורים הידועה כ-"פרדוקס סנט-פטרסבורג".
  • נניח שאתם מתכנתים קוד מחשב. ודאי שיש בו באגים. איך תדעו כמה באגים יש בו? ג'ון ד. קוק מסביר בבלוג שלו איך לעשות את זה: אפשר לבקש ממישהו לבדוק את הקוד. נניח שימצא 20 באגים. זה אומר שיש בקוד לפחות 20 באגים, אבל לא מקדם אתכם הרבה. הפתרון – לתת לעוד מישהו לבדוק את הקוד. סביר להניח שימצא חלק מהבאגים שמצא הבודק הראשון, ואולי גם יעלה על באגים אחרים. עכשיו, בעזרת קצת סטטיסטיקה, תוכלו לאמוד את מספר הבאגים שנמצאים ועדיין לא התגלו.
  • מעולם לא כתבתי מכתב אהבה כזה, אבל מלים כאלה רק סטטיסטיקאי יכול לכתוב.
  • בהמשך לפול התמנון: האם העובדה כי מישהי זכתה ארבע פעמים בלוטו "סותרת את כל הסטטיסטיקות"? ממש לא.
  • חובבי הבייסבול יודעים כי קבוצת פיטסבורג פיראטס היא אחת הקבוצות החלשות ביותר בליגת הביססבול האמריקנית (MLB). ובכל זאת, הליגה מציעה לאוהדים לרכוש אופציה לרכישת כרטיס למשחק השביעי של הפיראטים  בסדרת הגמר (ה"וורלד סירייס"), אם יהיה משחק כזה, כמובן. האם כדאי לקנות את האופציה? ואם כן, האם המחיר המוצע "משתלם"? בלוג הבייסבול FanGraphs מציג שילוב של ניתוח סטטיסטי וכלכלי, עם הסבר נאה למושג התוחלת ומשמעות האופציה.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

מקבץ (2) – מוקדש לפול התמנון

מקבץ השבוע מוקדש לפול התמנון.

מי שלא יודע, פול התמנון חי לו בגן חיות אי שם במזרחה של גרמניה, ובמקביל לעיסוקים השגרתיים של גן החיות פיתח לו קריירה של אוראקל החוזה את תוצאות משחקיה של נבחרת גרמניה במונדיאל. לפני שעה קלה השלים פול מונדיאל מוצלח יחסית, בו ניבא ללא טעות את תוצאות כל שבעת המשחקים של נבחרת גרמניה. מוצלח "יחסית", כתבתי, כיוון שעתידו עדיין לוט בערפל, לאור הניבוי של הפסד גרמניה לספרד בחצי הגמר.

עוד לפני המשחק הגורלי (לעתידו של פול) מול ספרד ביקש ממני במייל  גדי איידלהייט להתייחס לנושא בבלוג. הסתפקתי בטוויט, בו כתבתי כי יש סיכוי די גבוה שמתישהו איפהשהו תמנון או חיה אחרת תצליח לנחש סדרה של תוצאות משחקים. על הגירפה שלא הצליחה לנחש אף תוצאה, לעומת זאת,  אף אחד לא מדווח. וזה בסך הכל תמצות של 140 תווים לרשימה שכתבתי בעקבות האירוע "יוצא הדופן" שאירע בלוטו הבולגרי.

הנה עוד כמה התייחסויות של פול השבוע ברשת:

דויד שפיגלהלטר מהבלוג understanding uncertainty נטען טיעון דומה לשלי, לפיו יש כאן הטיית פרסום, ומשום מה כל היצורים הימיים החוזים כי צפון קוריאה תזכה בגביע סובלים מהתעלמות התקשורת.

וילאים בריגס מדווח על מני, התוכי מסינגפור, שחזה נכונה את כל ארבע הנבחרות שהגיעו לחצי הגמר. אבל גם בריגס קובל על התעלמות התקשורת מבני הבולדוג וסמי הסנאי שהתחזיות שלהם היו קצת פחות מוצלחות. בריגס גם חישב ומצא כי אם יש 200 חיות המנסות לנחש תוצאות של שבעה משחקים, וכל אחת מהן מנחשת את התוצאה הנכונה של כל משחק בהסתברות של 50%, הרי יש הסתברות של 93% כי אחת מהן תצליח לנחש שבע תוצאות נכונות.

ולסיום, הנה עוד מתחרים לפול התמנון: שני מתמטיקאים מאוניברסיטת לונדון פיתחו מודל המשתמש בתורת הגרפים כדי לחזות את נצחונה של ספרד על הולנד בגמר, מחר. כיוון שלפני שבוע דיווחתי כאן על מתמטיקאי סקוטי שחוזה את נצחונה של הולנד, אני מעז להעלות כאן תחזית שבודאי תתגשם: מישהו מהחוזים האלה יטעה.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

מקבץ

מי שעוקב אחרי הבלוג הזה בטח כבר שם לב שלאחרונה אין לי כח לכתוב פוסטים מושקעים, עקב עייפות החומר והרוח. זה לא אומר שהבלוג הולך למות, ואני בהחלט מקווה לחזור ולכתוב בהרחבה על נושאים שברומו של הבלוג.

זה לא אומר שנעלמתי לחלוטין. מי שעוקב אחרי בטוויטר רואה את הגיגיי ולינקים שונים שאני מפרסם. מאחר ואני יודע כי כאן בבלוג יש יותר קוראים מאשר עוקבים בטוויטר, הנה מקבץ לינקים שפרסמתי בזמן האחרון, שעוסקים בעיקר בשלושה נושאים: סטטיסטיקה, כדורגל (לכבוד המונדיאל), וסטטיסטיקה וכדורגל.

נתחיל בסטטיסטיקה.

ונעבור לכדורגל.

  • מתי שתי הקבוצות המשחקות רוצות להבקיע שער עצמי? הסיפור מתואר בבלוג הכלכלי "marginal revolution", ולמאותגרי אנגלית הוא מתורגם לעברית בבלוג של שמוליק.
  • 10 השערים המוזרים ביותר. מעניין לראות את הבדלי התרבויות בין הולנד (איפופה, לצורך העניין) וברזיל (או דרום אמריקה). בשער השני ברשימה, שחקן הולנדי מבקיע שער בטעות (הוא התכוון לבעוט את הכדור החוצה כדי לאפשר טיפול בשחקן פצוע של הקבוצה היריבה, אך הכדור נחת ברשת). כשהמשחק מתחדש, הקבוצה שהבקיעה נותנת ליריבה להבקיע שער משלה כדי להחזיר את המצב לקדמותו. בשער מספר שלוש, לעומת זאת, במשחק שנערך בברזיל, כדור שנבעט לשער יוצא החוצה, אך מישהו שעומד ליד השער לוקח את הכדור ומשליך אותו לתוך הרשת. השופט פספס את כל המהלך וראה רק כדור ברשת, וממהר לשרוק שער. שחקני הקבוצה שזכתה בשער מן ההפקר מרימים ידיים בשמחה. אף אחד לא מעלה בדעתו לגשת לשופט ולהגיד לו "שמע, זה לא באמת גול". אז מי שחשב שההצגה של ריוואלדו ב-2002 שגרמה להרחקת שחקן יריב על לא עוול בכפו, או השער שהבקיעה ברזיל במונדיאל הזה תוך שימוש ביד של אחד משחקניה הם סתם מקרים, שיחשוב שוב. זו תרבות. זה בא מלמטה.

ואסיים, כמובטח, בסטטיסטיקה וכדורגל: מאמר שהופיע בעיתון סקוטי מתאר מודל סטטיסטי המנבא כי הולנד תזכה במונדיאל הקרוב. המאמר הופיע לפני הנצחון של הולנד על ברזיל. טוב, לנסים טאלב בטח יש מה להגיד על הניבוי הזה (וגם לי), אבל כרגע הסיכויים של הולנד הרבה יותר גדולים מאלה של ברזיל, וגם זה משהו.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו