חיפוש באתר

קישורים

עמודים

RSS סטטיסטיקה ברשת

תגים

בחירות ביוסטטיסטיקה בייסבול בנימה אישית בריאות גרפים דו"ח העוני דילמת האסירים הומור הומיאופתיה הימורים היסטוריה המשפטים הגדולים של הסטטיסטיקה הסתברות השכלה גבוהה חברה חידות חינוך חשבון יישומים כלכלה מדגם מדע מונטי הול מחקרים מירב ארלוזורוב ממוצע מצחיק משרד האוצר מתאם מתמטיקה ניהול סיכונים ניסויים קליניים סטטיסטיקה ספורט ספרים סקרים עיוות נתונים קבלת החלטות שכר שכר לימוד תאונות דרכים תורת המשחקים תקשורת p-value

ארכיב עבור תגית גרפים

מקבץ 4

שלום לכולם. הפעם מקבץ ארוך למדי, עקב משך הזמן הארוך מאז המקבץ הקודם.

  • השבוע צוינו 100 שנה למותה של פלורנס נייטינגייל.
  • בעיית המעטפות (עליה כתבתי לפני כשנתיים)  הרימה שוב את ראשה, הפעם בבלוג של וייאם בריגס, שהקדיש שתי רשימות לנושא. את הרשימה הראשונה אפילו קראתי. (המשך הפריט גולש לפרטים טכניים, אז מי שלא מעוניין מוזמן פשוט לדלג עליו). בתחילה בריגס מציג את החישוב השגוי לפיו החלפת המעטפות תביא לתוחלת רווח של 1.25X (כאשר  X הוא הסכום במעטפה שקיבלת), ולכן מתקבלת המסקנה הפרדוקסלית לפיה כדאי להחליף את המעטפה שוב ושוב ושוב. אולם בריגס אינו מסיק מכך כי יש לנסות לערוך את החישוב בצורה נאותה יותר. המסקנה של בריגס היא שיש להשליך את התוחלת לכל הרוחות בבעיות החלטה (טוב, הוא השתמש במלים קצת יותר מעודנות). וכיוון שכך, הוא פונה מייד אל העולם הבייסיאני (הבייסיאניים לא משתמשים בתוחלת? אלה חדשות אפילו בשבילי), ומתחיל להציג שלל פתרונות מהסוג שגרמו לי לא להתלהב מהענף הזה של הסטטיסטיקה. עלי לציין כי הגבתי לרשימה וציינתי מהיכן מגיע הפרדוקס, ומדוע תוחלת הרווח מהחלפת המעטפות היא אפס (ולכן לא משנה אם מחליפים או לא). בתגובה בריגס דרש ממני "להוכיח" (?!) כי החישוב שלו לפיו התוחלת היא 1.25X אינו נכון. אני לא מבין את זה. הוא הוא יטען כי 2 ועוד 2 שווים ל-5 ואני אטען כי התשובה הנכונה היא 4 (למניעת תשובות מתחכמות – אני מדבר על שדה הממשיים), האם אדרש להוכיח כי התשובה 5 אינה נכונה? בריגס הוסיף וטען כי התוחלת הוא מושג שכיחותי (frequentist) ואילו ניסוי המעטפות נערך פעם אחת בלבד, ולכן מושג התוחלת אינו תקף. אני לא מבין את הטיעון הזה. ואם נערוך סדרה של ניסויים זהים, אז הטיעון שלי יהיה תקף לפתע? אשמח למי שיאיר את עיניי. את הרשימה השניה של בריגס כבר לא קראתי, אבל אתם מוזמנים.
  • נתן יאו מהבלוג Flowing Data העוסק בויזואליזציה של נתונים כתב רשימה על 7 הכללים הבסיסיים ליצירת גרפים ותרשימים. 7 הכללים הם: בדוק את הנתונים, הסבר את הקידוד, הוסף תוויות לצירים, ציין את יחידות המדידה, שמור על פרופרציות גיאומטריות נכונות, ציין את מקור הנתונים, וזכור מי קהל היעד שלך. כעת פוצח יאו בסדרה של שבע רשימות שתסביר ביתר פירוט את כל אחד מהכללים. הנה הלינק לרשימה הראשונה בסדרה: בדוק את הנתונים.
  • שמוליק הביא בבלוג שלו דוגמא בה הכלל החמישי של יאו מופר בגסות.
  • והנה הצגה גרפית יפה (בוושינגטון פוסט) המשווה בין תכניות המס של שני נשיאי ארה"ב האחרונים, בוש ואובאמה.
  • רנדום ג'ון מדווח על הרצאה של פרנק הארל בכנס useR!  שעסקה ב"אלרגיה לאינפורמציה". תופעה זו באה לידי ביטוי בהתנגדות להשיג אינפורמציה הדרושה לקבלת החלטה נכונה ובהתעלמות מאינפורמציה חשובה וזמינה. הוא מביא לינק למצגת של גירסה יותר ישנה של ההרצאה.
  • ועוד דיווח מכנס: ג'ון ג'ונסון מחברת קאטו מדווח על התובנות שלו מכנס JSM2010 שנערך בואנקובר בתחילת החודש.
  • למתעניינים בכריית נתונים (שלאחרונה הצטרפתי לשורותיהם): ג'ון אלדר כותב על עשרת הטעויות האפשריות הגדולות ביתר בדאטה מיינינג. כשערך את ספירת המלאי גילה שיש לו למעשה 11 טעויות ברשימה. הפתרון שלו: הן דורגו החל מ-0 ועד 10. זה לא רעיון מקורי. גם בליגת המכללות הנקראת "Big10" יש 11 מכללות (שימו לב ללוגו).
  • וזה לא שייך למקבץ, אבל הפריט הקודם הזכיר לי אנקדוטה על המתמטיקאי נורברט ווינר, אולי האבטיפוס של דמות הפרופסור המפוזר. באחת הפעמים שעבר דירה, ביקשה ממנו אשתו לברר כי אל הדירה החדשה הגיעו 10 מזוודות. ווינר חזר ודיווח לרעייתו כי ספר 9 מזוודות בלבד, והדגים בנוכחותה את הספירה החוזרת: 0, 1, 2,…
  • כריסטיאן רוברט (Xian) מאוניברסיטת דופין בפריז החליט להעביר סמינר על המארים הקלאסיים של הסטטיסטיקה. כדי להחליט אלו מאמרים ילמדו בסמינר, הוא ערך סקר בין קוראי הבלוג שלו. בין המועמדים: מאמרם הקלאסי של ניימן ופירסון, מאמרו של ברדלי אפרון (מספר 8 ברשימת 15 הסטטיסטיקאים הגדולים שערכתי), מאמרו של קוקס (מספר 10) על ניתוח השרדות, ועוד רבים וטובים. בולטים בהעדרם מהרשימה  מאמר כלשהו מאת פישר (עליו כתבתי כאן רבות, הקישור לביוגרפיה קצרה שכתבתי עליו בפורום מתמטיקה של התפוז) ומאמרו של בייס (עליו כתבתי ברשימה "הכוכב, הסמים והכומר"). כשצפיתי בתוצאות הסקר הופתעתי: המאמר של ניימן ופירסון הגיע רק למקום החמישי, אותו הוא חולק במשותף עם מאמרו של הייסטינגס על שיטת MCMC. למקום הראשון הגיע מאמרו של אפרון על שיטת הבוטסטרפ; במקום השני: דמפסטר, ליירד ורבין במאמרם על שאלגוריתם EM. שלישי היה מאמרו של רוברט טיבשירני על שיטת הלאסו, ובמקום הרביעי – ישראל על המפה: מאמרם של יוסי הוכברג ויואב בנימיני מאוניברסיטת תל אביב על גישת ה-FDR  לבדיקת השערות מרובות.
  • תמר בן יוסף כותבת על התייקרות הדירות בישראל, ובפרט על הקשיים והכשלים במדידת מחירי הדירות.
  • בבלוג עבודה שחורה כותב יפתח גולדמן על סקר שערך משרד התמ"ת אודות התפלגות השכר בישראל ומסקנתו: התפלגות השכר מוּטה, והשכר הממוצע לא מייצג את התפלגות השכר במשק. קוראי הבלוג הותיקים, שקראו את רשימתי על המנהל והפועלים, בודאי לא מופתעים.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

עוד דיאגרמת פיי

כל מילה נוספת מיותרת. אציין רק שמצאתי את הגרף הזה בפריטים המשותפים של רותי מורין.

לחיצה על התמונה תוביל אתכם לאתר graphjam.com, שם תוכלו למצוא עוד גרפים משעשעים.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

דיאגרמת העוגה "הטובה ביותר" בכל הזמנים

הנה היא – בחסות חדשות FOX (המקור: FlowingData):

FOX news pie chart

אם פעם חשבתם שאי אפשר לאכול את העוגה ולהשאיר אותה שלמה, באו חכמי פוקס ולימדו אותנו איך אפשר לאכול 193% מהעוגה.

בהזדמנות זו, אני מפנה את הקוראים לפוסט של טל גלילי על ההיסטוריה של תרשימי העוגה ועל חלק מהבעיות שכרוכות בהם.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

אה באיזה צבע?

הכותרת היא בדיחה משפחתית, אבל הבעיה שתוצג כאן היא אמיתית.
נניח שאני רוצה להציג תוצאות של ניסוי קליני בו היו 3 קבוצות: התרופה הנסיונית, תרופה פעילה ופלסבו. כמובן שאני רוצה להדגיש את היתרונות של התרופה הנסיונית לעומת התרופה הפעילה והפלסבו. איזה צבע כדאי לבחור לכל קבוצה?
נראה כי הבחירה הטובה היא ירוק לטיפול הנסיוני, אדום לתרופה הפעילה (שמן הסתם מתחרה בתרופה הנסיונית "שלנו") וכחול או שחור לפלסבו.
הבחירה הזו עולה מתוך מחקר של חברת HP אשר בדק את ההשפעה של שימוש בצבעים שונים על ההיענות של הנבדקים להיגדים שונים יכול לשפוך אור חדש על הבעיה הזו.
טל גלילי הציג את טקסט המחקר בבלוג "המדריך לטרמפיסט בסטטיסטיקה". אני ממליץ לקרוא.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

על בייסבול, גרפיקה והימורים

פיד הרסס של del.ico.us שמסנן את כל הלינקים שתויגו תחת סטטיסטיקה והומור הינו משעממם למדי. גולשים מתייגים שוב ושוב את אותם לינקים, שבדרך כלל לא קשורים לסטטיסטיקה, וגם לא ממש מצחיקים (אותי לפחות). ובכל זאת, לפעמים אני מצליח לדוג שם דברים מעניינים.

הנה למשל הלינק Flip Flop Fly Ball. לא תמצאו סטטיסטיקה, וגם לא שום דבר הומוריסטי, אבל הוא בכל זאת יכול להעלות לכם חיוך על השפתיים, בייחוד אם אתם אוהבים תיאורים גרפיים של נתונים או בייסבול (או שניהם, כמובן). הנה למשל דיאגרמה שעונה לשאלה האם קבוצת הביססבול קליבלנד אינדיאנס אכן ראויה לשמה. הדיאגרמה שמשמאל מראה את שיעורם של התושבים האמריקניים-ילידים בתוך אוכלוסיית קליבלנד. הדיאגרמה הנוספת שמוצגת כאן משווה בין אספקטים שונים של 30 האיצטדיונים של המייג'ור ליג (MLB). לחצו על התמונה כדי לעבור לאתר פליפ פלופ ולצפות בפרטים.

Flip Flop Fly Ball

את התיאורים הגרפיים האלה יצר קרייג רובינסון, חובב בייסבול מסיאטל, שלא מגביל את עצמו לבייסבול, ויוצר תיאורים גרפיים של נתונים מענפי ספורט נוספים. אם תמשיכו לשוטט באתר שלו, תמצאו עוד הרבה דברים מעניינים אחרים. אני למשל התלהבתי מהתמונה הזו, שנמצאת בפליקר שלו. זהו צילום של הלוח האלקטרוני בסיטי פארק של ניו-יורק, האיצטדיון החדש של הניו-יורק מטס:

Insurance and gambling

בתמונה אתם רואים שתי פרסומות שונות שהופיעו באותו זמן על הלוח, האחת לחברת ביטוח והשניה לקזינו, שתי תעשיות שהמודל העסקי שלהן בנוי על הסטטיסטיקה, אולם ההבדל בינהן הוא… אממממ…

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו