ארכיב עבור תגית סטטיסטיקה
כדור הכסף – הטריילר
זוכרים שביום שני הקרוב אני מרצה על כדור הכסף במסגרת ערב הרצאות מיוחד של "ספקנים בפאב"? אז הנה הטריילר:
נשלח: 12 בנובמבר, 2011. נושאים: כללי.
תגובות: אין
| טראקבק
ספקנים בפאב – ערב הרצאות מיוחד לכבוד יום הסטטיסטיקה הבינלאומי
|
"ספקנים בפאב" הם מפגשים המיועדים לכל מי שמתעניין במדע, היסטוריה, פילוסופיה ובחינה רציונלית של המציאות. המפגשים מתקיימים בפאבים או במקומות אחרים שמאפשרים אווירה חברית ובלתי פורמלית, וכוללים בדרך כלל הרצאה ודיון. "ספקנים בפאב" נערך לראשונה בלונדון בשנת 1999, וכיום קיימות עשרות קבוצות ברחבי העולם. במסגרת הקהילה הספקנית בישראל קיימות ארבע קבוצות של ספקנים בפאב, בחיפה, תל-אביב, באר שבע וירושלים. ב-20 באוקטובר צויין ברחבי העולם יום הסטטיסטיקה הבינלאומי. לציון(מאוחר) של האירוע ייערך בתאריך 14.11.2011 ערב הרצאות מיוחד במסגרת "ספקנים בפאב" בתל-אביב בשיתוף פעולה עם האיגוד הישראלי לסטטיסטיקה (ששת קוראיי יודעים בודאי על הקשרים ההדוקים שיש לי גם עם הקהילה הספקנית וגם עם איגוד הסטטיסטיקה). הערב יכלול חמש הרצאות קצרות (15 דקות כל אחת) שיסקרו את נושא הסטטיסטיקה מכיוונים שונים. האירוע יתקיים בתאריך 14.11.2011 בפאב "גורדו", בחוף גורדון בטיילת תל אביב. ההתכנסות היא בשעה 8 בערב, וההרצאות יחלו בשעה 8.30. דמי הכניסה הם 10 ש"ח, ומיועדים לכיסוי הוצאות הפקת האירוע. |
![]() |
|
|
המרצים, (באופן מפתיע, לא כולם סטטיסטיקאים) וכותרות ההרצאות הם:
אני מניח כי מי שקרא עד כאן כבר הבין שגם אני נמנה עם המרצים אשמח לראותם! |
||
נשלח: 7 בנובמבר, 2011. נושאים: האנשים שמאחורי הסטטיסטיקה, הממ... מעניין..., מה אומרת הסטטיסטיקה.
תגובות: אין
| טראקבק
עוגה? לא, תודה.
שלא תבינו אותי לא נכון. אני אוהב עוגות, מאוד. עוגות של שוקולד, גבינה, פירות, אבל לא עוגות של נתונים.
הבעיה היא שדיאגרמות עוגה (pie charts) מאוד פופולריות. לעיתים נדמה כי מצגת או דו"ח ללא דיאגרמת עוגה אחת לפחות הינם פגומים. נדמה כי כל טיעוני הנגד אינם תקפים כאשר מוצגת דיאגרמת עוגה.
![]() |
ובכל זאת, אני טוען כי דיאגרמת עוגה, למרות ההיסטוריה הארוכה והמכובדת שלה, אינה דרך טובה להציג נתונים.
הרעיון מאחורי דיאגרמת עוגה הוא להראות כיצד אוכלוסיה מסויימת מתפלגת למרכיביה. נניח כי אנו מתעניינים באהדת האוכלוסיה לקבוצות כדורגל, ומתברר כי במדגם של 90 איש 40 אוהדים את קבוצת הפועל תל-אביב, 30 אוהדים את מכבי חיפה, והשאר (20) אוהדים את מכבי תל-אביב. ניתן להציג מידע זה כעוגה, שמחולקת לשלוש פרוסות/גזרות, כשגודלה היחסי של כל פרוסה שווה לשכיחות היחסית המתאימה. אוהדי הפועל יקבלו פרוסה בגודל ארבע תשיעיות העוגה, אוהדי מכבי חיפה יקבלו שליש, ואוהדי מכבי תל-אביב יקבלו את מה שנשאר – שתי תשיעיות.
התוצאה תיראה כך:
![]() |
יפה, נכון?
שימו לב כי השכיחות היחסית מבוטאת בדיאגרמה על ידי שלושה מאפיינים גאומטריים: שטח הפרוסה, שהוא המאפיין העיקרי הנתפס על ידי העין, אורך הקשת של הפרוסה, וגודל הזוית של הגיזרה.
וכאן הבעיה הגדולה של דיאגרמות העוגה. העין האנושית, או יותר נכון, המוח האנושי, אינם תופסים כראוי גדלים כאלה. התבוננו בחלק הירוק והחלק האדום. זוית הגזרה האדומה היא 160 מעלות וזוית הגזרה הצהובה הירוקה היא 120 מעלות. האם אתם רואים הבדל בין שתי הזוויות? המצב נעשה מסובך יותר אם יש יותר משלושה ערכים. הנה למשל הדוגמא הבאה, הלקוחה מדף הערך על דיאגרמות עוגה בויקיפדיה:
![]() |
שלוש העוגות נראות מאוד דומות, אבל אם תבחנו אותן בעיון, תראו שיש ביניהן הבדלים. הפרוסה השחורה גדולה יותר בעוגה A, למשל. אבל באיזה עוגה הפרוסה הירוקה גדולה יותר? האם הפרוסה הכחולה שווה בגודלה לפרוסה האדומה? מהי הפרוסה הגדולה ביותר בעוגה B?
אפשר כמובן לשבת ולפענח אט אט את כל ההבדלים. אבל האם לא עדיף להשתמש בתצוגה ברורה יותר? (לחצו על הלינק כדי לראות תצוגה ברורה יותר של נתונים אלה).
תכנת אקסל ודומותיה מציעות עוד שכלולים לדיאגרמת העוגה – העוגה התלת מימדית פופולרית מאוד. הנה תצוגת נתוני האוהדים בעוגה תלת מימדית:
![]() |
הפרוסה הצהובה נראית לפתע קטנה יותר, כיוון שהעין תופסת את הדפנות הקדמיות של הפרוסות האחרות כחלק משטחן. הנה דוגמא קיצונית יותר, שמצאתי באינטרנט (לא זוכר היכן):
![]() |
החלק הכהה בדיאגרמה הימנית זהה בגודלו לחלק הכהה בדיאגרמה השמאלית, אבל הוא נראה הרבה יותר גדול.
הנה דוגמא נוספת, הפעם אמיתית, שממחישה את הבעייתיות.
![]() |
דיאגרמה זו מציגה את הסיבות להפסקת הפיתוח של תרופות פוטנציאליות בבריטניה. פיתוחן של 40% מהמולקולות הופסק עקב בעיות פרמקוקינטיות, ופיתוחן של 29% מהמולקולות הופסק עקב חוסר יעילות טיפולית. נראה כאילו לשתי הסיבות יש משקל דומה, ואלי אפילו משקל הפרמקוקינטיקה קטן יותר. זאת כיוון שהפרוסה הצהובה נמצאת בקדמת התמונה ולכן נראית גדולה יותר.
עד כמה ההטעיה חמורה? ניתן למדוד את השטח בתמונה שתופסת כל פרוסה על ידי ספירת פיקסלים (עשיתי זאת בעזרת תכנית קטנה שכתב עבורי ידידי שי אלקין). מתברר כי השטח הצהוב תופס כ-50% משטח הדיאגרמה, השטח האדום תופש 32% בלבד מהשטח הכולל של הדיאגרמה. המסר שהעבירה הדיאגרמה שונה לחלוטין מזה שמעבירים הנתונים המספריים. למרה הצער, דיאגרמה זו הוצגה בפתיחת הרצאה על חשיבות המחקר הפרמקוקינטי.
למרות שדיאגרמת העוגה מאוד משכנעת, הרי שברוב המקרים אינה מצליחה להציג את הנתונים בצורה ראויה, בדרך כלל מקשה על תפיסת מהירה של משמעותם, ולעיתים אף עלולה להעביר מסר שגוי. קיימות דרכים טובות יותר להציג נתונים באופן גרפי. העדיפו אותן על פני העוגה. עוגה – רק בבית קפה!
נשלח: 25 ביוני, 2011. נושאים: כללי.
תגובות: 24
| טראקבק
פיס 123: תוחלת הזכיה וסיכויי הזכיה בתביעה
תקציר הפרקים הקודמים: ארגון אמון הציבור מגלה טעות בסיכויי הזכיה שפורסמו באתר מפעל הפיס. מפעל הפיס מתקן את הטעות. אחד המהמרים, שהוא גם ד"ר למתמטיקה, תובע את מפעל הפיס בסכום של 3.2 מליון שקלים + 5 מליון שקלים כפיצוי על עגמת הנפש.
ובכן, לאחר שאומתו סיכויי הזכיה במשחק פיס 123 המפורסמים כעת באתר מפעל הפיס, ניתן לגשת לחישוב תוחלת הזכיה והערכת סיכויי התביעה הייצוגית.
כאשר ידועים סיכויי הזכיה וגובה הפרסים וההפסדים, החישוב הוא פשוט: מכפילים כל זכיה/הפסד בהסתברות שלה, ומסכמים.
למשל, הסיכוי לזכות בפרס הראשון במשחק המשולב הוא 1 ל-1000, או 0.001. מי שמהמר על שקל יקבל כפרס 100 שקלים, ולכן סך הרווח שלו הוא 99 שקלים. מכפילים 99 ב-0.001 ומקבלים 0.099. כל עושים לגבי שאר הפרסים, כמפורט בטבלה, ולבסוף יש לסכם את כל המכפלות.(נתוני יחס הזכיה ומכפיל הזכיה לפרסים 1 עד 4 שבטבלה נלקחו מאתר מפעל הפיס):
| פרס | יחס זכיה | הסתברות זכיה | מכפיל פרס | רווח/הפסד | מחובר לתוחלת |
| ראשון | 1:1000 | 0.00100 | 100 | 99 | 0.0990 |
| שני | 1:241.5 | 0.00414 | 25 | 24 | 0.0994 |
| שלישי | 1:37 | 0.02703 | 5 | 4 | 0.1081 |
| רביעי | 1:4.11 | 0.24331 | 1 | 0 | 0.0000 |
| אין זכיה | 1.38 | 0.72452 | 0 | 1- | 0.7245- |
| סך הכל | 0.4180- |
השורה התחתומה אומרת כי על כל שקל הימור, מפעל הפיס מרוויח (והמהמרים מפסידים) 41.8 אגורות, ובמלים אחרות, מפעל הפיס לוקח לקופתו 41.8% מכספי ההימורים ומחלק למהמרים 58.2% מהכספים כפרסים. אל תסמכו עלי. אנא בדקו את חישוביי.
לאחר שצלחנו את החלק הטכני המשעמם הזה, הבה נעבור לניתוח סיכויי הזכיה של הד"ר למתמטיקה בתביעה הייצוגית שלו.
התובעים, כך פורסם, הציגו שתי טענות:
הטענה הראשונה היא כי מפעל הפיס הציג באתר האינטרנט שלה שסיכויי הזכיה בפרס השני הם 1:200, אולם לפי חישוביהם, הסיכוי לזכות בפרס השני הוא למעשה 1:500. את הטענה הזו אפשר לבדוק. אני חושב שכולם כבר מסכימים על כך שסיכויי הזכיה בפרס השני הם לא 1 ל-200 וגם לא 1 ל-500, אלא 1 ל-240 (בערך).
הטענה השניה היא כי לפי מפעל הפיס, תוחלת ההגרלה 123 משולב אמורה להיות בשיעור של 60.34%, כלומר 60.34% מכספי ההימור מחולקים כפרסים, אולם בפועל, כך נטען בתביעה, תוחלת ההגרלה הינה בשיעור של 58.2% בלבד (כפי שהראה החישוב שערכתי למעלה).
קודם כל, לא ברור לי איך חישוב הסתברות שגוי הוביל לחישוב תוחלת נכון. ייתכן כי חישוב ההסתברות היה נכון (בכל זאת ד"ר למתמטיקה) אולם לכתב התביעה, או להודעה לעיתונות, או לכתבה השתרבב מספר שגוי.
התובעים הנכבדים צריכים, אני מניח, להוכיח כי הפרסום השגוי נעשה בזדון ומתוך כוונה להטעות את המשקיעים המהמרים התמימים. האם יצליחו התובעים להוכיח זאת? איני יודע.
אבל הטיעון העיקרי שלי, ואני מקווה שגם של ההגנה, הוא: אז מה? ונניח שפורסם מספר שגוי, והתוחלת אכן נמוכה ממה שפורסם. האם בפועל הייתה התוחלת שונה? כללי המשחק היו נתונים, ובהנתן הכללים נקבעת התוחלת. הנזק היחיד שעלול להגרם בפועל הוא הנזק למהמר שנכנס לאתר ואמר לעצמו: "וואו, תוחלת של 60.3%! אני הולך על זה! זו לא סתם הגרלה מעפנה שנותנת רק 58.2%!". כמה מהמרים כאלה היו? על כמה כסף הם הימרו? אחרי שנדע את הנתון הזה, נוכל להעריך את הזנק שנגרם להם: 2.1% מסך הסכום שעליו הם הימרו. ההימור שלי הוא כי סך הסכום הזה הוא אפס, או כמעט אפס.
אז מה סיכויי הזכיה? לא רעים בכלל. השופטים, אנשים טובים ומקצועיים אמנם, אבל רובם לא מבין בסטטיסטיקה, פשוט כי ההכשרה שניתנת לתלמידי הפקולטה למשפטים בתחום הזה מזערית. לשקר בעזרת סטטיסטיקה אפשר גם אפשר, וייתכן מאוד שיימצא שופט שישתכנע מהטיעונים.
אני אמשיך לעקוב.
נשלח: 23 בנובמבר, 2010. נושאים: הימורים, מה אומרת הסטטיסטיקה.
תגובות: 9
| טראקבק
סיכויי הזכיה בפיס 123
עוד לא נרגענו מההמולה סביב האירוע ה-"נדיר" בו התקבלו בהגרלת הלוטו אותם המספרים שהתקבלו באחת ההגרלות הקודמות, והנה הופיעה לה "שערוריה" חדשה סביב הגרלות מפעל הפיס. הפארסה הנוכחית הגיע לשלב בו מהמר המציג את עצמו כדוקטור למתמטיקה הגיש תביעה יייצוגית נגד מפעל הפיס.
אבל בל נקדים מוקדם למאוחר. הנה השתלשלות העניינים, כפי שהצלחתי לעקוב אחריה בשבוע האחרון:
- ארגון הצרכנים העצמאי/פרטי "אמון הציבור" טען כי מפעל הפיס הציג מצג שווא מתמשך בפרסום שלו בעניין סיכויי הזכייה במשחק "3 2 1 משולב". לפי תלונת צרכן לארגון - סיכויי הזכייה בפרסי המשחק נמוכים מאלו המפורסמים באתר הפיס. (ידיעות על כך ראיתי בווינט ובדה-מרקר). כמו כן נטען כי תוחלת הזכיה שפורסמה באתר נמוכה מתוחלת הזכיה בפועל.
- לפי הידיעות, הסטטיסטיקאי של מפעל הפיס (לא נמסר מי האיש) אישר כי חלה טעות בפרסום, ובשלב כלשהו מפעל הפיס תיקן את הפרסום באתר. לדעת ארגון אמון הציבור, משך הזמן שעבר עד תיקון הנתונים היה ארוך מדי.
- בינתיים, צרכן זריז, המעיד על עצמו כי הוא מהמר במשחק המדובר בסכום של מאות שקלים לחודש, הגיש תביעה ייצוגית נגד מפעל הפיס בסך של 3.2 מליון שקלים. התובע גם העיד על עצמו כי הוא דוקטור למתמטיקה (לא נמסר שמו של האיש).
התייחסתי לכל העניין בגיחוך מה. בטוויטר הזהרתי את אותו מהמר/מתמטיקאי/תובע כי שייזהר, האוניברסיטה עלולה לתבוע ממנו להחזיר את הדוקטורט.
בואו ננסה להבין מה קורה כאן.
מדובר בהימור המכונה "פיס 123". המפעל מגריל מספר בן 3 ספרות, החל מ-000 ועד 999. יש 1000 מספרים כאלה. המהמר מנסה לנחש את המספר.
ההימור הפשוט ביותר הוא מסוג "הכל או כלום". אם ניחשת בדיוק את המספר שהוגרל – זכית. יש כאמור 1000 מספרים אפשריים שעשויים לעלות בגורל, ולכן סיכוי הזכיה הוא 1 ל-1000. במקרה של זכיה, הזוכה מקבל סכום הגדול פי 600 מסכום ההימור (באתר מפעל הפיס מכונה סכום ההימור בביטוי הציני "סכום ההשקעה").
תוחלת הזכיה שלילית כמובן: בטווח הארוך המהמר מפסיד ומפעל הפיס מרוויח. אפשר להסביר זאת באופן הבא: מהמר "מתוחכם", יהמר סכום של שקל אחד כל אחת מ-1000 התוצאות האפשריות (ב"השקעה" של 1000 שקלים), יפסיד את כספו ב-999 מהימוריו, ובהימור ה-1000 יקבל 600 שקלים. בסופו של יום, אותו מהמר הפסיד בסך הכל 400 שקלים.
כאמור, המהומה התקשורתית והמשפטית מתחוללת סביב משחק מעט יותר מסובך. ב"משחק המשולב", ניתן, בין היתר, לזכות בפרס גם אם המספר עליו מהמרים אינו זהה למספר שעלה בגורל, בתנאי שההימור היה על אותן הספרות של המספר שעלה בגורל, בסדר שונה. לדוגמא, מי שיהמר על המספר 123 יוכל לזכות בפרס גם אם עלה בגורל המספר 321 או 213, וכולי. מי שהימר על 747 יזכה גם אם יעלו בגורל 477 או 774, אבל מי שיהמר על 666 יזכה רק אם יעלה בגורל המספר 666. מה הסיכוי לזכות בהימור כזה? באתר מפעל הפיס כתוב (נכון להיום) כי הסיכוי הוא 1 ל-241.5. איך מחשבים את הסיכוי?
אפשר להתחיל לחשב (עמית גל עשה את זה בבלוג שלו). אני בחרתי בגישה אחרת, גישת מונטה קרלו, שאדגים כאן מייד. זאת לבקשת הקורא עמית (האם זהו עמית גל?) באחת התגובות לרשימה על פריז ובעיית המחט של בופון.
כל אחד יכול לעשות את זה בבית. צריך פשוט לשחק את המשחק מספר רב של פעמים. אפשר לקחת קוביה מיוחדת עם 10 צדדים (לשחקני מבוכים ודרקונים יש קוביות כאלה), או לשים בתוך כובע 10 כפתורים זהים, שעל כל אחד מהם רשומה אחת הספרות 0 עד 9. מטילים את הקוביה (או מוציאים כפתור מהכובע ומחזירים אותו) 3 פעמים – זוהי הדמיה של הגרלת המספר של מפעל הפיס. אח"כ בוחרים באותו אופן את המספר עליו מהמרים. כעת אפשר לבדוק אם "זכינו". חוזרים על התהליך מספר רב של פעמים, ובודקים באיזה אחוז מהפעמים אכן זכינו. חוק המספרים הגדולים מבטיח כי אחוז הזכיות בניסוי שלנו יהיה קרוב מאוד להסתברות האמיתית. משפט הגבול המרכזי מבטיח כי ההפרש בין אחוז הזכיות בניסוי ובין ההסתברות האמיתית יהיה בסדר גודל של אחד חלקי שורש מספר הניסויים. למשל, אם רוצים דיוק של אחוז אחד, צריך לחזור על הניסוי 10000 פעם.
זה כמובן עלול להיות מאוד מייגע. ניתן כמובן, לכתוב תכנית מחשב שתבצע את התרגיל הזה. כתבתי אחת כזו (בשפת SAS, לחצו כאן לצפיה בקוד), וערכתי את הניסוי מליון פעם (למחשב המקרטע שלי לקח כמעט 10 שניות לבצע את כל החישובים). התוצאות בטבלה:
| סוג המספר שנבחר על ידי מפעל הפיס | מספר התוצאות | מספר הזכיות | הסתברות הזכיה | יחס זכיה מקורב |
| 3 ספרות זהות (למשל 666) | 9902 | 6 | 0.000605938 | 1:1650 |
| 2 ספרות זהות (למשל 747) | 269580 | 774 | 0.002871133 | 1:348 |
| 3 ספרות שונות (למשל 123) | 720518 | 4314 | 0.0059873590 | 1:167 |
| סך הכל | 1000000 | 5094 | 0.0050940000 | 1:196 |
השורה התחתונה אומרת כי הסתברות לנחש את שלוש הספרות שנבחרו בסדר כלשהו היא 0.005094, שזה בערך 1 ל-196. החישוב של עמית גל הגיע לתוצאה של 1 ל-194. בגדול, הפרסום המקורי של מפעל הפיס, לפיו סיכויי הזכיה הם 1 ל-200, היה נכון בקירוב. הפרסום הנוכחי מתאר סיכויי זכיה נמוכים יותר, ולדעתי הוא שגוי. עם זאת, גם עמית וגם אני לא לקחנו בחשבון כי מי שזוכה בפרס הראשון כבר לא זוכה בפרס השני (תודה לעמית על שהעיר את עיני על כך בתגובתו). המאורע "המהמר ניחש אתשלוש הספרות שנבחרו בסדר כלשהו" מכיל בתוכו את המאורע "המהמר ניחש את שלוש הספרות שנבחרו בסדר הנכון". לכן, צריך להחסיר מההסתברות שקיבלנו, 0.005094, את ההסתברות לניחוש כל שלוש הספרות בסדר הנכון, 0.001, ולכן נקבל כי ההסתברות לזכיה בפרס השני, שהיא הסתברות המאורע "המהמר ניחש את שלוש הספרות שנבחרו, אך לא בסדר הנכון", היא 0.004094 בקירוב, כלומר בערך 1 ל-244, ערך קרוב למדי לערך המופיע באתר מפעל הפיס (1 ל-241.5).
מהי תוחלת הזכיה במשחק כזה? מי שיהמר על שקל, ירוויח 24 שקלים בהסתברות 0.005 בערך, ויפסיד שקל בהסתברות 0.995. זה נותן תוחלת הפסד של 0.875 שקלים. במלים אחרות – מפעל הפיס משאיר בידיו 87.5% מכספי ההימורים במשחק הזה. ובכן, בחישוב התוחלת יש לקחת בחשבון את כל הפרסים והסתברויות הזכיה בהם. על כך אכתוב בקרוב רשימה נוספת.
נשלח: 20 בנובמבר, 2010. נושאים: הימורים, מה אומרת הסטטיסטיקה.
תגובות: 10
| טראקבק









