יוסי לוי | נסיכת המדעים

אלתרמן שלי

במסגרת מסורת הנפוטיזם הנהוגה בבלוג זה, אני מתכבד להמליץ לכולכם לבוא ולצפות בהצגה "אלתרמן שלי", ובעוד כמה שנים תוכלו להתפאר בפני מכריכם כי ראיתם את השחקנית הדגולה הדס ברטוב על הבמה ממש בראשית הקריירה שלה!

לחצו על התמונה כדי לצפות בה בגודל מלא ולראות את מועדי ההצגה ואת הפרטים לרכישת הכרטיסים

הדס ברטוב, גיסתי, סיימה את שנת הלימודים הראשונה בבית הספר למשחק בית צבי. היא באמת שחקנית מצויינת, ואני ממליץ לקוראיי בחום לבוא לאחת ההצגות. בואו בהמוניכם! חייכם ישתנו!

נשלח: 30 בדצמבר, 2010. נושאים: בנימה אישית.
תגובות: 1 | טראקבק

פיס 123: תוחלת הזכיה וסיכויי הזכיה בתביעה

תקציר הפרקים הקודמים: ארגון אמון הציבור מגלה טעות בסיכויי הזכיה שפורסמו באתר מפעל הפיס. מפעל הפיס מתקן את הטעות. אחד המהמרים, שהוא גם ד"ר למתמטיקה, תובע את מפעל הפיס בסכום של 3.2 מליון שקלים + 5 מליון שקלים כפיצוי על עגמת הנפש.

ובכן, לאחר שאומתו סיכויי הזכיה במשחק פיס 123 המפורסמים כעת באתר מפעל הפיס, ניתן לגשת לחישוב תוחלת הזכיה והערכת סיכויי התביעה הייצוגית.

כאשר ידועים סיכויי הזכיה וגובה הפרסים וההפסדים, החישוב הוא פשוט: מכפילים כל זכיה/הפסד בהסתברות שלה, ומסכמים.

למשל, הסיכוי לזכות בפרס הראשון במשחק המשולב הוא 1 ל-1000, או 0.001. מי שמהמר על שקל יקבל כפרס 100 שקלים, ולכן סך הרווח שלו הוא 99 שקלים. מכפילים 99 ב-0.001 ומקבלים 0.099. כל עושים לגבי שאר הפרסים, כמפורט בטבלה, ולבסוף יש לסכם את כל המכפלות.(נתוני יחס הזכיה ומכפיל הזכיה לפרסים 1 עד 4 שבטבלה נלקחו מאתר מפעל הפיס):

פרס	יחס זכיה	הסתברות זכיה	מכפיל פרס	רווח/הפסד	מחובר לתוחלת
ראשון	1:1000	0.00100	100	99	0.0990
שני	1:241.5	0.00414	25	24	0.0994
שלישי	1:37	0.02703	5	4	0.1081
רביעי	1:4.11	0.24331	1	0	0.0000
אין זכיה	1.38	0.72452	0	1-	0.7245-
סך הכל					0.4180-

השורה התחתומה אומרת כי על כל שקל הימור, מפעל הפיס מרוויח (והמהמרים מפסידים) 41.8 אגורות, ובמלים אחרות, מפעל הפיס לוקח לקופתו 41.8% מכספי ההימורים ומחלק למהמרים 58.2% מהכספים כפרסים. אל תסמכו עלי. אנא בדקו את חישוביי.

לאחר שצלחנו את החלק הטכני המשעמם הזה, הבה נעבור לניתוח סיכויי הזכיה של הד"ר למתמטיקה בתביעה הייצוגית שלו.

התובעים, כך פורסם, הציגו שתי טענות:

הטענה הראשונה היא כי מפעל הפיס הציג באתר האינטרנט שלה שסיכויי הזכיה בפרס השני הם 1:200, אולם לפי חישוביהם, הסיכוי לזכות בפרס השני הוא למעשה 1:500. את הטענה הזו אפשר לבדוק. אני חושב שכולם כבר מסכימים על כך שסיכויי הזכיה בפרס השני הם לא 1 ל-200 וגם לא 1 ל-500, אלא 1 ל-240 (בערך).

הטענה השניה היא כי לפי מפעל הפיס, תוחלת ההגרלה 123 משולב אמורה להיות בשיעור של 60.34%, כלומר 60.34% מכספי ההימור מחולקים כפרסים, אולם בפועל, כך נטען בתביעה, תוחלת ההגרלה הינה בשיעור של 58.2% בלבד (כפי שהראה החישוב שערכתי למעלה).

קודם כל, לא ברור לי איך חישוב הסתברות שגוי הוביל לחישוב תוחלת נכון. ייתכן כי חישוב ההסתברות היה נכון (בכל זאת ד"ר למתמטיקה) אולם לכתב התביעה, או להודעה לעיתונות, או לכתבה השתרבב מספר שגוי.

התובעים הנכבדים צריכים, אני מניח, להוכיח כי הפרסום השגוי נעשה בזדון ומתוך כוונה להטעות את המשקיעים המהמרים התמימים. האם יצליחו התובעים להוכיח זאת? איני יודע.

אבל הטיעון העיקרי שלי, ואני מקווה שגם של ההגנה, הוא: אז מה? ונניח שפורסם מספר שגוי, והתוחלת אכן נמוכה ממה שפורסם. האם בפועל הייתה התוחלת שונה? כללי המשחק היו נתונים, ובהנתן הכללים נקבעת התוחלת. הנזק היחיד שעלול להגרם בפועל הוא הנזק למהמר שנכנס לאתר ואמר לעצמו: "וואו, תוחלת של 60.3%! אני הולך על זה! זו לא סתם הגרלה מעפנה שנותנת רק 58.2%!". כמה מהמרים כאלה היו? על כמה כסף הם הימרו? אחרי שנדע את הנתון הזה, נוכל להעריך את הזנק שנגרם להם: 2.1% מסך הסכום שעליו הם הימרו. ההימור שלי הוא כי סך הסכום הזה הוא אפס, או כמעט אפס.

אז מה סיכויי הזכיה? לא רעים בכלל. השופטים, אנשים טובים ומקצועיים אמנם, אבל רובם לא מבין בסטטיסטיקה, פשוט כי ההכשרה שניתנת לתלמידי הפקולטה למשפטים בתחום הזה מזערית. לשקר בעזרת סטטיסטיקה אפשר גם אפשר, וייתכן מאוד שיימצא שופט שישתכנע מהטיעונים.

אני אמשיך לעקוב.

נשלח: 23 בנובמבר, 2010. נושאים: הימורים, מה אומרת הסטטיסטיקה.
תגובות: 11 | טראקבק

אירועים קרובים

ברשימה זו הודעות על מספר אירועים מעניינים שיתקיימו בקרוב:

ספקנים בפאב

ערב ספקנים בפאב תל-אביב לחודש נובמבר ייערך ביום רביעי הקרוב (מחר!), ב-24/11, בשעה 20:00 בגורדו, חוף גורדון.

נושא הערב: "תעתועי המוח האנושי". האם מה שאנחנו חווים, רואים ושומעים – זו אכן המציאות סביבנו? חברי צוות הפודקסט "ספק סביר" יאתגרו אתכם בערב אינטראקטיבי של חידות ומשחקים!

דמי ההשתתפות: 10 ש"ח בלבד לכיסוי עלויות האירוע. להרשמה לחצו כאן .

The fourth isENBIS conference

הכנס הרביעי של הקבוצה הישראלית ליישומי סטטיסטיקה בתעשייה ובעסקים יעסוק בנושאים נבחרים בהנדסת שירות. הכנס יתקיים ביום שלישי, 30 נובמבר 2010, בבית חיל האויר – רח' ז'בוטינסקי 15, הרצליה. הכניסה חופשית עם רישום מוקדם באתר.

כנס מאורות על הגבול בין מדע למדע בדיוני

הכנס, שיכלול הרצאות, פאנלים וסדנאות בנושאי מדע בדיוני, מדע וביולוגיה, ייערך ב-9 בדצמבר בקמפוס אדמונד י' ספרא (גבעת רם) של האוניברסיטה העברית בירושלים.

בין האירועים בכנס: פאנל בנושא "אבולוציה מול אווילוציה", מועדון ויכוחים על גנטיקה ומוסר, הקרנת מקבץ סרטי מדע קצרים, ושלל הרצאות על חיידקים, הנדסת מזון, גנטיקה ואפיגנטיקה, מוח ואינטליגנציה, קסנוביולוגיה ועוד. רוב המרצים הם אקדמאים.

כמו כן יתקיימו פעילויות של נוער שוחר מדע לאורך כל היום (בחינם).

לפרטים: אתר הכנס

נשלח: 23 בנובמבר, 2010. נושאים: כללי.
תגובות: אין | טראקבק

סיכויי הזכיה בפיס 123

עוד לא נרגענו מההמולה סביב האירוע ה-"נדיר" בו התקבלו בהגרלת הלוטו אותם המספרים שהתקבלו באחת ההגרלות הקודמות, והנה הופיעה לה "שערוריה" חדשה סביב הגרלות מפעל הפיס. הפארסה הנוכחית הגיע לשלב בו מהמר המציג את עצמו כדוקטור למתמטיקה הגיש תביעה יייצוגית נגד מפעל הפיס.

אבל בל נקדים מוקדם למאוחר. הנה השתלשלות העניינים, כפי שהצלחתי לעקוב אחריה בשבוע האחרון:

ארגון הצרכנים העצמאי/פרטי "אמון הציבור" טען כי מפעל הפיס הציג מצג שווא מתמשך בפרסום שלו בעניין סיכויי הזכייה במשחק "3 2 1 משולב". לפי תלונת צרכן לארגון – סיכויי הזכייה בפרסי המשחק נמוכים מאלו המפורסמים באתר הפיס. (ידיעות על כך ראיתי בווינט ובדה-מרקר). כמו כן נטען כי תוחלת הזכיה שפורסמה באתר נמוכה מתוחלת הזכיה בפועל.
לפי הידיעות, הסטטיסטיקאי של מפעל הפיס (לא נמסר מי האיש) אישר כי חלה טעות בפרסום, ובשלב כלשהו מפעל הפיס תיקן את הפרסום באתר. לדעת ארגון אמון הציבור, משך הזמן שעבר עד תיקון הנתונים היה ארוך מדי.
בינתיים, צרכן זריז, המעיד על עצמו כי הוא מהמר במשחק המדובר בסכום של מאות שקלים לחודש, הגיש תביעה ייצוגית נגד מפעל הפיס בסך של 3.2 מליון שקלים. התובע גם העיד על עצמו כי הוא דוקטור למתמטיקה (לא נמסר שמו של האיש).

התייחסתי לכל העניין בגיחוך מה. בטוויטר הזהרתי את אותו מהמר/מתמטיקאי/תובע כי שייזהר, האוניברסיטה עלולה לתבוע ממנו להחזיר את הדוקטורט.

בואו ננסה להבין מה קורה כאן.

מדובר בהימור המכונה "פיס 123". המפעל מגריל מספר בן 3 ספרות, החל מ-000 ועד 999. יש 1000 מספרים כאלה. המהמר מנסה לנחש את המספר.

ההימור הפשוט ביותר הוא מסוג "הכל או כלום". אם ניחשת בדיוק את המספר שהוגרל – זכית. יש כאמור 1000 מספרים אפשריים שעשויים לעלות בגורל, ולכן סיכוי הזכיה הוא 1 ל-1000. במקרה של זכיה, הזוכה מקבל סכום הגדול פי 600 מסכום ההימור (באתר מפעל הפיס מכונה סכום ההימור בביטוי הציני "סכום ההשקעה").

תוחלת הזכיה שלילית כמובן: בטווח הארוך המהמר מפסיד ומפעל הפיס מרוויח. אפשר להסביר זאת באופן הבא: מהמר "מתוחכם", יהמר סכום של שקל אחד כל אחת מ-1000 התוצאות האפשריות (ב"השקעה" של 1000 שקלים), יפסיד את כספו ב-999 מהימוריו, ובהימור ה-1000 יקבל 600 שקלים. בסופו של יום, אותו מהמר הפסיד בסך הכל 400 שקלים.

כאמור, המהומה התקשורתית והמשפטית מתחוללת סביב משחק מעט יותר מסובך. ב"משחק המשולב", ניתן, בין היתר, לזכות בפרס גם אם המספר עליו מהמרים אינו זהה למספר שעלה בגורל, בתנאי שההימור היה על אותן הספרות של המספר שעלה בגורל, בסדר שונה. לדוגמא, מי שיהמר על המספר 123 יוכל לזכות בפרס גם אם עלה בגורל המספר 321 או 213, וכולי. מי שהימר על 747 יזכה גם אם יעלו בגורל 477 או 774, אבל מי שיהמר על 666 יזכה רק אם יעלה בגורל המספר 666. מה הסיכוי לזכות בהימור כזה? באתר מפעל הפיס כתוב (נכון להיום) כי הסיכוי הוא 1 ל-241.5. איך מחשבים את הסיכוי?

אפשר להתחיל לחשב (עמית גל עשה את זה בבלוג שלו). אני בחרתי בגישה אחרת, גישת מונטה קרלו, שאדגים כאן מייד. זאת לבקשת הקורא עמית (האם זהו עמית גל?) באחת התגובות לרשימה על פריז ובעיית המחט של בופון.

כל אחד יכול לעשות את זה בבית. צריך פשוט לשחק את המשחק מספר רב של פעמים. אפשר לקחת קוביה מיוחדת עם 10 צדדים (לשחקני מבוכים ודרקונים יש קוביות כאלה), או לשים בתוך כובע 10 כפתורים זהים, שעל כל אחד מהם רשומה אחת הספרות 0 עד 9. מטילים את הקוביה (או מוציאים כפתור מהכובע ומחזירים אותו) 3 פעמים – זוהי הדמיה של הגרלת המספר של מפעל הפיס. אח"כ בוחרים באותו אופן את המספר עליו מהמרים. כעת אפשר לבדוק אם "זכינו". חוזרים על התהליך מספר רב של פעמים, ובודקים באיזה אחוז מהפעמים אכן זכינו. חוק המספרים הגדולים מבטיח כי אחוז הזכיות בניסוי שלנו יהיה קרוב מאוד להסתברות האמיתית. משפט הגבול המרכזי מבטיח כי ההפרש בין אחוז הזכיות בניסוי ובין ההסתברות האמיתית יהיה בסדר גודל של אחד חלקי שורש מספר הניסויים. למשל, אם רוצים דיוק של אחוז אחד, צריך לחזור על הניסוי 10000 פעם.

זה כמובן עלול להיות מאוד מייגע. ניתן כמובן, לכתוב תכנית מחשב שתבצע את התרגיל הזה. כתבתי אחת כזו (בשפת SAS, לחצו כאן לצפיה בקוד), וערכתי את הניסוי מליון פעם (למחשב המקרטע שלי לקח כמעט 10 שניות לבצע את כל החישובים). התוצאות בטבלה:

סוג המספר שנבחר על ידי מפעל הפיס	מספר התוצאות	מספר הזכיות	הסתברות הזכיה	יחס זכיה מקורב
3 ספרות זהות (למשל 666)	9902	6	0.000605938	1:1650
2 ספרות זהות (למשל 747)	269580	774	0.002871133	1:348
3 ספרות שונות (למשל 123)	720518	4314	0.0059873590	1:167
סך הכל	1000000	5094	0.0050940000	1:196

השורה התחתונה אומרת כי הסתברות לנחש את שלוש הספרות שנבחרו בסדר כלשהו היא 0.005094, שזה בערך 1 ל-196. החישוב של עמית גל הגיע לתוצאה של 1 ל-194. בגדול, הפרסום המקורי של מפעל הפיס, לפיו סיכויי הזכיה הם 1 ל-200, היה נכון בקירוב. הפרסום הנוכחי מתאר סיכויי זכיה נמוכים יותר, ולדעתי הוא שגוי. עם זאת, גם עמית וגם אני לא לקחנו בחשבון כי מי שזוכה בפרס הראשון כבר לא זוכה בפרס השני (תודה לעמית על שהעיר את עיני על כך בתגובתו). המאורע "המהמר ניחש אתשלוש הספרות שנבחרו בסדר כלשהו" מכיל בתוכו את המאורע "המהמר ניחש את שלוש הספרות שנבחרו בסדר הנכון". לכן, צריך להחסיר מההסתברות שקיבלנו, 0.005094, את ההסתברות לניחוש כל שלוש הספרות בסדר הנכון, 0.001, ולכן נקבל כי ההסתברות לזכיה בפרס השני, שהיא הסתברות המאורע "המהמר ניחש את שלוש הספרות שנבחרו, אך לא בסדר הנכון", היא 0.004094 בקירוב, כלומר בערך 1 ל-244, ערך קרוב למדי לערך המופיע באתר מפעל הפיס (1 ל-241.5).

מהי תוחלת הזכיה במשחק כזה? מי שיהמר על שקל, ירוויח 24 שקלים בהסתברות 0.005 בערך, ויפסיד שקל בהסתברות 0.995. זה נותן תוחלת הפסד של 0.875 שקלים. במלים אחרות – מפעל הפיס משאיר בידיו 87.5% מכספי ההימורים במשחק הזה. ובכן, בחישוב התוחלת יש לקחת בחשבון את כל הפרסים והסתברויות הזכיה בהם. על כך אכתוב בקרוב רשימה נוספת.

נשלח: 20 בנובמבר, 2010. נושאים: הימורים, מה אומרת הסטטיסטיקה.
תגובות: 14 | טראקבק

מכתבי תודה וגעגוע

אתמול השתתפתי בסמינר רשת (webinar) שערכה חברת Cytel שעסק בנושא המאוד מעניין של הערכת גודל המדגם בניסוי השרדות תוך כדי הניסוי. כמקובל בוובינרים כאלה, נרשמתי לאירוע מראש באתר החברה.
הבוקר קיבלתי שתי הודעות דואל מהחברה:

הודעה אחת:

Hello Joseph Levy,

We missed you at the East SurvAdapt Webinar, 2-Nov 2010 webinar held today, Tuesday, November 2, 2010.

הודעה שניה:

Hello Joseph Levy,

Thank you for attending the East SurvAdapt Webinar, 2-Nov 2010 Web seminar on Tuesday, November 2, 2010 using WebEx.

מה שבטוח בטוח. בשפה הסתברותית: למרחב המדגם יש הסתברות השווה ל-1.

נשלח: 3 בנובמבר, 2010. נושאים: אותי זה מצחיק.
תגובות: 1 | טראקבק

שמירה על פרטיות בסקרים

סקרים הם כלי מתודולוגי חשוב ורב עצמה, בעיקר במדעי החברה. באמצעות דגימה נכונה של חלק קטן מהאוכלוסיה, ניתן לאסוף מידע על אודות האוכלוסיה כולה, ומאוחר יותר ניתן לתרגם את המידע הזה לידע ולמדיניות.

כל זה נפלא, אולם סקרים אינם כלי מושלם. הם חשופים להטיות רבות ולטעות סטטיסטית. כתבתי בבלוג רבות על אספקטים שונים של נושא הסקרים ולא אחזור ואפרט כאן את כל הדברים האלה. אתרכז רק בהטיה ספציפית אחת, ובפתרון שיש לסטטיסטיקה כדי להתגבר עליו.

אחת ההטיות הבעייתיות ביותר בסקרים היא חוסר הנכונות של הנסקרים שעלו במדגם להשיב לשאלות הסוקר. יש סיבות רבות לחוסר הנכונות הזו, ותאמינו או לא, אני בהחלט חושב שחלק מהסיבות הינן מוצדקות.

אחת הסיבות היותר מוצדקות לחוסר נכונות להשיב לשאלת סקר היא חשש הנסקר לפרטיותו. האם הייתם מוכנים לענות לסוקר, מכובד ככל שיהיה, לשאלות בדבר העדפותיכם המיניות? מה בקשר לשאלה המבקשת מכם לגלות אם עברתם על חוק כלשהו (גנבתם, השתמשתם בסם אסור, עברתם ברמזור אדום, העלמתם הכנסות)? או שאלה העוסקת במוסר האישי שלכם (האם בגדתם בבן/בת זוגכם? האם השתמשתם בשירותיה של זונה? האם רימיתם במבחן?)?

לא. אני לא חושב שהייתי שמח לענות לשאלות כאלה. עם זאת, המידע לגבי שיעור תופעות כאלה ואחרות באוכלוסיה חשוב מאוד. לכן, אין זה מפתיע שפותחו שיטות המאפשרות לנסקרים להגן על פרטיותם, ועדיין לענות בכנות וללא חשש לחשיפה לשאלות כאלה.

אחת השיטות היעילות הנפוצות היא שיטת "התשובה הרנדומלית" (Randomized Response). הרעיון בשיטה: לנסקר מוצגות שתי שאלות, והא בוחר אחת מהן באופן מקרי.שהנסקר משיב תשובת אמת לשאלה שעלתה בגורל, אבל הסוקר אינו יודע לאיזה שאלה שייכת התשובה שקיבל. עדיין, ניתן להפיק משקלול כל התשובות מידע יקר ערך.

זה נשמע מסובך, אבל מיד אציג שתי דוגמאות שיבהירו את הרעיון.

נניח שאני מעוניין לדעת מהו שיעור הנהגים המחטטים באף בעת המתנה ברמזור (מידע קריטי שעשוי למנוע תאונות דרכים רבות). אם אשאל את השאלה בצורה ישירה, סביר להניח כי התוצאה שתקבל תהיה נמוכה בהרבה מהשיעור האמיתי.

לכן אתכנן את הסקר כך שהתשובה של הנסקרים תהיה רנדומלית.

אבקש מכל נסקר להטיל מטבע. אם תוצאת ההטלה היא עץ, על הנסקר יהיה להשיב על שאלה סתמית: "האם יש לך אף?". ברור כי התשובה לשאלה זו תמיד חיובית. אם, לעומת זאת, תוצאת ההטלה תהיה פלי, אבקש מהנהג שעלה במדגם לענות האם הוא נוהג לחטט באפו בעת המתנה ברמזור, וכאן יש שתי תשובות אפשריות: "כן" או "לא".

לנדגם אין חשש לענות לי תשובה אמיתית. גם אם יענה "כן", איני יכול לדעת אם הוא ענה לי "כן, יש לי אף" או "כן, אני מחטט באף". פרטיותו לא נפגעת. ואם ענה "לא", הרי שהצהיר כי אינו מחטט באף, וגם זו הצהרת אמת, שאינו חושש להצהיר.

נניח שבמדגם שלי היו 1000 נהגים, וקיבלתי 700 תשובות "כן" ו-300 תשובות "לא". כיוון שהסיכוי לקבלת עץ בהטלת מטבע הוא 50%, הרי שמתוך 1000 הנדגמים, כ-500 קיבלו עץ, והשיבו כי אכן יש להם אף. 200 תשובות "כן" אחרות הן של נהגים שהודו כי הם אכן חטטנים, ו-300 הצהירו כי אינם חטטנים. מכאן ש-200 מתוך 500 נדגמים השיבו בחיוב לשאלה השניה רבת המשמעות, ומסקנתי תהיה כי שיעור הנהגים המחטטים באף הוא 40%. כל זאת, כמובן, בהנחה כי היה שיתוף פעולה מלא מצד הנסקרים.

הדוגמא פשטנית אך מבהירה את העקרון. יש כאן, כמובן, גם שתי טעויות סטטיסטיות. האחת נובעת מהדגימה הראשונית של 1000 הנהגים מתוך האוכלוסיה הכללית; השניה נובעת מהטלת המטבע, שקובעת את תת-המדגם של הנהגים שמשיבים לשאלה השניה. בטעויות סטטיסטיות, בניגוד להטיות שיטתיות, ניתן לשלוט על ידי קביעה מתאימה של גודל המדגם, ובכך להבטיח את שולי הטעות ("הפלוס/מינוס" המפורסם) הרצויים.

לטכניקה שהוצגה יש שני חסרונות: קודם כל, חצי מהמדגם מתבזבז על תשובה לשאלה סתמית. שנית, לגבי חלק מהנדגמים (אלה שהשיבו "לא") ניתן לדעת על איזה שאלה ענו. הנדגמים יודעים זאת, וזה עדיין עלול ליצור הטיה במדגם.

על החסרון השני ניתן להתגבר על ידי הצגה של שאלה סתמית עם שתי תשובות אפשריות, כמו "האם צבע העיניים שלך הוא כחול?" או "האם ספרת הביקורת של ממספר ת.ז. שלך היא זוגית?". אבל אם כך, מדוע לא להחליף את השאלה הסתמית הראשונה בשאלה משמעותית, כך שעדיין לא יהיה ניתן לדעת לאיזה שאלה ענה הנדגם?

הדבר אפשרי בהחלט.

נציג לנסקרים שתי שאלות:

שאלה 1: האם הנך נוהג לעשות משהו איום ונורא?

שאלה 2: האם אינך נוהג לעשות משהו איום ונורא?

תשובה חיובית מנדגם מסויים לא תיתן לנו כל אינפורמציה, כי איננו יודעים לאיזה שאלה ענה! אבל אנחנו יכולים לדעת באיזה הסתברות ענה לשאלה הראשונה ובאיזה הסתברות ענה לשאלה השניה, ובעזרת מידע זה לדעת את שיעור הנוהגים לעשות מעשה איום ונורא.

נבקש מכל נדגם להטיל מטבע פעמיים. אם שתי התוצאות יהיו עץ, נבקש ממנו לענות לשאלה הראשונה. אם לפחות אחת ההטלות תהיה פלי, נבקש מהנדגם לענות על השאלה השניה. (מסיבות טכניות ההסתברויות חייבות להיות שונות. רנדומיזציה של 50:50 לא תעבוד. המתמטיקה לא מסובכת, אבל אני נמנע מהדיון הטכני).

ועכשיו לטריק: בואו נניח שגודל המדגם הוא 1000 איש, ושאחוז אלה שנוהגים לעשות משהו איום ונורא באוכלוסיה (ובמדגם המייצג) הוא 30%. מתוך 1000 איש, 250 (בתוחלת, כלומר, באופן תיאורטי) יקבלו עץ בשתי הטלות המטבע. כיוון ש-30% מהם נוהגים לעשות משהו איום ונורא, נקבל 0.3×250=75 תשובות "כן" מהקבוצה הזו. שאר 750 הנדגמים יענו "כן" אם אינם נוהגים לעשות משהו איום ונורא. שיעורם הוא 70%, ולכן מבין אלה שהטילו מטבע ולא קיבלו פעמיים עץ נקבל 0.7×750=525 תשובות "כן". בסך הכל נקבל לכן 75+525=600 תשובות "כן".

את התרגיל הזה אפשר לעשות גם מהסוף להתחלה, ולהסיק כי אם התקבלו 600 תשובות "כן", אז שיעור האנשים הנוהגים לעשות משהו איום ונורא הוא 30%.

באופן כללי יותר (וכאן אעבור לנוסחאות, אז תרגישו חופשי לדלג): אם נסמן את גודל המדגם ב-N, את שיעור אלה שנוהגים לעשות משהו איום ונורא באות P, ואת מספר תשובות ה-"כן" באות Y, אזי

Y/N=0.25xP + 0.75x(1-P)

ומכיוון שערכם של Y ושל N ידוע לנו, ניתן לפתור את המשוואה ולמצוא את P.

נשלח: 1 בנובמבר, 2010. נושאים: סקרים.
תגובות: 8 | טראקבק

הפרסים בתחרות כדור הבדולח

אני שמח להודיע כי האיגוד הישראלי לסטטיסטיקה הסכים לתת את חסותו לתחרות כדור הבדולח.

במסגרת החסות, הפרסים שיוענקו יהיו ספרים מתנת האיגוד. כמו כן, הזוכים יוזמנו להציג את הדרך בה חישבו את תחזיותיהם בכנס השנתי של האיוגד, אם ירצו בכך (אין חובה להציג).

ניתן לשלוח תשובות לתחרות עד 31.12.2010. כולכם מוזמנים להשתתף.

נשלח: 31 באוקטובר, 2010. נושאים: כללי.
תגובות: 2 | טראקבק

הפחתת רעלים מהגוף

בדרך כלל אני שולח דברים כאלה לבלוג הכשלים, אבל זה יותר מדי טוב. בחוברת הפרסומית המצורפת לחשבון החודשי של כרטיס האשראי, גילתה אשתי את המודעה הבאה, המבטיחה הפחתת רעלים מהגוף, סיוע בהפחתת העייפות ובהרגעת הגוף מלחצים. (לחצו על התמונה לצפיה בגודל מלא)

המודעה מציינת גם כי המוצר "100% טבעי… נטול סיכונים…בדוק", וכי המוצר הינו "באישור ה-FDA". וואו.

למען ההגינות מציינת המודעה כי "לא הוכחה יעילות (המוצר) למטרה המוצהרת". אז מה הם מוכרים לנו בדיוק? ומי קונה את זה?

נשלח: 28 באוקטובר, 2010. נושאים: הממ... מעניין....
תגובות: 3 | טראקבק

איך לשקר בעזרת סטטיסטיקה

ב-1954 יצא לאור ספרון בן 142 עמודים לא גדולים, עם הרבה ציורים, שהפך לרב מכר עולמי. למעשה, זהו ספר הסטטיסטיקה הנמכר ביותר בכל הזמנים. כותרתו: How to lie with Statistics"".

מחבר הספר, דארל האף, לא היה כלל סטטיסטיקאי. הוא היה עיתונאי בהכשרתו, ובשיא הקריירה העיתונאית שלו היה עורך המגזין "Better Homes and Gardens". עם זאת, חוסר ההשכלה הסטטיסטית של האף לא מנעה מהספר להפוך לטקסט קלאסי. כאשר סטטיסטיקאי אומר לכם על תרגיל הטעיה סטטיסטי כלשהו כי זה "תרגיל מהספר", הוא מתכוון לספר הזה.

את הספר הזה פגשתי לראשונה כאשר הייתי סטודנט צעיר לסטטיסטיקה בירושלים. העותק שבספריה היה ישן וצהבהב. כבר אז היה מדובר בטקסט בן 30 ומשהו שנים. אולם אז, וגם היום, הטקסט רלוונטי. קראתי אותו בהנאה רבה, ושילבתי דוגמאות שלקחתי ממנו בקורסים שלימדתי במשך השנים. ספר זה גם מהווה עד היום השראה לבלוג שאני כותב. למעשה, אני יכול לומר כי לספר זה הייתה השפעה רבה להתפתחותי כסטטיסטיקאי וכספקן, ובזכותו, בין היתר, פיתחתי את המיומנות לקרוא טקסטים בצורה ביקורתית ולנסות לגלות אם ואיך מנסים לעבוד עלי. כמובן, למי שקרא את הספר הזה זה הרבה יותר קל.

למרות ההתקדמות הרבה בתחום הסטטיסטיקה בשנים שעברו מאז יציאתו לאור, תחום ההונאה בעזרת סטטיסטיקה לא התפתח באותו קצב. רוב ההונאות נעשות בעזרת אותן טכניקות המתוארות בספר.

להלן סקירה קצרה מאוד של תכני הספר, או טכניקות עבודה בעיניים שתוארו בו: מדגמים מוטים, מדדים תיאוריים לא מתאימים (זוכרים את המנהל והפועלים?), הסתרה של פרטים משמעותיים (למשל: התוצאה מתבססת על סקר שנערך בקרב 12 איש) הבלטה של תוצאות חסרות משמעות, עיוות של גרפים, אינטרפרטציה לא נכונה או מטעה של התוצאות, וכמובן, הסקת סיבתיות בעקבות מתאם.

בעזרת שילוב כל השיטות הללו מתקבלת "סטטיסטיפולציה", והאף דן בשאלה המתבקשת" האם סטטיסטיפולציה היא תוצאה של הטעיה מכוונת או פשוט תוצאה של חוסר ידע והבנה? לדעת האף, ברוב המקרים סטטיסטיפולציות הינן מכוונות, ומטרתן להטעות ביודעין.

הפרק האחרון בספר מסביר כיצד ניתן לנסות ולהתמודד עם הסטטיסטיפולציות האלה, ודן בנושאים המכוסים היום בכל קורס או ספר העוסק בחשיבה ביקורתית. ניתן לסכם את הגישה של האף בחמש שאלות שכל אחד חייב לשאול כאשר מוצג בפניו מידע כלשהו:

מי אמר את זה?
איך הוא יודע?
מה חסר?
האם מישהו שינה את הנושא?
האם כל זה הגיוני?

בעקבות הצלחת הספר כתב האף עוד שישה ספרים שעוסקים במה שמכונה היום "אוריינות כמותית" ("quantitative literacy"), הידוע שבהם הוא "How to take a chance", אך הם הצליחו פחות מאחיהם הגדול.

כשאר מלאו 50 שנה ליציאת How to lie with Statistics לאור, הקדיש לו כתב העת Statistical Science גליון מיוחד. במאמר הסוקר את הספר ומחברו (קישור לקובץ pdf), מפרט ג'יי מייקל סטיל מאוניברסיטת פנסילבניה את הסיבות להצלחתו רבת השנים.

הסיבה הראשית להצלחה היא הכותרת הפרובוקטיבית שלו. סטטיסטיקאים לא ממש אוהבים אותה, אבל מה לעשות, אנשים משקרים בעזרת סטטיסטיקה על בסיס קבוע (אם כי יש גם טכניקות אחרות להפצת שקרים, כמו שימוש בעברית או אנגלית, למשל). אילו היה הספר נקרא "מבוא לסטטיסטיקה" (והוא אכן מבוא לסטטיסטיקה), כמה עותקים היו נמכרים?

האיורים שבספר (וכמובן המאייר, אירווינג גייס) השביחו אותו מאוד. הקלישאה "תמונה אחת שווה אלף מלים" מוצדקת מתמיד על ידי הספר הזה. גם מי שלא אוהב לקרוא יוכל להבין בכף את המסרים שבספר, פשוט על ידי הסתכלות בתמונות.

הסגנון הקליל והרענן שבו כתוב הספר בודאי לא הזיק. היום, ספרי הדרכה כמו "Idiot guide to…" ו-"ABC for Dummies" נפוצים למדי, אך ב-1954 זה היה חידוש כביר. האף הוכיח כי ניתן לכתוב על נושא רציני ומאתגר כסטטיסטיקה בשפה שווה לכל נפש.

אבל למרות הכותרת, האיורים והשפה הקלילה, הספר לא היה שורד זמן כה רב כטקסט קלאסי אלמלא התוכן המצוין שהוא מכיל (שכבר סקרתי למעלה). אני מאמין שבשנת 2054 הספר הזה עדיין יהיה ראוי לגליון מיוחד של Statistical Science, לציון 100 שנה ליציאתו לאור.

נשלח: 26 באוקטובר, 2010. נושאים: היסטוריה, מה אומרת הסטטיסטיקה, ספרים וסרטים.
תגובות: 13 | טראקבק

סטטיסטיקאי בפריז

אין כמו ביקור בפריז לשיפור מצב הרוח והנפש. ביום רביעי של השבוע שעבר נסענו זוגתי ואני לחופשה של חמישה ימים בפריז. מועד הנסיעה, שלא במקרה, היה יום הולדתי הראשוני ה-15. זה לא היה ביקורנו הראשון בעיר, ולכן הביקור הנוכחי דילג על "אתרי החובה" השונים של העיר. הפעם בחרנו לסייר בעיקר ברחובות וכיכרות שעדיין לא ביקרנו בהם, בגנים ובשווקים. אמנם תיכננו ביקור במוזיאון האורנז'רי, אך הוא היה סגור עקב שביתה. ביקרנו במוזיאון אחד בלבד – מוזיאון המוזיקה, ואני ממליץ לכולם בחום לבקר בו.

יש מוזיאון אחד בפריז שאני רוצה מאוד לבקר בו, אך מוזיאון כזה אינו קיים: מוזיאון המתמטיקה. אמנם, ב"ארמון התגליות" (Palais de la découverte) יש תערוכה קטנה שעוסקת במתמטיקה, אך היא מאכזבת למדי (ביקרתי בה לפני כמה שנים).

פריז היא המשכן הטבעי למוזיאון מתמטיקה. היא הייתה עיר הבירה של המתמטיקה העולמית במאה ה-18, ובמשך מהמאה ה-19 הייתה עדיין אחד ממרכזי המתמטיקה העולמיים (יחד עם ברלין וגטינגן). בפריז נשא דויד הילברט את נאומו המפורסם בו הציג את 23 הבעיות שיתוו את כיוון המתמטיקה במאה ה-20. בין המתמטיקאים הגדולים שחיו ופעלו בעיר (ואני דולה את השמות מהזיכרון בלבד) ניתן למנות את קושי, לפלס, לגראנז', גלואה, דקארט, האדמר, פואנקרה, ג'רמיין, פורייה, וגם את הרוזן בופון (שמייד אכתוב עליו בהרחבה). אני תמיד מופתע מכך שהעיר פריז די מבליעה את ההיסטוריה המפוארת שלה בתחום הכל כך חשוב הזה.

אחת הדרכיםבהן חולקת פריז כבוד לאנשים היא על ידי קריאת רחובות על שמם. בפריז יש כ-100 רחובות וככרות הנקראים על שם מתמטיקאים, לאו דווקא צרפתיים. יש גם רחובות על שם ברנולי, לייבניץ, ליאונרדו, אך אין רחובות על שם גאוס ורימן. יש כיכר בה נפגשים רחובות ניוטון, גליליאו ואוילר. הנה השלט של רחוב דקארט, ברובע הלטיני:

במרחק מספר דקות הליכה מרחוב דקארט נמצא רחוב בופון, המוביל אל הגנים הבוטניים של פריז (Jardin des Plantes) ובמרכזם ניצב, הפלא ופלא, פסלו של הרוזן בופון!

הרוזן בופון ואני

הרוזן בופון היה איש אשכולות קלאסי של המאה ה-18: הוא היה חוקר טבע, מתמטיקאי, קוסמולוג ועורך אנציקלופדיות. מתברר גם שהוא היה בין מקימי הגנים הבוטניים ומנהלם, ולכן אין זה פלא שפסלו ניצב במרכזם.

לפני כחמש שנים כתבתי כאן על רשימת 100 המשפטים הגדולים של המתמטיקה שהופיעה באחד מאתרי האינטרנט. במקום ה-99 של אותה רשימה הופיעה בעיית המחט של בופון. מהי בעיית המחט של בופון?

תארו לעצמכם דף נייר גדול, עליו משורטטים קווים מקבילים שהמרחק בינם קבוע. נסמן את המרחק בין הקווים באות d. ניקח מחט, שאורכה L, (כאשר L<d), ונטיל אותה על הגליון. מה ההסתברות כי המחט תחצה את אחד הקווים?

בשרטוט שלמעלה מוצגות 7 מחטים, שמתוכן 4 חוצות קווים. הניסוי שתואר למעלה נותן אמדן להסתברות המבוקשת: 4/7.

בופון חישב ומצא כי ההסתברות שהמחט תחצה את אחד הקווים, P, היא

במקרה המיוחד בו אורך המחט שווה למרחק בין הקווים (כלומר L=d), מקבלים כי P=2/π.

π הוא, כמובן, היחס בין היקף המעגל וקוטרו. איך הוא הגיע לכאן? כדי לחשב את ההסתברות נחוצים שני ערכים: מרחק מרכז המחט מהקו הקרוב, והזוית בין המחט ובין הקו. עם הזווית מקבלים כבונוס את הסינוס שלה, והוא מכניס את פיי לתמונה.

נחמד, אבל למה פתרון הבעיה הזו ראוי להמנות בין 100 המשפטים הגדולים של המתמטיקה?

התשובה המפתיעה: בעזרתה ניתן לחשב את ערכו של פיי!

אפשר לבצע את הניסוי של הטלת המחט מספר גדול של פעמים ולאמוד את ההסתברות P על ידי היחס בין מספר הפעמים בהן המחט חצתה את הקו לבין מספר ההטלות. חוק המספרים הגדולים מבטיח כי האמדן קרוב לערך האמיתי של ההסתברות, אם מספר הנסיונות מספיק גדול. כעת, כשיש לנו אמדן טוב ל-P, וידועים לנו ערכי L ו-d, אפשר לחשב את פיי באופן הבא:

או פשוט π=2/P אם d=L.

ב-1901 פרסם המתמטיקאי האיטלקי מריו לזריני קירוב של פיי שהשיג על ידי ניסוי בופון. הוא הטיל מחט שאורכה היה 5/6 מהמרחק בין הקוים 3408 פעמים, והמחט חצתה את הקוים 1808 פעמים. האמדן שקיבל לערכו של פיי היה לכן 355/113, או …3.1415929 בעוד שהערך האמיתי הוא …3.1415926. אמנם, לזריני בחר בקפידה את אורך המחט ואת מספר ההטלות (ויש הטוענים יותר מדי בקפידה), אך התוצאה עדיין מרשימה. מי שמעוניין יכול לנסות בעצמו בבית, או להשתמש באחד מהסימולטורים של הניסוי ברשת.

העקרון לפיו מחושב הערך של פיי מתוצאה של ניסוי מקרי ידוע היום בסטטיסטיקה כ"שיטת מונטה קרלו". כיום יש שימוש נרחב בסימולציה לחישוב ערכים של פרמטרים שונים, הודות ליכולות המחשוב המודרניות. מדהים ששיטה זו מתבססת על עקרונות שהיו ידועים כבר במאה ה-18.

נשלח: 21 באוקטובר, 2010. נושאים: האנשים שמאחורי הסטטיסטיקה, היסטוריה, המשפטים הגדולים של הסטטיסטיקה.
תגובות: 10 | טראקבק