סימון סינג מדבר על הומיאופתיה, מתמטיקה ומדע
אתמול, 19.10.2010, התקיימו שתי הרצאות בבית אריאלה בתל אביב.
בהרצאה הראשונה היו שני דוברים, אדזארד ארנסט וסימון סינג, מחברי הספר "ריפוי או פיתוי". ארנסט דיבר על הרפואה האלטרנטיבית, הגדרתה הבעייתית, ותיאר סיבות אפשריות להווצרות הרושם כי טיפולים לא יעילים נראים כאילו הם עובדים. בהמשך הוא דיבר על הדרכים לבחון שיטות ריפוי אלטרנטיביות ואת יעילותן (ניסויים קליניים), על הסכנות שבטיפול על ידי פלסבו/שיטות לא יעילות, ועל ההשלכות החברתיות/כלכליות של שימוש בשיטות כאלה.
סינג דיבר על תהליך כתיבת הספר, על עקרונות ההומיאופתיה והבעייתיות שלהם, על הגישה המדעית לבחינת טענות, וגם על תביעת הדיבה שהוגשה נגדו על ידי ארגון הכירופרקטים בבריטניה, בה זכה לאחר הליך משפטי ארוך ויקר.
הקלטת ההרצאה של סינג וארנס על הספר "ריפוי או פיתוי"
בהרצאה השניה דיבר סינג על שלושת ספריו הקודמים: "המשפט האחרון של פרמה", "סודות ההצפנה", ו-"המפץ הגדול". הוא דיבר על המוטיבציה שלו לכתוב את הספרים האלה, ועל הסיפורים שמאחורי הספרים. בהרצאה שולבו קליפים מתוך הסרט על המשפט האחרון של פרמה שסינג הפיק עבור ה-BBC. בנוסף, הוכיח סינג מתמטית כי הטלטאביז הם התגלמות הרוע.
הקלטת ההרצאה של סינג על שלושת ספריו הראשונים (דברי פתיחה: אבשלום אליצור)
נשלח: 20 באוקטובר, 2010. נושאים: מדע, ספרים וסרטים.
תגובות: 8
| טראקבק
הרצאתי בפסטיבל אייקון + הבהרה
תזכורת: בפסטיבל ICON-TLV שייערך בחול המועד סוכות, אתן הרצאה על הגיבורים שמאחורי הניסויים הקליניים. ההרצאה תתקיים ביום ראשון, 26.9.2010 בשעה 7 בערב, במרכז חמד"ע, רחוב הפרדס 7, תל-אביב (סמוך לגן העיר).
הבהרה: אחד מקוראי הבלוג פנה אליי במייל כדי למחות על השתתפותי בפסטיבל ICON TLV, כיוון שאינו הפסטיבל המאורגן על ידי אגודה מסויימת. אגודה זו מארגנת פסטיבל מקביל, הנקרא גם הוא בשם ICON. הקורא ביקש ממני לשקול להעביר את הרצאתי לאירוע האחר, ולהסביר לבאי הרצאתי את "הבעייתיות" של המסגרת בה ניתנת הרצאתי, לדבריו.
לכן ברצוני להבהיר:
- אני מודע ליריבות בין שני הפסטיבלים המתחרים.
- אני לא שותף לסכסוך הזה, אין לי עניין בו, וגם איני מתכוון לנקוט עמדה בנושא.
- איני רואה כל בעייתיות בהרצאה באירוע מסויים, כל עוד לא נעשים בו מעשים פליליים או לא מוסריים. למיטב ידיעתי, האירוע בו אני מרצה ומארגניו אינם שותפים למעשים כאלה.
- אני מרצה בפסטיבל ICON-TLV כייוון שמארגניו פנו אלי וביקשו ממני להרצות בו. גילוי נאות: אחת ממארגנות פסטיבל זה היא גיסתי.
- אני לא מקבל תשלום כלשהו תמורת הרצאתי, אם כי אני מוזמן למספר אירועים בפסטיבל.
- אם יפנו אליי מהאירוע השני, אשמח להרצות גם בו.
- אני ממליץ לכל אחד מהקוראים לבחון את התכניות של שני הפסטיבלים, ולהשתתף באירועים שמעניינים אותם, ללא כל קשר למסגרת בה האירוע מתקיים ולזהות המארגנים.
נשלח: 20 בספטמבר, 2010. נושאים: כללי.
תגובות: 9
| טראקבק
על אנדרו ארנברג ועבודת הדוקטורט שלי
לפני מספר ימים הופיעה בפיד החדשות של האגודה המלכותית לסטטיסטיקה הודעה כי אנדרו ארנברג הלך לעולמו, בגיל 94. מי? אתם בודאי שואלים, אולם האיש ועבודתו מוכרים לי היטב, ובילדותי קראתי רבות בספרו הקלאסי על קניות חוזרות ובמאמרים שפרסם על הנושא.
ארנברג נולד בגרמניה בשנת 1926 למשפחה מרובת פרופסורים. ב-1938 נמלטה המשפחה מגרמניה לאנגליה. ארנברג למד סטטיסטיקה באוניברסיטת קיימברידג'. במקביל לפיתוח קריירה אקדמית כמרצה לסטטיסטיקה וחוקר, עסק בייעוץ לחברות בתחום המחקר השיווקי, ותוך כדי כך פיתח מתודולוגיות לניתוח נתונים שיווקיים, ולמעשה ייסד את התחום הידוע כיום כ-Marketing Science. היישום של המודלים שפיתח התפשט גם לתחומים אחרים, בעיקר במדעי החברה. ב-1970 נתמנה ליושב ראש המחלקה לשיווק של הלונדון ביזנס סקול. הוא נחשב לאחד מחלוצי המחקר הכמותי במדעי החברה.
אני התעניינתי בעיקר בעבודתו של ארנברג בתחום התנהגות הצרכנים, ובעיקר במודלים שלו לניתוח דפוסים של קניות חוזרות והערכת נאמנות הצרכנים. הסיבה להתעניינותי: רציתי לכתוב עבודת דוקטורט על הנושא.
|
|
|
אנדרו ארנברג (1926- 2010) |
אתאר בקצרה את הבעיה. אנו מתבוננים בשוק למוצר מסויים, נניח קפה נמס מיובש בהקפאה. בשוק קיימים כמה מותגים של קפה כזה, אולי 5 או 6. אם ניקח מדגם של צרכנים, ונבדוק איזה מותגי קפה נמס הם קנו בשתי קניות רצופות, נוכל להציג אותם בטבלה דו מימדית בגודל 5×5 (למשל). לדוגמא, נגלה כי X צרכנים קנו קפה של חברת גלית בשתי קניות רצופות, Y צרכנים קנו קפה של חברת אסתר צ'ויס בשתי קניות רצופות, Z צרכנים קנו קפה גלית, ובפעם הבאה קנו קפה אסתר צ'ויס, וכולי.
כדי לנתח נתונים כאלה ולהסיק מהן מסקנות (רצוי שימושיות), יש צורך לבנות מודל הסתברותי שיתאר את הקניות של הצרכנים, ומעל המודל הזה לבנות מודל סטטיסטי. התחום הכללי של ניתוח נתונים מהסוג הזה ידוע בשם "ניתוח לוחות שכיחות".
אבן הפינה בתיאוריה של ארנברג היה "מודל דיריכלה". המודל מיישם למעשה את ההתפלגות הקרויה של שם המתמטיקאי הגרמני דיריכלה (שהיא גירסה רב מימדית של התפלגות ביתא) לנתוני הקניות של הצרכנים. המודל הזה כלל פרמטר לכל מותג ופרמטר נוסף, כללי. כלומר, אם מדובר בשוק בו מתחרים 5 מותגי קפה, למודל יש 6 פרמטרים. לפרמטרים של המותגים יש אינטרפרטציה ברורה – הם מייצגים את נתחי השוק של כל אחד מהמותגים, או במלים אחרות, את ההסתברויות שצרכן יקנה את כל אחד מהמותגים. האינטרפרטציה של הפרמטר הנוסף, הכללי, פחות ברורה. מבחינה סטטיסטית, הוא מדד להטרוגניות של אוכלוסיית הצרכנים, כלומר, הוא מודד עד כמה ההסתברויות לקניית כל מותג שונות בין צרכן לצרכן. האינטרפרטציה השיווקית הייתה קצת פחות ברורה. האם הוא מייצג את מידת הנאמנות שמפגינים הצרכנים למותגים השונים ("אני שותה רק קפה גלית!")? התשובה, על פי התובנות שהגעתי אליהן מאוחר יותר, היא פרסית משהו: כן ולא. בכל מקרה, קהילת חוקרי השיווק באמצע שנות התשעים של המאה הקודמת האמינה כי נאמנות היא ביטוי לנתח שוק. ככל שלמותג יש נתח שוק גדול יותר, האמינו, כך הקונים שלו נאמנים אליו יותר.
כדי לקבל דוקטורט היה עליי להציג גישה אחרת שתביא לתובנות חדשות ולחידושים מתודולוגיים. גם אני רציתי לבנות מודל עם N+1 פרמטרים: פרמטר אחד לכל מותג, ופרמטר נוסף התלוי באוכלוסיה.
ההנחה היסודית שהנחתי היא שהחלטת קניה של צרכן מבוססת על גורמים התלויים במותגים עצמם (כגון טעם הקפה, מחירו, וכדומה) ועל גורמים התלויים בצרכן (כאן חשבתי בעיקר על נטייה לשמרנות/נאמנות מול נטייה לחדשנות/גיוון).
רציתי לבנות מודל בו כל תכונות המותג ימוצו בפרמטר אחד, שמאוחר יותר כיניתי אותו בשם ה-"אטרקטיביות של המותג". הפרמטר הנוסף היה אמור לבטא את מידת הנאמנות/נטיה לקניה חוזרת של אוכלוסיית הצרכנים הנחקרת.
השלב הבא היה להגדיר תכונות מתמטיות שמודל כזה צריך לקיים. למשל, דרשתי שככל שערכו של פרמטר הנאמנות גדול יותר, אז ההסתברות לקניה חוזרת של אותו מותג (ולא משנה איזה מותג) תגדל. במלים מתמטיות, ההסתברות לקניה חוזרת צריכה להיות פונקציה מונוטונית עולה של פרמטר האוכלוסיה. דוגמא לתכונה נוספת שדרשתי: אם למותג אחד אטרקטיביות גבוהה ולשני אטרקטיביות נמוכה, אז ההסתברות שקונים יעברו מהמותג עם האטרקטיביות הנמוכה לזה עם האטרקטיביות הגבוהה תגדל.
כעת יכלתי להציג משפחת מודלים אפשרית שתקיים את כל התכונות הנאות שדרשתי. המחיר ששילמתי תמורת קיום כל התכונות היה מודל פחות חסכוני. המודל שלי כלל 3N+1 פרמטרים לעומת N+1 פרמטרים במודל דיריכלה. הפרמטרים הנוספים היו "פרמטרי סרק", אם כי ניתן היה לתת להם אינטרפרטציה של שיקוף נתחי השוק של המותגים. ראוי לציין כי משפחת המודלים שהצגתי הייתה מבוססת על מודל RC שפותח על ידי ליאו גודמן, מחלוצי המחקר של שיטות הניתוח ללוחות שכיחות, וכמובן הסתייעתי רבות במורי ורבי, צבי גילולה, שהיה המדריך שלי לעבודת הדוקטורט.
המחיר ששילמתי הינו כדאי. אם המודל נכון/מתאים, מנהלי השיווק של המותגים יקבלו לידיהם מידע רב ערך. הם יוכלו להסיק מיהם המתחרים שלהם בשוק (אותם מותגים עם אטרקטיביות דומה למותג שהם מנהלים), ולנקוט פעולות כדי להעלות את האטרקטיביות שלהם ביחס למתחריהם. המידע על נאמנות הצרכנים יוכל להנחות אותם במידת האגרסיביות שעליהם לנקוט (באוכלוסיה נאמנה צריך להתאמץ קשות כדי לגנוב לקוח מהמתחרה, ואולי זה אפילו בלתי אפשרי. אבל אם מצליחים, הלקוח החדש נשאר אצלך). יש כאן שינוי קונספטואלי. חברות רבות משקיעות משאבים רבים במה שהן מכנות "בניית נאמנות צרכנים". על פי התיאוריה שלי, אין חיה כזו. הפעילויות ל-"הגברת הנאמנות" שמבצעות החברות הן למעשה פעילויות המגדילות את האטרקטיביות של המותג שלהן לעומת המותגים המתחרים.
בנוסף, פיתחתי מדדים כמותיים למושג של נאמנות צרכנים, וכעת ניתן היה "לשים" את אוכלוסיית הצרכנים על רצף שהתחיל בנאמנות (loyalty), ועבר דרך מצב ביניים של non-loyalty עד למצב הקיצוני של חוסר נאמנות (disloyalty), בו צרכנים מעדיפים במודע לקנות בכל פעם מותג אחר.
כאשר יישמתי את המדדים האלה למודל הדיריכלה של ארנברג, הופתעתי לגלות שהמודל לא מאפשר מצבים של disloyalty ואפילו לא non-loyalty, אלא מצבי נאמנות בלבד. זה לא אומר שמודל דיריכלה לא נכון. הוא שימושי במקרים בהן קיימת נאמנות צרכנים. ההצלחה האמפירית שלו מעידה לדעתי על כך שברוב השווקים אכן קיימת נאמנות צרכנים, כלומר, צרכנים בדרך כלל נוטים לחזור ולקנות את אותו המותג אליו הם רגילים.
על הדרך פיתחתי שיטת אמידה חדשה לפרמטרים (שילוב של ML ו-IPR), שהייתה ישימה גם למודל דיריכלה. שיטה זו אפשרה גם הסקה סטטיסטית על הפרמטרים של המודל (בדיקת השערות בניית רווחי סמך), בניגוד למתודולוגיה של ארנברג שהייתה תיאורית בעיקרה. כמו כן הראיתי איך אפשר להשתמש במודל כדי לנתח נתוני קניה שנאספו במשך זמן ארוך יותר, ולחזות בעזרתם את התנהגות הצרכנים בעתיד.
עבודת הדוקטורט שלי הוגשה ב-1996 ואושרה סופית כשנה לאחר מכן. על סמך העבודה קיבלתי משרת פרופסור אורח בבית הספר לניהול Kellogg של אוניברסיטת נורתווסטרן. עם זאת, התגובות בקהילת המחקר השיווקי היו פחות נלהבות מהתגובות בקרב הסטטיסטיקאים. לאחר סיום המינוי שלי בנורתווסטרן עבדתי שנה בחברה שעסקה במחקר שיווקי בתעשיית שירותי הבריאות, ואח"כ עזבתי את התחום ופניתי לתחום של ניסויים קליניים וביוסטטיסטיקה.
נשלח: 16 בספטמבר, 2010. נושאים: האנשים שמאחורי הסטטיסטיקה, מה אומרת הסטטיסטיקה.
תגובות: 7
| טראקבק
מקבץ 5
ושוב, אוסף לינקים בנושאי הבלוג שהצטברו מאז המקבץ הקודם.
- המקבץ הקודם הסתיים בלינק לפוסט בבלוג "עבודה שחורה", שהודיע על העובדה הלא מפתיעה כי התפלגות השכר בישראל מוטה, או יותר נכון, אינה סימטרית. האמת, זה קצת כמו להודיע שכלב נשך אדם. זה המצב בכל התפלגויות השכר בכל מקום, וזאת כיוון שהשכר מוגבל מלמטה (על ידי שכר המינימום, או על ידי האפס) אך אינו מוגבל מלמעלה, ותיאורטית (וגם מעשית) יש קבוצה קטנה של מקבלי שכר גבוה במיוחד שיוצרים "זנב" להתפלגות. כל זה לא מעניין במיוחד את שלומית יהב, יועצת כלכלית לעת מצוא. היא פירסמה בווינט כתבה בה הוכיחה באותות ובמופתים כי משפחה שבה שני בני הזוג מרוויחים את השכר הממוצע במשק יכולה "לחיות טוב" בארצנו. אתם יודעים מה, היא גם צודקת. כי השכר הממוצע המשק גבוה מאוד, ומי ששכרו שווה לשכר הממוצע ניצב בגאון בעשירון השלישי, כלומר, 70% מהאוכלוסיה מרוויחים פחות מהשכר הממוצע. הבעיה היא שמספר המשפחות בהן שני בני הזוג עובדים ומרוויחים את השכר הממוצע במשק זניח. אם אחד מבני הזוג מרוויח את השכר הממוצע, יש סיכוי יותר גדול כי השני מרוויח פחות מכך. כן, גם אם לוקחים בחשבון שיש תלות בין השכר של שני בני הזוג, וזאת כיוון שהשכר הממוצע למשפחה הוא פחות מפעמיים השכר הממוצע במשק. דובי קננגיסר כתב היטב על הכשלים של גברת יהב, והעריך כי התחשיב שלה נכון לגבי לא יותר מ- 10% ממשקי הבית בישראל. השורה התחתונה: אם אתה בעשירון העליון, אתה באמת יכול לחיות טוב בארץ הזו.
- ראיון עם פרופסור אילון לינדנשטראוס, שזכה במדליית פילדס, הפרס היוקרתי ביותר במתמטיקה.
- אין שידור טלוויזיה של משחק כדורסל, בייסבול או פוטבול (אמריקני) שאינו מלווה בשפע של נתונים סטטיסטיים אודות המתרחש במשחק. יותר מכך: ניתוחים סטטיסטיים מהווים היום חלק מתהליך קבלת ההחלטות בכל ארגון ספורט בענפים האלה. ומה קורה בכדורגל? לא הרבה. הניו יורק טיימס מנסה לברר מדוע. חלק מהסיבות: האוהדים לא מעוניינים. הקבוצות לא מתעניינות. קשה יותר להשיג נתונים סטטיסטיים על משחקי כדורגל, בין היתר בגלל האופי השונה של המשחק.
- לא רק לענף הכדורגל יש בעיות עם הסטטיסטיקה. גם לרופאים (שוב, ידיעה מהסוג של "כלב נשך אדם"). אתר ABC מדווח על מחקר שפורסם לאחרונה לפיו רוב הרופאים אינם מבינים נתונים סטטיסטיים אודות תופעות לוואי אפשריות של תרופות. עורכי המחקר מאשימים, איך לא, את חברות התרופות. האפשרות שרופאים ילמדו קצת סטטיסטיקה לא עולה בדעתם.
- בגליון ספטמבר של Amstat News, המגזין החודשי של האיגוד האמריקני לסטטיסטיקה – ראיון עם שלושה בלוגרים סטטיסטיקאים: אנדרו גלמן, נתן יאו וקייזר פאנג.
- ובגליון אוגוסט מובאים הזוכים בתחרות הפוסטרים השנתית של האיגוד האמריקני לסטטיסטיקה – הנערכת בקרב תלמידי בתי הספר בארה"ב. מה שמראה שלא צריך להיות רופא, או סטטיסטיקאי, כדי "לעשות" סטטיסטיקה טובה. צריך רק לרצות. הנה טעימה: הזוכה במקום הראשון בקרב תלמידים מכיתות א עד ג:
|
|
נשלח: 12 בספטמבר, 2010. נושאים: חינוך, כלכלה וחברה, מדע, מה אומרת הסטטיסטיקה, ספורט.
תגובות: 2
| טראקבק
הניקוד בתחרות כדור הבדולח
את ההשראה לתחרות כדור הבדולח שאבתי מתחרות דומה שערכה החברה המלכותית לסטטיסטיקה. לכאורה, היה באפשרותי להשתמש באותם כללי ניקוד (הלינק יתחיל הורדת קובץ pdf) המשמשים את התחרות המקורית. אולם, עיון באותם כללי ניקוד הראה כי ייתכן מצב אבסורדי בו מי שיחזה בדיוק את התשובה הנכונה יקבל ניקוד פחות טוב מאדם אחד ש"יטעה קצת". לכן, כללי הניקוד שישמשו אותי שונים.
לפני ההסבר על כללי הניקוד, אכניס כמה סימונים.
ראשית, אציין כי לכל שאלה הניקוד מחושב בנפרד. הניקוד מחושב באופן שככל שהניחוש/ניבוי/תחזית טוב יותר, כך הניקוד נמוך יותר.
באות T אסמן את הערך האמיתי, שאותו על המתחרים לנחש/לנבא/לחזות, עבור שאלה מסויימת.
באות G אסמן את הניחוש/ניבוי/תחזית של המנחש/נביא/חוזה, ובאות S אסמן את סטיית התקן בה העריך המנחש/נביא/חוזה את מידת אי הודאות של הניחוש/ניבוי/תחזית.
כעת אחשב שלושה מדדים להערכת טיב הניחוש/ניבוי/תחזית:
המדד הראשון יעריך עד כמה הניחוש/ניבוי/תחזית קרוב לערך האמיתי. ערכו יהיה שווה לריבוע המרחק של הניחוש/ניבוי/תחזית מהערך האמיתי. ניחוש/ניבוי/תחזית מדוייק ייתן תוצאה אפס:
המדד השני יעריך עד כמה המנחש/נביא/חוזה היטיב להעריך את מידת אי הודאות של הניחוש/ניבוי/תחזית: אם הניחוש/ניבוי/תחזית נמצא בתוך התחום של הערך האמיתי פלוס מינוס סטיית התקן, הניקוד יהיה אפס. אם הניחוש/ניבוי/תחזית יחרוג מהתחום, הניקוד יהיה מרחק הניחוש/ניבוי/תחזית מקצה התחום, בריבוע. לחובבי נוסחאות:
![]() |
כמובן, מי שיציין ערך גבוה מאוד של S יוכל להגדיל מאוד את הסיכוי כי המדד השני יהיה שווה ל-0. כמובן, ערך גבוה של S פירושו מידת אי ודאות נמוכה (בואו ניקח את זה לקצה: מי שיציין ש-S שלו שווה לאינסוף, כאילו אמר בודאות שהניחוש/ניבוי/תחזית שלו הוא בין מינוס אינסוף לאינסוף, והוא צודק בודאות כמובן, אבל הניחוש/ניבוי/תחזית שלו לא שווה הרבה). כדי למנוע מהמשתתפים בתחרות לציין ערכים גבוהים מידי של S, בא המדד השלישי, ששווה פשוט לארבע פעמים הריבוע של S:
הניקוד הראשוני לשאלה יהיה סכום שלושת המדדים:
השלב הבא יהיה נירמול התוצאות – כדי שיהיה אפשר להשוות בין תשובות לשאלות שונות (כיוון שהניקוד תלוי באופי השאלה, היחידות בהן נמדדות התשובות לשאלות, וכדומה).
יש דרכים יותר מתוחכמות לבצע את הנירמול, אולם אני בחרתי בדרך הפשוטה הבאה: לכל שאלה אקח את התוצאה Z הגבוהה ביותר שהתקבלה, אחלק את הניקוד של כל משתתף שענה על שאלה זו בתוצאה הגבוהה ביותר, ואכפיל ב-100. כך הניקוד הסופי לכל שאלה יהיה מספר בין אפס למאה, וכאמור, ככל שהניקוד הסופי נמוך יותר, כך הניחוש/ניבוי/תחזית טוב יותר.
הניקוד הסופי למשתתף יהיה סכום הנקודות עבור ארבע השאלות עם הניקוד הטוב ביותר עליהן ענה.
נשלח: 11 בספטמבר, 2010. נושאים: כללי.
תגובות: 3
| טראקבק
תחרות כדור הבדולח!
ראש השנה מתקרב, והעיתונים של מחר יהיו מלאים בתחזיות לשנה הבאה. הפרשנים המדיניים יחזו את תוצאות המשא ומתן שמנהל ראש הממשלה עם הרשות הפלסטינית, חלקם יקבעו כי הבחירות לכנסת יוקדמו וחלקם לא. חלקם יצדקו. פרשני הספורט ידושו בסיכויי ההצלחה של נבחרת הכדורגל במוקדמות אליפות אירופה. אסטרולוגים יודיעו כי אחמדניג'אד או נאסרללה או חוסני מובראק ילכו לעולמם השנה, וימליצו לכם (בין היתר) לרכז את השנה הבאה במאמצים לטפח את סביבת המגורים שלכם, או שלא (אני אתעלם מהעיצות האלה כי נולדתי במזל מאזניים, וידוע כי בני מזל מאזניים לא מאמינים באסטרולוגיה). נחמיה שטרסלר יתריע כי אם לא יתבצע קיצוץ משמעותי תקציב המדינה יתרגש עלינו אסון כלכלי.
אבל מה בקשר לשאלות החשובות באמת? מה תהיה תוצאת גמר היורוליג בכדורסל? מה יהיה השכר הממוצע במשק? כמה נוסעים יעברו בנתב"ג? כמה נקודות יקבל השיר הישראלי באירוויזיון? איזה תכנית טלויזיה תזכה לרייטינג הגבוה ביותר בט"ו בשבט?
על כל השאלות האלה, אתם, הקוראים, מוזמנים לענות. אתם יכולים לנחש את התשובות, לקרוא אותן בכוכבים, לפתוח בקלפים. יש לי גם הצעה רדיקלית: אפשר לנסות לאמוד את הערכים העתידיים מתוך נתונים היסטוריים, תוך שימוש בשיטת סטטיסטיות כלשהן, פשוטות או מתוחכמות, לבחירתכם.
הנה עשר שאלות. נסו את כוחכם. כדי להכנס לתחרות יש לענות לפחות על ארבע שאלות. מי שיענה על יותר שאלות, יילקחו בחשבון ארבע התשובות שיקבלו את הניקוד הגבוה ביותר, אז במובן מסויים כדאי "לנחש", אם כי אני מקווה שהניחושים יהיו אינטליגנטיים.
יש גם מילכוד. כדי שאוכל להעריך את איכות התשובות ולהשוות בינהן, אני מבקש מהעונים לתת בעצמם הערכה לאיכות התשובות שלהם. אני מבקש כי לתחזית המנופקת תוצמד הערכה למידת אי הודאות שבתחזית: סטיית תקן. כלומר, אם אתם מעריכים כי השיר הישראלי באירוויזיון יזכה ב-100 נקודות, התשובה צריכה להיות משהו כמו "100 פלוס מינוס 10", או "100 פלוס מינוס 20". התשובה השניה מגלמת בתוכה מידה גדולה יותר של אי ודאות. העונה הראשון יוכל לומר כי צדק אם התוצאה תהיה 109, אך לא אם תהיה 111. העונה השני יוכל לטעון לצדקתו בשני המקרים. (הערה: ההסבר על סטיית התקן כרוך כאן בנפנוף ידיים מסויים ואינו מדוייק. עם הקוראים הבקיאים יותר בסטטיסטיקה הסליחה). לכל תשובה יינתן ניקוד שייקח בחשבון את איכות התחזית ואת nידת אי הודאות שלה. הניקוד יהיה טוב יותר ככל שהתחזית תהיה קרובה יותר לערך האמיתי וככל שסטיית התקן תהיה קטנה יותר. עם זאת, סטיית תקן קטנה מדי עלולה לגרום לכך שהערך האמיתי לא יהיה בתוך התחום המוגדר על ידי ה-"פלוס מינוס", וזה יפחית את הניקוד. קחו זאת בחשבון. (כללי הניקוד נמצאים כאן).
שלושת המשתתפים בעלי הניקוד הטוב ביותר יזכו בפרסי ספרים. בנוסף לכך שמות החוזים המצטיינים יפורסמו כאן בבלוג, והם יזכו בדקת תהילה נוספת על 15 דקות התהילה המובטחות להם ממילא.
את התשובות לתחרות ניתן להגיש עד סוף היום, 31 בדצמבר 2010. שילחו אותן אלי, למייל jlevy13 ב-gmail.com.
הנה השאלות: בהצלחה!
1. מה יהיה השכר הממוצע במשק למשרת שכיר (כולל משרות של עובדים זרים), במחירם שוטפים, בחודש ינואר 2011, על פי פרסומי הלשכה המרכזית לסטטיסטיקה? נתונים אחרונים: מרץ 2010: 8473, אפריל 2010: 8077, מאי 2010: 8070. מקור: הירחון הסטטיסטי לישראל, לוח י"א/4. לינק: http://www.cbs.gov.il/yarhon/k4_h.htm
2. כמה נקודות יקבל השיר הישראלי בתחרות חצי הגמר של האירוויזיון ב-2011? ב-2010 הראל סקעת השיג 71 נקודות, ב-2009 השיגו אחינועם ניני ומירה עווד 75 נקודות, וב-2008 זכה בועז מעודה ב-124 נקודות. לינק לנתונים: http://www.eurovision.tv/page/history/by-country/country?country=18
3. כמה נקודות תקלע הקבוצה שתנצח השנה בגמר היורוליג בכדורסל, שייערך באביב 2011 בברצלונה? זוכת היורוליג בשנת 2010, ברצלונה, גברה בגמר 86-68 על אולימפיאקוס. ב-2009 גברה פאנאתינייקוס על צסקא מוסקבה 73-71, ואותה צסקא גברה על מכבי תל-אביב 91-77 בגמר של 2008. לינק לנתונים: http://en.wikipedia.org/wiki/Euroleague_Basketball
4. מה יהיה מחירה של מניית גוגל, בדולרים של ארה"ב, בסוף יום המסחר 14.4.2011? מחיר מניית גוגל בסוף יום המסחר 14.4.2010 היה 589.00 דולר. את הנתונים ההיסטוריים של מחיר המניה אפשר לראות בלינק הבא: http://www.google.com/finance/historical?q=NASDAQ:GOOG
5. מה יהיה מספר ההרוגים בתאונות דרכים הישראל בחודש פברואר 2011, על פי נתוני הלשכה המרכזית לסטטיסטיקה? בחודש פברואר 2010 היו 26 הרוגים בתאונות דרכים. לינק לנתונים: http://www.cbs.gov.il/www/yarhon/q5_h.htm
6. על פי נתוני הלשכה המרכזית לסטטיסטיקה, כמה נוסעים יעברו בנמל התעופה בן גוריון בחודש דצמבר 2010? בחודש דצמבר 2009 עברו בנתב"ג 692.4 אלפי נוסעים. הנתונים מתפרסמים ברבעון לסטטיסטיקה של תחבורה שהלמ"ס מוציאה לאור: http://www.cbs.gov.il/www/transport_q/t24.pdf
7. מה יהיה שיעור הצפיה בתכנית הטלוויזיה הנצפית ביותר בשבוע שבו יחול ט"ו בשבט תשע"א? (זהו השבוע שיתחיל ב-16.1.2011). נתוני הצפיה מופקים על ידי חברת טל-גאל (אי.ג'י.בי.) בע"מ ומפורסמים על ידי הועדה הישראלית למדרוג בלינק http://www.midrug-tv.org.il/scripts/public1.asp. ט"ו בשבט תש"ע חל ביום שבת, 30.1.2010. התכנית הנצפית ביותר באותו שבוע הייתה "האח הגדול 2009 – הדחה", שזכתה לשיעור צפיה של 30.3.
8. מה יהיה גובה מפלס הכנרת בתאריך 2.1.2011? הנתונים השוטפים מפורסמים על ידי רשות המים בלינק http://www.water.gov.il/water/console/kinnert_history.aspx, אך לא מופיעים שם כל הנתונים ההיסטוריים. ניתן לעקוב אחרי הנתונים גם דרך http://twitter.com/kinbot .
9. מה תהיה טמפרטורת המקסימום היומית הממוצעת בחודש מרץ 2011 בקיבוץ נגבה? בחודש מרץ 2010, טמפרטורת המקסימום היומית הממוצעת בנגבה הייתה 24.2 מעלות. הנתונים מפורסמים בירחון הסטטיסטי לישראל: http://www.cbs.gov.il/www/yarhon/a2_h.htm
10. כמה תשובות יתקבלו לתחרות כדור הבדולח של "נסיכת המדעים"? זו שאלה קשה, ואין לי כל נתונים היסטוריים שיוכלו לסייע לכם. הנה כמה רמזים: לתחרות כדור הבדולח שערכה החברה המלכותית לסטטיסטיקה (ושימשה השראה לתחרות זו) התקבלו 51 תשובות. לבלוג "נסיכת המדעים" יש כ-200 קוראים ביום, וכ-50 מנויים לרשימת התפוצה.
נשלח: 7 בספטמבר, 2010. נושאים: כללי.
תגובות: 9
| טראקבק
הרצאתי במסגרת פסטיבל אייקון: גיבורי הניסויים הקליניים
כפי שהודעתי כבר, השנה ארצה במסגרת פסטיבל אייקון בחול המועד סוכות.
כותרת ההרצאה: גיבורי הניסויים הקליניים. ההרצאה תסקור את תרומתם של מספר אנשי מפתח להתפתחות המחקר הרפואי והקליני: גיימס לינד – המאבק בצפדינה, פלורנס נייטינגייל – הנהגת הסניטציה ודיווח תוצאות מחקריות, יונה סאלק – החיסון נגד נגיף הפוליו.
באותו מושב תתקיים גם הרצאתו של ד"ר רז דקל "רופאים מן הגיהנום" שתעסוק ברפואה הנאצית.
ההרצאה תתקיים ביןם א, 26.9.2010, בשעה 19:00, בבית חמד"ע, רחוב הפרדס 7, תל-אביב. פרטים נוספים באתר חמד"ע.
אשמח לראותכם!
נשלח: 4 בספטמבר, 2010. נושאים: כללי.
תגובות: אין
| טראקבק
"על חלל וחוצנים" עם דודי זוסימן
אחוז ניכר של האוכלוסייה מאמין שחלליות מאוכלסות בחייזרים המבקרים אותנו מדי יום.
מה ניתן לעשות כנגד תנועה שכזו? אילו כלים מציע לנו המדע לחקירת עדויות לכאורה כאלו? התשובות בהרצאתו של דודי זוסימן במפגש"ספקנים בפאב" הקרוב. הספקנות מוצגת במיטבה. ההרצאה תכלול סרטונים מדהימים של עב”מים המציתים את הדמיון!
דודי זוסימן, מהנדס חלל, כיום מנהל את תוכנית עמוס 4 ובעל ניסיון של מעל עשור בתחום לוויני החישה מרחוק והתקשורת בתחומי החלל הממשלתי והמסחרי. מנכ”ל "אגודת החלל הישראלית" וממייסדיה. חבר בוועד "העמותה לננו-לווינים בישראל" ומנהל פורום חלל ולווינים ב"תפוז".
המפגש ייערך בפאב "גורדו", בטיילת גורדון בתל-אביב, בתאריך 24 באוגוסט 2010, בשעה 20.00.
לאחר ההרצאה יתקיים דיון בנושא בהשתתפות המרצה.
דמי ההשתתפות: 10ש"ח בלבד לכיסוי עלויות האירוע. מספר המקומות מוגבל. הרשמו באתר http://www.skeptics.org.il
נשלח: 20 באוגוסט, 2010. נושאים: מדע.
תגובות: 4
| טראקבק
מקבץ 4
שלום לכולם. הפעם מקבץ ארוך למדי, עקב משך הזמן הארוך מאז המקבץ הקודם.
- השבוע צוינו 100 שנה למותה של פלורנס נייטינגייל.
- בעיית המעטפות (עליה כתבתי לפני כשנתיים) הרימה שוב את ראשה, הפעם בבלוג של וייאם בריגס, שהקדיש שתי רשימות לנושא. את הרשימה הראשונה אפילו קראתי. (המשך הפריט גולש לפרטים טכניים, אז מי שלא מעוניין מוזמן פשוט לדלג עליו). בתחילה בריגס מציג את החישוב השגוי לפיו החלפת המעטפות תביא לתוחלת רווח של 1.25X (כאשר X הוא הסכום במעטפה שקיבלת), ולכן מתקבלת המסקנה הפרדוקסלית לפיה כדאי להחליף את המעטפה שוב ושוב ושוב. אולם בריגס אינו מסיק מכך כי יש לנסות לערוך את החישוב בצורה נאותה יותר. המסקנה של בריגס היא שיש להשליך את התוחלת לכל הרוחות בבעיות החלטה (טוב, הוא השתמש במלים קצת יותר מעודנות). וכיוון שכך, הוא פונה מייד אל העולם הבייסיאני (הבייסיאניים לא משתמשים בתוחלת? אלה חדשות אפילו בשבילי), ומתחיל להציג שלל פתרונות מהסוג שגרמו לי לא להתלהב מהענף הזה של הסטטיסטיקה. עלי לציין כי הגבתי לרשימה וציינתי מהיכן מגיע הפרדוקס, ומדוע תוחלת הרווח מהחלפת המעטפות היא אפס (ולכן לא משנה אם מחליפים או לא). בתגובה בריגס דרש ממני "להוכיח" (?!) כי החישוב שלו לפיו התוחלת היא 1.25X אינו נכון. אני לא מבין את זה. הוא הוא יטען כי 2 ועוד 2 שווים ל-5 ואני אטען כי התשובה הנכונה היא 4 (למניעת תשובות מתחכמות – אני מדבר על שדה הממשיים), האם אדרש להוכיח כי התשובה 5 אינה נכונה? בריגס הוסיף וטען כי התוחלת הוא מושג שכיחותי (frequentist) ואילו ניסוי המעטפות נערך פעם אחת בלבד, ולכן מושג התוחלת אינו תקף. אני לא מבין את הטיעון הזה. ואם נערוך סדרה של ניסויים זהים, אז הטיעון שלי יהיה תקף לפתע? אשמח למי שיאיר את עיניי. את הרשימה השניה של בריגס כבר לא קראתי, אבל אתם מוזמנים.
- נתן יאו מהבלוג Flowing Data העוסק בויזואליזציה של נתונים כתב רשימה על 7 הכללים הבסיסיים ליצירת גרפים ותרשימים. 7 הכללים הם: בדוק את הנתונים, הסבר את הקידוד, הוסף תוויות לצירים, ציין את יחידות המדידה, שמור על פרופרציות גיאומטריות נכונות, ציין את מקור הנתונים, וזכור מי קהל היעד שלך. כעת פוצח יאו בסדרה של שבע רשימות שתסביר ביתר פירוט את כל אחד מהכללים. הנה הלינק לרשימה הראשונה בסדרה: בדוק את הנתונים.
- שמוליק הביא בבלוג שלו דוגמא בה הכלל החמישי של יאו מופר בגסות.
- והנה הצגה גרפית יפה (בוושינגטון פוסט) המשווה בין תכניות המס של שני נשיאי ארה"ב האחרונים, בוש ואובאמה.
- רנדום ג'ון מדווח על הרצאה של פרנק הארל בכנס useR! שעסקה ב"אלרגיה לאינפורמציה". תופעה זו באה לידי ביטוי בהתנגדות להשיג אינפורמציה הדרושה לקבלת החלטה נכונה ובהתעלמות מאינפורמציה חשובה וזמינה. הוא מביא לינק למצגת של גירסה יותר ישנה של ההרצאה.
- ועוד דיווח מכנס: ג'ון ג'ונסון מחברת קאטו מדווח על התובנות שלו מכנס JSM2010 שנערך בואנקובר בתחילת החודש.
- למתעניינים בכריית נתונים (שלאחרונה הצטרפתי לשורותיהם): ג'ון אלדר כותב על עשרת הטעויות האפשריות הגדולות ביתר בדאטה מיינינג. כשערך את ספירת המלאי גילה שיש לו למעשה 11 טעויות ברשימה. הפתרון שלו: הן דורגו החל מ-0 ועד 10. זה לא רעיון מקורי. גם בליגת המכללות הנקראת "Big10" יש 11 מכללות (שימו לב ללוגו).
- וזה לא שייך למקבץ, אבל הפריט הקודם הזכיר לי אנקדוטה על המתמטיקאי נורברט ווינר, אולי האבטיפוס של דמות הפרופסור המפוזר. באחת הפעמים שעבר דירה, ביקשה ממנו אשתו לברר כי אל הדירה החדשה הגיעו 10 מזוודות. ווינר חזר ודיווח לרעייתו כי ספר 9 מזוודות בלבד, והדגים בנוכחותה את הספירה החוזרת: 0, 1, 2,…
- כריסטיאן רוברט (Xian) מאוניברסיטת דופין בפריז החליט להעביר סמינר על המארים הקלאסיים של הסטטיסטיקה. כדי להחליט אלו מאמרים ילמדו בסמינר, הוא ערך סקר בין קוראי הבלוג שלו. בין המועמדים: מאמרם הקלאסי של ניימן ופירסון, מאמרו של ברדלי אפרון (מספר 8 ברשימת 15 הסטטיסטיקאים הגדולים שערכתי), מאמרו של קוקס (מספר 10) על ניתוח השרדות, ועוד רבים וטובים. בולטים בהעדרם מהרשימה מאמר כלשהו מאת פישר ומאמרו של בייס (עליו כתבתי ברשימה "הכוכב, הסמים והכומר"). כשצפיתי בתוצאות הסקר הופתעתי: המאמר של ניימן ופירסון הגיע רק למקום החמישי, אותו הוא חולק במשותף עם מאמרו של הייסטינגס על שיטת MCMC. למקום הראשון הגיע מאמרו של אפרון על שיטת הבוטסטרפ; במקום השני: דמפסטר, ליירד ורבין במאמרם על שאלגוריתם EM. שלישי היה מאמרו של רוברט טיבשירני על שיטת הלאסו, ובמקום הרביעי – ישראל על המפה: מאמרם של יוסי הוכברג ויואב בנימיני מאוניברסיטת תל אביב על גישת ה-FDR לבדיקת השערות מרובות.
- תמר בן יוסף כותבת על התייקרות הדירות בישראל, ובפרט על הקשיים והכשלים במדידת מחירי הדירות.
- בבלוג עבודה שחורה כותב יפתח גולדמן על סקר שערך משרד התמ"ת אודות התפלגות השכר בישראל ומסקנתו: התפלגות השכר מוּטה, והשכר הממוצע לא מייצג את התפלגות השכר במשק. קוראי הבלוג הותיקים, שקראו את רשימתי על המנהל והפועלים, בודאי לא מופתעים.
נשלח: 18 באוגוסט, 2010. נושאים: דטה סיינס, האנשים שמאחורי הסטטיסטיקה, היסטוריה, הממ... מעניין..., המשפטים הגדולים של הסטטיסטיקה, כלכלה וחברה.
תגובות: 2
| טראקבק
הודעה: הרצאה בפטיבל אייקון
אייקון TLV, הפסטיבל הבינלאומי למדע בדיוני ופנטזיה, נערך מדי שנה בתל אביב בחול המועד סוכות.
במסגרת הפסטיבל שייערך השנה, אתן הרצאה על ההיסטוריה של הניסויים הקליניים, נושא שהיה בבחינת מדע בדיוני בהיסטוריה הלא ממש רחוקה שלנו. ההרצאה תתבסס על הרצאה "מהלימון ועד הקופקסון" שנתתי לפני כחצי שנה, אולם ההדגשים יהיו שונים, בהתאם לקהל היעד.
פרטים על מועד ההרצאה יפורסמו בקרוב באתר הפסטיבל וגם כאן.
נשלח: 17 באוגוסט, 2010. נושאים: כללי.
תגובות: אין
| טראקבק


