יוסי לוי | נסיכת המדעים

סדנאות R

האיגוד הישראלי לסטטיסטיקה יקיים סדנאות בנושא התכנה הסטטיסטית החופשית R.

יתקיימו שתי סדנאות: סדנה בסיסית וסדנה מתקדמת. שתי הסדנאות יתקיימו בחודש מרץ 2010, בבית יד לבנים שברעננה (אחוזה 147). שתי הסדנאות יתקיימו בשעות הבוקר (בשעות 9-13). ההשתתפות תהיה פתוחה לכולם תמורת תשלום סמלי לכיסוי הוצאות שיוחלט בקרוב. לסדנה הבסיסית, שתתקיים בתאריך 4.3.2010, לא נדרש ידע מוקדם. לסדנה המתקדמת, שתתקיים בתאריך 24.3.2010, נדרש לכל הפחות ידע בנושאים המכוסים בסדנה הבסיסית.
לפרטים נוספים, בקרו באתר האיגוד הישראלי לסטטיסטיקה.

נשלח: 24 בנובמבר, 2009. נושאים: כללי.
תגובות: אין | טראקבק

מהו p-value?

מדענים אובססיביים כלפיו. עורכי כתבי עת לא יפרסמו מאמרים אם הוא לא יופיע בהם. החלטות של מאות מיליוני דולרים מתקבלות על פיו. ובכל זאת, רק מתי מעט מבינים אותו. זהו ה-"p-value". אותו מספר קסם חורץ גורלות המתלווה כמעט לכל ניתוח סטטיסטי.

הזכרתי אותו ברשימה שכתבתי על הניסוי הקליני לחיסון נגד נגיף ה-HIV. ה-p-value, איך לא, היה הנתון העיקרי שפורסם בהודעה הראשונה על תוצאות אותו ניסוי. הוא הגיע עד לוול-סטריט גו'רנל. הוול סטריט ג'ורנל ציין, בכתבה על אותו הניסוי. כי ה-p-value הוא "ההסתברות כי התוצאה התקבלה במקרה" ("Probability that the result is due to chance ") . זה לא נכון. בהמשך אסביר כיצד לחשב את ההסתברות הזו, אבל לפני כן אנסה להסביר מהו באמת אותו p-value, ומהי משמעותו.

אתחיל בקצת רקע, לטובת מי שלא קרא את הרשימה "בין שתי טעויות" (או מי שלא זוכר מה כתוב שם). בבסיסה של כל בעיית החלטה סטטיסטית עומדות שתי השערות (hypotheses). ההשערה הבסיסית, המכונה גם "השערת האפס" מבטאת את האמונה (המדעית) המקובלת. בימי גלילאו, השערת אפס טיפוסית יכולה להיות "השמש מסתובבת סביב הארץ". בניסוי הקליני לחיסון נגד נגיף ה-HIV השערת האפס היא "החיסון הנסיוני לא מפחית את הסיכוי להדבק בנגיף". ואם נעבור לאנלוגיה של עולם המשפט, הרי שבמדינות מתוקנות מניחים כי אדם המואשם בפשע ועומד לדין הינו זכאי עד שתוכח אשמתו, כלומר השערת האפס של השופט אומרת כי "הנאשם זכאי".

מול השערת האפס ניצבת תמיד ההשערה האלטרנטיבית. בהקשר המדעי, השערה זו מבטאת תיאוריה חדשה שמועמדת לדחוק את התיאוריה הישנה. גלילאו הציע את ההשערה האלטרנטיבית "הארץ מסתובבת סביב השמש". עורכי הניסוי הקליני הנ"ל הציגו את ההשערה האלטרנטיבית כי "החיסון הנסיוני מפחית את הסיכוי להדבק בנגיף", והתובע מציג בפני השופט את ההשערה האלטרנטיבית כי "הנאשם אשם".

אלא אם אתה הומיאופת, עליך להציג טיעונים משכנעים בעד ההשערה האלטרנטיבית שלך. (גם הומיאופתים צריכים לעשות זאת, למעשה, אבל אף אחד כבר לא מצפה מהם). כדי להביא להרשעת הנאשם, התובע צריך להציג בפני השופט עדויות שישכנעו אותו, מעבר לספק סביר, כי הנאשם אכן ביצע את הפשע המיוחס לו. מה זה "מעבר לספק סביר"? כל אחד קובע את הרף שלו לעצמו, ואגיד על כך כמה מלים בהמשך. אם אדם מואשם בשוד תחנת דלק, למשל, יכול השופט להחליט כי ירשיע את הנאשם אם יופיעו בפניו שני עדי ראיה שיעידו כי הנאשם הוא אכן השודד. שופט מחמיר יותר אולי ידרוש שלושה עדים, וגם הוכחה כי הכסף נמצא בידי הנאשם, ושופט אחר אולי יסתפק בוידאו של מצלמת האבטחה. זה לא ממש משנה. העיקר הוא שיש השערות, עדויות, וכלל החלטה קבוע מראש.

כדי להביא את הדיון לפסים מדויקים יותר, אשתמש בדוגמא מלאכותית. כוכב הדוגמא שלנו הוא חקלאי שמגדל למחייתו עדר פרות חולבות. הפרות נכנסות מדי פעם להריון (אחסוך מכם את הפרטים). חלקן ממליטות עגלים וחלקן עגלות. החקלאי שלנו מעדיף כמובן כי פרותיו ימליטו עגלות נקבות, שיצטרפו בבוא הימים למערך ייצור החלב, והן לכן רווחיות יותר מעגלים זכרים. אולם מי ששולטת בהתפלגות המינים בהמלטות היא אמא טבע, הדואגת לכך שההסתברות להמלטת נקבה בכל הריון היא 0.5.

והנה, כיום בהיר אחד מגיע לחווה סוכן נוסע, המציע לחקלאי שלנו לרכוש שיקוי פלא, שיעלה את ההסתברות להמלטת נקבה מ-0.5 ל-0.9 אצל כל פרה שתלגום ממנו. כדי לשכנע את הרפתן הספקן, מציע הסוכן הצעה שאין לסרב לה: "קח נא בקבוק אחד, והשקה בו 20 פרות. לאחר מכן המתן וראה כמה המלטות נקבה יהיו בקרב 20 פרות אלה. אם לא תהיה מרוצה. כספך יוחזר לך". הדוד משה מסכים לבצע את הניסוי. יש לו השערת אפס: "ההסתברות להמלטת נקבה היא 0.5" והשערה אלטרנטיבית: "ההסתברות להמלטת נקבה היא 0.9". כיוון שהוא זוכר היטב את שיעורי המבוא לסטטיסטיקה שלמד בפקולטה לחקלאות (היי, אמרתי שזאת דוגמא מלאכותית!), הוא יודע לבנות כלל החלטה על פי הלמה של ניימן ופירסון, ומחליט לדחות את השערת האפס לטובת ההשערה האלטרנטיבית אם ב-20 ההמלטות יהיו 15 המלטות נקבה או יותר.

במלים אחרות, החקלאי החליט כי העדות הדרושה לדחיית השערת האפס לטובת האלטרנטיבה היא המלטת של 15 (או יותר) נקבות. אם יהיו 15 המלטות נקבה הוא ישתכנע ביעילותו של שיקוי הפלא. אם יהיו 16, או 17 או אף יותר, הוא בודאי ישתכנע.

החקלאי יכול לנסח את כלל ההחלטה שלו בצורה אחרת, אך שקולה. בהנתן עדות כלשהי (עדות כאן היא מספר המלטות הנקבה) הוא ישאל את עצמו: בהנחה שהשיקוי הוא תרמית, מה ההסתברות כי הייתה מתקבלת עדות זו שוב, או אף עדות משכנעת יותר? למשל, אם אכן צפה בהמלטת 15 נקבות מתוך 20, זו אולי עדות משכנעת, אך תוצאה של 16, 17, או יותר, היא עדות משכנעת יותר. אם השיקוי הוא תרמית, וההסתברות להמלטת נקבה נותרה 0.5, אז אפשר לחשב כי ההסתברות להמלטת 15 נקבות או יותר היא 0.0207. זוהי הסתברות קטנה למדי. אם ההסתברות לקבל תוצאה יותר משכנעת ממה שקיבלנו היא קטנה, הרי שהתוצאה שלנו היא משכנעת דיה.

ההסתברות לקבלת עדות דומה או חזקה יותר מהעדות שנצפתה, בהנחה שהשערת האפס נכונה, היא ה-p-value המפורסם.

ה-p-value, לעומת זאת, אינו ההסתברות כי התוצאה התקבלה במקרה, כאשר אני מניח כי הכוונה המבוטאת במילה "במקרה" היא "בהנחה שהשערת האפס נכונה". קל לראות מדוע זה כך. בדוגמא המלאכותית שלנו, ה-p-value הוא ההסתברות כי היו 15 או יותר המלטות נקבה מתוך 20. ההסתברות שהתוצאה של 15 המלטות נקבה תתקבל, אם ההסתברות להמלטת נקבה היא 0.5, היא לעומת זאת 0.0148.

ומה ההסתברות כי התוצאה שהתקבלה בניסוי הקליני לחיסון נגד איידס "is due to chance"?. כזכור השתתפו בניסוי הנ"ל 16395 מתנדבים, מתוכם ל-125 זוהו כנשאי נגיף HIV: 51 מבין 8197 נבדקים שקיבלו את החיסון הנסיוני, ו-74 מבין 8198 המתנדבים שקיבלו חיסון דמה. תארו לכם כד ובתוכו 16395 כדורים, מתוכם 8197 כדורים ירוקים, והשאר אדומים. אם תשלפו מהכד 125 כדורים, מה ההסתברות כי בדיוק 51 מתוכם יהיו ירוקים? זוהי בדיוק ההסתברות כי תוצאות הניסוי הנ"ל התקבלה במקרה, כלומר: אין לחיסון שנבדק אפקט חיסוני אמיתי. החישוב דומה לחישוב הסתברויות הזכיה בלוטו. זהו מודל הסתברותי היפר-גאומטרי. החשבון פשוט, ובזכות המחשבון הזה גם החישוב לא מסובך. ההסתברות היא 0.0085, שונה מה-p-value שפורסם, 0.039.

נשלח: 12 בנובמבר, 2009. נושאים: ביוסטטיסטיקה, מה אומרת הסטטיסטיקה.
תגובות: 32 | טראקבק

חיסון נגד איידס באופק?

לא ברור.

מתברר שבתאילנד נערך לאחרונה ניסוי קליני שנועד לבדוק את יעילותו של חיסון אפשרי נגד איידס. לי נודע כל הסיפור מהניוזלטר המצויין "Chance News" (זה כבר בכלל אתר ויקי), שהביא שני אייטמים בנושא בגליון האחרון שלו (הנה הראשון והנה השני). צ'אנס ניוז דיווח על ידיעה בוול סטריט ג'ורנל, וידיעה בסיינס מגזין. כמו כן מצאתי ראיון עם פרופ' ויקטור דה-גרוטולה, יו"ר המחלקה לביוסטטיסטיקה בביה"ס לבריאות הציבור באוניברסיטת הארוורד. הראיון נערך בעקבות הפרסום על תוצאות הניסוי הנ"ל, ועסק בעיקר במושג ה-p-value ומשמעותו – נושא שאדון בו ברשימה אחרת בעתיד. ברשימה הזו אתרכז בניסוי הקליני ומשמעות התוצאות.

נתחיל בתיאור הניסוי. תכנון הניסוי הוא קלאסי: המשתתפים בניסוי מחולקים באופן אקראי לשתי קבוצות. קבוצה אחת מקבלת את החיסון הנסיוני. לחברי הקבוצה השניה מוזרק חיסון דמה – מי מלח. כעבור 3 שנים, בודקים לכמה מהמשתתפים בכל קבוצה יש תוצאה חיובית בבדיקת HIV. מדובר בניסוי גדול למדי (לפחות במושגים שלי) – סה"כ השתתפו בו כ-16,000 איש, כולם בתאילנד. עם זאת, איני יודע מה גודל המדגם הדרוש לניסוי כזה, כיוון שאיני יודע מהו שיעור ההדבקות באיידס בתאילנד. עם זאת אציין כי בניסוי הקליני שבדק את החיסון של סאלק נגד מחלת הפוליו, שנערך בארה"ב ב-1954, היו כ-400,000 משתתפים (את הפרט הזה מצאתי בעותק הישן שלי של ספרו של להמן, אני מניח שניתן למצוא אותם אי-שם ברשת).

והנה התוצאות שפורסמו: מבין 8197 מתנדבים שקיבלו את החיסון הנסיוני, 51 בכל זאת הראו תוצאה חיובית בבדיקת HIV, כלומר כ-0.6%. לעומת זאת, מבין 8198 מתנדבים שקיבלו את חיסון הדמה, 74 הראו תוצאה חיובית בבדיקת HIV, כ-0.9%. מכאן, שהחיסון הנסיוני הקטין את שיעור ההדבקות בכשליש. האם זו תוצאה משמעותית מבחינה קלינית? האם ייתכן כי רק במקרה התקבלה תוצאה כזו, ואין קשר בין הטיפול שקיבלו החולים (חיסון נסיוני או פלסבו) לבין ההדבקות או אי-הדבקות באיידס?

לשם כך נערך מבחן סטטיסטי, ובסיינס מגזין (וגם בוול סטריט ג'ורנל) פורסמה השורה התחתונה שלו: p=0.039. ה-p (הידוע גם בשם p-value) הוא ההסתברות כי בניסוי דומה יתקבלו תוצאות "משכנעות" יותר אם החיסון לא יעיל במניעת ההדבקות*. מכיוון שמקובל לראות בערכי p הנמוכים מ-0.05 ערכים מובהקים סטטיסטית, הרי שהשורה התחתונה אומרת כי התוצאה שהתקבלה מובהקת סטטיסטית, והניסוי מספק עדות ליעילותו של החיסון הנסיוני. הסטטיסטיקאי פול אלפר, שכתב את הידיעה בצ'אנס ניוז, חישב אמנם כי ערך ה-p, על פי מבחן פישר, הוא דווקא 0.048 (לפי החישוב שלי, הערך 0.039 התקבל ממבחן חי-בריבוע, וערכתי את דף הויקי בצ'אנס ניוז בהתאם – אני אחראי לפלט תכנת SAS המופיע שם, ועוד), אבל גם ערך זה נמוך ממספר הקסם 0.05, כלומר גם לפי אלפר התוצאות מובהקות סטטיסטית.

הבעיה היא שאי אפשר לרוץ ל-FDA רק עם p-value. יש צורך בניתוחים נוספים.

הנתונים שהובאו עד כה מכונים בז'ארגון המקצועי "נתוני ITT". ITT פירושו "Intent To Treat". נתונים אלה כוללים את התוצאות של כל המתנדבים שנכללו בניסוי, כולל אלה שלא עמדו בכל התנאים של הניסוי (למשל, לא קיבלו את כל הזריקות שהיו אמורים לקבל, לא הופיעו לחלק מבדיקות המעקב, נטלו תרופות אסורות במהלך הניסוי, וכדומה). אם "זורקים" את הנתונים של המתנדבים האלה מהאנליזה, נשארים רק המתונים של החולים שעמדו בכל התנאים של פרוטוקול הניסוי – "נתוני PP" (כאשר PP פירושו Per Protocol). בעוד שבנתוני ה-ITT היו בסך הכל 125 זיהומי HIV (51+74), הרי שבקרב המתנדבים שעמדו בתנאי הפרוטוקול (כלומר בנתוני ה-PP) היו 86 זיהומים בלבד. בשאלות לדיון פול אלפר טען (בשאלה לדיון מספר 1) כי ניתן לבצע חישוב לאחור (reverse engineering) ולמצוא כי בקבוצת הניסוי היו 36 זיהומים ובקבוצת הפלסבו היו 50 זיהומים, אך הוא הניח (מבלי לציין במפורש, אני ערכתי את השאלה לדיון) כי בשתי קבוצות הטיפול היה אותו מספר של חולים גם בנתוני ה-PP. אולם, במקרה כזה ה- p-valueשמתקבל הוא 0.13 ולא 0.16. לכן, המסקנה היא כי באוכלוסיית ה-PP לא היו גדלי הקבוצות שווים.

העובדה כי תוצאות ה-PP אינן מובהקות סטטיסטית לא צריכה להטריד. התוצאות הקובעות הן תוצאות ה-ITT, ותוצאות ה-PP רק צריכות להראות אפקט דומה לזה שנצפה בנתוני ה-ITT. השאלה המעניינת היא האם אפקט של 26% הוא מספיק "דומה" לאפקט של 31.2%. (למה תוצאות ה-ITT הן הקובעות ולא תוצאות ה-PP? שאלה מצוינת. התשובה אולי תבוא ברשימה אחרת אי שם בעתיד).

מה כן צריך להטריד בתוצאות הניסוי הזה? הפרטים שלא פורסמו, מן הסתם. למשל: אנו יודעים כי המתנדבים שלא עמדו בתנאי פרוטוקול הניסוי לא התחלקו שווה בשווה בין הקבוצות. כמה מתנדבים בכלל לא עמדו בתנאי הפרוטוקול? מדוע? מה הייתה החלוקה בין הקבוצות? מה גרם לחלוקה הלא שווה? האם היו תופעות לוואי משמעותיות בקרב המתנדבים שקיבלו את החיסון הנסיוני? האם שיעור תופעות הלוואי בקבוצת הניסוי גבוה משמעותית משיעורן בקבוצת הפלסבו? ניתוח של תופעות הלוואי יאפשר לקבוע האם התועלת שבחיסון הנסיוני עולה על הנזק האפשרי שהוא עלול לגרום.

וכמובן, השאלה שיש לשאול בכל מחקר מדעי: האם תוצאת הניסוי הזה ניתנת לשחזור? כדי לענות על כך, יש צורך לערוך ניסוי קליני נוסף. זוהי דרישה בסיסית של ה-FDA מכל חברת תרופות המבקשת לאשר טיפול רפואי חדש.

אני לא יודע את התשובות לכל השאלות האלה. לכן, אני לא יכול לקבוע האם התוצאות שפורסמו נותנות תקווה כי בעתיד הקרוב יהיה חיסון נגד נגיף ה-HIV. כתבתי את הרשימה הזו בחשש מה. ייתכן מאוד שמתנגדי החיסונים למיניהם ינסו לאמץ את הדברים שכתבתי כ"הוכחה" לאי-יעילות החיסונים, אינטרסים של חברות התרופות וכל הבלה בלה הרגיל. כדי להסיר ספק, אני מדגיש כאן כי זו לא כוונתי. לשאלות שנשארו פתוחות בעקבות הקריאה של הידיעה הראשונית אודות תוצאות הניסוי הזה יש תשובות, ואני בטוח כי אם התוצאות יוגשו ל-FDA כדי לרשום את החיסון, הן יישאלו וייענו (ה-FDA ישאל את עורכי הניסוי עוד הרבה שאלות קשות אחרות, תאמינו לי).

* הוול סטריט ג'ורנל ציין כי ה-p-value הוא "ההסתברות כי התוצאה התקבלה במקרה" ("Probability that the result is due to chance "). זה לא נכון. אני מתכוון להסביר את הנושא ברשימה בעתיד הקרוב.

נשלח: 7 בנובמבר, 2009. נושאים: ביוסטטיסטיקה, בריאות, מדע.
תגובות: 9 | טראקבק

הומיאופתיה ER

(ואל הסרטון הזה הגעתי דרך החתולה של שרדינגר)

נשלח: 7 בנובמבר, 2009. נושאים: אותי זה מצחיק, בריאות, מדע.
תגובות: 3 | טראקבק

מה באמת קורה בלוטו הבולגרי?

האמת: שום דבר מיוחד.

בידיעה שפורסמה ב-Ynet לפני כחודש נמסר כי "אותם מספרים בדיוק יצאו בשתי הגרלות לוטו ברציפות". מדובר בלוטו הבולגרי, שם המספרים 4, 15, 23, 24, 35 ו-42 הוגרלו ב-6 בספטמבר ולאחר מכן שוב, ב-10 לחודש. עוד נמסר בידיעה כי "המתמטיקאי מיכאיל קונסטנטינוב חישב ומצא כי הסיכוי לכך הוא 1 ל-4.2 מיליון". כן נמסר כי שר הספורט של בולגריה הורה לפתוח חקירה מיוחדת בנושא.

המממ.

האם באמת מדובר באירוע כל כך נדיר שמצדיק חקירה, ולא סתם חקירה אלא חקירה "מיוחדת"? האם הסיכוי ל"כך" הוא באמת אחד ל-4.2 מליון, כמו שחישב מר קונסטנטינוב?

התשובה הרבה יותר מסובכת, ועם זאת לא קשה להבנה. כמו תמיד: התשובה המדויקת תלויה בניסוח מדויק של השאלה, כלומר למה מתכוונים כשאומרים "כך". אביא תחילה את התשובות כפי שפורסמו באתר ChanceWiki (אתם מוזמנים לגלוש ולעיין בחישובים המפורטים):

הסיכוי כי המספרים 4, 15, 23, 24, 35 ו-42 יעלו בגורל בשתי הגרלות בתאריכים נתונים (6 בספטמבר ו-10 בספטמבר) הוא בערך אחד ל-27000 מיליארד.
הסיכוי כי בשתי הגרלות בתאריכים נתונים יעלו אותם 6 מספרים (אך לא בהכרח הצירוף הנ"ל) הוא בערך אחד ל-5.2 מיליון.
הסיכוי כי במשך שנה שלמה, בה נערכות 104 הגרלות, יעלו אותם 6 מספרים בשתי הגרלות רצופות, הוא בערך אחד ל-51000.
הסיכוי כי במשך רצף של 5400 הגרלות (הלוטו הבולגרי קיים יותר מחמישים שנה, וזה בערך מספר ההגרלות שנערכו בו) יעלו אותם 6 מספרים בשתי הגרלות רצופות הוא בערך אחד ל-970.
הסיכוי כי באיזה הגרלת לוטו, באיזה מקום בעולם, באיזושהי נקודת זמן בתקופה של חמישים שנה בה נערכות הגרלות דו שבועיות, יעלו אותם 6 מספרים בשתי הגרלות רצופות וזאת בהנחה שיש בעולם כ-100 הגרלות לוטו כאלה, הוא בערך 10%.

אז מתברר שדי צפוי שמתישהו, איפהשהו, יעלו אותם מספרים בשתי הגרלות לוטו רצופות. אני מקווה שהחקירה המיוחדת של שר הספורט הבולגרי תעלה על זה.

הנה הסבר אינטואיטיבי למה שקרה באמת.

תחשבו על קוביה. הרי הגרלת הלוטו היא תהליך שבו בוחרים אפשרות אחת מתוך 5245786 אפשרויות (זה מספר הצירופים האפשריים של 6 מספרים מתוך 42, כלומר מספר הצירופים האפשריים בלוטו הבולגרי). במלים אחרות, הגרלת הלוטו שקולה להטלת קוביה עם 5245786 צדדים, ולכן הדיון העקרוני לא צריך להיות שונה מדיון בהטלה קוביה "רגילה" הדומה לקוביות שמתנוססות בראש העמוד הזה.

לקוביה רגילה יש 6 צדדים, ובהחנה שהקוביה "הוגנת", יש סיכוי שווה של שישית לכל אחת מהתוצאות האפשריות של הטלת הקוביה (התוצאות הן הספרות 1-6).

אם נטיל את הקוביה פעמיים, יש סיכוי של אחד ל-36 כי בשתי ההטלות נקבל 6, אבל הסיכוי כי נקבל בשתי ההטלות את אותו הספר, לאו דווקא 6, הוא הרבה יותר גדול, ושווה לאחד ל-6. זאת כי לתוצאה של שתי הטלות יש 36 תוצאות אפשריות, ורק אחת מהן היא 6-6, אבל 6 מתוך ה-36 הן "דאבל" (1-1, 2-2, וכן הלאה עד 6-6).

אם תטילו את הקוביה מספר פעמים, אז הסיכוי כי באיזהו שלב בסדרת ההטלות יופיע אותו מספר בשתי הטלות רצופות עולה, כי יש לכם יותר הזדמנויות לקבל שתי הטלות רצופות. אתם מוזמנים לנסות ולכתוב את כל 216 התוצאות האפשריות של סדרה של 3 הטלות קוביה, ולספור בכמה תוצאות מתקבלת אותה תוצאה פעמיים ברציפות (תוצאת ההטלה הראשונה שווה לשניה, או השניה שווה לשלישית). ככל שסדרת ההטלות תתארך, כל הסיכוי יגדל.

ואם לא רק אתם עושים את התרגיל הזה, אלא גם כמה חברים, הסיכוי כי מישהו יקבל מתישהו שתי הטלות קוביה רצופות עם אותה תוצאה שוב עולה.

מתברר כי אירועים שנתפסים בעיננו כנדירים אינם נדירים כלל ועיקר. אם אתם חולמים בלילה כח מחר ירד גשם, או שתזכו בלוטו, ולמחרת הדבר אכן קורה, מה הסיכוי לכך? הסיכוי כי אתה או את תחלמו הלילה כי תזכו בפרס הגדול בלוטו וכן תזכו בו בהגרלה הגדולה נמוך למדי. הסיכוי כי מישהו איפהשהו יחלום משהו והמשו הזה יתקיים סביר למדי.

הסיכוי כי אתם תיכנסו למסעדה בבנגקוק ותפגשו שם את איציק שעבד ביחד איתכם לפני כמה שנים ולא ראיתם אותו המון זמן הוא קטן מאוד (זה קרה לי, למעשה). הסיכוי שמישהו יכנס לאיזשהו מקום בעולם ויפגוש שם מישהו שלא ראה כבר המון זמן הוא גבוה מאוד. הסיכוי שאתם תזכו בפרס הגדול בלוטו פעמיים הוא קטן מאוד. הסיכוי שמישהו איפהשהו מתישהו יזכה בפרס הדגול בלוטו פעמיים הוא סביר, וגם זה קרה, יותר מפעם אחת. אני ממליץ לכם לקרוא את המאמר הזה שפורסם בניו-יורק טיימס כבר ב-1990. בכתבה זו מרואיינים מספר סטטיסטיקאים נודעים, ובהם פרסי דיאקוניס, ברדלי אפרון (מספר 8 ברשימת הסטטיסטיקאים הגדולים) ואריק להמן. דיאקוניס ופרדריק מוסטלר גם נתנו שם לתופעה הזו: חוק המספרים הגדולים מאוד.

נשלח: 15 באוקטובר, 2009. נושאים: האנשים שמאחורי הסטטיסטיקה, הימורים, מה אומרת הסטטיסטיקה.
תגובות: 28 | טראקבק

שלושים למותו של אריק ליאו להמן

את הידיעה על מותו של אריק לאו להמן פרסמתי בקצרה באתר האיגוד הישראלי לסטטיסטיקה לפני חודש בדיוק. הידיעה הגיעה אלי במקרה, דרך הודעה לקונית שפורסמה בפורום המתמטיקה של תפוז. האישור היחיד שמצאתי לנכונותה היה בויקיפדיה, שם אכן צויין כי להמן נפטר ב-12.9.2009. זהו. חיפוש באתרי החדשות דרך גוגל העלה רק ידיעות על שחקן כדורגל גרמני הנושא את אותו השם, ורק בפורום ברזילאי כלשהו מצאתי עותק של המייל ששלח תלמידו ועמיתו, פיטר ביקל, לחברי הסגל של המחלקה לסטטיסטיקה באוניברסיטת ברקלי ובה הודיע על הפטירה. כעבור מספר ימים הופיעה הודעה גם באתר המחלקה לסטטיסטיקה של ברקלי, והועלה קובץ pdf המסכם את מורשתו של להמן.

אריק לאו להמן

אני מודה שהופתעתי מכך שמותו של להמן לא הדהד בעולם הסטטיסטיקה (ובמחשבה שניה, סיפור שאספר עוד מעט יראה שאולי לא הייתי צריך להיות מופתע). שמו מוכר לכל סטטיסטיקאי, בזכות שני הספרים המונומנטליים שכתב: האחד על אמידה נקודתית, והשני על בדיקת השערות (הקישורים לגוגל בוקס, שם תוכלו גם לעיין בחלקים מהספרים). הספרים אינם רק סיכום של ידע, אלא מכילים את מחקריו של להמן בנושאים האלה, ולמרות שנכתבו לראשונה בשנות החמישם של המאה הקודמת הם עדיין רלוונטיים, גם בזכות המהדורות המעודכנות שהוציא להמן לאור יחד בסיוע שניים מתלמידיו.

למעשה, ספר הסטטיסטיקה הראשון שרכשתי נכתב גם הוא על ידי להמן (ביחד עם ג. ל. הודג'ס): "מושגים בסיסיים בהסתברות וסטטיסטיקה" (זה שוב לינק לגוגל בוקס. אני רכשתי את המהדורה העברית), כאשר הייתי תלמיד שנה א. אני חייב לציין שהספר שמרתק תרם תרומה רבה להחלטתי לוותר על לימודי הכלכלה ולהתמקד בסטטיסטיקה.

כאשר הייתי תלמיד שנה ג, הגיע להמן לביקור בישראל ונתן הרצאה בסמינר של המחלקה לסטטיסטיקה. הסמינר מיועד אמנם לאנשי סגל המחלקה, אבל החלטתי לבוא בכל זאת. לא התאכזבתי. להמן נתן הרצאה בהירה, מעניינת ומשעשעת בנושא הקשור לבדיקת השערות (אני לא זוכר את הפרטים כמובן). עצם העובדה שכתלמיד שנה ג הצלחתי בכל זאת לעקוב אחרי רוב הדברים שאמר מעידה על יכולתו כמרצה מעולה.

התלבטתי אם להביא עימי את העותק של ספרו ולבקש ממנו לכתוב לי הקדשה עליו. בסוף התביישתי וויתרתי. היום אני קצת מצטער. בכל מקרה, אזרתי אומץ, ניגשתי אליו אחרי ההרצאה, והחלפתי איתו כמה מלים.

את להמן ראיתי שוב, מרחוק, בקיץ 1997, בכנס האיגוד האמריקני לסטטיסטיקה שנערך באנהיים, קליפורניה. היום אני יודע שהוא כבר היה בן 80 70 באותה עת. ראיתי אותו פוסע באיטיות באיזור הצפוף של מכירת הספרים, מקווה שלא יידרס על ידי ההמון. הוא נראה מבולבל ועייף, נראה שאף אחד לא ממש ראה אותו. עד ששמתי לב כי זה אכן להמן, הוא נעלם בין הסטטיסטיקאים הרבים שהיו שם, רובם למדו מספריו, אני מניח.

נשלח: 13 באוקטובר, 2009. נושאים: בנימה אישית, האנשים שמאחורי הסטטיסטיקה.
תגובות: 3 | טראקבק

ברכות לפרופ' עדה יונת

ברכות לפרופ' עדה יונת שזכתה זה עתה בפרס נובל לכימיה.

נשלח: 7 באוקטובר, 2009. נושאים: מדע, על סדר היום.
תגובות: אין | טראקבק

על ניסויים בבעלי חיים

מי שעוקב אחרי בטוויטר כבר ראה את ההפניות שלי לסדרה של שלושה פוסטים בבלוג של רועי צזנה שעסקו בסוגיית הניסויים בבעלי החיים. לטובת המעטים מבינכם שעדיין לא עוקבים אחרי (סתם…) הנה סקירה קצרה של שלושה פוסטים אלה, שצזנה כתב בעקבות קורס בנושא שלקח במסגרת לימודיו בטכניון.

בפוסט הראשון שפרסם מסכם צזנה את הרצאתו של ד"ר ירון בר-אל, סגן מנהל המרכז הרפואי רמב"ם וכירורג לב במקצועו, שניסה לסקור על קצה המזלג את ההיסטוריה של הפילוסופיה הנוגעת לזכויות בעלי החיים. בין היתר מובאות שם דעתם של (מחבר/י) התנ"ך,אריסטו, בודהה, הרמב"ם, תומאס אקווינס ודקארט. כל החבורה המכובדת הזו, פרט לבודהה, אגב, אינה שוללת קיום ניסויים בבעלי חיים.

בפוסט השני מביא צזנה את דעתם של הדוגלים ב"זכויות בעלי החיים", ובראשם פיטר סינגר וטום ריגן, ותוהה מה יהיו ההשלכות של אימוץ דעתם על חיינו אנו.

בפוסט האחרון בסדרה עונה צזנה לטיעון העיקרי של המתנגדים לניסויים בבעלי חיים, לפיו ניסויים כאלה ממילא אינם מביאים תועלת מדעית, באמצעות סקירה הסטורית של התפתחות מדעי החיים, החל מגילוי מחזור הדם, המשך בהמצאת החיסון הראשון (לאבעבועות שחורות) ואלה שבאו בעקבותיו, ועד לפיתוחם של מסתמי לב משוכללים. כמו כן סוקר צזנה בקצרה אלטרנטיבות (לא מספקות, עדיין) לניסויים כאלה, מביא את הקריטריונים לפיהם מחליטים מתי ניסוי בבעלי חיים הוא נחוץ, ומתאר את מנגנוני האכיפה הקיימים כיום למניעת ניסויים לא נחוצים בבעלי חיים.

בהזדמנות זו אני מפנה את הקוראים גם לרשימה שפרסמתי בינואר 2008 שעסקה בשיקולים הסטטיסטיים בתכנון ניסויים בבעלי חיים, והתבססה על הרצאה שנתתי בפני ועדת האתיקה של הפקולטה לרפואה באוניברסיטה העברית.

נשלח: 29 בספטמבר, 2009. נושאים: ביוסטטיסטיקה, מדע.
תגובות: 2 | טראקבק

קריירה בסטטיסטיקה – גליון מיוחד של AMSTAT NEWS

גליון חודש ספטמבר 2009 של AMSTAT NEWS, המגזין החודשי של האיגוד האמריקני לסטטיסטיקה, מוקדש לנושא המעניין במיוחד של קריירה בסטטיסטיקה. בין היתר, תוכלו למצוא שם כתבה בנושא עבודה מול ממשקים, מאמר על אסטרטגיה בחיפוש עבודה, וטיפים לכתיבת תוצאות מחקר במאמר מדעי – שלושה נושאים שיכולים לעניין גם את אלה שאינם סטטיסטיקאים.

במאמרים שיעניינו יותר את ציבור הסטטיסטיקאים מסביר הסטטיסטיקאי סיו-לי מנג מדוע הסטטיסטיקה היא הסיכוי שלך לאושר (או לסבל), וסטטיסטיקאים מרחבי ארצות הברית מתארים את עיסוקיהם הרבים והמגוונים.

חמישה מאמרים נוספים מביטים לאחור ומסכמים את הקריירות של חמישה סטטיסטיקאים נודעים.

ניתן לעיין בגליון און-ליין באתר האיגוד האמריקני לסטטיסטיקה.

נשלח: 22 בספטמבר, 2009. נושאים: האנשים שמאחורי הסטטיסטיקה.
תגובות: אין | טראקבק

3 ספרים חדשים (בספריה שלי)

באחת התגובות לרשימה הקודמת תהה גיל מדוע לא קניתי מייד את הספר "טראפיק", אלא רק סימנתי אותו לקניה בעתיד. התשובה שלי הייתה כי כבר קניתי 3 ספרים באותה נסיעה, וממילא לא אספיק לקרוא את כולם עד הנסיעה הבאה (אני בספק אם אסיים אפילו את הקריאה של אחד מהם, עדיין לא הספקתי לסיים לקרוא את אחד הספרים שקניתי באפריל).

אולם, מכיוון ששלושת הספרים האלה קשורים לנושאים שהבלוג הזה עוסק בהם, נראה לי שששת הקוראים שלי יתעניינו בהם, ולכן אסקור אותם כאן בקצרה.

הספר הראשון עוסק בבעיית מונטי-הול. למעשה, נודע לי כי הספר עומד לצאת מקריאה בבלוג של גיל. בעיית מונטי-הול עולה שוב ושוב ומציקה לאנשים המסתמכים אך ורק על האינטואיציה שלהם, ולא רק להם (אפילו פול ארדש סירב להאמין לפתרון האמיתי, גם לאחר שההוכחה הוצגה בפניו). הבעיה היא פשוטה: לפניך 3 דלתות, מאחורי אחת מהן מסתתר פרס נחשק (בימבה, למשל) ומאחורי שתי הדלתות האחרות אין כלום. אתה צריך לנחש מאחורי איזה דלת מסתתר הפרס, ואם תצליח, הוא שלך. אולם, אחרי שניחשת, לא פותחים מייד את הדלת שבחרת, אלא פותחים בפניף דלת אחרת, ואתה רואה שמאחוריה לא מסתתר הפרס. האם כדאי לך לשנות את ניחושך הראשוני?

כתבתי על הבעיה הזו בעבר תחת הכותרת "המכונית והעיזים", גיל כתב על ההיבטים הפסיכולוגיים של הבעיה, וגם גדי אלכסנדרוביץ כתב על הבעיה ועל בעיות דומות בבלוג שלו. אתם מוזמנים לקרוא. ומסתבר שאפשר לכתוב ספר שלם הנושא (למעשה נכתבו על הבעיה הזו יותר מספר אחד). הספר שאני קניתי נכתב על ידי פרופ' ג'ייסון רוזנהאוז מאוניברסיטת ג'יימס מדיסון בוירג'יניה, ונושא את הכותרת המחייבת "The Monty Hall Problem: The Remarkable Story of Math's Most Contentious Brain Teaser" (לינק לאמזון). אני חייב לציין שעדיין לא עיינתי בספר מעבר להעפת מבט בתוכן העניינים ורפרוף קל, מה שאפשר לעשות באתר אמזון גם בלי לקנות את הספר. כמובן שהעיון המקוון וההמלצה של גיל גרמו לי לקנות לבסוף את הספר. תוכן העניינים מבטיח מבט על הבעיה מנקודות מבט בייסיאניות, קוגניטיביות ופילוסופיות. אני מניח שלא אתאכזב.

הספר השני נושא את הכותרת "תורת החבורות בחדר האמבטיה המיטות". השם מבטיח. כאשר הייתי סטודנט צעיר למתמטיקה, תורת החבורות היה התחום האהוב עלי ביותר מכל הנושאים הנלמדים (טוב, חוץ מהסתברות וסטטיסטיקה), אז ברור מדוע השם הזה מדבר אלי. הספר הוא למעשה אוסף מאמרים שפרסם בריאן הייס, בעיקר בסיינטיפיק אמריקן. בינתיים קראתי את שני המאמרים הראשונים. האחד עוסק בשעון האסטרונומי של שטרסבורג, שעקף בקלילות את מכשלת Y2K למרות שנבנה ב-1843, וגם יעקוף ללא בעיה את מכשלת Y10K אם ישרוד עד אז. המאמר השני עוסק בייצור מספרים מקריים, או יותר נכון, פסאודו מקריים (גדי כתב סקירה יפה על הנושא). עד כה, הספר לא מאכזב.

הספר השלישי עוסק בקוביות דיגיטליות: כיצד ניתן לפתור באמצעות מחשב (על ידי סימולציה בשיטת מונטה קרלו) בעיות בהסתברות. לאחר הקדמה לא קצרה בה מוסבר בהרחבה (ועם דוגמאות) העקרון של שיטת מונטה קרלו (שעושה כמובן שימוש במספרים פסוודו אקראיים), מביא המחבר, פרופ' פול נהין, רשימה של 21 בעיות אותן הוא מציע לפתור בשיטת מונטה קרלו (בינהן מופיעה בעיית נייר הטואלט של דונלד קנוט). לאחר מכן מופיעים הפתרונות, עם תכניות בשפת מטלב. נהין לא מסתפק, למרבה השמחה, בפתרונות טכניים בלבד, אלא גם מספק רקע תיאורטי רב על הבעיות, ההיסטוריה שלהן, וגם תובנות שניתן להפיק מהעיון בהן. אחרי שקראתי את ההקדמה אני מתכנן לנסות לפתור את הבעיות בעצמי לפני שאציץ בדפי הפתרונת. זה בהחלט פרוייקט ארוך טווח.

נשלח: 2 בספטמבר, 2009. נושאים: הממ... מעניין..., ספרים וסרטים.
תגובות: 9 | טראקבק