חיפוש באתר

קישורים

תגים

בחירות ביוסטטיסטיקה בייסבול בנימה אישית בריאות גרפים דו"ח העוני דילמת האסירים הומיאופתיה הימורים היסטוריה המלצות המשפטים הגדולים של הסטטיסטיקה הסתברות השכלה גבוהה חברה חינוך חשבון יישומים כלכלה מדע מונטי הול מחקרים מירב ארלוזורוב ממוצע מצחיק משרד האוצר מתאם מתמטיקה ניהול סיכונים ניסויים קליניים סטטיסטיקה ספורט ספרים סקרים עיוות נתונים קבלת החלטות שטרסלר שכר שכר לימוד תאונות דרכים תורת המשחקים תחזיות תקשורת p-value

RSS סטטיסטיקה שאספתי ברשת

ארכיב עבור תגית המשפטים הגדולים של הסטטיסטיקה

הכוכב, הסמים והכומר

לפני כחודשיים דיווחתי כאן על השעייתו של סופרסטאר הבייסבול  מני רמירז ל-50 משחקים, לאחר שבבדיקת סמים שנערכה לו התקבלה תוצאה חיובית. עם הדיווח העליתי נקודה למחשבה: לאור העובדה שבבדיקה התקבלה תוצאה חיובית, מה ההסתברות כי רמירז אכן השתמש בסמים אסורים? נתתי גם רמז עבה לפתרון: מספר 4 ברשימת 15 הסטטיסטיקאים הגדולים.

הבטחתי רשימה בנושא, והנה אני סוף סוף מקיים. לזירוז העניין תרם דוברמן, שפרסם בבלוג שלו את החידה הזו. ההקשר היה שונה (שפעת החזירים במקום סמים אסורים), אבל העקרון זהה. מי שמעוניין לקרוא את הפתרון של דוברמן יכול לקרוא אותו בלינק הזה, אם כי אני מייד אתן הסבר משלי וגם ארחיב על הנושא.

ובכן, מה ההסתברות כי רמירז אכן השתמש בסמים אסורים אם בדיקת הסמים שלו הייתה חיובית? התשובה האמיתית והכנה ביותר שאני יכול לתת לכם היא שאני לא יודע. חסרים נתונים. אז בואו ונמציא נתונים לצורך התרגיל. בדיקת הסמים יכולה לטעות. יכול להיות שנבדק כלשהו משתמש בסמים אסורים, ובכל זאת מתקבלת תוצאה שלילית בבדיקה. גם יכול להיות שהנבדק לא השתמש בסמים אסורים ותוצאת הבדיקה בכל זאת הייתה חיובית משום מה (רמירז לא טען זאת, דרך אגב). אלה הן שתי הטעויות שעשויות לקרות בכל תהליך קבלת החלטות. אבל באיזה סיכוי עשויה כל טעות להתרחש? אני אניח, כמו דוברמן בחידה שלו, כי לכל טעות יש סיכוי של אחוז אחד, כלומר 0.01. (את הסיכויים האמיתיים יודעים  מן הסתם יצרני ערכת הבדיקה). עדיין אין מספיק נתונים. כדי לענות על השאלה צריך גם לדעת מהו אחוז משתמשי הסמים באוכלוסיה הרלוונטית, ואת האחוז הזה קשה מאוד לברר. אני מעריך את המספר הזה ב-5 עד 10 אחוז. מסמך פנימי של ליגת ה-MLB שהודלף לאחרונה אמר כי בשנת 2003 התקבלו תוצאות חיוביות אצל 104 שחקנים שנבדקו (אשמח ללינק – לא מצאתי את הידיעה המקורית). בליגה יש כ-1000 שחקנים, ולכן אחוז המשתמשים הוא בסביבות 10. יש הסבורים כי "תקופת הסטרואידים" שהחלה לקראת סוף שנות התשעים של המאה הקודמת כנראה חלפה כבר מן העולם. אני סבור כי השחקנים פשוט עברו להשתמש בחומרים חדשים, שבבדיקות הנוכחיות לא מזהות. יש להם תמריץ כלכלי לכך. בואו ניקח את המספר העגול של 10% לצורך התרגיל.

נניח שכל 1000 השחקנים נבדקים. מתוכם 100 משתמשים בסמים אסורים, על פי הנחתנו, ומכיוון שהבדיקה תתן תוצאה חיובית אם הנבדק משתמש בסמים ב-99 אחוז מהמקרים, נקבל (תיאורטית) 99 תוצאות חיוביות ותוצאה שלילית אחת. 900 השחקנים האחרים נקיים, ועבור 99% מהם תוצאת הבדיקה תהיה שלילית. כלומר, יתקבלו 891 תוצאות שליליות , ואילו 9 שחקנים חסרי מזל יקבלו תוצאה חיובית  (ואלי יושעו) הגם שלא השתמשו בסמים אסורים. נרכז את המספרים האלה בטבלה:

תוצאת הבדיקה

חיובית

שלילית

סה"כ

משתמש בסמים אסורים?

משתמש

99

1

100

לא משתמש

9

891

900

סה"כ

108

892

1000

מתוך 108 שחקנים עבורם התקבלה תוצאה חיובית, 99 אכן משתמשים בסמים, ולכן ההסתברות כי שחקן שתוצאת הבדיקה שלו חיובית אכן משתמש בסמים היא 99/108 כלומר כמעט 92%.

שימו לב כי התוצאה תלויה בהנחה הראשונית על אחוז השחקנים המשתמשים בסמים, שאינו ידוע לנו. אם האחוז הזה הוא רק 5% ולא 10%, אז ההסתברות כי השחקן "שלנו" אכן השתמש בסמים תהיה "רק" 84%.

עכשיו בואו נעזוב את החישובים, ונעבור לדיון עקרוני בתרגיל שנעשה. אנו התמקדנו בשני מאורעות. צפינו במאורע "בבדיקת הסמים התקבלה תוצאה חיובית" והתעניינו במאורע "השחקן שנבדק משתמש בסמים אסורים". כמו כן היו נתונות לנו מספר הסתברויות. הייתה ידועה לנו, בין היתר ההסתברות כי תוצאת בדיקת הסמים היא חיובית כאשר ידוע כי השחקן הנבדק משתמש בסמים אסורים. אבל ההסתברות שעניינה אותנו באמת הייתה ההסתברות כי השחקן הנבדק משתמש בסמים אסורים כאשר ידוע כי תוצאת בדיקת הסמים היא חיובית. שתי ההסתברויות שתיארתי הן הסתברויות מותנות, אבל מתארות מצבים שונים. אחת מתארת הסתברות של מאורע שקורה בהווה (תוצאת הבדיקה חיובית) בהנתן מאורע שקרה בעבר (השחקן השתמש בסמים אסורים). השניה מתארת הסתברות של מאורע שקרה בעבר בהנתן מאורע שקרה בהווה. החישוב שלנו "הפך" את כיוון זרימת הזמן: מההווה לעבר במקום מעבר להווה. וכזכור, כל התרגיל שלנו לא היה מתאפשר ללא הנחה אפריורית כלשהי על אחוז השחקנים המשתמשים בסמים אסורים. הבדיקה אפשרה לנו לעדכן את ההסתברות האפריורית לכך שהשחקן השתמש בסמים אסורים, ולהחליף אותה בהסתברות אפוסטריורית.

הנה תיאור אפשרי אחר של התהליך: בהתחלה לא היה לנו כל ידע לגבי הרגלי השימוש של השחקן המסוים בסמים אסורים, ולכן הנחנו כי הסיכוי לכך שהוא משתמש בסמים כאלה שווה לפרופורציית השחקנים המשתמשים בסמים. הבדיקה שנערכה ותוצאתה נתנו לנו אינפורמציה חדשה, וממנה למדנו כי ההסתברות שהשחקן משתמש בסמים גבוהה הרבה יותר. החישוב שעשינו הוא מעין ביטוי מתמטי לתהליך למידה.

הראשון שניסח את התרגיל ההסתברותי הזה בכתובים היה כומר אנגלי שחי לו במאה ה-18, ושמו תומאס בייס. בייס היה ידוע כמי שעוסק במתמטיקה, ואף היה חבר החברה המלכותית, אם כי בימי חייו לא פרסם אף לא מאמר אחד שתיעד את עבודתו. המאמר המתמטי היחיד שהתפרסם תחת שמו הופיע רק שנתיים לאחר מותו, וזהו למעשה מכתב ששלח לידידו ג'ון קאנטון. במכתב תיאר בייס את הדרך לחשב "הסתברות מותנה הפוכה" (שתיארתי זה עתה). הדוגמא שהביא בייס עסקה, אגב, בסיכויי הנצחון במשחק ביליארד, במיטב המסורת של התפתחות תורת ההסתברות בהתאם לצרכיהם של המהמרים. למעוניינים לקרוא את המאמר עצמו, הנה קישור לקובץ pdf. עותק מקורי של המאמר, דרך אגב, יעלה לכם כ-4200 דולר, אם תמצאו מישהו שמוכן למכור.

הקוראים הותיקים של הבלוג הזה אמורים לדעת כי הזכרתי את בייס בעבר. הוא מופיע במקום ה-4 ברשימת 15 הסטטיסטיקאים הגדולים שערכתי. בעבר קוננתי על כך שמשפט בייס לא הופיע ברשימת 100 המשפטים הגדולים של המתמטיקה שערך מישהו. במסגרת התחקיר לרשימה זו הגעתי ל"פרוייקט מילניום" שנערך על ידי המרכז למדעים קוגניטיביים אוניברסיטת מינסוטה, שניסה לבחור ולדרג את 100 העבודות המשפיעות ביותר על המדעים הקוגניטיביים. מאמרו של בייס היה בין 306 העבודות המועמדות, אך פאנל המומחים שביצע את מלאכת הדירוג לא חשב שהעבודה ראויה דיה כדי להכלל ב-Top 100.

כפי שציינתי כאן בעבר, על הבסיס שהניח בייס צמח ענף שלם של הסטטיסטיקה שנקרא כמובן "סטטיסטיקה בייסיאנית". לסטטיסטיקה הבייסיאנית שימושים מרחיקי לכת. היא עומדת בבסיסן של מערכות הבינה המלאכותית למינהן, ומיושמת במגוון תחומים, החל בגנטיקה וכלה בסינון דואר זבל. אני מסתפק כאן בהפניה למאמר שפרסם פרופ' ישראל בנימיני ב-Ynet לפני מספר שנים, בו יש סקירה נאה של המשפט ושימושיו.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

הכוכב הנעלם והאמד הכחול: משפט גאוס מרקוב ושיטת הריבועים הפחותים

שמחה גדולה אחזה בעולם האסטרונומיה בשנת 1781, עם גילויו של כוכב הלכת אוראנוס. לאחר שכוכב לכת זה נצפה, מסלולו חושב ומרחקו מהשמש הוערך, התברר כי מרחקו מהשמש מתאים לתחזית של "חוק טיטיוס-בודה", מעין להטוט חשבוני (שגוי, כך התברר בדיעבד) המתאר את מרחקו של כוכב לכת מהשמש כפונקציה של מספרו הסידורי. החוק תיאר בצורה טובה את מרחקיהם של כל כוכבי הלכת שהיו חדועים עד אז, אך השאיר "חור" בין מאדים לצדק. לפי החוק, "צריך" היה להיות שם עוד כוכב לכת, שלא נתגלה עדיין.

האסטרונומים הפנו את מאמציהם לגילוי כוכב הלכת האבוד. המאמץ נשא פרי כעבור 20 שנה. באחד בינואר 1801 גילה האסטרונום האיטלקי ג'וזפה פיאצי גוף שמימי שנע במסלול המיועד לכוכב הלכת האבוד. הוא כינה כוכב לכת חדש זה בשם צרס, לכבוד אלת החקלאות הרומית.

שמחתם של פיאצי ועמיתיו הייתה קצרה. לאחר שצפו בצרס במשך 41 לילות, "התקרב" מסלולו אל השמש, ובשל אורה החזק לא יכלו המשיך ולצפות בו. כמובן, כאשר יסיים צרס את הקפתו ויופיע מצידה השני של השמש יוכלו לצפות בו שוב, אבל, היכן בדיוק יופיע בשמי הלילה? הנתונים המועטים שנצברו (רק 22 תצפיות בפועל נאספו במשך 41 הלילות) לא אפשרו חישוב מדוייק של מסלולו.

מספר מלומדים ניסו לחזות את מסלולו של הכוכב הסורר. אחד מהם היה קרל פרידריך גאוס, מתמטיקאי ואסטרונום מהאוניברסיטה של גטינגן (אני מניח שכבר שמעתם עליו אי אלו פעמים). גאוס פרסם את תחזיתו למסלול של צרס בספטמבר 1801. צרס ציית לתחזיותיו של גאוס, והופיע בשמים בהתאם. עם גילוים של אסטרואידים נוספים שנעו במסלול בין מאדים לצדק, חזר גאוס על התרגיל וחישב את מסלולם של רבים מהם.

שרטוט המסלול של צרס על ידי גאוס

שרטוט המסלולים של האסטרואידים צרס ופאלאס על ידי גאוס (מקור: http://www.math.rutgers.edu/~cherlin/History/Papers1999/weiss.html)

מה היה הסוד של גאוס? רק ב-1809 פרסם גאוס ברבים את שיטתו, הידועה כיום כשיטת הריבועים הפחותים. ככל הנראה, גאוס נכנע ופרסם את השיטה רק לאחר שהמתמטיקאי הצרפתי לז'נדר פרסם בשנת 1806 את שיטתו לחישוב מסלולי שביטים, ולמעשה הוא שטבע את שם השיטה :"Méthode des Moindres Quarrés ". עם זאת, ידוע כי גאוס הכיר את השיטה כבר ב-1795, והוכיח ב-1798 כי אמד הריבועים הפחותים הוא אמד נראות מירבית – Maximum Likelihood Estimator (כמובן, המושגים האלה, שלקוחים מתחום התיאוריה הסטטיסטית,  עדיין לא היו ידועים בימיו). ב-1823 הוכיח גאוס כי השיטה אכן מספקת את האמד הלינארי הטוב ביותר במובן שזהו האמד הלינארי חסר ההטיה ששונותו מינימלית. מכאן הופיע הביטוי "אמד כחול" בכותרת הרשימה. כחול – BLUE- הם ראשי התיבות של Best Linear Unbiased Estimator. אין צורך להבהל מהמונחים הטכניים האלה, שלא אסביר בפירוט. אומר רק כי במלים פשוטות, גאוס הוכיח כי השיטה אופטימלית בשלושה מובנים שונים – גם נראות מירבית, גם שונות מינימלית וגם חסר הטיה.

גאוס ומרקוב

גאוס (משמאל) ומרקוב חולקים בתהילה של שיטת הריבועים הפחותים

המתמטיקאי הרוסי אנדריי אנדרייביץ מרקוב, שידוע בעיקר בזכות תרומתו לחקר התהליכים המקריים, תיאר בפירוט את שיטת הריבועים הפחותים בספר שפרסם ב-1912, וניסח אותה מחדש באופן ברור יותר, ובכך תרם את תרומתו להפצתה של השיטה ולפיתוחה. בזכות תרומתו זו זכה לחלוק בתהילה עם גאוס, והמשפט המוכיח את האופטימליות של שיטת הריבועים הפחותים נקרא משפש גאוס-מרקוב.

השיטה והכללותיה משמשות עד היום ככלי מרכזי לניתוח סטטיסטי של נתונים, ונמצאת בשימוש גם במדעים המדוייקים וגם במדעי החברה, בעיקר בתחום הכלכלה. סטיבן לויט, מחבר הספר רב המכר "פריקונומיקס", כתב בספרו כי השימוש בשיטה הוא "יותר אמנות מאשר מדע". אני חולק על דבריו. זוהי שיטה מדעית, המבוססת על תיאוריה מתמטית. יש לה יתרונות עצומים, כמובן, אך גם מגבלות. המשתמש בה חייב תמיד להיות מודע למגבלות האלה, ולא, מסקנותיו יהיו שגויות.

עד כאן ה"ציונות". אבל מהי בעצם שיטת הריבועים הפחותים? אנסה כעת לתת הסבר שווה לכל נפש.

נניח כי יש בידינו קבוצת נתונים, שנאספה ממדגם כלשהו. לכל פרט במדגם יש שני נתונים כמותיים. לדוגמא, אם אנו מסתכלים על מדגם של כפרים, נתון אחד יכול להיות מספר החסידות שקיננו בכפר באביב, והנתון השני יכול להיות מספר הלידות שהיו בכפר בקיץ שלאחר מכן. כלכלנים יעדיפו אולי להסתכל על מדגם של מדינות, כאשר נתון אחד הוא גובה המס שמטילה ממשלת המדינה על העסקים בתחומה, והנתון השני הוא הכנסות הממשלה ממסים באחוזים מהתמ"ג. חוקרים בחברת תרופות יסתכלו על מדגם של חולים, ויאספו נתונים על מינון התרופה הנסיונית שניתן לכל חולה ועל השינוי במצבו. בכל מקרה, אפשר לשרטט את הנתונים שהתקבלו על מערכת צירים, ומתקבלת דיאגרמת פיזור (scatterplot). בשרטוט אנו רואים מדגם בגודל עשרה כפרים. הנקודה המסומנת בחץ, לדוגמא, מייצגת כפר במדגם בו קיננו עשר חסידות ונולדו שני תינוקות (הנתונים לא אמיתיים, כמובן, אלא נדגמו ממוחי הקודח):

נניח שאנו רוצים לגלות האם קיים קשר קווי בין שני המשתנים. במלים אחרות, אנו שואלים את עצמנו האם ניתן לשרטט על מערכת הצירים קו שיתאר את הקשר בין המשתנים? כמובן שאי אפשר לשרטט קו ישר שיעבור דרך כל 10 הנקודות, אבל ישנם הרבה (אינסוף) קוים שעוברים דרך "ענן" הנקודות שלנו.  שרטטתי כמה מהם על פני מערכת הצירים. איזה מהם מתאר את הקשר בין שני המשתנים בצורה הטובה ביותר?

הנה הרעיון של גאוס. הוא בחר קו ישר אחד, ומדד את המרחק האנכי מכל נקודה אל הקו. סימנתי את המרחק האנכי מכל נקודה אל הקו על השרטוט שלנו. בכפר הראשון, בו קיננו 2 חסידות והיו 10 לידות, המרחק האנכי (כלומר אורך הקו האדום) הוא בערך 5. בכפר השני, בו קיננו 3 חסידות והיו 5 לידות, אורך הקו האדום הוא בערך 0.5, אבל כיוון שהנקודה נמצאת מתחת לקו, המרחק האנכי הוא 0.5-.  

הקו האידיאלי הוא זה שעבורו כל המרחקים האנכיים שוים לאפס, אבל קו כזה לא קיים בדרך כלל. לכן אין ברירה אלא לחשב את הקו האופטימלי. אפשר, למשל, לחפש את הקו שעבורו סכום המרחקים בערכיהם המוחלטים הוא מינימלי. גאוס הבין כי עדיף לחפש את הקו שעבורו סכום ריבועי המרחקים הוא מינימלי (מכאן השם "ריבועים פחותים" – "Least Squares"). גאוס גם הראה כיצד ניתן למצוא את הקו האופטימלי. כל קו ישר ניתן לאפיון מלא על ידי שני פרמטרים – שיפועו ונקודת החיתוך שלו עם הציר האנכי. לכן ניתן לרשום את סכום ריבועי המרחקים האנכיים כפונקציה של שני הפרמטרים האלה, ולמצוא את נקודת המינימום של הפונקציה. ניתן לעשות זאת על ידי שימוש בחשבון דיפרנציאלי או תוך כדי שימוש בשיקולים גיאומטריים/אלגבריים. אפשר לחשב ולמצוא כי הקו האופטימלי לנתונים שבדוגמא הוא:

ניתן לפרש זאת בערך כך: גם ללא חסידות יהיו בממוצע 6.8 לידות, וכל חמש (בערך) חסידות נוספות יביאו ללידת תינוק נוסף. אינטרפרטציה מפתה נוספת היא אינטרפרטצית הניבוי: מה יקרה בכפר בו יקננו 20 חסידות? אם נציב 20 בנוסחא, קו הריבועים הפחותים ינבא כי יהיו בכפר זה 10.6 לידות.

אבל, אבוי, קו הריבועים הפחותים אינו מאפשר ניבוי אמיתי. הפרמטרים הנאמדים (שהם כזכור שיפוע הקו ונקודת החיתוך שלו עם הציר האנכי) תלויים ישירות במקדם המתאם בין שני המשתנים. קו הריבועים הפחותים מתאר קשר אפשרי בין המשתנים, אבל לא סיבה ותוצאה. גם אם היינו מחליפים את תפקידי המשתנים, כמספר הלידות הוא המשתנה ה"מסביר" את מספר החסידות (כמשתנה ה"מוסבר"), מקדם המתאם בין שני המשתנים לא היה משתנה, וההסבר לפיו מספר החסידות מנבא את מספר הלידות הגיוני בדיוק כמו ההסבר לפיו מספר הלידות מנבא את מספר החסידות.

זאת ועוד: קו הריבועים הפחותים מתאר רק את מה שקורה בתחום הערכים בו צפינו. הוא לא יכול לומר לנו שום דבר על מהות הקשר בין המשתנים מחוץ לטווח הזה. במלים אחרות: קו הריבועים הפחותים הוא מודל תיאורי של הנתונים, וככזה הוא מוגבל להסברה של הנתונים המתוארים ותו לא. המציאות עשויה להיות שונה. באיור הבא מובאות ארבע דיאגרמות פיזור שמצאתי באינטרנט, עם קוי הריבועים הפחותים שהיו עשויים להתקבל לא הייינו מסתכלים רק על טווח חלקי של הנתונים:

קו הריבועים הפחותים מול המציאות

קו הריבועים הפחותים מול המציאות - ארבע דוגמאות

גאוס הצליח בניבוי המסלול של צרס בעזרת קו הריבועים הפחותים כיוון שהסתבך על מודל מוצק, לפיו צרס (כמו שאר כוכבי הלכת) מקיף את השמש במסלול אליפטי. לאחר שיש מודל, הכלים הסטטיסטיים יכולים לאפשר את אמידת הפרמטרים שלו. ההיפך לא בהכרח נכון. ניתן להשתמש בכלים הסטטיסטיים כדי לתאר את הנתונים, אך אין די בכך כדי לבנות ולאשר מודל. לצערנו, ישנם אנשים שבכל זאת בונים מודל סביב הנתונים הסטטיסטיים שלהם, מבלי להתחשב במגבלות של כלי הרגרסיה.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו