Skip to content

נסיכת המדעים

אלוהים משחק ביקום בקוביות

  • עמוד הבית
  • אודות נסיכת המדעים
  • ייעוץ סטטיסטי
  • מבוא לסטטיסטיקה
  • מצגות Presentations
  • יצירת קשר
  • Toggle search form

הכוכב, הסמים והכומר

Posted on 19 באוגוסט 200910 במרץ 2018 By יוסי לוי 6 תגובות על הכוכב, הסמים והכומר

לפני כחודשיים דיווחתי כאן על השעייתו של סופרסטאר הבייסבול  מני רמירז ל-50 משחקים, לאחר שבבדיקת סמים שנערכה לו התקבלה תוצאה חיובית. עם הדיווח העליתי נקודה למחשבה: לאור העובדה שבבדיקה התקבלה תוצאה חיובית, מה ההסתברות כי רמירז אכן השתמש בסמים אסורים? נתתי גם רמז עבה לפתרון: מספר 4 ברשימת 15 הסטטיסטיקאים הגדולים.

הבטחתי רשימה בנושא, והנה אני סוף סוף מקיים. לזירוז העניין תרם דוברמן, שפרסם בבלוג שלו את החידה הזו. ההקשר היה שונה (שפעת החזירים במקום סמים אסורים), אבל העקרון זהה. מי שמעוניין לקרוא את הפתרון של דוברמן יכול לקרוא אותו בלינק הזה, אם כי אני מייד אתן הסבר משלי וגם ארחיב על הנושא.

ובכן, מה ההסתברות כי רמירז אכן השתמש בסמים אסורים אם בדיקת הסמים שלו הייתה חיובית? התשובה האמיתית והכנה ביותר שאני יכול לתת לכם היא שאני לא יודע. חסרים נתונים. אז בואו ונמציא נתונים לצורך התרגיל. בדיקת הסמים יכולה לטעות. יכול להיות שנבדק כלשהו משתמש בסמים אסורים, ובכל זאת מתקבלת תוצאה שלילית בבדיקה. גם יכול להיות שהנבדק לא השתמש בסמים אסורים ותוצאת הבדיקה בכל זאת הייתה חיובית משום מה (רמירז לא טען זאת, דרך אגב). אלה הן שתי הטעויות שעשויות לקרות בכל תהליך קבלת החלטות. אבל באיזה סיכוי עשויה כל טעות להתרחש? אני אניח, כמו דוברמן בחידה שלו, כי לכל טעות יש סיכוי של אחוז אחד, כלומר 0.01. (את הסיכויים האמיתיים יודעים  מן הסתם יצרני ערכת הבדיקה). עדיין אין מספיק נתונים. כדי לענות על השאלה צריך גם לדעת מהו אחוז משתמשי הסמים באוכלוסיה הרלוונטית, ואת האחוז הזה קשה מאוד לברר. אני מעריך את המספר הזה ב-5 עד 10 אחוז. מסמך פנימי של ליגת ה-MLB שהודלף לאחרונה אמר כי בשנת 2003 התקבלו תוצאות חיוביות אצל 104 שחקנים שנבדקו (אשמח ללינק – לא מצאתי את הידיעה המקורית). בליגה יש כ-1000 שחקנים, ולכן אחוז המשתמשים הוא בסביבות 10. יש הסבורים כי “תקופת הסטרואידים” שהחלה לקראת סוף שנות התשעים של המאה הקודמת כנראה חלפה כבר מן העולם. אני סבור כי השחקנים פשוט עברו להשתמש בחומרים חדשים, שבבדיקות הנוכחיות לא מזהות. יש להם תמריץ כלכלי לכך. בואו ניקח את המספר העגול של 10% לצורך התרגיל.

נניח שכל 1000 השחקנים נבדקים. מתוכם 100 משתמשים בסמים אסורים, על פי הנחתנו, ומכיוון שהבדיקה תתן תוצאה חיובית אם הנבדק משתמש בסמים ב-99 אחוז מהמקרים, נקבל (תיאורטית) 99 תוצאות חיוביות ותוצאה שלילית אחת. 900 השחקנים האחרים נקיים, ועבור 99% מהם תוצאת הבדיקה תהיה שלילית. כלומר, יתקבלו 891 תוצאות שליליות , ואילו 9 שחקנים חסרי מזל יקבלו תוצאה חיובית  (ואלי יושעו) הגם שלא השתמשו בסמים אסורים. נרכז את המספרים האלה בטבלה:

תוצאת הבדיקה

חיובית

שלילית

סה”כ

משתמש בסמים אסורים?

משתמש

99

1

100

לא משתמש

9

891

900

סה”כ

108

892

1000

מתוך 108 שחקנים עבורם התקבלה תוצאה חיובית, 99 אכן משתמשים בסמים, ולכן ההסתברות כי שחקן שתוצאת הבדיקה שלו חיובית אכן משתמש בסמים היא 99/108 כלומר כמעט 92%.

שימו לב כי התוצאה תלויה בהנחה הראשונית על אחוז השחקנים המשתמשים בסמים, שאינו ידוע לנו. אם האחוז הזה הוא רק 5% ולא 10%, אז ההסתברות כי השחקן “שלנו” אכן השתמש בסמים תהיה “רק” 84%.

עכשיו בואו נעזוב את החישובים, ונעבור לדיון עקרוני בתרגיל שנעשה. אנו התמקדנו בשני מאורעות. צפינו במאורע “בבדיקת הסמים התקבלה תוצאה חיובית” והתעניינו במאורע “השחקן שנבדק משתמש בסמים אסורים”. כמו כן היו נתונות לנו מספר הסתברויות. הייתה ידועה לנו, בין היתר ההסתברות כי תוצאת בדיקת הסמים היא חיובית כאשר ידוע כי השחקן הנבדק משתמש בסמים אסורים. אבל ההסתברות שעניינה אותנו באמת הייתה ההסתברות כי השחקן הנבדק משתמש בסמים אסורים כאשר ידוע כי תוצאת בדיקת הסמים היא חיובית. שתי ההסתברויות שתיארתי הן הסתברויות מותנות, אבל מתארות מצבים שונים. אחת מתארת הסתברות של מאורע שקורה בהווה (תוצאת הבדיקה חיובית) בהנתן מאורע שקרה בעבר (השחקן השתמש בסמים אסורים). השניה מתארת הסתברות של מאורע שקרה בעבר בהנתן מאורע שקרה בהווה. החישוב שלנו “הפך” את כיוון זרימת הזמן: מההווה לעבר במקום מעבר להווה. וכזכור, כל התרגיל שלנו לא היה מתאפשר ללא הנחה אפריורית כלשהי על אחוז השחקנים המשתמשים בסמים אסורים. הבדיקה אפשרה לנו לעדכן את ההסתברות האפריורית לכך שהשחקן השתמש בסמים אסורים, ולהחליף אותה בהסתברות אפוסטריורית.

הנה תיאור אפשרי אחר של התהליך: בהתחלה לא היה לנו כל ידע לגבי הרגלי השימוש של השחקן המסוים בסמים אסורים, ולכן הנחנו כי הסיכוי לכך שהוא משתמש בסמים כאלה שווה לפרופורציית השחקנים המשתמשים בסמים. הבדיקה שנערכה ותוצאתה נתנו לנו אינפורמציה חדשה, וממנה למדנו כי ההסתברות שהשחקן משתמש בסמים גבוהה הרבה יותר. החישוב שעשינו הוא מעין ביטוי מתמטי לתהליך למידה.

הראשון שניסח את התרגיל ההסתברותי הזה בכתובים היה כומר אנגלי שחי לו במאה ה-18, ושמו תומאס בייס. בייס היה ידוע כמי שעוסק במתמטיקה, ואף היה חבר החברה המלכותית, אם כי בימי חייו לא פרסם אף לא מאמר אחד שתיעד את עבודתו. המאמר המתמטי היחיד שהתפרסם תחת שמו הופיע רק שנתיים לאחר מותו, וזהו למעשה מכתב ששלח לידידו ג’ון קאנטון. במכתב תיאר בייס את הדרך לחשב “הסתברות מותנה הפוכה” (שתיארתי זה עתה). הדוגמא שהביא בייס עסקה, אגב, בסיכויי הנצחון במשחק ביליארד, במיטב המסורת של התפתחות תורת ההסתברות בהתאם לצרכיהם של המהמרים. למעוניינים לקרוא את המאמר עצמו, הנה קישור לקובץ pdf. עותק מקורי של המאמר, דרך אגב, יעלה לכם כ-4200 דולר, אם תמצאו מישהו שמוכן למכור.

הקוראים הותיקים של הבלוג הזה אמורים לדעת כי הזכרתי את בייס בעבר. הוא מופיע במקום ה-4 ברשימת 15 הסטטיסטיקאים הגדולים שערכתי. בעבר קוננתי על כך שמשפט בייס לא הופיע ברשימת 100 המשפטים הגדולים של המתמטיקה שערך מישהו. במסגרת התחקיר לרשימה זו הגעתי ל”פרוייקט מילניום” שנערך על ידי המרכז למדעים קוגניטיביים אוניברסיטת מינסוטה, שניסה לבחור ולדרג את 100 העבודות המשפיעות ביותר על המדעים הקוגניטיביים. מאמרו של בייס היה בין 306 העבודות המועמדות, אך פאנל המומחים שביצע את מלאכת הדירוג לא חשב שהעבודה ראויה דיה כדי להכלל ב-Top 100.

כפי שציינתי כאן בעבר, על הבסיס שהניח בייס צמח ענף שלם של הסטטיסטיקה שנקרא כמובן “סטטיסטיקה בייסיאנית”. לסטטיסטיקה הבייסיאנית שימושים מרחיקי לכת. היא עומדת בבסיסן של מערכות הבינה המלאכותית למינהן, ומיושמת במגוון תחומים, החל בגנטיקה וכלה בסינון דואר זבל. אני מסתפק כאן בהפניה למאמר שפרסם פרופ’ ישראל בנימיני ב-Ynet לפני מספר שנים, בו יש סקירה נאה של המשפט ושימושיו.

האנשים שמאחורי הסטטיסטיקה, היסטוריה, המשפטים הגדולים של הסטטיסטיקה Tags:היסטוריה, המשפטים הגדולים של הסטטיסטיקה, הסתברות

ניווט

Previous Post: עקבו אחרי בטוויטר
Next Post: הספר החדש ב-wish list שלי

Comments (6) on “הכוכב, הסמים והכומר”

  1. יובל הגיב:
    20 באוגוסט 2009 בשעה 13:05

    על השימוש הספציפי במשפט בייס לזיהוי דואר זבל ועל דרכים אחרות לכך כתבתי פוסט אורח אצל אורן:
    http://www.sciencefriction.net
    /blog/2008/03/20/86/

    הגב
  2. biohazard הגיב:
    31 באוגוסט 2009 בשעה 14:34

    את מניח שלא עשו בדיקה חוזרת

    לדעתי כאשר השיטה does not meet the acceptance criteria
    אז עושים re-test
    שכדאי שיהיה מוגדר מראש, לרוב פעמיים

    הגב
    1. יוסי לוי הגיב:
      31 באוגוסט 2009 בשעה 16:26

      מי שממש מתעניין בפרוצדורת הבדיקה של ה-MLB יכול לעשות זאת כאן:

      הגב
  3. פינגבאק: בהינתן שאנחנו יודעים הסתברות בסיסית, כמה קל להבין הסתברות מותנית? « לא מדויק
  4. נדב לוין הגיב:
    30 בדצמבר 2010 בשעה 13:19

    ליוסי לוי,
    שלום רב.
    התוודעתי לאחרונה לבלוג שלך, ונהנתי מאד.
    בעיקר עניינה אותי ההתייחסות לסטטיסטיקה הבייסיאנית, בגלל ההשלכות שלה בתחומי הזיהוי הפלילי (בהם אני עוסק).
    לתשומת לבך, עותר קריא יותר של המאמר המקורי של תומס בייס תוכל למצוא בכתובת הבאהhttp://www.stat.ucla.edu/history/essay.pdf
    בברכה,
    נדב לוין

    הגב
    1. יוסי לוי הגיב:
      30 בדצמבר 2010 בשעה 16:00

      תודה!

      הגב

להגיב על יובל לבטל

האימייל לא יוצג באתר. שדות החובה מסומנים *

אתר זה עושה שימוש באקיזמט למניעת הודעות זבל. לחצו כאן כדי ללמוד איך נתוני התגובה שלכם מעובדים.

  • תכנים נוספים בנסיכת המדעים
  • ערוץ היוטיוב של נסיכת המדעים 
  • נסיכת המדעים בפייסבוק
  • חפירות על סטטיסטיקה
  • תכנים מומלצים ברשת בנושאי סטטיסטיקה ו- Data Science
  • Privacy policy
  • מה אומרת הסטטיסטיקה
  • כלכלה וחברה
  • בריאות
  • ביוסטטיסטיקה
  • האנשים שמאחורי הסטטיסטיקה
  • נשים בסטטיסטיקה
  • סטטיסטיקה רעה
  • אותי זה מצחיק
  • בנימה אישית

Copyright © 2025 נסיכת המדעים.

Powered by PressBook WordPress theme

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish.Accept Read More
Privacy & Cookies Policy

Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
Necessary
Always Enabled
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Non-necessary
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
SAVE & ACCEPT