חיפוש באתר

קישורים

RSS סטטיסטיקה ברשת

עמודים

קטגוריות

תגיות

בין שתי טעויות

אתה נוהג ברכבך בכביש צר, בו יש נתיב אחד לכל כיוון. לפניכם נוסעת משאית באיטיות מרגיזה. אתה רוצה לעקוף את המשאית, אך היא חוסמת את רוב שדה הראיה שלך. נוסף לכך, משאיות נעות מדי פעם גם בכיוון הנגדי. לעקוף או לא לעקוף?

אם לא תעקוף תאחר למחוז חפצך. זה מרגיז, כי מדי פעם אתה רואה כי היית יכול להספיק לעקוף בביטחה. לעומת זאת, אם תצא לעקיפה אתה עלול למצוא את עצמך בהתנגשות חזיתית עם משאית שנוסעת בכיוון הנגדי. מה עושים? איך מחליטים?

יצאתם לטיול ביער וגיליתם פטריות. אתם מאוד אוהבים פטריות, אבל גרועים בזיהויין. האם תאכלו את הפטריות? אולי אלה הן פטריות רעילות? אם הפטריות ראויות למאכל ותחליטו לוותר על אכילתן, הפסדתם ארוחה טעימה. לעומת זאת, אם תאכלו פטריות רעילות, מצבכם עדין.

אבל, מה תעשו אם הגעתם לאי בודד לאחר שספינתכם נטרפה, ותגלו כי המאכל האפשרי היחיד באי הוא פטריות?

רופא בודק חולה שמצבו חמור. יש שני גורמים אפשריים למצבו של החולה, ולכל אחד מהגורמים קיים טיפול יעיל. אולם, מתן הטיפול לגורם אחד יהיה קטלני אם המחלה נגרמה עקב הגורם השני. אי אפשר לתת את שני את שני הטיפולים ביחד. כאן, לשתי הטעויות האפשריות יש תוצאה מרה אחת.

נאשם עומד למשפט. ייתכן כי הנאשם חף מפשע, ובכל זאת העדויות ישכנעו את השופט כי הוא אשם. אדם חף מפשע יישלח במקרה זה לכלא. ייתכן גם כי הנאשם אמנם ביצע את הפשע המיוחס לו, אך הראיות שיוצגו במשפט לא יספיקו כדי להרשיעו. במקרה זה, הפושע "יחזור לרחובות". זוכרים את הסקר הזה?

איזו טעות עדיפה?

 איך יכריע השופט את הדין כך שיקטין את הסיכוי להרשיע חף מפשע וגם את הסיכוי לשלח פושעים מסוכנים לחפשי?

נניח שהשופט אדם בעל עקרונות הרואה בשליחת חף מפשע לכלא טעות בלתי נסבלת. שופט כזה ידרוש ראיות רבות יותר ובעלות משקל רב יותר לצורך הרשעה, ולכל ספק שיינטע בליבו לגבי אשמתו של הנאשם הוא ייתן משקל נכבד. השופט כמובן ידרוש ראיות כאלה מכל תובע המופיע בפניו, שכן הוא שופט את כולם ללא משוא פנים, וכל נאשם הריהו בחזרת חף מפשע עד שלא תוכח אשמתו. שופט זה עדיין עלול לטעות לעיתים ולהרשיע נאשם חף מפשע, אך הסיכוי לכך הוא קטן.

אבל אין ארוחות חינם. המחיר שמשלם שופט זה הוא בסיכויים גבוהים יותר לזיכוי נאשמים שאינם חפים מפשע, כי כאמור, גם מתובעיהם של נאשמים אלה דורש השופט ראיות רבות ומוצקות.

חברו של השופט, היושב בדין באולם הסמוך, סבור לעומת זאת כי יש להמנע ככל האפשר מזיכוי מוטעה של אשמים. הוא מסתפק בראיות קלות יותר כדי להשתכנע כי הנאשם העומד מולו אכן אשם. רק לעתים רחוקות יזכה שופט זה בטעות אדם אשר אכן ביצע את הפשע המיוחס לו. אבל בלהטו לשלוח את הפושעים אל מאחורי סורג ובריח, שולח שופט זה גם חפים מפשע אל הכלא, ובתדירות גבוהה יותר מאשר חברו המקשה על התובעים.

בואו נחזור אל הדוגמה שפתחה את המאמר. אני, למשל, אעדיף להמשיך ולנסוע מאחורי המשאית, ולא לקחת סיכון של עקיפה כאשר שדה הראיה חסום. ואם אפשר היה לעקוף? טוב, אז טעיתי ולא עקפתי. קצת איחרתי. לא נורא. העיקר שלעולם לא אמצא את עצמי דוהר לתוך משאית הנוסעת מולי. הסיכוי שאעשה את הטעות הראשונה – לא לעקוף כאשר אפשר – הוא 1, אבל בתמורה הקטנתי את הסיכוי לעשות את הטעות האפשרית השניה – עקיפה בנתיב לא פנוי – ל-0.

אבל השופט לא יכול להרשות לעצמו מדיניות כזו. אי אפשר לשלוח את כל הנאשמים לכלא, למרות שזה מבטיח כי אף פושע לא יסתובב חופשי ברחובות, וגם אי אפשר לזכות את כל הנאשמים, למרות שכך מובטח כי לא תשלל חירותו של אף אדם חף מפשע. השופט חייב לאמץ כלל החלטה לפיו יקבע לגבי כל נאשם האם הוא אשם או חף מפשע.

בכל מצב של קבלת החלטות חוזרת הסיטואציה הזו – כל החלטה עשויה להיות מוטעית, ונסיון להקטין את הסיכוי לטעות מסוג אחד מגדיל את הסיכוי לטעות מהסוג השני, ולהיפך. יש שתי אפשרויות להתמודד עם הבעיה הזו. הדרך הראשונה היא לאסוף יותר אינפורמציה. כאשר הצגתי את בעיית המשאית בקורס "מבוא לסטטיסטיקה" אותו לימדתי, טענו הסטודנטים, ובצדק, כי אפשר לסטות מעט שמאלה, לראות מה מצב התנועה בנתיב הנגדי, ואז לקבל את ההחלטה אם לעקוף או לא. עדיין יש סיכויים לקבלת החלטה מוטעית, אולם סיכויים אלה קטנים יותר בזכות האינפורמציה הנוספת שהושגה. באופן דומה, אפשר לקחת את הפטריות לבדיקה, לבקש חוות דעת מרופא נוסף, ולזמן עוד אנשים לעדות. אבל כל זה מקטין את ממדי הבעיה העקרונית, ולא פותר אותה. האפשרויות לטעות עדיין קיימות, וכך גם הסיכויים. ומה עושים כאשר לא ניתן לאסוף עוד אינפורמציה או שאיסוף אינפורמציה נוספת פשוט יקר מדי (במונחי זמן או כסף או בכל אופן אחר)?

שני סטטיסטיקאים, גרז'י ניימן ואגון פירסון, הציעו גישה אחרת לבעיה. הבה נקבע עבור אחת הטעויות האפשריות סיכוי לטעות שניתן "לחיות איתו", נניח 5%. עכשיו נסתכל על כל כללי ההחלטה האפשריים שבהם הסיכוי לטעות הוא 5%. האם יש בינהם כלל החלטה עבורו הסיכוי לטעות את הטעות מהסוג השני הוא מינימלי? בודאי. האם ניתן לאפיין את הכלל הזה? ניימן ופירסון הוכיחו שכן. האפיון של כלל ההחלטה האופטימלי ידוע בשם המתחייב "הלמה של ניימן ופירסון".

גרז'י ניימן (מימין) ואגון פירסון. בין השנים 1928 ל-1933 פרסמו השניים סדרת מאמרים שעיצבה מחדש את הסטטיסטיקה המודרנית.

כדי להסביר את הלמה של ניימן ופירסון אגדיר מחדש את המושגים שבבסיסה.

שני המצבים האפשריים (הכביש פנוי או לא פנוי לעקיפה, הנאשם חף מפשע או אשם) נקראים "השערות". אחת ההשערות היא "ההשערה הבסיסית" או "השערת האפס", וההשערה השניה היא "ההשערה האלטרנטיבית". אציין כי בדרך כלל ההשערה הבסיסית היא המצב בו מקובל להאמין. כך למשל, מקובל כי כל נאשם העומד לדין הינו בחזקת חף מפשע עד שיוכח אחרת, ולכן בבית המשפט ההשערה הבסיסית אומרת כי הנאשם חף מפשע.  כיוון שכך, על המחליט למצוא כלל החלטה לפיו ידחה את ההשערה הבסיסית (ואז יקבל את ההשערה האלטרנטיבית) או שלא ידחה את ההשערה הבסיסית (ואז לא יקבל את ההשערה האלטרנטיבית), וכל זאת בהסתמך על אינפורמציה נתונה.

דחיה מוטעית של ההשערה הבסיסית מכונה לכן בפי הסטטיסטיקאים "טעות מהסוג הראשון", וההסתברות לדחיה מוטעית של ההשערה הבסיסית נקראת רמת המובהקות של כלל ההחלטה. קבלה מוטעית של ההשערה הבסיסית נקראת בפי הסטטיסטיקאים "טעות מהסוג השני". בדרך כלל מעניינת ההסתברות לא לטעות טעות זו, כלומר ההסתברות לא לטעות את הטעות מסוג השני. הסתברות זו לכן זכתה לשם מיוחד משלה: העצמה של כלל ההחלטה.

ובכן, הלמה של ניימן ופירסון מאפיינת את כלל ההחלטה האופטימלי – שהוא כלל ההחלטה בעל העצמה המקסימלית מבין כל כללי ההחלטה ברמת מובהקות נתונה.

ניימן ופירסון מציעים לחשב את ההסתברות P0 כי נצפה באינפורמציה שיש בידנו לו המצב האמיתי הוא מצב ההשערה הבסיסית, וכן את ההסתברות P1 לצפות באינפורמציה זו לו המצב האמיתי הוא מצב ההשערה האלטרנטיבית. כלל ההחלטה מורכב מהיחס של שתי הסתברויות אלה. אם היחס P1/P0 גדול מסף מסויים, נחליט כי המצב האמיתי הוא המצב המתואר כל ידי ההשערה האלטרנטיבית, כלומר נדחה את ההשערה הבסיסית. אם לא, אזי לא נדחה את ההשערה הבסיסית. את ערך הסף נקבע כך שלכלל ההחלטה שלנו תהיה רמת המובהקות (כלומר, הסתברות לדחיה מוטעית של ההשערה הבסיסית) הרצויה לנו. על פי הלמה של ניימן ופירסון, מובטח לנו כי כלל ההחלטה הינו בעל עצמה מקסימלית (כלומר ההסתברות לקבלה מוטעית של ההשערה הבסיסית היא מינימלית).

הלמה של ניימן ופירסון היא ככל הנראה המשפט השימושי ביותר בסטטיסטיקה. זה לא מפתיע, כיוון שתפקידה המרכזי של הסטטיטיקה הוא לאפשר קבלת החלטות בתנאי אי ודאות. ניימן ופירסון נתנו בידנו את הכלי לבניית כלל ההחלטה הטוב ביותר האפשרי.

פורסם לראשונה באתר "רשימות" בתאריך 6 באוגוסט 2005 22:25, שם התקבלה תגובה אחת

חיים פ  בתאריך 5/29/2006 11:48:16 PM

לא ברור

לא הדגמת את הישום האחרון (שופט)
הבא נניח שאני יכול לבצע עקיפה מוצלחת בהסתברות של 99%
או בהסתברות של 98%
מהם פתרונות שמציעה הלמה?

2 תגובות ל“בין שתי טעויות”

  • תגובה מאת עפר
    תאריך 21 בפברואר 2012 22:36

    גם אני לא הבנתי את המשפט הבא: "ניימן ופירסון מציעים לחשב את ההסתברות P0 כי נצפה באינפורמציה שיש בידנו לו המצב האמיתי הוא מצב ההשערה הבסיסית"
    האם תוכל להסבירו? תודה

    • תגובה מאת יוסי לוי
      תאריך 1 במרץ 2012 08:53

      אנסה להסביר. נניח שאנחנו בודקים את השערת האפס כי ממוצע האוכלוסיה הוא 3, כנגד האלטרנטיבה האומרת כי ממוצע האוכלוסיה הוא 6. יש לנו נתונים ממדגם מקרי. מה ההסתברות לקבל את המדגם המקרי הזה? ההסתברות הזו תלויה בפרמטר שהוא ממוצע האוכלוסיה. אם ממוצע האוכלוסיה הוא 3, חישוב ההסתברות ייתן תוצאה אחת, נסמן אותה ב-P0, ואם ממוצע האוכלוסיה הוא 36חישוב ההסתברות ייתן תוצאה אחרת, אותה נסמן ב-P1.

תגובה