חיפוש באתר

קישורים

עמודים

קטגוריות

ארכיב עבור 'המשפטים הגדולים של הסטטיסטיקה'

חוק המספרים הגדולים

בית קזינו מוכן להכפיל את כספו של כל מי שינחש נכונה את הצבע שיעלה בסיבוב הבא של גלגל הרולטה – שחור או אדום. חברות ביטוח משפות את לקוחותיהן על הנזקים שנגרמו להם. סטטיסטיקאי מודיע על תוצאת הבחירות מייד  לאחר סגירת הקלפיות, ורשויות הבריאות מאשרות תרופות חדשות לשימוש (ולפעמים גם מורות על הפסקת השימוש בתרופות מסוימות). קבוצת ספורט מחליטה לחתום על חוזה שמן עם שחקן כוכב. כל אלה הם שימושים של חוק המספרים הגדולים.

מבין המשפטים הגדולים של הסטטיסטיקה – חוק המספרים הגדולים הוא ככל הנראה הבסיסי ביותר. ניסוח מעט רשלני של החוק אומר כי אם אתה צופה בסדרה אינסופית של תצפיות מקריות שאינן תלויות זו בזו, אשר כולן מתארות את אותה התופעה, אזי ממוצע הסדרה ילך ויתקרב לערך קבוע. ערך זה הוא התוחלת של התופעה המקרית הנצפית.

למתמטיקאים יש ניסוחים מדויקים לטענה הזו, וכמובן שגם הוכחה. המתמטיקאי השוויצי יעקב ברנולי הוכיח את הגרסה הראשונה של החוק בסוף המאה ה-17, וגרסאות מורחבות וחזקות יותר שלו הוכחו מאוחר יותר.

bernoulli_Jacob_stamp

יעקב ברנולי הונצח על בול שוויצי. ברקע הניסוח המתמטי של חוק המספרים הגדולים, אותו הוכיח ברנולי לפני יותר מ-300 שנה, ותיאור גרפי של החוק.

מדוע החוק הזה חשוב כל כך? אנסה להסביר זאת באמצעות דוגמא פשוטה יחסית – גלגל הרולטה.

 גלגל הרולטה בקזינו של מונטה קרלו מחולק ל-37 גזרות שוות, ועל כל גזרה רשום אחד מבין המספרים 0, 1,2,… ועד 36. 18 מבין המספרים מסומנים בצבע אדום, 18 בשחור, ואילו המספר אפס מסומן בצבע ירוק. ההימור הפשוט ביותר מאפשר לך לבחור את אחד הצבעים, אדום או שחור. אם הימרת על סכום של יורו אחד כי בסיבוב הבא של הרולטה יעלה מספר המסומן באדום, ואכן כך קרה, היורו שלך יוחזר לך יחד עם יורו נוסף בו זכית. אם לא עלה בגורל מספר “אדום”… אתה יכול לנסות שוב את מזלך.

אם הסיכויים של כל המספרים לעלות בגורל שווים, הרי שהסיכוי כי יעלה בגורל מספר מסויים (7, למשל) הוא 1/37. הסיכוי כי יעלה מספר אדום בגורל הוא לכן 18/37, והסיכוי כי יעלה מספר שאינו אדום בגורל הוא 19/37. גם בהימור על שחור הסיכויים לזכות הם 18/37 ולהפסיד – 19/37. כלומר, בכל הימור על אדום/שחור הסיכוי לזכיה הוא 18/37 והסיכוי להפסד הוא 19/37.

rouletteאבל כל זה רק תיאוריה – תיאוריה המבוססת על מודל הסתברותי. האם התיאוריה עומדת במבחן המציאות? דרך אפשרית לבחון את התיאוריה היא לנסות אותה במציאות. הבה נבצע המון (אבל ממש המון) סיבובים של גלגל הרולטה, ונבדוק מהי פרופורציית הפעמים בהן עלה בגורל מספר “אדום” מתוך כלל הסיבובים. נשמע הגיוני.

אבל ההגיון של מתמטיקאים מוזר למדי. כדי שהניסוי המוצע יניח את דעתם, עליו להסתמך על משפט מתמטי כלשהו. חוק המספרים הגדולים מקשר בין המודל ההסתברותי – ובין הניסוי הסטטיסטי, ולכן מהווה את הבסיס המתמטי לניסוי הזה. אם המודל המתמטי אכן מתאר נכונה את התנהגות גלגל הרולטה, אז חוק המספרים הגדולים אומר כי פרופורציית הפעמים בהן יעלה בגורל מספר “אדום” תהיה בקירוב 18/37.

ומה יוצא לקזינו מכל זה? כסף, הרבה כסף. ב-18/37 (או 48.6%) מההימורים יפסיד הקזינו יורו, וב-51.4% מההימורים ירוויח הקזינו יורו. הרווח הממוצע להימור כזה הוא לכן 0.027 יורו להימור. אבל אם סך כל ההימורים האלה בערב אחד הוא 100,000 יורו (סתם זרקתי מספר) הרווח מהימור פשוט כזה הוא כ-2700 יורו. לא רע. כמובן שיש הימורים בהם הסיכויים של המהמר להרוויח נמוכים יותר (וסיכויי הקזינו לזכות גבוהים יותר), ואז גם הרווח של הקזינו גדל בהתאם. תראו את הרווחים של חברות הביטוח.

כשמשתמשים בחוק המספרים הגדולים – חשוב מאוד להיות מודעים למגבלות שלו. הבה ונראה מה עלול לקרות אם לא עושים זאת.

קודם כל, רצוי מאוד כי התנאים של המשפט יתקיימו. אם שחקן כדורסל קולע בממוצע 30 נקודות למשחק במשך 5 עונות בהן שיחק כ-450 משחקים, זה באמת הישג ראוי לציון. אבל לפני שתחתימו את הכוכב על חוזה שמן, עצרו וחשבו: האם באמת אנו צופים בסדרה של תצפיות בלתי תלויות? (הדעות חלוקות). האם הסדרה תימשך עד אינסוף? סביר להניח שלא.

גם אם התנאים של המשפט מתקיימים, איזה מודל הסתברותי משקפות התצפיות? אם המודל שלכם הוא לא המודל הנכון, אתם עלולים למצוא את עצמכם מכריזים על ניצחון בבחירות של מועמד שדווקא הפסיד, כמו שלמשל קרה לעיתון ה-Literary Digest ב-1936.

גם אם תנאי המשפט מתקיימים, והמודל הוא המודל נכון, יש עוד בעיה קטנה. המשפט מדבר על התנהגות סדרת התצפיות באינסוף. באופן מעשי, אפשר להסתפק במספר סופי של תצפיות, אם המספר הזה מספיק גדול. זהו “גודל המדגם” המפורסם. מהו מדגם גדול מספיק? תנו לי מספר, ואתן לכם דוגמא בה המספר הזה אינו מהווה גודל מדגם מספיק גדול. חוק המספרים הגדולים אינו אומר דבר על “קצב ההתכנסות” של סדרת הממוצעים. לכן כדי לקבוע את גודל המדגם יש להשתמש בכלים אחרים, ועל כך אכתוב ברשימה אחרת.

פורסם לראשונה באתר “רשימות” בתאריך 19 ביולי 2005 23:07 שם התקבלו 8 תגובות

גילי נחום  בתאריך 7/20/2005 12:39:52 AM

מעניין מאוד

עוד לפני כמה שנים חשבתי להרוויח 200 דולר ללילה בעזרת הטכניקה הבאה:
(נניח שההימור הוא הוגן p=0.5)
להמר 200 דולר, אם הרווחתי אז לסגור את הבסטה וללכת לבית שמח ומאושר, במידה והפדסתי אז אהמר שוב בסכום הנדרש לזכות ב- 400 דולר (בכדי לכסות על ה- 200 הפסד ולהרוויח 200) אם הפסדתי שוב אז להמר על סכום שיכסה את ה- 600 הפסד ויביא לי רווח נטו 200 וכן הלאה…
בהנחה שאני לא יכול להפסיד לנצח אני ארוויח מתישהוא את ה- 200 דולר הללו ואפרוש מהקזינו עם 200 דולר רווח באותו הלילה (לא רע).
השאלה היא מה הסיכוי שיגמר לי הכסף לפני שאצליח להרוויח את ה200 דולר (נאמר שיש לי מגבלה של 20000 דולר).

lior  [אתר]  בתאריך 7/20/2005 6:24:15 AM

גילי

בו נבדוק.
ב 20,000 הדולר שלך אתה יכול להשתמש (20,000/100) פעם להימור של 200 דולר. בגלל שאתה מתכוון להכפיל את הסכום ב 2 בכל שלב, אתה יכול להמר רק
log2(20000/200) פעמים. אם נעלה קצת את הסכום הכולל שאתה מוכן להשקיע זה יוצא 7.
הסיכוי שתזכה בפעם הראשונה הוא 0.5^1. הסיכוי שתזכה בפעם השניה הוא 0.5^2, וכן הלאה. מתקבל כאן טור הנדסי מ 1 עד 7 שאת סכומו ניתן לחשב על ידי:
0.5*)0.5^7-1(/)0.5-1(
כלומר, הסיכוי שתזכה ב 200 דולר הוא 0.99218.
אם השקעת ב 7 סיבובים סכום של 25,600 דולר, תוחלת ההפסד שלך שווה ל:
)1-0.99218(*25,600(=~200
תוחלת הרווח גם היא 200 דולר. לכן, כצפוי, לא הרווחת ולא הפסדת.

lior  [אתר]  בתאריך 7/20/2005 6:25:49 AM

טעות קטנה

ב 20,000 דולר אפשר להמר 20,000/200 שזה 100 פעמים.

yoav  בתאריך 7/20/2005 1:28:40 PM

שיטה מוצלחת, אבל:

מהסיבה הזו, בתי הימורים מגבילים את הסכום המקסימלי שמותר להמר, וכך חוסמים את יעילות השיטה.

יוסי לוי  [אתר]  בתאריך 7/20/2005 10:32:27 PM

בעניין שיטת ההכפלה

אני ממליץ לכל מי ששוקל להשתמש בשיטה זו בביקורו הקרוב בקזינו, לקרוא את מה שנכתב במדור השאלות הנפוצות של פורום המתמטיקה של תפוז על הנושא הזה:
http://www.tapuz.co.il/tapuzfo….mFAQAnswer.asp?id=457&QID=2033

גילי נחום  בתאריך 7/26/2005 5:03:12 AM

אנסה לסכם:

לינק מעולה, תודה יוסי.
1. הסכומים שצריך לשריין על מנת להיות בטוחים באחוזים גבוהים שלא יגמר לנו הכסף הם אדירים.
2. גם אז תמיד ישנו הסיכוי (גם אמנם קטן) שנפסיד את הסכומים ששריינו (שלהזכירכם הם סכומים אדירים) מכיוון שנגמר לנו הכסף. האם אנו מוכנים לסיכון זה?
3. בפועל לא עומד לרשותנו סכום כל כך גדול לשריין לצורך הפרוייקט ולכן הוא לא בר ביצוע, ובמידה וכן עומד לרשותנו הסכום הנ”ל אז אנו עשירים דה פקטו ולמה להתעסק בשטויות במקום לקחת חופשה בקנקון?!
הדגמה קטנה!
נצהיר שמטרתנו היא לסיים את הערב עם 200 רווח.
סדר ההימורים וסכומם:
1. 200
2. 400 (מכסה הפסדים 200 ורווח 200)
3. 800
4. 1,600
5. 3,200 (מכסה הפסדים 3000 ורווח 200)
6. 6,400
7. 12,800
8. 25,600

נניח ומגבלת התקציב שלנו היא 12600, לכן נאלץ לעצור לאחר ההימור ה- 6 (כי 6400+3200+1600+800+400+200= 12,600)
ההסתברות שנגיע למצב זה היא 0.5 בחזקת 6 (בערך אחוז וחצי) ולכן בממוצע נפסיד כל ערב
196.875.
ההסתברות שנרוויח 200 בסוף הערך היא 1 מינוס ההסתברות של פשיטת רגל ובממוצע נרוויח כל ערב
בדיוק 196.875.
ולכן בסך הכל לאורך זמן לא הפסדנו ולא הרווחנו (כי ההימור הוא הוגן)
אם ההימור לא יהיה הוגן אז באותה צורה בדיוק לאורך זמן נצפה להפסדים.
כלומר תוחלת הרווח תשאר שלילית.

יניב  בתאריך 1/28/2008 1:45:19 AM

מה עם האפס

נראה לי ששכחתם פרט קטן, בנוסף לשחור ואדום יכול לצאת “0” שבו הבית זוכה, כלומר לא אדום ולא שחור….

יוסי לוי  [אתר]  בתאריך 1/28/2008 12:59:10 PM

ליניב

זה לא משנה את העקרון…

בין שתי טעויות

אתה נוהג ברכבך בכביש צר, בו יש נתיב אחד לכל כיוון. לפניכם נוסעת משאית באיטיות מרגיזה. אתה רוצה לעקוף את המשאית, אך היא חוסמת את רוב שדה הראיה שלך. נוסף לכך, משאיות נעות מדי פעם גם בכיוון הנגדי. לעקוף או לא לעקוף?

אם לא תעקוף תאחר למחוז חפצך. זה מרגיז, כי מדי פעם אתה רואה כי היית יכול להספיק לעקוף בביטחה. לעומת זאת, אם תצא לעקיפה אתה עלול למצוא את עצמך בהתנגשות חזיתית עם משאית שנוסעת בכיוון הנגדי. מה עושים? איך מחליטים?

יצאתם לטיול ביער וגיליתם פטריות. אתם מאוד אוהבים פטריות, אבל גרועים בזיהויין. האם תאכלו את הפטריות? אולי אלה הן פטריות רעילות? אם הפטריות ראויות למאכל ותחליטו לוותר על אכילתן, הפסדתם ארוחה טעימה. לעומת זאת, אם תאכלו פטריות רעילות, מצבכם עדין.

אבל, מה תעשו אם הגעתם לאי בודד לאחר שספינתכם נטרפה, ותגלו כי המאכל האפשרי היחיד באי הוא פטריות?

רופא בודק חולה שמצבו חמור. יש שני גורמים אפשריים למצבו של החולה, ולכל אחד מהגורמים קיים טיפול יעיל. אולם, מתן הטיפול לגורם אחד יהיה קטלני אם המחלה נגרמה עקב הגורם השני. אי אפשר לתת את שני את שני הטיפולים ביחד. כאן, לשתי הטעויות האפשריות יש תוצאה מרה אחת.

נאשם עומד למשפט. ייתכן כי הנאשם חף מפשע, ובכל זאת העדויות ישכנעו את השופט כי הוא אשם. אדם חף מפשע יישלח במקרה זה לכלא. ייתכן גם כי הנאשם אמנם ביצע את הפשע המיוחס לו, אך הראיות שיוצגו במשפט לא יספיקו כדי להרשיעו. במקרה זה, הפושע “יחזור לרחובות”. זוכרים את הסקר הזה?

איזו טעות עדיפה?

איך יכריע השופט את הדין כך שיקטין את הסיכוי להרשיע חף מפשע וגם את הסיכוי לשלח פושעים מסוכנים לחפשי?

נניח שהשופט אדם בעל עקרונות הרואה בשליחת חף מפשע לכלא טעות בלתי נסבלת. שופט כזה ידרוש ראיות רבות יותר ובעלות משקל רב יותר לצורך הרשעה, ולכל ספק שיינטע בליבו לגבי אשמתו של הנאשם הוא ייתן משקל נכבד. השופט כמובן ידרוש ראיות כאלה מכל תובע המופיע בפניו, שכן הוא שופט את כולם ללא משוא פנים, וכל נאשם הריהו בחזרת חף מפשע עד שלא תוכח אשמתו. שופט זה עדיין עלול לטעות לעיתים ולהרשיע נאשם חף מפשע, אך הסיכוי לכך הוא קטן.

אבל אין ארוחות חינם. המחיר שמשלם שופט זה הוא בסיכויים גבוהים יותר לזיכוי נאשמים שאינם חפים מפשע, כי כאמור, גם מתובעיהם של נאשמים אלה דורש השופט ראיות רבות ומוצקות.

חברו של השופט, היושב בדין באולם הסמוך, סבור לעומת זאת כי יש להמנע ככל האפשר מזיכוי מוטעה של אשמים. הוא מסתפק בראיות קלות יותר כדי להשתכנע כי הנאשם העומד מולו אכן אשם. רק לעתים רחוקות יזכה שופט זה בטעות אדם אשר אכן ביצע את הפשע המיוחס לו. אבל בלהטו לשלוח את הפושעים אל מאחורי סורג ובריח, שולח שופט זה גם חפים מפשע אל הכלא, ובתדירות גבוהה יותר מאשר חברו המקשה על התובעים.

בואו נחזור אל הדוגמה שפתחה את המאמר. אני, למשל, אעדיף להמשיך ולנסוע מאחורי המשאית, ולא לקחת סיכון של עקיפה כאשר שדה הראיה חסום. ואם אפשר היה לעקוף? טוב, אז טעיתי ולא עקפתי. קצת איחרתי. לא נורא. העיקר שלעולם לא אמצא את עצמי דוהר לתוך משאית הנוסעת מולי. הסיכוי שאעשה את הטעות הראשונה – לא לעקוף כאשר אפשר – הוא 1, אבל בתמורה הקטנתי את הסיכוי לעשות את הטעות האפשרית השניה – עקיפה בנתיב לא פנוי – ל-0.

אבל השופט לא יכול להרשות לעצמו מדיניות כזו. אי אפשר לשלוח את כל הנאשמים לכלא, למרות שזה מבטיח כי אף פושע לא יסתובב חופשי ברחובות, וגם אי אפשר לזכות את כל הנאשמים, למרות שכך מובטח כי לא תשלל חירותו של אף אדם חף מפשע. השופט חייב לאמץ כלל החלטה לפיו יקבע לגבי כל נאשם האם הוא אשם או חף מפשע.

בכל מצב של קבלת החלטות חוזרת הסיטואציה הזו – כל החלטה עשויה להיות מוטעית, ונסיון להקטין את הסיכוי לטעות מסוג אחד מגדיל את הסיכוי לטעות מהסוג השני, ולהיפך. יש שתי אפשרויות להתמודד עם הבעיה הזו. הדרך הראשונה היא לאסוף יותר אינפורמציה. כאשר הצגתי את בעיית המשאית בקורס “מבוא לסטטיסטיקה” אותו לימדתי, טענו הסטודנטים, ובצדק, כי אפשר לסטות מעט שמאלה, לראות מה מצב התנועה בנתיב הנגדי, ואז לקבל את ההחלטה אם לעקוף או לא. עדיין יש סיכויים לקבלת החלטה מוטעית, אולם סיכויים אלה קטנים יותר בזכות האינפורמציה הנוספת שהושגה. באופן דומה, אפשר לקחת את הפטריות לבדיקה, לבקש חוות דעת מרופא נוסף, ולזמן עוד אנשים לעדות. אבל כל זה מקטין את ממדי הבעיה העקרונית, ולא פותר אותה. האפשרויות לטעות עדיין קיימות, וכך גם הסיכויים. ומה עושים כאשר לא ניתן לאסוף עוד אינפורמציה או שאיסוף אינפורמציה נוספת פשוט יקר מדי (במונחי זמן או כסף או בכל אופן אחר)?

שני סטטיסטיקאים, גרז’י ניימן ואגון פירסון, הציעו גישה אחרת לבעיה. הבה נקבע עבור אחת הטעויות האפשריות סיכוי לטעות שניתן “לחיות איתו”, נניח 5%. עכשיו נסתכל על כל כללי ההחלטה האפשריים שבהם הסיכוי לטעות הוא 5%. האם יש בינהם כלל החלטה עבורו הסיכוי לטעות את הטעות מהסוג השני הוא מינימלי? בודאי. האם ניתן לאפיין את הכלל הזה? ניימן ופירסון הוכיחו שכן. האפיון של כלל ההחלטה האופטימלי ידוע בשם המתחייב “הלמה של ניימן ופירסון”.

גרז’י ניימן (מימין) ואגון פירסון. בין השנים 1928 ל-1933 פרסמו השניים סדרת מאמרים שעיצבה מחדש את הסטטיסטיקה המודרנית.

כדי להסביר את הלמה של ניימן ופירסון אגדיר מחדש את המושגים שבבסיסה.

שני המצבים האפשריים (הכביש פנוי או לא פנוי לעקיפה, הנאשם חף מפשע או אשם) נקראים “השערות“. אחת ההשערות היא “ההשערה הבסיסית” או “השערת האפס“, וההשערה השניה היא “ההשערה האלטרנטיבית“. אציין כי בדרך כלל ההשערה הבסיסית היא המצב בו מקובל להאמין. כך למשל, מקובל כי כל נאשם העומד לדין הינו בחזקת חף מפשע עד שיוכח אחרת, ולכן בבית המשפט ההשערה הבסיסית אומרת כי הנאשם חף מפשע.  כיוון שכך, על המחליט למצוא כלל החלטה לפיו ידחה את ההשערה הבסיסית (ואז יקבל את ההשערה האלטרנטיבית) או שלא ידחה את ההשערה הבסיסית (ואז לא יקבל את ההשערה האלטרנטיבית), וכל זאת בהסתמך על אינפורמציה נתונה.

דחיה מוטעית של ההשערה הבסיסית מכונה לכן בפי הסטטיסטיקאים “טעות מהסוג הראשון”, וההסתברות לדחיה מוטעית של ההשערה הבסיסית נקראת רמת המובהקות של כלל ההחלטה. קבלה מוטעית 1 של ההשערה הבסיסית נקראת בפי הסטטיסטיקאים “טעות מהסוג השני”. בדרך כלל מעניינת ההסתברות לא לטעות טעות זו, כלומר ההסתברות לא לטעות את הטעות מסוג השני. הסתברות זו לכן זכתה לשם מיוחד משלה: העצמה של כלל ההחלטה.

ובכן, הלמה של ניימן ופירסון מאפיינת את כלל ההחלטה האופטימלי – שהוא כלל ההחלטה בעל העצמה המקסימלית מבין כל כללי ההחלטה ברמת מובהקות נתונה.

ניימן ופירסון מציעים לחשב את ההסתברות P0 כי נצפה באינפורמציה שיש בידנו לו המצב האמיתי הוא מצב ההשערה הבסיסית, וכן את ההסתברות P1 לצפות באינפורמציה זו לו המצב האמיתי הוא מצב ההשערה האלטרנטיבית. כלל ההחלטה מורכב מהיחס של שתי הסתברויות אלה. אם היחס P1/P0 גדול מסף מסויים, נחליט כי המצב האמיתי הוא המצב המתואר כל ידי ההשערה האלטרנטיבית, כלומר נדחה את ההשערה הבסיסית. אם לא, אזי לא נדחה את ההשערה הבסיסית. את ערך הסף נקבע כך שלכלל ההחלטה שלנו תהיה רמת המובהקות (כלומר, הסתברות לדחיה מוטעית של ההשערה הבסיסית) הרצויה לנו. על פי הלמה של ניימן ופירסון, מובטח לנו כי כלל ההחלטה הינו בעל עצמה מקסימלית (כלומר ההסתברות לקבלה מוטעית של ההשערה הבסיסית היא מינימלית).

הלמה של ניימן ופירסון היא ככל הנראה המשפט השימושי ביותר בסטטיסטיקה. זה לא מפתיע, כיוון שתפקידה המרכזי של הסטטיטיקה הוא לאפשר קבלת החלטות בתנאי אי ודאות. ניימן ופירסון נתנו בידנו את הכלי לבניית כלל ההחלטה הטוב ביותר האפשרי.

פורסם לראשונה באתר “רשימות” בתאריך 6 באוגוסט 2005 22:25, שם התקבלה תגובה אחת

חיים פ  בתאריך 5/29/2006 11:48:16 PM

לא ברור

לא הדגמת את הישום האחרון (שופט)
הבא נניח שאני יכול לבצע עקיפה מוצלחת בהסתברות של 99%
או בהסתברות של 98%
מהם פתרונות שמציעה הלמה?