ארכיב עבור 'מה אומרת הסטטיסטיקה'

בין שתי טעויות

אתה נוהג ברכבך בכביש צר, בו יש נתיב אחד לכל כיוון. לפניכם נוסעת משאית באיטיות מרגיזה. אתה רוצה לעקוף את המשאית, אך היא חוסמת את רוב שדה הראיה שלך. נוסף לכך, משאיות נעות מדי פעם גם בכיוון הנגדי. לעקוף או לא לעקוף?

אם לא תעקוף תאחר למחוז חפצך. זה מרגיז, כי מדי פעם אתה רואה כי היית יכול להספיק לעקוף בביטחה. לעומת זאת, אם תצא לעקיפה אתה עלול למצוא את עצמך בהתנגשות חזיתית עם משאית שנוסעת בכיוון הנגדי. מה עושים? איך מחליטים?

יצאתם לטיול ביער וגיליתם פטריות. אתם מאוד אוהבים פטריות, אבל גרועים בזיהויין. האם תאכלו את הפטריות? אולי אלה הן פטריות רעילות? אם הפטריות ראויות למאכל ותחליטו לוותר על אכילתן, הפסדתם ארוחה טעימה. לעומת זאת, אם תאכלו פטריות רעילות, מצבכם עדין.

אבל, מה תעשו אם הגעתם לאי בודד לאחר שספינתכם נטרפה, ותגלו כי המאכל האפשרי היחיד באי הוא פטריות?

רופא בודק חולה שמצבו חמור. יש שני גורמים אפשריים למצבו של החולה, ולכל אחד מהגורמים קיים טיפול יעיל. אולם, מתן הטיפול לגורם אחד יהיה קטלני אם המחלה נגרמה עקב הגורם השני. אי אפשר לתת את שני את שני הטיפולים ביחד. כאן, לשתי הטעויות האפשריות יש תוצאה מרה אחת.

נאשם עומד למשפט. ייתכן כי הנאשם חף מפשע, ובכל זאת העדויות ישכנעו את השופט כי הוא אשם. אדם חף מפשע יישלח במקרה זה לכלא. ייתכן גם כי הנאשם אמנם ביצע את הפשע המיוחס לו, אך הראיות שיוצגו במשפט לא יספיקו כדי להרשיעו. במקרה זה, הפושע "יחזור לרחובות". זוכרים את הסקר הזה?

איזו טעות עדיפה?

איך יכריע השופט את הדין כך שיקטין את הסיכוי להרשיע חף מפשע וגם את הסיכוי לשלח פושעים מסוכנים לחפשי?

נניח שהשופט אדם בעל עקרונות הרואה בשליחת חף מפשע לכלא טעות בלתי נסבלת. שופט כזה ידרוש ראיות רבות יותר ובעלות משקל רב יותר לצורך הרשעה, ולכל ספק שיינטע בליבו לגבי אשמתו של הנאשם הוא ייתן משקל נכבד. השופט כמובן ידרוש ראיות כאלה מכל תובע המופיע בפניו, שכן הוא שופט את כולם ללא משוא פנים, וכל נאשם הריהו בחזרת חף מפשע עד שלא תוכח אשמתו. שופט זה עדיין עלול לטעות לעיתים ולהרשיע נאשם חף מפשע, אך הסיכוי לכך הוא קטן.

אבל אין ארוחות חינם. המחיר שמשלם שופט זה הוא בסיכויים גבוהים יותר לזיכוי נאשמים שאינם חפים מפשע, כי כאמור, גם מתובעיהם של נאשמים אלה דורש השופט ראיות רבות ומוצקות.

חברו של השופט, היושב בדין באולם הסמוך, סבור לעומת זאת כי יש להמנע ככל האפשר מזיכוי מוטעה של אשמים. הוא מסתפק בראיות קלות יותר כדי להשתכנע כי הנאשם העומד מולו אכן אשם. רק לעתים רחוקות יזכה שופט זה בטעות אדם אשר אכן ביצע את הפשע המיוחס לו. אבל בלהטו לשלוח את הפושעים אל מאחורי סורג ובריח, שולח שופט זה גם חפים מפשע אל הכלא, ובתדירות גבוהה יותר מאשר חברו המקשה על התובעים.

בואו נחזור אל הדוגמה שפתחה את המאמר. אני, למשל, אעדיף להמשיך ולנסוע מאחורי המשאית, ולא לקחת סיכון של עקיפה כאשר שדה הראיה חסום. ואם אפשר היה לעקוף? טוב, אז טעיתי ולא עקפתי. קצת איחרתי. לא נורא. העיקר שלעולם לא אמצא את עצמי דוהר לתוך משאית הנוסעת מולי. הסיכוי שאעשה את הטעות הראשונה – לא לעקוף כאשר אפשר – הוא 1, אבל בתמורה הקטנתי את הסיכוי לעשות את הטעות האפשרית השניה – עקיפה בנתיב לא פנוי – ל-0.

אבל השופט לא יכול להרשות לעצמו מדיניות כזו. אי אפשר לשלוח את כל הנאשמים לכלא, למרות שזה מבטיח כי אף פושע לא יסתובב חופשי ברחובות, וגם אי אפשר לזכות את כל הנאשמים, למרות שכך מובטח כי לא תשלל חירותו של אף אדם חף מפשע. השופט חייב לאמץ כלל החלטה לפיו יקבע לגבי כל נאשם האם הוא אשם או חף מפשע.

בכל מצב של קבלת החלטות חוזרת הסיטואציה הזו – כל החלטה עשויה להיות מוטעית, ונסיון להקטין את הסיכוי לטעות מסוג אחד מגדיל את הסיכוי לטעות מהסוג השני, ולהיפך. יש שתי אפשרויות להתמודד עם הבעיה הזו. הדרך הראשונה היא לאסוף יותר אינפורמציה. כאשר הצגתי את בעיית המשאית בקורס "מבוא לסטטיסטיקה" אותו לימדתי, טענו הסטודנטים, ובצדק, כי אפשר לסטות מעט שמאלה, לראות מה מצב התנועה בנתיב הנגדי, ואז לקבל את ההחלטה אם לעקוף או לא. עדיין יש סיכויים לקבלת החלטה מוטעית, אולם סיכויים אלה קטנים יותר בזכות האינפורמציה הנוספת שהושגה. באופן דומה, אפשר לקחת את הפטריות לבדיקה, לבקש חוות דעת מרופא נוסף, ולזמן עוד אנשים לעדות. אבל כל זה מקטין את ממדי הבעיה העקרונית, ולא פותר אותה. האפשרויות לטעות עדיין קיימות, וכך גם הסיכויים. ומה עושים כאשר לא ניתן לאסוף עוד אינפורמציה או שאיסוף אינפורמציה נוספת פשוט יקר מדי (במונחי זמן או כסף או בכל אופן אחר)?

שני סטטיסטיקאים, גרז'י ניימן ואגון פירסון, הציעו גישה אחרת לבעיה. הבה נקבע עבור אחת הטעויות האפשריות סיכוי לטעות שניתן "לחיות איתו", נניח 5%. עכשיו נסתכל על כל כללי ההחלטה האפשריים שבהם הסיכוי לטעות הוא 5%. האם יש בינהם כלל החלטה עבורו הסיכוי לטעות את הטעות מהסוג השני הוא מינימלי? בודאי. האם ניתן לאפיין את הכלל הזה? ניימן ופירסון הוכיחו שכן. האפיון של כלל ההחלטה האופטימלי ידוע בשם המתחייב "הלמה של ניימן ופירסון".

גרז'י ניימן (מימין) ואגון פירסון. בין השנים 1928 ל-1933 פרסמו השניים סדרת מאמרים שעיצבה מחדש את הסטטיסטיקה המודרנית.

כדי להסביר את הלמה של ניימן ופירסון אגדיר מחדש את המושגים שבבסיסה.

שני המצבים האפשריים (הכביש פנוי או לא פנוי לעקיפה, הנאשם חף מפשע או אשם) נקראים "השערות". אחת ההשערות היא "ההשערה הבסיסית" או "השערת האפס", וההשערה השניה היא "ההשערה האלטרנטיבית". אציין כי בדרך כלל ההשערה הבסיסית היא המצב בו מקובל להאמין. כך למשל, מקובל כי כל נאשם העומד לדין הינו בחזקת חף מפשע עד שיוכח אחרת, ולכן בבית המשפט ההשערה הבסיסית אומרת כי הנאשם חף מפשע.  כיוון שכך, על המחליט למצוא כלל החלטה לפיו ידחה את ההשערה הבסיסית (ואז יקבל את ההשערה האלטרנטיבית) או שלא ידחה את ההשערה הבסיסית (ואז לא יקבל את ההשערה האלטרנטיבית), וכל זאת בהסתמך על אינפורמציה נתונה.

דחיה מוטעית של ההשערה הבסיסית מכונה לכן בפי הסטטיסטיקאים "טעות מהסוג הראשון", וההסתברות לדחיה מוטעית של ההשערה הבסיסית נקראת רמת המובהקות של כלל ההחלטה. קבלה מוטעית 1 של ההשערה הבסיסית נקראת בפי הסטטיסטיקאים "טעות מהסוג השני". בדרך כלל מעניינת ההסתברות לא לטעות טעות זו, כלומר ההסתברות לא לטעות את הטעות מסוג השני. הסתברות זו לכן זכתה לשם מיוחד משלה: העצמה של כלל ההחלטה.

ובכן, הלמה של ניימן ופירסון מאפיינת את כלל ההחלטה האופטימלי – שהוא כלל ההחלטה בעל העצמה המקסימלית מבין כל כללי ההחלטה ברמת מובהקות נתונה.

ניימן ופירסון מציעים לחשב את ההסתברות P0 כי נצפה באינפורמציה שיש בידנו לו המצב האמיתי הוא מצב ההשערה הבסיסית, וכן את ההסתברות P1 לצפות באינפורמציה זו לו המצב האמיתי הוא מצב ההשערה האלטרנטיבית. כלל ההחלטה מורכב מהיחס של שתי הסתברויות אלה. אם היחס P1/P0 גדול מסף מסויים, נחליט כי המצב האמיתי הוא המצב המתואר כל ידי ההשערה האלטרנטיבית, כלומר נדחה את ההשערה הבסיסית. אם לא, אזי לא נדחה את ההשערה הבסיסית. את ערך הסף נקבע כך שלכלל ההחלטה שלנו תהיה רמת המובהקות (כלומר, הסתברות לדחיה מוטעית של ההשערה הבסיסית) הרצויה לנו. על פי הלמה של ניימן ופירסון, מובטח לנו כי כלל ההחלטה הינו בעל עצמה מקסימלית (כלומר ההסתברות לקבלה מוטעית של ההשערה הבסיסית היא מינימלית).

הלמה של ניימן ופירסון היא ככל הנראה המשפט השימושי ביותר בסטטיסטיקה. זה לא מפתיע, כיוון שתפקידה המרכזי של הסטטיטיקה הוא לאפשר קבלת החלטות בתנאי אי ודאות. ניימן ופירסון נתנו בידנו את הכלי לבניית כלל ההחלטה הטוב ביותר האפשרי.

פורסם לראשונה באתר "רשימות" בתאריך 6 באוגוסט 2005 22:25, שם התקבלה תגובה אחת

Technorati Tags: קבלת החלטות,סטטיסטיקה

חיים פ  בתאריך 5/29/2006 11:48:16 PM

לא ברור

לא הדגמת את הישום האחרון (שופט)
הבא נניח שאני יכול לבצע עקיפה מוצלחת בהסתברות של 99%
או בהסתברות של 98%
מהם פתרונות שמציעה הלמה?

המספר 53 הופיע סוף סוף בהגרלת הלוטו של ונציה

אחרי שנתיים של מפחי נפש מרובים לכל המהמרים ששמו את כספם על המספר 53 בהגרלת הלוטו של ונציה, איטליה, הואיל סוף סוף המספר ה"מקולל" לעלות בגורל. במשך השנתיים האלה אירעו כמה טרגדיות, לאחר שאנשים "השקיעו" הון בהימור על המספר החמקמק, לשוא.

בהגרלה, שנערכת פעמיים בשבוע, מועלים בגורל 5 מספרים מתוך 90. לכן, ההסתברות כי המספר 53 לא יופיע בהגרלה בודדת היא 85/90 או 94.4%. ההסתברות כי המספר 53 לא יופיע במשך שנתיים, בהן נערכות כ-200 הגרלות הוא נמוך בהרבה: 85/90 בחזקת 200 שווה ל-0.00001 – אלפית האחוז בלבד. אכן, המהמרים חזו במאורע נדיר.

ככל שהלכה והתארכה התקופה בה לא עלה המספר 53 בגורל הלכה וגדלה גם האמונה כי המועד בו יעלה 53 בגורל הולך וקרב – אנו יכולים לדעת זאת מתוך התבוננות בסכומי ההימור: דה-מרקר מדווח כי במשך השנתיים האחרונות הימרו האיטלקים על המספר 53 בכ-3.5 מיליארד יורו, אולם רק בחודש ינואר האחרון הימרו על המספר הזה ב-671.9 מיליון יורו, כלומר סך ההימור בחודש זה היה שווה לרבע מסך כל ההימורים על המספר ב-23 החודשים הקודמים בהם המספר 53 לא הופיע.

לרוע מזלם של האיטלקים – כדורי ההגרלה אינם ניחנים בזכרון. כם אם לא הופיע המספר 53 ב-200 הגרלות רצופות, הסיכוי כי לא יופיע בהגרלה הבאה הוא 85/90, בדיוק כמו בכל הגרלה. לכן, הגדלת ההימור על המספר שלא הופיע זמן כה רב הוא מעשה בלתי רציונלי בעליל. מה הייתה עלות הטעות? לצערי לא הצלחתי למצוא נתונים לגבי סכומי ההימור על מספרים אחרים, וכך לא נדע עד כמה ההימור על 53 היה מוגזם.

פורסם לראשונה באתר "רשימות" בתאריך 13 בפברואר 2005 שם התקבלו 7 תגובות

הסטוריון מצעד המחץ  [אתר]  בתאריך 2/13/2005 1:30:37 PM

כבר שלושה שבועות אני מהמר בטוטו על נצחון לבית"ר. והם מפסידים.
מה דעתך, אולי בשבוע הבא נכתוב להם הפסד, או שאין דרך לעקוף את חוקי מרפי?

יאן בתאריך 2/13/2005 1:27:46 PM
בכל שבוע חוזים במאורע נדיר
>>> ההסתברות כי המספר 53 לא יופיע במשך שנתיים, בהן נערכות כ-200 הגרלות הוא נמוך בהרבה: 85/90 בחזקת 200 שווה ל-0.00001 – אלפית האחוז בלבד. אכן, המהמרים חזו במאורע נדיר
ע"פ גישה זו, בכל שבוע חוזים פעמיים במאורע נדיר. אם יצאו בהגרלה מסוימת, למשל, המספרים 2,13,45,48 ו 70 – גם זה מאורע נדיר ביותר, סיכוייו להתרחש הם הרבה פחות מאלפית אחוז.
שאלה מעניינת היא מה ההסתברות שבמשך שנתיים יהיה מספר כלשהו שלא יזכה אף פעם.
לא אופתע אם יצא שזה לא כל כך נדיר. (הייתי מהמר על אזור עשירית האחוז).

יוסי לוי  [אתר]  בתאריך 2/13/2005 3:26:34 PM

תשובה ליאן

לשאלתך "שאלה מעניינת היא מה ההסתברות שבמשך שנתיים יהיה מספר כלשהו שלא יזכה אף פעם."
לחשב את ההסתברות המדוייקת זה קצת מסובך, אבל קל להעריך את גודלה המירבי: בלוטו האיטלקי יש 90 מספרים. ההסתברות שמספר מסויים (53 למשל) לא יעלה בגורל במשך שנתיים היא כ-0.00001 , ולכן, על פי משפט מתמטי-הסתברותי הידוע בשם אי-שוויון בונפרוני, ההסתברות שמספר כלשהו לא יעלה בגורל במשך שנתיים היא לכל היותר 90*0.00001, כלומר 0.0009 לכל היותר, וזה אכן קרוב יותר לעשירית האחוז. הרבה פחות נדיר, עדיין קרוב מאוד לאפס מבחינה מעשית.

יאן  בתאריך 2/15/2005 5:59:16 PM

ללא נושא

תודה יוסי. עדיין אפשר לומר, שדבר מסוג כזה היה צריך לקרות באחד ממפעלי הלוטו, אחת לכמה שנים.
יש בעולם יותר ממאה מפעלי לוטו רשמיים.

יוסי לוי  [אתר]  בתאריך 2/17/2005 10:36:43 AM

ליאן

אתה צודק כמובן.
מה שמעניין בסיפור הזה זה ההתייחסות של המהמרים האיטלקים, גם מהבחינה הרגשית, וגם מהבחינה ה"הימורית".

גילי נחום  בתאריך 3/17/2005 8:11:52 PM

החישוב צריך להיות מורחב

OK, תיקנת את החישוב והרחבת אותו לכל מספר אבל כפי שמישהו ציין קודם לכן אפריורית אף אחד לא ציפה שזה יתרחש דווקא בלוטו האיטלקי ולכן צריך לעדכן את החישוב לכך שזה לא יקרה באף מפעל לוטו עולמי ואם נניח שקיימים 100 כאלה אז הסיכוי שזה יקרה באחד או יותר מהם הוא:
(1-0.0009)^100=8.6%
שזה כבר הרבה יותר סביר לקרות… כמו כן אפשר להרחיב עוד היריעה (להתייחס למספר שנים גדול יותר) ולראות שהסבירות עולה אף יותר.

להשיב או לא להשיב

בפורום  תרבות עברית בתפוז מתנהל דיון תחת הכותרת "אני בסטטיסטיקה". סיכום קצר: חברי הפורום מתפארים ומתגאים בסירובם לשתף פעולה ולענות לסוקרים, ואף מספרים כיצד הם מכשילים את הסוקרים בכוונה תחילה. להלן כמה ציטוטים:

  • לא רוצה לתת עוד מידע לאח הגדול
  • זה כיף לא לענות על חלק מהשאלות, סתם ככה… מאז ומתמיד אני עונה רק על שלוש עד ארבע שאלות מכל שאלון, למה? ככה. זה מצחיק אותי, זה משעשע אותי לחשוב אם כתוצאה מכך נזרק השאלון שלי, איך הדיוק ממלאים במקומי את השאלות החסרות ועוד ועוד
  • אני אומר להם על ההתחלה שהתשובה שלי לכל השאלות היא "כן". ושיעבירו לאח הגדול מ'כפת לי?

והאמת – הדיון כאן הוא לא באמת על סטטיסטיקה, אלא על התרבות שלנו.

בשנת 1981 עלה ממדגם הבחירות שערך חנוך סמית עבור הטלויזיה הישראלית (אז היה רק ערוץ אחד) כי מפלגת העבודה ניצחה בבחירות. הנדגמים התבקשו להצביע בקלפי המדגם בדיוק כפי שהצביעו דקות אחדות קודם לכן בקלפי האמת.

שעות אחדות לאחר פרסום תוצאות המדגם, התברר כי תוצאות האמת בקלפיות ששותפו במדגם שונות באופן משמעותי מהתוצאות של קלפיות המדגם. כלומר – אנשים אשר הצביעו לליכוד בבבחירות, הצביעו בקלפי המדגם למפלגת העבודה. במלים אחרות: הם שיקרו לסוקרים. מה הם השיגו בכך? הם "דפקו" את הטלויזיה ואת חנוך סמית – שייצגו בעינהם את הממסד. הם גם הצליחו לגרום לשמעון פרס עוד מפח נפש אחד – שנאלץ לספוג את הפסדו בבחירות לאחר שכבר הוכרז כראש הממשלה הבא. כמו שנאמר – אין שמחה כמו שמחה לאיד.

יש הבדל גדול בין אנשים שאינם מעוניינים לשתף פעולה עם סוקרים, יהיו סיבותיהם אשר יהיו, ובין אלה המנסים להטעות בכוונה תחילה את עורכי הסקרים. אי שיתוף פעולה פאסיבי הוא אכן בעיה שעלולה לגרום להטיות חמורות בתוצאות המדגם (המקרה המפורסם ביותר הוא כנראה סקר הבחירות לנשיאות ארה"ב ב-1936 בהן התמודדו רוזוולט ולנדון). לא נעים, אך אין ברירה, ויש דרכים להתמודדות עם בעיה זו.

בבחירות האחרונות, לכנסת ה-16, שנערכו ב-2003, נתקלו מספר סוקרים, ובינהם פרופ' קמיל פוקס, בתופעה המוזרה הבאה: מספר האנשים שהצהירו כי בבחירות הקודמות (אלה של שנת 1999) הצביעו לליכוד, גדול באופן משמעותי מהצפוי. על פי ההצהרות, הליכוד היה אמור לזכות בבחירות 1999 בכ-30 מושבים בכנסת, בעוד שבפועל הוא זכה ל-19 מושבים בלבד. כלומר: הנסקרים של 2003 לא אמרו אמת, במודע או שלא במודע, לגבי אופן הצבעתם בבחירות של שנת 1999.

פרופ' פוקס, מבכירי הסטטיסטיקאים בארץ, פיתח שיטה סטטיסטית שהצליחה לתקן את ההטיה שנגרמה עקב דיווחים לא נכונים אלה, והצליח לחזות את תוצאות הבחירות של 2003.

נסיונות להטיה מכוונת  של תוצאות הסקר הם אופרה אחרת לגמרי. מטעי הסוקרים מתנהגים כטרולים באינטרנט: הם מנסים לגרום נזק לשם ההנאה שבדבר. דבר כזה עלול לגרום לפגיעה באנשים (גם אם מדובר "רק" במפח נפש שמעון פרס), ואף לנזקים כלכליים ונזקים אחרים שעלולים להגרם עקב החלטות המתבססות על אינפורמציה מוטעית. הטיעון שיקפוץ מייד: "אז שלא יסתמכו על סקרים" אינו קביל. הממשלה מקבלת החלטות רבות על סמך אינפורמציה הנאספת על ידי הלשכה המרכזית לסטטיסטיקה – והחלטות מוטעות עלולות לגרום נזק לכל אחד מאיתנו. גם גופים פרטיים ראויים ליחס מכובד. אני לא חושב שמישהו מהמגיבים המכובדים בפורום, שצוטטו למעלה, היו מעלים בדעתם להכשיל אדם עיוור המגשש את דרכו ברחוב, בטיעון "שלא יסמוך על האנשים".

פורסם לראשונה באתר "רשימות" בתאריך 10 בפברואר  שם התקבלו 7 תגובות

אתגר  בתאריך 2/10/2005 11:26:00 PM

איזה שיטות טובות מומלצות

בשאלונים כדי למנוע תופעות כאלו, או לפחות לזהות אותן?

אודי  בתאריך 2/11/2005 5:16:59 PM

הזכות להרוס סטטיסטיקה

האדם המודרני מוצף בשאלות סקרים. אני חושב שפועל פה גם מנגנון טבעי דומה לזה שגורם לעובדים (במודע או שלא במודע) לחבל בציוד המשרדי (כ10% מאובדן הציוד מבחינה סטטיסטית הוא תוצאה של וונדליזם פנימי). כאשר מגיע מכון מחקר לשאול אותי על הרגלי הצריכה שלי, סביר להניח שמידע זה ישמש את הפרסומת הבאה, אנו בעצם עוזרים לבנות פרופיל נפשי של החברה לפני המותגים, מכיוון שאפשר להתייחס אל רוב הפרסום המודרני כדיסאינפורמציה, אני חשוב שזה תוצאה של דואליות בתהליך, אנחנו פשוט מחזירים בכלי היחיד שיש לנו.

יוכי  [אתר]  בתאריך 2/12/2005 10:28:40 AM

במלחמה

גם סטטיסטיקה היא עניין של פוליטיקה.ובמלחמה (פוליטית) כמו במלחמה: כל החטאים כשרים, גם חטא ההטעייה. מכיוון שתוצאות הסקרים משמשים כלי להשגת מטרות פוליטיות (כדי לקבוע מי יהיה "המועמד", למשל, או לקבוע אסטרטגית פעולה וכיו"ב) – אז הנסקרים עושים בו שימוש דומה, אבל הפוך.
גרימת נזק לשם נזק היא כבר סיפור אחר, כמו שאודי הגדיר: וונדליזם פנימי.

אלון  בתאריך 2/19/2005 7:20:14 PM

הדור הבא?

גם בבחירות האחרונות לנשיאות בארצות הברית
הראה אותה הטייה. קרי אמור היה לקחת בקלות.. כבר שכחתם? יתכן ששיטות הסקירה הקיימות פושטות את הרגל. מה דעת המומחים?

דובי קננגיסר  [אתר]  בתאריך 5/24/2007 7:47:09 PM

פסססט! לא היו בחירות ב-2000

היו בחירות או ב-99', או ב-2001 (לראשות הממשלה בלבד).

יוסי לוי  [אתר]  בתאריך 5/25/2007 9:05:01 AM

לדובי

תודה, תוקן.

שלא יעבדו עליכם – רק לשטרסלר מותר

 2004 היא שנת המפנה – כותב שטרסלר ב"הארץ". אני לא רוצה להכנס לכל הטיעונים של אותו עורך בכיר לענייני כלכלה וחברה, אבל בסיכום שלו השקר זועק מייד בראש העמוד. שטרסלר מציג את הגרף הבא המראה כיצד צנחו שיעורי האבטלה בשנה שעברה – מה זה צנחו? האבטלה נעלמה. רואים את העמודה של אוקטובר 2004? כמה שהיא נמוכה. מצבנו לא היה מעולם טוב יותר.

לפי שטרסלר, 10.1% זה כמעט אפס.

את ההפניה לכתבה של שטרסלר ולתרגיל הגרפי השקוף שלו מצאתי באתר "העוקץ".

פורסם לראשונה באתר "רשימות" בתאריך 4 בינואר 2005  שם התקבלו 3 תגובות

דנה  [אתר]  בתאריך 1/4/2005 1:35:36 PM

מדהים

בתור אחת שעבדה פעם בתחום, בחיים לא הייתי מאשרת את הגרף הזה, בשל ההטעיה האדירה הזאת. כנראה שמי שערך את הכתבה הזאת לא היה מספיק מרוכז. וחבל.

רבינו  בתאריך 1/4/2005 5:42:59 PM

מדהים

מדהים שהטריק הזה תמיד עובד…

ערדי  בתאריך 1/5/2005 1:41:28 PM

נו

אתה באמת חושב ששטרסלר מצייר בעצמו את הגרפים?
(ל"הארץ" יש באופן כללי אובססיה משונה לגרפים – הכי מצחיקים הגרפים במדור הספורט כמו "שערים של קולאוטי למשחק")

כמה סטודנטים יש בכל כיתה, בממוצע?

החידה הזו הועלתה בפורום המתמטיקה של תפוז. אני מביא אותה לכאן. נשמע מה דעתכם 🙂

באוניברסיטה יש 500 תלמידים הלומדים קורס מסויים. לכן נפתחו ארבע קבוצות הרצאה לקורס זה. התברר כי ל-3 קבוצות נרשמו 100 סטודנטים לכל אחת, ולקבוצה הרביעית נרשמו 200 סטודנטים. הנהלת האוניברסיטה דיווחה כי בכל קבוצה יש בממוצע 125 סטודנטים, על פי החישוב:

eq271204a

הסטודנטים טענו כי מספר הסטודנטים הממוצע לכיתה גבוה יותר: אם נשאל כל סטודנט כמה סטודנטים יש בקבוצה שלו, 200 מהם יענו "200" ו-300 מהם יענו "100". לכן מספר הסטודנטים הממוצע הוא:

eq271204b

אז מי צודק?

פורסם לראשונה באתר "רשימות" בתאריך 27 בדצמבר 2004  שם התקבלו 3 תגובות

עומרון  בתאריך 12/27/2004 10:59:39 AM

אני כנראה ממש אהבל

אני לא מבין למה זה מעניין מה יגידו הסטודנטים ומה זו המכפלה הזו.
סופרים את כמות הסטודנטים ומחלקים בארבע.
(זה מה שלימדו אותי בבית ספר)

עומרון  בתאריך 12/27/2004 11:01:21 AM

אגב,

אם תשאל את אותו מספר סטודנטים בכל כיתה כמה תלמידים בכיתה שלהם ותחשב באותו האופן – תגיע ל-125.
נראה לי (באמת לא מבין בזה) שכשאתה שואל את הסטודנטים כולם אתה מטה את המדגם (יכול להיות?????)

בתאריך 12/27/2004 12:26:25 PM

ואם…

יהיו 10 קבוצות,
9 של סטודנט אחד ואחת של 491
אז הנהלת האוניברסיטה תרחץ כפיה בממוצע של 500/10
כלומר 50 סטודנטים לקבוצה.
אבל הרוב המוחלט של הסטודנטים יהיו תקועים בקבוצה ענקית.
המממ…

הכלכלה והסטטיסטיקה

ברכבת נפגשות שתי חבורות, ארבעה סטטיסטיקאים וארבעה כלכלנים. התברר כי כולם נוסעים לכנס בנושא אקונומטריקה. אחד הכלכלנים שם לב תוך כדי השיחה כי כל אחד מהכלכלנים מחזיק בידו כרטיס נסיעה, אבל רק לאחד מהסטטיסטיקאים יש כרטיס. הוא שאל אותם לפשר הדבר. "אל תדאג", אמרו לו הסטטיסטיקאים, "חכה ותראה". כאשר התקרב הכרטיסן אליהם, נכנסו כל ארבעת הסטטיסטיקאים לתא השירותים. הכרטיסן הגיע וניקב את כרטיסו של כל אחד מהכלכלנים. לאחר מכן ניגש אל דלת תא השירותים, דפק עליה ואמר "כרטיס בבקשה!". הסטטיסטיקאים הושיטו לו את הכרטיס דרך החריץ שמתחת לדלת.

כעבור שבוע נפגשו שוב שתי החבורות על הרכבת, בדרכן חזרה מהכנס הבייתה. ארבעת הכלכלנים קנו הפעם רק כרטיס אחד, אך להפתעתם שמו לב כי לסטטיסטיקאים אין כרטיס בכלל. כאשר התקרב הכרטיסן אליהם, נכנסו ארבעת הכלכלנים אל תא השירותים. מייד אחר כך פנו הסטטיסטיקאים אל תא השירותים השני. בדרכם, הקיש אחד מהם על דלת תא השירותים בו נמצאו הכלכלנים ואמר: "כרטיס בבקשה!".

מוסר השכל: אין להשתמש בשיטות סטטיסטיות אם לא מבינים היטב את הרעיון העומד מאחוריהן.

פורסם לראשונה באתר "רשימות" בתאריך 14 בדצמבר 2004

Technorati Tags: כלכלה,סטטיסטיקה

בחירות 1936 – המנצח שלא היה

פרנקלין ד. רוזוולט - הנשיא המכהן, מתמודד על כהונה שניה

בשנת 1936 פרנקלין ד. רוזוולט סיים את כהונתו הראשונה כנשיא ארצות הברית, והעמיד עצמו לבחירה לכהונה שניה. מולו התמודד אלפרד מ. לנדון, מושל קנזס, נציג המפלגה הרפובליקנית. 

ארה"ב עדיין הייתה בתהליכי התאוששות מהמשבר הכלכלי של 1929. למרות שמדיניותו של רוזוולט, שהתבססה על פרוייקטים ממשלתיים ותקציב גרעוני החלה לשאת פירות, המצב הכלכלי של המדינה היה עדיין קשה ביותר. לנדון התנגד למדיניות זו, ותקף את רוזוולט בתחום הכלכלי.

לקראת הבחירות ערך המגזין Literary Digest סקר שנועד לחזות את תוצאות הבחירות. ה-Digest ערך סקרי בחירות בקביעות החל מבחירות 1916, ותמיד הצליח לחזות את תוצאות הבחירות בדיוק רב. תוצאות הסקר של 1936 , שהתבסס על 2.4 מליון משיבים, חזו כי לנדון יזכה ב-56% מכלל הקולות, ובתפקיד הנשיא הבא של ארצות הברית.

אלפרד לנדון - המועמד המוביל בסקרים

המציאות הייתה שונה, כידוע. רוזוולט זכה ב-62% מהקולות וגרף את האלקטורים של 46 מדינות, ובינהן גם קנזס, מדינתו של לנדון. לנדון הסתפק ב-8 אלקטורים בלבד. מה קרה? מדוע סקר הבחירות הגדול ביותר שנערך אי פעם הניב תוצאה כה שגויה? כדי להבין זאת, עלינו לדעת כיצד נדגמו המשיבים.

ובכן, המגזין שלח שאלונים לבתיהם של 10 מליון מצביעים פוטנציאליים, וביקש מהם לשלוח בדואר חוזר את אופן הצבעתם. 7.6 מליון מהנמענים לא טרחו לענות. שיעור התגובה לסקר היה 24% בלבד. המשיבים נבדלים מהלא משיבים בכך שהשיבו לסקר, כמובן, אך הנסיון שהצטבר מאז הראה כי הבדל זה משקף הבדלים נוספים. האם אותם 2.4 מליון משיבים מייצגים את 10 מליון המצביעים אליהם נשלח שאלון הסקר? ככל הנראה לא.

אחד מ-10 מליון השאלונים שנשלחו בסקר הבחירות שערך ה-Literary Digest ב-1936

בעיה נוספת, חמורה יותר, נבעה מרשימת הנמענים. כיצד תשיגו שמות וכתובות של 10 מליון איש? ה-Digest השתמש בספרי הטלפונים וברשימות של חברי מועדונים. ב-1936 היו בארצות הברית 12 מליון טלפונים, ו-9 מליון מובטלים. אפשר להניח כי רשימת המובטלים הייתה שונה למדי מרשימת בעלי הטלפונים, וכי דעתם של בעלי הטלפונים וחברי המועדונים בענייני כלכלה שונה מדעת המובטלים. הסקר של המגזין דגם באופן שיטתי מצביעים שמצבם הכלכלי היה טוב, ולכן לא בהכרח תמכו במדיניותו של הכלכלית של רוזוולט.

שיטת הסקירה של ה- Literary Digest שפעלה היטב במשך 5 מערכות בחירות, כשלה בפעם השישית. כל עוד מערכות הבחירות לא נסבו על עניינים כלכליים, ההטיה במדגם לטובת העשירים לא גרמה לעיוות התוצאות – שכן בעניינים של מדיניות חוץ אין בהכרח הבדלי דיעות משמעותיים בין עניים לעשירים. כאשר נושא הבחירות היה כלכלי, הסקר חזה היטב את אופן הצבעתם של העשירים, אך לא לקח בחשבון את דעתם של העניים והמובטלים שהכריעו את הבחירות ההן.

ה-Literary Digest פשט את הרגל וחדל לצאת לאור זמן קצר לאחר בחירות 1936, וגם שיטת הדגימה שלו חלפה מן העולם. על עולם הסקרים השתלט ג'ורג' גאלופ, שבעזרת מדגם של 50000 איש בלבד חזה את נצחונו של רוזוולט, ובמדגם נוסף של 3000 איש בלבד חזה גם את הטעות של ה-Digest. שיטת הדגימה החדישה שפיתח גאלופ תשלוט בעולם הסקרים עד 1948.

 

פורסם לראשונה באתר "רשימות" בתאריך 4 בנובמבר 2004 שם התקבלו 3 תגובות

אורי  [אתר]  בתאריך 11/5/2004 8:07:01 AM

 

רשימה מרתקת. מעניין שכבר לפני שבעים שנה השתמשו במידגם עצום כל כך לצורך עריכת סקר בחירות. קשה לדמיין שהיו להם משאבים כה רבים.

כמה דברים: באותה שנה נחשב כבר הטלפון למכשיר עממי למדי, לא יקר מדי לרכישה ולהתקנה. להערכתי, גם אם הושגו שמות וכתובות הנשאלים מספרי הטלפונים אין בכך כדי להעיד על אי-תקינות בהנחות היסוד. השאלה, להערכתי, היא מאלו ספרי טלפונים נלקחו השמות.

המיתון באותן שנים כבר היה בירידה. מכל מקום, מדינות ניו אינגלנד, למשל, נגעו פחות מאזורי המערב, המרכז והדרום. באזורים אחרונים אלה, הוכיח הניו-דיל את עצמו באופן שהעניק לרוזוולט לעתים למעלה מתשעים אחוז מהקולות (דרום קרולינה ומיסיסיפי), או לפחות למעלה משבעים אחוז (כל המדינות ממערב לקו מונטנה-ניו מכסיקו ומדרום לקו וירג'יניה-טקסאס). כלומר, אם הסוקרים עשו שימוש בספרי טלפונים של איזורים מסוימים בניו אינגלנד (מיין או ורמונט, למשל), כולל אפילו ניו יורק וסביבתה, ולא עשו שימוש בספרי טלפונים של איזורים בדרום ובמערב, יתכן שזו הייתה הסיבה לטעות.

אגב, הבחירות לנשיאות ארה"ב הביאו בכנפיהן כמה פרדוכסים מעניינים בעבר, כמו נשיא שנבחר בקולות שלושים אחוז מהתושבים בלבד או נשיא שזכה בניצחון על חודו של אלקטור בודד כשקיבל את מיעוט הקולות. עמדתי על כך במאמר שפרסמתי כאן: http://www.aplaton.co.il/story_56

איציק  [אתר]  בתאריך 12/20/2006 11:19:32 PM

 

לדuגמא, ניתקלתי בסקר שנערך בפורומים מסוימים בתפוז, במסגרת מחקר כלשהו. המדגם מראש מוטה כיוון שכולל את כל אלו שבוחרים להשתתף בסקר. יתרה מזאת, השאלות בסקר מנוסחות באופן די נוקשה (כן/לא בלבד וחובה לענות על כל השאלות), ולכן המדגם מצטמצם עוד לאלו שמוכנים לקבל על עצמם את הכללים שקבע עורך הסקר.
מספרים על מינה צמח שהיטיבה מחנוך סמית לחזות את תוצאות הבחירות בגלל המתכון הסודי שלה:
"קח מה שיצא אחרי כל החישובים, ותעביר 3 מנדטים לימין".

אלעד  [אתר]  בתאריך 7/16/2007 3:09:55 PM

 

אבל אני עדיין לא מאמין לסקרים

מדריך לצרכן הסקרים

במגזין slate הופיע (כבר לפני שבוע, למען האמת) מדריך לצרכן הסקרים – הסוקר בפירוט את כל הגורמים העלולים לעוות את תוצאותיו של סקר בחירות.

פורסם לראשונה באתר "רשימות" בתאריך 4 בנובמבר 2004

צריך פיס בחיים?

ב-Ynet ובידיעות פורסם היום כי יו"ר מפעל הפיס זכה במכונית בהגרלת המינויים של מפעל הפיס.
בידיעות (אך לא ב-Ynet דווח כי למפעל הפיס יש 450000 מינויים, וכי ב-5 השבועות האחרונים הוגרלו בין המינויים 180 מכוניות בכל שבוע (ובסך הכל 900 מכוניות).

1) מה הסיכוי של בעל כרטיס בודד לזכות במכונית בהגרלה אחת?
2) מה הסיכוי של בעל כרטיס בודד לזכות במכונית אחת לפחות בסדרה של 5 הגרלות?
3) ממפעל הפיס נמסר כי היו"ר מחזיק (ומשלם מכיסו) עבור 4 כרטיסי מנוי. מה סיכוייו של אדם המחזיק ב-4 כרטיסי מנוי לזכות במכונית אחת לפחות בסדרה של 5 הגרלות?
4) בפעם הבאה שיהיה מבצע הגרלות כזה (180 מכוניות בשבוע, במשך 5 שבועות), כמה כרטיסי מנוי צריך להחזיק כדי שהסיכוי לזכות במכונית יהיה גדול מ-50%? וגדול מ-p כלשהו נתון?
5) האם לדעתכם הסגנון התוקפני של הכתבה מוצדק לאור הנתונים הנ"ל?

התשובות כאן.

פורסם לראשונה באתר "רשימות" בתאריך 18 באוקטובר 2004  שם התקבלו 7 תגובות

פקקת   בתאריך 10/18/2004 11:06:57 AM

היה צריך להגריל בין האנשים תאונות דרכים, כדי לדלל קצת את המכוניות ולא להוסיף עליהן חדשות. בעצם זה מה שקורה פה כל יום. כל יום פה מצד אחד מגרילים כמה מכוניות של מפעל הפיס, ומצד שני מגרילים כמה תאונות, שישמר איזון המכוניות בטבע הפקקים.

מרק ק.  בתאריך 10/18/2004 1:56:28 PM

6. כמה כרטיסי מנוי יש לבכירים במפל הפיס?
7. בהתחשב ב6 מה הסיכוי שגם בשנה הבאה ידיעות יפרסמו אותה כתבה?
8. בהתחשב בחוסר היכולת של עיתונאים וסתם אנשים (לפי התגובות בYNET למרות ששם היו חסרים מספר נתונים מאוד משמעותיים) לבצע סטטיסטיקה פשוטה האם הגיע הזמן להנהיג בחינת בגרות חובה בסטטיסטיקה?

ותשובה ל5- ידיעות כבר זמן מה עסוק במסע ציבורי שמטרתו לשכנע את הציבור שהוא דפוק ומסכן והכל רע. מענין אם זה קשור לעובדה שסטיב כבר לא ממש מועמד לראשות הליכוד וזו דרך טובה להפחית את הסיכויים של נתניהו.

דרור  בתאריך 10/18/2004 2:31:44 PM

(180*4*5)/450,000=0.8% סיכוי למנכ"ל
סיכוי של 50% לזכות במכונית תקבל אם תרכוש 250 כרטיסי הגרלה. (עדיף לקנות אוטו, כמובן)
(180*5*X)/450,000=50%
X=250
סגנון תוקפני של כתבות באתר ההוא תמיד מוצדק. בדיוק כמו שרכילות במעריב זה תמיד נכון. זה הסגנון שלהם ולצערינו זה מה שה"עם" אוכל. משיחות מאחורי מכונת הקפה בעבודה הבנתי שאנשים באמת בולעים את הפיתיון ועושים מכל שטות שמפורסמת סנסציה במקרה הטוב וקונספירציה במקרה הפחות טוב.

זו ש  [אתר]  בתאריך 10/18/2004 9:40:30 PM

היות שלכל הגרלה בתחומים אחרים מוצמד תמיד משפט ההבהרה "ההשתתפות בהגרלה אסורה על עובדי איקס ובני משפחותיהם", ככה, בשביל שנקיון הכפיים ייראה, חשבתי שזה משהו בחוק. מסתבר שלא.

אבל מי צריך נקיון כפיים במפעל הפיס? הרי לרגע לא חשדנו בהם שהם כאלה.
ואכן, משכורתו של היו"ר ללא ספק אינה מספיקה לגמור את החודש, אני לא מתפלאת שהוא נאלץ להשלים הכנסה בהגרלות, כאחרון העניים.

המנהל והפועלים (ב)

 

והנה עוד דוגמא שמספקת הלשכה המרכזית לסטטיסטיקה לתופעת המנהל והפועלים – איך מדד למיקום מרכזי של הנתונים אינו מגלה את כל האמת על התפלגותם.

אתמול הודיעה הלשכה על הצמיחה שהפגין המשק בתחילת שנת 2004, זמן קצר אחרי פרסום תוצאות הסקר החברתי שהתריע על הקשיים הכלכליים הגוברים והולכים בקרב חלק מהאוכלוסייה. אז טוב או רע? התשובה הלא מפתיעה: בממוצע טוב, אבל לחלק טוב מאוד, ולחלק ממש לא. והיטיב לנסח זאת אברהם טל (!) הבוקר בהארץ: "עלייה של 2.3% ברמת החיים לנפש מסתירה את המציאות העגומה, שבה חלק מהאוכלוסייה שיפר את רמת חייו באופן משמעותי, ואילו מצבו של חלק אחר – שכבות המצוקה ומובטלים – לא השתנה כלל, ואפשר שהורע".

 

פורסם לראשונה באתר "רשימות" בתאריך 17 באוגוסט 2004 09:43 במדור מה אומרת הסטטיסטיקה שם התקבלו 2 תגובות

אנגלמן  בתאריך 8/17/2004 2:11:46 PM

האם קיים גוף

ציבורי או נניח מבקר המדינה שמוודא שהנתונים הרשמיים שמפרסמת המדינה אכן מספקים תמונה מאוזנת ולא מכוונת לצד מסויים?

אבי  בתאריך 8/18/2004 6:39:32 AM

פיקוח לא יעזור

אנגלמן, הנתונים המפורסמים מדוייקים ולא מוטים.
הבעיה (במקרה הזה) היא עם הממוצע עצמו, שהוא מדד הרגיש לנתוני קצה.

הפתרון היחיד הוא ללמד את צרכני המידע שיש חיים מעבר לממוצע. וזה, כך נדמה לי, מה שיוסי מנסה לעשות.