חיפוש באתר

קישורים

RSS סטטיסטיקה ברשת

עמודים

קטגוריות

תגיות

ארכיב עבור תגית סקרים

מהי טעות הדגימה?

הקדמה – מדגמים וטעויות

רשימה זו נכתבת שבוע לפני הבחירות לכנסת, אירוע המניב כמות גדולה למדי של סקרי דעת קהל. עם זאת, סקרי דעת קהל ומחקרים סטטיסטיים אחרים נפוצים למדי בכל ימות השנה. ברוב הסקרים המתפרסמים בעיתונות יש מידע כלשהו על "טעות הדגימה", או "טעות הדגימה המירבית". כך למשל, בסקר שבוצע על ידי חברת דיאלוג בפיקוח פרופסור קמיל פוקס ופורסם באתר עיתון "הארץ" נאמר כי "שיעור הטעות המקרית לכל שאלה בנפרד היא 3.9%". בסקר אחר שנערך על ידי מכון דחף בניהולה של ד"ר מינה צמח ופורסם באתר Ynet  נמסר כי "טעות הדגימה: בין 0.8  מנדטים למפלגה עם שני מנדטים לבין 3 מנדטים לערך למפלגה עם 33 מנדטים". מכאן שעל פי סקר מכון דחף, טעות הדגימה נעה בין 9 ל-40 אחוזים. סקר דחף, אגב התבסס על מדגם של 1000 משיבים, בעוד שסקר מכון דיאלוג הסתמך על מדגם קטן יותר של 666 נבדקים.

מבולבלים? אנסה לעשות קצת סדר בדברים.

ראשית, אזכיר לכם מהו מדגם. אנו מעוניינים לדעת תכונה מסויימת של אוכלוסיה מסויימת, כמו למשל, שיעור האזרחים המתכוונים להצביע עבור מפלגה מסויימת בבחירות הקרובות. אפשר כמובן, לפנות לכל אחד מהאזרחים בעלי זכות ההצבעה ולשאול אותם, אבל זו דרך בלתי יעילה (בלשון המעטה). אפשרות אחרת היא לבחור קבוצה חלקית של האוכלוסיה, ולשאול את חברי הקבוצה הזו לגבי כוונת הצבעתם בבחירות. הקבוצה הזו נקראת "מדגם". לאחר שיש בידינו את הנתונים מהמדגם, אנו מנסים להסיק מהפרט (קבוצת המדגם) אל הכלל (כלל האוכלוסיה). שלב זה הוא שלב ההסקה הסטטיסטית, וזו למעשה כל התורה הסטטיסטית על רגל אחת.

הבעיה במדגם היא שיכולות לקרות טעויות, ועקב כך, הנתונים שאספנו במדגם לא משקפים את התכונות האמיתיות של האוכלוסיה. כל הטעויות האלה נכללות תחת המטריה של "טעות הדגימה". למעוניינים בהגדרה מדויקת: טעות הדגימה היא אי הדיוק באמידה של פרמטר באוכלוסיה הנגרמת עקב מדידתו בקבוצה חלקית בלבד של האוכלוסיה.

ניתן לחלק את כל הטעויות האפשריות לשני סוגים: טעויות שיטתיות וטעויות מקריות. טעות הדגימה היא סך שני סוגי הטעויות – השיטתיות והמקריות.

טעויות שיטתיות

טעויות שיטתיות הן טעויות הנובעות מתכנון וביצוע לקוי של הדגימה. הן מביאות לכך שנתוני המדגם שונים באופן אינהרנטי מנתוני האוכלוסיה, או, במלים יותר עממיות: המדגם אינו מייצג את האוכלוסיה. הנה מספר דוגמאות מפורסמות של טעויות שיטתיות בסקרי בחירות:

  • בבחירות לנשיאות ארצות הברית ב-1936, חזה סקר ה-Literary Digest ניצחון למועמד הרפובליקני לנדון שהתמודד מול הנשיא המכהן רוזוולט. שאלון הסקר נשלח בדואר אל בעלי טלפונים וחברי מועדונים, כלומר תת אוכלוסיה של אנשים אמידים בזמן משבר כלכלי קשה. בעוד שהאמידים נטו לתמוך בלנדון, מעוטי היכולת, שהיו רוב גדול בקרב הבוחרים, תמכו ברוזוולט. הסקר דגם באופן שיטתי יותר תומכי לנדון מתומכי רוזוולט.  בעיה נוספת בסקר זה הייתה השיעור הגבוה של נסקרים שלא השיבו לשאלון הסקר – 76%. בניסיון שהצטבר מאז התברר כי יש הבדלים משמעותיים בין המשיבים לשאלות הסוקרים ובין אלה שבוחרים לא להשתתף במדגם.
  • בבחירות לנשיאות ארצות הברית ב-1948, חזו כל הסקרים ניצחון למועמד הרפובליקני דיואי שהתמודד מול הנשיא המכהן טרומן. חלק מהסקרים היו טלפוניים, בתקופה בה מכשיר הטלפון עדיין לא היה נפוץ כבימינו. בעלי מכשיר טלפון היו באופן טבעי אמידים יותר מאלה שאין ברשותם מכשיר, וגם תומכים ברפובליקנים. בסקרים אחרים, שהתבצעו על ידי מראיינים בשטח, המראיינים יכלו לבחור את הנסקרים כרצונם, ומטבע הדברים פנו לחפש אותם באזורים "נוחים" – שכונות טובות, יותר עשירים, יותר רפובליקנים. בעיה נוספת הייתה שרוב הסקרים נערכו כחודשיים לפני הבחירות עצמן, כיוון שהיה מקובל לחשוב כי רוב הבוחרים מחליטים למי יצביעו כבר בספטמבר. כך לא לקחו הסקרים בחשבון את המומנטום של טרומן בחודש האחרון לפני הבחירות.
  • לעיתים הנסקרים אינם כנים בתשובותיהם.
    • בשיחה עם אלכס אנסקי[1] סיפר סיפר יוסי שריד על סקר בחירות שביצע "מומחה גדול מחברה בעל מוניטין בסקרי דעת קהל" עבור המערך במערכת הבחירות לכנסת השביעית ב-1969. הסקר חזה כי המערך יזכה ב-72 מנדטים. שריד הסביר את טעותו של הסוקר: "הוא לא ידע שבארץ אנשים שמצביעים בשביל האופוזיציה לא אומרים זאת בגלוי, ובמקום זאת מסמנים 'לא יודע'". מסיבות השמורות עימם (ואני לא שופט אותם), העדיפו תומכי האופוזיציה לא לענות בכנות לחלק משאלות הסקר.
    • בבחירות 1981, חזה מדגם הטלוויזיה הישראלית ניצחון למערך בראשותו של שמעון פרס. המדגם, שנערך על ידי חנוך סמית, נערך בשיטת "סקר יציאה": המדגם היה מדגם של קלפיות, וביציאה של כל קלפי הוצבה קלפי על ידי צוות הסקר, וכל אדם שהצביע התבקש להצביע שוב בקלפי הסקר בדיוק כפי שהצביע דקות אחדות קודם לכן בקלפי האמיתית. כאמור, על פי התוצאות מקלפיות הסקר נחזה ניצחון למערך. כשעתיים לאחר סגירת הקלפיות, כאשר התקבלו תוצאות האמת מהקלפיות שנדגמו, התגלו פערים משמעותיים בין ההצבעה האמיתית וההצבעה בקלפיות הסקר. ככל הנראה, מצביעים רבים שבחרו בליכוד, הצביעו בקלפיות הסקר עבור המערך. סמית תיקן את תחזיתו על סמך תוצאות האמת מקלפיות המדגם, שהראו כי הליכוד ניצח בבחירות, כפי שהתברר לאחר ספירת כל הקולות.
  • כיום רוב מוחלט של הסקרים נערכים באופן טלפוני, כאשר הסוקרים מתקשרים לטלפון קווי ומבקשים מהעונה שמעבר לקו לענות לשאלון. בשנים האחרונות גדלה תפוצתו של הטלפון הסלולרי, וכיום יש חלק גדול באוכלוסיה שאין ברשותו טלפון נייח אלא רק טלפון סלולרי. חלק זה אינו נכלל ברוב מדגמי הסקרים, נכון לכתיבת שורות אלה. ברור לחלוטין כי יש הבדלים משמעותיים בין בעלי טלפון נייח ובין אלה המשתמשים בטלפון סלולרי בלבד. האם הבדלים אלה משתקפים גם באופן ההצבעה שלהם? איש אינו יודע, עדיין.

טעויות שיטתיות קשות ביותר לגילוי, ובדרך כלל מתגלות, אם הן מתגלות, רק לאחר מעשה. לרוע המזל, לא ניתן להתגבר עליהן באמצעות הגדלת גודל המדגם. הסקר של ה-Literary Digest מ-1936 היה סקר הבחירות הגדול ביותר שנערך אי פעם – 2.4 מליון איש השיבו לסקר, ובכל זאת הסקר כשל לחזות את המנצח בבחירות. כאשר יש טעות שיטתית, מדגם גדול יותר רק מעצים את הטעות, ואינו מכפר עליה. כמו כן, למרבה הצער, אין דרך לחשב מראש את ההשפעה הכמותית של טעות שיטתית על תוצאת המדגם.

מדגמים הסתברותיים וטעויות מקריות

כתוצאה מכישלונות סקרי הבחירות של 1948 בארה"ב, עברו בהדרגה הסוקרים להסתמך על מדגמים הסתברותיים. במדגמים כאלה, המדגם נבחר באופן מקרי מתוך האוכלוסיה, אולם הסטטיסטיקאי הסוקר יודע מה ההסתברות של כל פרט באוכלוסיה להיכלל במדגם. מדגמים הסתברותיים מאפשרים להתגבר על חלק גדול של הטעויות השיטתיות הנפוצות. בנוסף לכך, מדגם הסתברותי מאפשר לחשב את גודלה של הטעות המקרית.

מהי טעות מקרית? אם סוקר בוחר באופן מקרי 1000 איש מתוך אוכלוסיית בעלי זכות הבחירה, יש הסתברות מסויימת כי כל אותם 1000 נדגמים יהיו תומכי מפלגה קטנה בעלת כמה אלפי תומכים בלבד בכל הארץ. במקרה כזה הסוקר יחזה כי מפלגת "העתיד המופלא", למשל, תזכה ב-120 מושבים בכנסת, בעוד שבפועל היא לא תעבור את אחוז החסימה. זה מאורע מביך, אך ההסתברות להתרחשותו של מאורע כזה קטנה ביותר. אפשר לחשב את ההסתברות, כי ההסתברות של כל אדם להיכלל בסקר ידועה. כיוון שכך, אפשר לחשב מדד סטטיסטי שיכמת את שיעורה של הטעות המקרית. כך יכול פרופסור פוקס לדווח כי שיעורה של הטעות המקרית בסקר שלו היא 3.9%. הבעיה בדיווח זה: מה משמעותו של המספר הזה? בסקר שאליו קישרתי למעלה מדווח כי מפלגות קדימה ועוצמה לישראל עוברות את אחוז החסימה וזוכות לשני מנדטים כל אחת. האם ייתכן כי אחת מהן תזכה ב-2.078 מנדטים (2 מנדטים ועוד 3.9% מ-2)? האם הכוונה היא שלפי הסקר קדימה זוכה אולי ב-2.1% מהקולות, אך יתכן שתזכה במינוס 1.8 אחוזים (2.1 פחות 3.9)?

הערכת גודל הטעות המקרית בעזרת רווח סמך

בסקר בחירות טיפוסי, נשאל כל נדגם לאיזה מפלגה הינו מתכוון להצביע בבחירות. אם ניקח את הסקר של פרופסור פוקס כדוגמא, בו השתתפו 666 איש, ייתכן כי 183 מתוכם הצהירו כי בכוונתם להצביע עבור מפלגת הליכוד ביתנו[2]. אם מחלקים 183 ב-666 ומכפילים במאה מקבלים 27.5, כלומר אמדן לשיעור התומכים במפלגה זו הוא 27.5% שאמורים להעניק למפלגה 33 מושבים בכנסת[3]. כאמור, יש טעות מקרית. במדגם היו יכולים לעלות 182 תומכי הליכוד ביתנו, או 184, או 663, או כל מספר אחר בין 0 ל-666. דרך סטטיסטית מקובלת לכמת את גודל הטעות, או במלים אחרות, לציין את מידת אי הודאות של האומדן לערך האמיתי, היא לבנות עבורו רווח סמך. במלים פשוטות אך לא מדויקות, רווח סמך עבור השיעור האמיתי של תומכי הליכוד ביתנו באוכלוסיה הוא קטע המחושב מתוך תוצאות המדגם (גבול עליון וגבול תחתון) באופן שהסיכוי "לתפוס" את השיעור האמיתי בתוך הקטע הוא קבוע. נשמע מסובך, אך לסטטיסטיקאים יש כלי חזק מאוד לחישוב רווחי סמך: משפט הגבול המרכזי. אדלג על הפרטים הטכניים, ואמר רק כי רווח סמך מקורב לשיעור התומכים באוכלוסיה, ברמת סמך של 95%, הוא שיעור התומכים במדגם, פלוס מינוס אחד חלקי שורש גודל המדגם. כל זאת, כאשר מתקיימים התנאים של המשפט.

בדוגמא שלנו, שיעור התומכים בליכוד ביתנו במדגם הוא 0.275 או 27.5%. גודל המדגם הוא 666, ולכן אחד חלקי שורש 666 הוא 0.0387 או 3.9%. קמיל פוקס יודע מה הוא עושה. הדיווח בעיתון/אתר בעייתי. כאשר מדווחים כי שיעור הטעות המקרית הוא 3.9%, הכוונה היא לומר כי המרווח שבין 23.6% לבין 31.4% מכיל בתוכו "תופס" את שיעור התמיכה האמיתי בליכוד ביתנו בהסתברות של כ-95%, אם תנאי משפט הגבול המרכזי מתקיימים[4].

הבעיה היא שתנאי המשפט לא תמיד מתקיימים. תנאי יסודי במשפט הוא שמדובר במדגם מספיק גדול. כמה זה "מספיק גדול"? התשובה היא: תלוי.[5].

אומר רק שהקירוב הנורמלי הולך ונחלש ככל שמתרחקים ממרכז ההתפלגות לקצוות. באותו סקר שפורסם באתר "הארץ" דווח גם כי מפלגת "ארץ חדשה" זוכה ב-0.7% ורחוקה מאחוז החסימה. מה זה אומר? גודל המדגם היה כזכור 666, ולכן רק 4 או 5 מהנשאלים אמרו כי יצביעו עבור ארץ חדשה. משפט הגבול המרכזי לא תקף במקרה הזה, ו-0.7 פלוס/מינוס 3.9 אינו רווח סמך לשיעור האמיתי של התומכים בארץ חדשה. שימו לב כי לו זה היה רווח הסמך, לא היה ניתן להסיק כי המפלגה אינה עוברת את אחוז החסימה[6].

דוגמא יותר קיצונית היא שיעור התמיכה במפלגות קטנות יותר. איש מבין 666 הנשאלים לא אמר כי יצביע בעד מפלגת "חיים בכבוד". האם פירוש הדבר כי בבחירות תקבל מפלגה זו אפס קולות (פלוס/מינוס 3.9%)? אני מרשה לעצמי לא לענות לשאלה רטורית זו.

מה עושים כאשר משפט הגבול המרכזי אינו תקף? משתמשים בשיטות אחרות שאינן מסתמכות על המשפט. חישבתי את רווחי הסמך לשיעור התמיכה במפלגת "ארץ חדשה" על פי מספר שיטות שאינן מסתמכות על משפט הגבול המרכזי בהנחה ש-5 מבין 666 הנשאלים אכן אמרו כי יצביעו עבורה. בכל שיטות החישוב, הגבול העליון של רווח הסמך אינו עולה על 1.8%. הדיווח שוב נכון: על פי תוצאות הסקר, מפלגה זו אינה עוברת את אחוז החסימה. יש רק לזכור כי הנתון של "טעות דגימה בגובה 3.9%" אינו מתייחס למקרים בהם מספר התומכים בסקר קטן מדי.


הערות
  1. 1. מכירת הליכוד – אלכס אנסקי, עמוד 167, הוצאת זמורה ביתן מודן, 1978 []
  2. 2. לא הצלחתי למצוא את הנתונים, ולכן אני נותן את המספר הזה כדוגמא []
  3. 3. אני מתעלם מפלפולי חוק בדר עופר לצורך העניין []
  4. 4. יש להבהיר כי כי אין פירוש הדבר כי שיעור התמיכה בליכוד ביתנו נמצא בין 23.6% לבין 31.4% בהסתברות 95%. ראו גם את תגובתו של עמית גל לרשימה זו. []
  5. 5. למעוניינים: לינק לערך ויקיפדיה על הקירוב הנורמלי להתפלגות הבינומית, שנותן תשובה מפורטת יותר וטכנית []
  6. 5. כי 0.7 ועוד 3.9 שווים ל-4.8 והגבול העליון גבוה מאחוז החסימה שהוא 2% []

ספקנים בפאב – ערב הרצאות מיוחד לכבוד יום הסטטיסטיקה הבינלאומי

"ספקנים בפאב" הם מפגשים המיועדים לכל מי שמתעניין במדע, היסטוריה, פילוסופיה ובחינה רציונלית של המציאות. המפגשים מתקיימים בפאבים או במקומות אחרים שמאפשרים אווירה חברית ובלתי פורמלית, וכוללים בדרך כלל הרצאה  ודיון. "ספקנים בפאב" נערך לראשונה בלונדון בשנת 1999, וכיום קיימות עשרות קבוצות ברחבי העולם. במסגרת הקהילה הספקנית בישראל קיימות ארבע קבוצות של ספקנים בפאב, בחיפה, תל-אביב, באר שבע וירושלים.

ב-20 באוקטובר צויין ברחבי העולם יום הסטטיסטיקה הבינלאומי. לציון(מאוחר) של האירוע ייערך בתאריך 14.11.2011 ערב הרצאות מיוחד במסגרת "ספקנים בפאב" בתל-אביב בשיתוף פעולה עם האיגוד הישראלי לסטטיסטיקה (ששת קוראיי יודעים בודאי על הקשרים ההדוקים שיש לי גם עם הקהילה הספקנית וגם עם איגוד הסטטיסטיקה).

הערב יכלול חמש הרצאות קצרות (15 דקות כל אחת) שיסקרו את נושא הסטטיסטיקה מכיוונים שונים.

האירוע יתקיים בתאריך 14.11.2011 בפאב "גורדו", בחוף גורדון בטיילת תל אביב. ההתכנסות היא בשעה 8 בערב, וההרצאות יחלו בשעה 8.30. דמי הכניסה הם 10 ש"ח, ומיועדים לכיסוי הוצאות הפקת האירוע.

 

המרצים, (באופן מפתיע, לא כולם סטטיסטיקאים) וכותרות ההרצאות הם:

  • טל גלילי – כיצד חוקרים עכברים שחוקרים את סביבתם
  • יוסי לוי – כדור הכסף
  • דובי קננגיסר – מחשב, מחשב שעל הקיר
  • רון קנת – 42
  • אבנר שחר קשתן – שקרים יפים

אני מניח כי מי שקרא עד כאן כבר הבין שגם אני נמנה עם המרצים 🙂

אשמח לראותם!

שמירה על פרטיות בסקרים

סקרים הם כלי מתודולוגי חשוב ורב עצמה, בעיקר במדעי החברה. באמצעות דגימה נכונה של חלק קטן מהאוכלוסיה, ניתן לאסוף מידע על אודות האוכלוסיה כולה, ומאוחר יותר ניתן לתרגם את המידע הזה לידע ולמדיניות.

כל זה נפלא, אולם סקרים אינם כלי מושלם. הם חשופים להטיות רבות ולטעות סטטיסטית. כתבתי בבלוג רבות על אספקטים שונים של נושא הסקרים ולא אחזור ואפרט כאן את כל הדברים האלה. אתרכז רק בהטיה ספציפית אחת, ובפתרון שיש לסטטיסטיקה כדי להתגבר עליו.

אחת ההטיות הבעייתיות ביותר בסקרים היא חוסר הנכונות של הנסקרים שעלו במדגם להשיב לשאלות הסוקר. יש סיבות רבות לחוסר הנכונות הזו, ותאמינו או לא, אני בהחלט חושב שחלק מהסיבות הינן מוצדקות.

אחת הסיבות היותר מוצדקות לחוסר נכונות להשיב לשאלת סקר היא חשש הנסקר לפרטיותו. האם הייתם מוכנים לענות לסוקר, מכובד ככל שיהיה, לשאלות בדבר העדפותיכם המיניות? מה בקשר לשאלה המבקשת מכם לגלות אם עברתם על חוק כלשהו (גנבתם, השתמשתם בסם אסור, עברתם ברמזור אדום, העלמתם הכנסות)? או שאלה העוסקת במוסר האישי שלכם (האם בגדתם בבן/בת זוגכם? האם השתמשתם בשירותיה של זונה? האם רימיתם במבחן?)?

לא. אני לא חושב שהייתי שמח לענות לשאלות כאלה. עם זאת, המידע לגבי שיעור תופעות כאלה ואחרות באוכלוסיה חשוב מאוד. לכן, אין זה מפתיע שפותחו שיטות המאפשרות לנסקרים להגן על פרטיותם, ועדיין לענות בכנות וללא חשש לחשיפה לשאלות כאלה.

אחת השיטות היעילות הנפוצות היא שיטת "התשובה הרנדומלית" (Randomized Response). הרעיון בשיטה: לנסקר מוצגות שתי שאלות, והא בוחר אחת מהן באופן מקרי.שהנסקר משיב תשובת אמת לשאלה שעלתה בגורל, אבל הסוקר אינו יודע לאיזה שאלה שייכת התשובה שקיבל. עדיין, ניתן להפיק משקלול כל התשובות מידע יקר ערך.

זה נשמע מסובך, אבל מיד אציג שתי דוגמאות שיבהירו את הרעיון.

נניח שאני מעוניין לדעת מהו שיעור הנהגים המחטטים באף בעת המתנה ברמזור (מידע קריטי שעשוי למנוע תאונות דרכים רבות). אם אשאל את השאלה בצורה ישירה, סביר להניח כי התוצאה שתקבל תהיה נמוכה בהרבה מהשיעור האמיתי.

לכן אתכנן את הסקר כך שהתשובה של הנסקרים תהיה רנדומלית.

אבקש מכל נסקר להטיל מטבע. אם תוצאת ההטלה היא עץ, על הנסקר יהיה להשיב על שאלה סתמית: "האם יש לך אף?". ברור כי התשובה לשאלה זו תמיד חיובית. אם, לעומת זאת, תוצאת ההטלה תהיה פלי, אבקש מהנהג שעלה במדגם לענות האם הוא נוהג לחטט באפו בעת המתנה ברמזור, וכאן יש שתי תשובות אפשריות: "כן" או "לא".

לנדגם אין חשש לענות לי תשובה אמיתית.  גם אם יענה "כן", איני יכול לדעת אם הוא ענה לי "כן, יש לי אף" או "כן, אני מחטט באף". פרטיותו לא נפגעת. ואם ענה "לא", הרי שהצהיר כי אינו מחטט באף, וגם זו הצהרת אמת, שאינו חושש להצהיר.

נניח שבמדגם שלי היו 1000 נהגים, וקיבלתי 700 תשובות "כן" ו-300 תשובות "לא". כיוון שהסיכוי לקבלת עץ בהטלת מטבע הוא 50%, הרי שמתוך 1000 הנדגמים, כ-500 קיבלו עץ, והשיבו כי אכן יש להם אף. 200 תשובות "כן" אחרות הן של נהגים שהודו כי הם אכן חטטנים, ו-300 הצהירו כי אינם חטטנים. מכאן ש-200 מתוך 500 נדגמים השיבו בחיוב לשאלה השניה רבת המשמעות, ומסקנתי תהיה כי שיעור הנהגים המחטטים באף הוא 40%. כל זאת, כמובן, בהנחה כי היה שיתוף פעולה מלא מצד הנסקרים.

הדוגמא פשטנית אך מבהירה את העקרון. יש כאן, כמובן, גם שתי טעויות סטטיסטיות. האחת נובעת מהדגימה הראשונית של 1000 הנהגים מתוך האוכלוסיה הכללית; השניה נובעת מהטלת המטבע, שקובעת את תת-המדגם של הנהגים שמשיבים לשאלה השניה. בטעויות סטטיסטיות, בניגוד להטיות שיטתיות, ניתן לשלוט על ידי קביעה מתאימה של גודל המדגם, ובכך להבטיח את שולי הטעות ("הפלוס/מינוס" המפורסם) הרצויים.

לטכניקה שהוצגה יש שני חסרונות: קודם כל, חצי מהמדגם מתבזבז על תשובה לשאלה סתמית. שנית, לגבי חלק מהנדגמים (אלה שהשיבו "לא") ניתן לדעת על איזה שאלה ענו. הנדגמים יודעים זאת, וזה עדיין עלול ליצור הטיה במדגם.

על החסרון השני ניתן להתגבר על ידי הצגה של שאלה סתמית עם שתי תשובות אפשריות, כמו "האם צבע העיניים שלך הוא כחול?" או "האם ספרת הביקורת של ממספר ת.ז. שלך היא זוגית?". אבל אם כך, מדוע לא להחליף את השאלה הסתמית הראשונה בשאלה משמעותית, כך שעדיין לא יהיה ניתן לדעת לאיזה שאלה ענה הנדגם?

הדבר אפשרי בהחלט.

נציג לנסקרים שתי שאלות:

שאלה 1: האם הנך נוהג לעשות משהו איום ונורא?

שאלה 2: האם אינך נוהג לעשות משהו איום ונורא?

תשובה חיובית מנדגם מסויים לא תיתן לנו כל אינפורמציה, כי איננו יודעים לאיזה שאלה ענה! אבל אנחנו יכולים לדעת באיזה הסתברות ענה לשאלה הראשונה ובאיזה הסתברות ענה לשאלה השניה, ובעזרת מידע זה לדעת את שיעור הנוהגים לעשות מעשה איום ונורא.

נבקש מכל נדגם להטיל מטבע פעמיים. אם שתי התוצאות יהיו עץ, נבקש ממנו לענות לשאלה הראשונה. אם לפחות אחת ההטלות תהיה פלי, נבקש מהנדגם לענות על השאלה השניה. (מסיבות טכניות ההסתברויות חייבות להיות שונות. רנדומיזציה של 50:50 לא תעבוד. המתמטיקה לא מסובכת, אבל אני נמנע מהדיון הטכני).

ועכשיו לטריק: בואו נניח שגודל המדגם הוא 1000 איש, ושאחוז אלה שנוהגים לעשות משהו איום ונורא  באוכלוסיה (ובמדגם המייצג) הוא 30%. מתוך 1000 איש, 250 (בתוחלת, כלומר, באופן תיאורטי) יקבלו עץ בשתי הטלות המטבע. כיוון ש-30% מהם נוהגים לעשות משהו איום ונורא, נקבל 0.3×250=75 תשובות "כן" מהקבוצה הזו. שאר 750 הנדגמים יענו "כן" אם אינם נוהגים לעשות משהו איום ונורא. שיעורם הוא 70%, ולכן מבין אלה שהטילו מטבע ולא קיבלו פעמיים עץ נקבל  0.7×750=525  תשובות "כן". בסך הכל נקבל לכן 75+525=600 תשובות "כן".

את התרגיל הזה אפשר לעשות גם מהסוף להתחלה, ולהסיק כי אם התקבלו 600 תשובות "כן", אז שיעור האנשים הנוהגים לעשות משהו איום ונורא הוא 30%.

באופן כללי יותר (וכאן אעבור לנוסחאות, אז תרגישו חופשי לדלג): אם נסמן את גודל המדגם ב-N, את שיעור אלה שנוהגים לעשות משהו איום ונורא באות P, ואת מספר תשובות ה-"כן" באות Y, אזי

Y/N=0.25xP + 0.75x(1-P)

ומכיוון שערכם של Y ושל N ידוע לנו, ניתן לפתור את המשוואה ולמצוא את P.

קמיל פוקס וחנוך מרמרי מתדיינים על הטיות בסקרים

בשבוע האחרון מתנהל דיון מעניין בין העיתונאי חנוך מרמרי והסטטיסטיקאי קמיל פוקס.
הכל החל בסקר שערך פוקס ו תוצאות ראשוניות ממנו פורסמו בעיתון "הארץ" (אותו ערך מרמרי בעבר) בתאריך 6.8.2009. לפי הסקר שבוצע  בפיקוחו של פוקס, 46% השיבו בחיוב על השאלה "האם הומוסקסואליות היא בעיניך סטייה?". 42% השיבו שלא מדובר בסטייה. יתר הנשאלים השיבו שאינם יודעים.(הערה: לא הצלחתי למצוא באתר הארץ את התוצאות המלאות של הסקר, שהתפרסמו ביום שישי, 7.8.2009. אשמח ללינק).

הסקר העלה את חמתו של מרמרי, שפרש את טענותיו באתר "העין השביעית" בתאריך 9.8.2009, תחת הכותרת "מהי סטייה? מהי הטיה". מרמרי טען כי השאלה שעמדה בבסיס סקר שיזם "הארץ", יוצרת בעיה בפרשנות המשיב, בעיה בתשובתו, בעיה בפרשנות העיתונאית לתשובה ובעיה בפרשנות קורא העיתונים. לדעתו, אילו נוסחה השאלה באופן אחר, היו מתקבלות תוצאות שונות באופן משמעותי מהתוצאות שהתקבלו בסקר, והיה מתברר כי הציבור הישראלי אולי סובלני יותר מכפי שהשתקף בסקר של פוקס. (פורמלית מרמרי בודאי צודק: אם שואלים שאלה אחרת, מקבלים תשובה אחרת). מרמרי תוקף לא רק את פוקס, אלא גם את עיתון "הארץ" שאותו ערך בעבר, וטוען כי העיתון בחר לנצל את הסקר ולפרש את תוצאותיו באופן המעודד הומופוביות.

אתמול התפרסמה באתר העין השביעית תגובתו של פוקס לטענותיו של מרמרי. "לא הטיה ולא הטעיה. אם בכלל, שיקול דעת שאפשר להתווכח עליו. בוודאי לא רצון לסנסציה ול'צהבת" – ענה פוקס למרמרי, והראה כי ההבדלים בין תשובות לסקר שערך ובין התשובות לסקר אחר שהשתמש ב-"שאלה הנכונה" (לדעת מרמרי) מזעריים.

המודעה התמוהה, הסקר המוטה, והעיתונאות הטובה

הנה סיבה מדוע כדאי לעקוב גם אחרי העיתונות המודפסת. ידיעה שהופיע בקצה מוסף הכלכלה של "ידיעות אחרונות" ביום הבחירות נשאה את הכותרת "המודעה התמוהה של חברת שחל" (לחצו על התמונה להצגה בגודל מלא).

 seker-shachal1

הידיעה מספרת של מודעה שפרסמה החברה העוסקת בתחום הטלרפואה, ובה התגאתה החברה כי סיכויי של מנוייה לשרוד לאחר אירוע לב גדול פי 2.2 מהסיכוי של כלל האוכלוסיה. האותיות הקטנות שמודעה שלחו את המעוניינים למחקר המלא באתר האינטרנט של החברה.

כתבת ידיעות אחרונות, יהודית יהב, לא התעצלה ובדקה מה עומד מאחורי הנתון הזה. הנה ממצאיה:

א. מאחורי הפרסום עומד פרופ' אריה רוט, מנהל המחלקה לטיפול מרץ לב בבי"ח איכילוב, אך גם היועץ הרפואי של חברת שחל.

ב. המחקר בדק רק את מנויי חברת שחל, ולא מנויים של חברות מתחרות.

ג. מנויי שחל אינם בהכרח מדגם מייצג של האוכלוסיה – כך אמר לגב' יהב פרופ' מוטי רביד, מנהל בי"ח "מעייני הישועה". רביד הסביר מדוע מנויי חברת שחל שונים באופן מהותי מאלה שאינם מנויים, ולכן ההבדלים בינם ובין שאר האוכלוסיה לא בהכרח נובעים מעצם השירות של חברת שחל, וייתכנו גורמים נוספים המסבירים את ההבדלים.

יהודית יהב גם טרחה והביאה את תגובתו של פרופ' אבינועם רכס, יו"ר ועדת האתיקה של ההסתדרות הרפואית, שאינו רואה כל בעיה אתית בפרסום, וגם את תגובת חברת שחל, שכמובן אינה רואה שום בעיה.

אז קודם כל, באמת כל הכבוד לכתבת יהודית יהב שעשתה היטב את עבודתה.

אני רוצה להוסיף עוד מספר הערות.

מעיון ב"פרטים הנוספים" שבאתר שחל (קובץ pdf), עולה כי כל עורכי המחקר הזה, פרט לאחד, הינם אנשי חברת שחל (אחד מהם הוא עובד של חברת הבת הגרמנית PHTS). האחד יוצא הדופן הוא פרופ' דוד שטיינברג מהמחלקה לסטטיסטיקה של אוניברסיטת תל-אביב, שאין לי ספק בדבר יכולותיו כסטטיסטיקאי, אבל אני חייב להיות שהופתעתי במקצת למצוא את שמו מתנוסס על הפמפלט הזה.

אמנם, אין פסול בכך שחברה מסחרית תתמוך במחקר מדעי המקדם את מטרותיה (גילוי נאות: גם החברה שבה אני עומד תומכת במחקרים כאלה, ואני אף נוטל חלק בחלקם ומעורב בניתוח הסטטיסטי של הנתונים), כפי שאמר פרופ' רכס. אבל רשימת עורכי הפרסום מעידה כי יתכן והגבול האתי נחצה.

פרופ' רכס דיבר גם על המחויבות לאמת המדעית, ומחויבות כזו ההייתה צריכה להוביל להבהרה לגבי ההטיה האפשרית של הנתונים ופרשנותם. אני בטוח לחלוטין כי דברי פרופ' רביד אינם מהווים חידוש והפתעה גדולה עבור מומחי חברת שחל. יתרה מזו – בידם היכולת לבדוק האם עצם המינוי עושה את ההבדל, או שמא באמת מדובר רק במשתנה מתווך (confounding variable). אני מניח שהם יודעים היטב שרק ניסוי מבוקר יכול להוכיח כי המינוי הוא אכן שמגדיל את סיכויי השרידות. אני לא אומר שטענת חברת שחל מופרכת לחלוטין, אבל יש כמה סימני שאלה.