סקרים הם כלי מתודולוגי חשוב ורב עצמה, בעיקר במדעי החברה. באמצעות דגימה נכונה של חלק קטן מהאוכלוסיה, ניתן לאסוף מידע על אודות האוכלוסיה כולה, ומאוחר יותר ניתן לתרגם את המידע הזה לידע ולמדיניות.
כל זה נפלא, אולם סקרים אינם כלי מושלם. הם חשופים להטיות רבות ולטעות סטטיסטית. כתבתי בבלוג רבות על אספקטים שונים של נושא הסקרים ולא אחזור ואפרט כאן את כל הדברים האלה. אתרכז רק בהטיה ספציפית אחת, ובפתרון שיש לסטטיסטיקה כדי להתגבר עליו.
אחת ההטיות הבעייתיות ביותר בסקרים היא חוסר הנכונות של הנסקרים שעלו במדגם להשיב לשאלות הסוקר. יש סיבות רבות לחוסר הנכונות הזו, ותאמינו או לא, אני בהחלט חושב שחלק מהסיבות הינן מוצדקות.
אחת הסיבות היותר מוצדקות לחוסר נכונות להשיב לשאלת סקר היא חשש הנסקר לפרטיותו. האם הייתם מוכנים לענות לסוקר, מכובד ככל שיהיה, לשאלות בדבר העדפותיכם המיניות? מה בקשר לשאלה המבקשת מכם לגלות אם עברתם על חוק כלשהו (גנבתם, השתמשתם בסם אסור, עברתם ברמזור אדום, העלמתם הכנסות)? או שאלה העוסקת במוסר האישי שלכם (האם בגדתם בבן/בת זוגכם? האם השתמשתם בשירותיה של זונה? האם רימיתם במבחן?)?
לא. אני לא חושב שהייתי שמח לענות לשאלות כאלה. עם זאת, המידע לגבי שיעור תופעות כאלה ואחרות באוכלוסיה חשוב מאוד. לכן, אין זה מפתיע שפותחו שיטות המאפשרות לנסקרים להגן על פרטיותם, ועדיין לענות בכנות וללא חשש לחשיפה לשאלות כאלה.
אחת השיטות היעילות הנפוצות היא שיטת "התשובה הרנדומלית" (Randomized Response). הרעיון בשיטה: לנסקר מוצגות שתי שאלות, והא בוחר אחת מהן באופן מקרי.שהנסקר משיב תשובת אמת לשאלה שעלתה בגורל, אבל הסוקר אינו יודע לאיזה שאלה שייכת התשובה שקיבל. עדיין, ניתן להפיק משקלול כל התשובות מידע יקר ערך.
זה נשמע מסובך, אבל מיד אציג שתי דוגמאות שיבהירו את הרעיון.
נניח שאני מעוניין לדעת מהו שיעור הנהגים המחטטים באף בעת המתנה ברמזור (מידע קריטי שעשוי למנוע תאונות דרכים רבות). אם אשאל את השאלה בצורה ישירה, סביר להניח כי התוצאה שתקבל תהיה נמוכה בהרבה מהשיעור האמיתי.
לכן אתכנן את הסקר כך שהתשובה של הנסקרים תהיה רנדומלית.
אבקש מכל נסקר להטיל מטבע. אם תוצאת ההטלה היא עץ, על הנסקר יהיה להשיב על שאלה סתמית: "האם יש לך אף?". ברור כי התשובה לשאלה זו תמיד חיובית. אם, לעומת זאת, תוצאת ההטלה תהיה פלי, אבקש מהנהג שעלה במדגם לענות האם הוא נוהג לחטט באפו בעת המתנה ברמזור, וכאן יש שתי תשובות אפשריות: "כן" או "לא".
לנדגם אין חשש לענות לי תשובה אמיתית. גם אם יענה "כן", איני יכול לדעת אם הוא ענה לי "כן, יש לי אף" או "כן, אני מחטט באף". פרטיותו לא נפגעת. ואם ענה "לא", הרי שהצהיר כי אינו מחטט באף, וגם זו הצהרת אמת, שאינו חושש להצהיר.
נניח שבמדגם שלי היו 1000 נהגים, וקיבלתי 700 תשובות "כן" ו-300 תשובות "לא". כיוון שהסיכוי לקבלת עץ בהטלת מטבע הוא 50%, הרי שמתוך 1000 הנדגמים, כ-500 קיבלו עץ, והשיבו כי אכן יש להם אף. 200 תשובות "כן" אחרות הן של נהגים שהודו כי הם אכן חטטנים, ו-300 הצהירו כי אינם חטטנים. מכאן ש-200 מתוך 500 נדגמים השיבו בחיוב לשאלה השניה רבת המשמעות, ומסקנתי תהיה כי שיעור הנהגים המחטטים באף הוא 40%. כל זאת, כמובן, בהנחה כי היה שיתוף פעולה מלא מצד הנסקרים.
הדוגמא פשטנית אך מבהירה את העקרון. יש כאן, כמובן, גם שתי טעויות סטטיסטיות. האחת נובעת מהדגימה הראשונית של 1000 הנהגים מתוך האוכלוסיה הכללית; השניה נובעת מהטלת המטבע, שקובעת את תת-המדגם של הנהגים שמשיבים לשאלה השניה. בטעויות סטטיסטיות, בניגוד להטיות שיטתיות, ניתן לשלוט על ידי קביעה מתאימה של גודל המדגם, ובכך להבטיח את שולי הטעות ("הפלוס/מינוס" המפורסם) הרצויים.
לטכניקה שהוצגה יש שני חסרונות: קודם כל, חצי מהמדגם מתבזבז על תשובה לשאלה סתמית. שנית, לגבי חלק מהנדגמים (אלה שהשיבו "לא") ניתן לדעת על איזה שאלה ענו. הנדגמים יודעים זאת, וזה עדיין עלול ליצור הטיה במדגם.
על החסרון השני ניתן להתגבר על ידי הצגה של שאלה סתמית עם שתי תשובות אפשריות, כמו "האם צבע העיניים שלך הוא כחול?" או "האם ספרת הביקורת של ממספר ת.ז. שלך היא זוגית?". אבל אם כך, מדוע לא להחליף את השאלה הסתמית הראשונה בשאלה משמעותית, כך שעדיין לא יהיה ניתן לדעת לאיזה שאלה ענה הנדגם?
הדבר אפשרי בהחלט.
נציג לנסקרים שתי שאלות:
שאלה 1: האם הנך נוהג לעשות משהו איום ונורא?
שאלה 2: האם אינך נוהג לעשות משהו איום ונורא?
תשובה חיובית מנדגם מסויים לא תיתן לנו כל אינפורמציה, כי איננו יודעים לאיזה שאלה ענה! אבל אנחנו יכולים לדעת באיזה הסתברות ענה לשאלה הראשונה ובאיזה הסתברות ענה לשאלה השניה, ובעזרת מידע זה לדעת את שיעור הנוהגים לעשות מעשה איום ונורא.
נבקש מכל נדגם להטיל מטבע פעמיים. אם שתי התוצאות יהיו עץ, נבקש ממנו לענות לשאלה הראשונה. אם לפחות אחת ההטלות תהיה פלי, נבקש מהנדגם לענות על השאלה השניה. (מסיבות טכניות ההסתברויות חייבות להיות שונות. רנדומיזציה של 50:50 לא תעבוד. המתמטיקה לא מסובכת, אבל אני נמנע מהדיון הטכני).
ועכשיו לטריק: בואו נניח שגודל המדגם הוא 1000 איש, ושאחוז אלה שנוהגים לעשות משהו איום ונורא באוכלוסיה (ובמדגם המייצג) הוא 30%. מתוך 1000 איש, 250 (בתוחלת, כלומר, באופן תיאורטי) יקבלו עץ בשתי הטלות המטבע. כיוון ש-30% מהם נוהגים לעשות משהו איום ונורא, נקבל 0.3×250=75 תשובות "כן" מהקבוצה הזו. שאר 750 הנדגמים יענו "כן" אם אינם נוהגים לעשות משהו איום ונורא. שיעורם הוא 70%, ולכן מבין אלה שהטילו מטבע ולא קיבלו פעמיים עץ נקבל 0.7×750=525 תשובות "כן". בסך הכל נקבל לכן 75+525=600 תשובות "כן".
את התרגיל הזה אפשר לעשות גם מהסוף להתחלה, ולהסיק כי אם התקבלו 600 תשובות "כן", אז שיעור האנשים הנוהגים לעשות משהו איום ונורא הוא 30%.
באופן כללי יותר (וכאן אעבור לנוסחאות, אז תרגישו חופשי לדלג): אם נסמן את גודל המדגם ב-N, את שיעור אלה שנוהגים לעשות משהו איום ונורא באות P, ואת מספר תשובות ה-"כן" באות Y, אזי
ומכיוון שערכם של Y ושל N ידוע לנו, ניתן לפתור את המשוואה ולמצוא את P.