סקרים הם כלי מתודולוגי חשוב ורב עצמה, בעיקר במדעי החברה. באמצעות דגימה נכונה של חלק קטן מהאוכלוסיה, ניתן לאסוף מידע על אודות האוכלוסיה כולה, ומאוחר יותר ניתן לתרגם את המידע הזה לידע ולמדיניות.
כל זה נפלא, אולם סקרים אינם כלי מושלם. הם חשופים להטיות רבות ולטעות סטטיסטית. כתבתי בבלוג רבות על אספקטים שונים של נושא הסקרים ולא אחזור ואפרט כאן את כל הדברים האלה. אתרכז רק בהטיה ספציפית אחת, ובפתרון שיש לסטטיסטיקה כדי להתגבר עליו.
אחת ההטיות הבעייתיות ביותר בסקרים היא חוסר הנכונות של הנסקרים שעלו במדגם להשיב לשאלות הסוקר. יש סיבות רבות לחוסר הנכונות הזו, ותאמינו או לא, אני בהחלט חושב שחלק מהסיבות הינן מוצדקות.
אחת הסיבות היותר מוצדקות לחוסר נכונות להשיב לשאלת סקר היא חשש הנסקר לפרטיותו. האם הייתם מוכנים לענות לסוקר, מכובד ככל שיהיה, לשאלות בדבר העדפותיכם המיניות? מה בקשר לשאלה המבקשת מכם לגלות אם עברתם על חוק כלשהו (גנבתם, השתמשתם בסם אסור, עברתם ברמזור אדום, העלמתם הכנסות)? או שאלה העוסקת במוסר האישי שלכם (האם בגדתם בבן/בת זוגכם? האם השתמשתם בשירותיה של זונה? האם רימיתם במבחן?)?
לא. אני לא חושב שהייתי שמח לענות לשאלות כאלה. עם זאת, המידע לגבי שיעור תופעות כאלה ואחרות באוכלוסיה חשוב מאוד. לכן, אין זה מפתיע שפותחו שיטות המאפשרות לנסקרים להגן על פרטיותם, ועדיין לענות בכנות וללא חשש לחשיפה לשאלות כאלה.
אחת השיטות היעילות הנפוצות היא שיטת “התשובה הרנדומלית” (Randomized Response). הרעיון בשיטה: לנסקר מוצגות שתי שאלות, והא בוחר אחת מהן באופן מקרי.שהנסקר משיב תשובת אמת לשאלה שעלתה בגורל, אבל הסוקר אינו יודע לאיזה שאלה שייכת התשובה שקיבל. עדיין, ניתן להפיק משקלול כל התשובות מידע יקר ערך.
זה נשמע מסובך, אבל מיד אציג שתי דוגמאות שיבהירו את הרעיון.
נניח שאני מעוניין לדעת מהו שיעור הנהגים המחטטים באף בעת המתנה ברמזור (מידע קריטי שעשוי למנוע תאונות דרכים רבות). אם אשאל את השאלה בצורה ישירה, סביר להניח כי התוצאה שתקבל תהיה נמוכה בהרבה מהשיעור האמיתי.
לכן אתכנן את הסקר כך שהתשובה של הנסקרים תהיה רנדומלית.
אבקש מכל נסקר להטיל מטבע. אם תוצאת ההטלה היא עץ, על הנסקר יהיה להשיב על שאלה סתמית: “האם יש לך אף?”. ברור כי התשובה לשאלה זו תמיד חיובית. אם, לעומת זאת, תוצאת ההטלה תהיה פלי, אבקש מהנהג שעלה במדגם לענות האם הוא נוהג לחטט באפו בעת המתנה ברמזור, וכאן יש שתי תשובות אפשריות: “כן” או “לא”.
לנדגם אין חשש לענות לי תשובה אמיתית. גם אם יענה “כן”, איני יכול לדעת אם הוא ענה לי “כן, יש לי אף” או “כן, אני מחטט באף”. פרטיותו לא נפגעת. ואם ענה “לא”, הרי שהצהיר כי אינו מחטט באף, וגם זו הצהרת אמת, שאינו חושש להצהיר.
נניח שבמדגם שלי היו 1000 נהגים, וקיבלתי 700 תשובות “כן” ו-300 תשובות “לא”. כיוון שהסיכוי לקבלת עץ בהטלת מטבע הוא 50%, הרי שמתוך 1000 הנדגמים, כ-500 קיבלו עץ, והשיבו כי אכן יש להם אף. 200 תשובות “כן” אחרות הן של נהגים שהודו כי הם אכן חטטנים, ו-300 הצהירו כי אינם חטטנים. מכאן ש-200 מתוך 500 נדגמים השיבו בחיוב לשאלה השניה רבת המשמעות, ומסקנתי תהיה כי שיעור הנהגים המחטטים באף הוא 40%. כל זאת, כמובן, בהנחה כי היה שיתוף פעולה מלא מצד הנסקרים.
הדוגמא פשטנית אך מבהירה את העקרון. יש כאן, כמובן, גם שתי טעויות סטטיסטיות. האחת נובעת מהדגימה הראשונית של 1000 הנהגים מתוך האוכלוסיה הכללית; השניה נובעת מהטלת המטבע, שקובעת את תת-המדגם של הנהגים שמשיבים לשאלה השניה. בטעויות סטטיסטיות, בניגוד להטיות שיטתיות, ניתן לשלוט על ידי קביעה מתאימה של גודל המדגם, ובכך להבטיח את שולי הטעות (“הפלוס/מינוס” המפורסם) הרצויים.
לטכניקה שהוצגה יש שני חסרונות: קודם כל, חצי מהמדגם מתבזבז על תשובה לשאלה סתמית. שנית, לגבי חלק מהנדגמים (אלה שהשיבו “לא”) ניתן לדעת על איזה שאלה ענו. הנדגמים יודעים זאת, וזה עדיין עלול ליצור הטיה במדגם.
על החסרון השני ניתן להתגבר על ידי הצגה של שאלה סתמית עם שתי תשובות אפשריות, כמו “האם צבע העיניים שלך הוא כחול?” או “האם ספרת הביקורת של ממספר ת.ז. שלך היא זוגית?”. אבל אם כך, מדוע לא להחליף את השאלה הסתמית הראשונה בשאלה משמעותית, כך שעדיין לא יהיה ניתן לדעת לאיזה שאלה ענה הנדגם?
הדבר אפשרי בהחלט.
נציג לנסקרים שתי שאלות:
שאלה 1: האם הנך נוהג לעשות משהו איום ונורא?
שאלה 2: האם אינך נוהג לעשות משהו איום ונורא?
תשובה חיובית מנדגם מסויים לא תיתן לנו כל אינפורמציה, כי איננו יודעים לאיזה שאלה ענה! אבל אנחנו יכולים לדעת באיזה הסתברות ענה לשאלה הראשונה ובאיזה הסתברות ענה לשאלה השניה, ובעזרת מידע זה לדעת את שיעור הנוהגים לעשות מעשה איום ונורא.
נבקש מכל נדגם להטיל מטבע פעמיים. אם שתי התוצאות יהיו עץ, נבקש ממנו לענות לשאלה הראשונה. אם לפחות אחת ההטלות תהיה פלי, נבקש מהנדגם לענות על השאלה השניה. (מסיבות טכניות ההסתברויות חייבות להיות שונות. רנדומיזציה של 50:50 לא תעבוד. המתמטיקה לא מסובכת, אבל אני נמנע מהדיון הטכני).
ועכשיו לטריק: בואו נניח שגודל המדגם הוא 1000 איש, ושאחוז אלה שנוהגים לעשות משהו איום ונורא באוכלוסיה (ובמדגם המייצג) הוא 30%. מתוך 1000 איש, 250 (בתוחלת, כלומר, באופן תיאורטי) יקבלו עץ בשתי הטלות המטבע. כיוון ש-30% מהם נוהגים לעשות משהו איום ונורא, נקבל 0.3×250=75 תשובות “כן” מהקבוצה הזו. שאר 750 הנדגמים יענו “כן” אם אינם נוהגים לעשות משהו איום ונורא. שיעורם הוא 70%, ולכן מבין אלה שהטילו מטבע ולא קיבלו פעמיים עץ נקבל 0.7×750=525 תשובות “כן”. בסך הכל נקבל לכן 75+525=600 תשובות “כן”.
את התרגיל הזה אפשר לעשות גם מהסוף להתחלה, ולהסיק כי אם התקבלו 600 תשובות “כן”, אז שיעור האנשים הנוהגים לעשות משהו איום ונורא הוא 30%.
באופן כללי יותר (וכאן אעבור לנוסחאות, אז תרגישו חופשי לדלג): אם נסמן את גודל המדגם ב-N, את שיעור אלה שנוהגים לעשות משהו איום ונורא באות P, ואת מספר תשובות ה-“כן” באות Y, אזי
Y/N=0.25xP + 0.75x(1-P) |
ומכיוון שערכם של Y ושל N ידוע לנו, ניתן לפתור את המשוואה ולמצוא את P.
איך מסבירים את כל זה לנסקר שדואג לפרטיותו במהלך הסקר?
אני לא ממש יודע, אבל מניח שמסבירים לו את העקרון שלפיו לא יודעים על איזה שאלה הוא באמת עונה, ולא נכנסים להסבר הטכני לגבי חישוב האמדנים מסך כל התשובות.
בכל מקרה, הרעיון עובד, ויש לא מעט פרסומים שמציינים כי השתמשו במתודולוגיה של randomized response
אני מכיר את הדוגמא אבל יש כאן בעייה נוספת. אנחנו סומכים על הנבדק שיטיל מטבע ועל פי התוצאה ידע מה לענות. איך אפשר לוודא שהוא עוקב אחרי ההוראות ולא בוחר בשאלה הקלה יותר לדוגמא?
אני לא יודע לענות על השאלה הזו. יש הרבה ספרות שעוסקת במתודולוגיה, ואני מניח ששם דנים בשאלה הזו ובקשיים לוגיסטיים נוספים שקיימים מן הסתם.
איזה יופי!
כמה מרענן!
אני מניח אגב, שברוב השאלונים הללו, משתמשים באמת מטילים מטבע (או קוביה, או כל אובייקט מוחשי אחר) באופן פיסי.
הלוא ניתן היה להגריל בשבילם מספר באמצעות מחשב – אבל אנו לא באים לפתור בעיה סטטיסטית, אלא בעיה חברתית/תפיסתית.
הנבדקים צריכים “לחוש” את הפרטיות המושרית מהתהליך.
אני מניח שלשם כך, הם יעדיפו מידע שהם חיצוני לגוף השואל (המחשב).
זה אכן טריק חביב מאוד. אבל פה יכולה להיווצר בעיה אחרת שזה מסבך את ההתעסקות בסקר והעונה צריך לחשוב ולהבין למה הפרטיות שלו מוגנת ולמה כל העניין אינו שטויות, מה שעלול לגרום לאנשים לא לשתף פעולה פשוט כי כל העניין נראה להם מטורף.
אם כבר עוסקים במשחקים מתמטיים ללא אפשרות למימוש מעשי, הייתי ניגש לבעיה מכיוון הקריפטוגרפיה.
צריך שיהיו שני גופים נפרדים, אחד שידע רק את התשובות (כן או לא), ואחד רק את השאלות (האם עשית, או האם לא עשית), ואז לעשות חישוב בטוח מרובה משתתפים.
מה שיפה בשני הדוגמאות שזה מהווה תחביב מהנה למתמטיקאים, אבל כמעט חסר תועלת באופן כללי באופן מעשי מטעמים שהם כלל לא מתמטיים (כמעט לא מכיר מימושים אמיתיים לשום צורה של multi party secure computation או של ביזור מפתחות (צריך שני מנהלים וחמישה מהנדסים בשביל לשגר את הפצצה) חוץ מ-bluray ושות’ אולי).
מר ליבוביץ היקר,
זה לא משחק מתמטי ללא שימוש מעשי. השיטה הזו מיושמת בשטח. נכון שישנם קשיים לפעמים (מהסוג שציינו בהערות קודמות וגם מסוגים אחרים, אני מניח), אבל הם לא הופכים אותה לחסרת תועלת, רחוק מכך.