עונת הסקרים בעיצומה, וכיוון שכך, נראה שאיאלץ להמשיך ולעסוק בנושא הזה למרות שיש לי נושאים הרבה יותר מעניינים (אך פחות אקטואליים) לכתוב עליהם.
הנושא הראשון על הפרק הוא דואל שקיבלתי מאחד מקוראי, ג’רמי חלימי. וכך כותב לי ג’רמי, בהתייחסו לרשימה “סקר לדוגמא“:
ליוסי שלום,
על רשימתך האחרונה: קראתי שפרסמת אותה ללא כל קשר פוליטי. בכנות, האם היית מפרסם אותה אם היה מדובר בסקר הנוטה לטובת השמאל ?
אכן, שאלה ראויה שזכתה מייד לתשובה המתבקשת: בודאי.
ובכל זאת, למרות שעברו כשבועיים מאז – ברצוני להבהיר. בלוג הזה מיועד לספק מבט מתמטי/סטטיסטי ביקורתי על העולם, ועל אחת כמה וכמה מבט ביקורתי על נושאים הקשורים בסטטיסטיקה ובממתמטיקה. יותר מכך, אני מתיימר לקוות שקוראי יוכלו לרכוש בעזרת הרשימות שלי כלים ביקורתיים בעזרתם יוכלו להיות צרכנים טובים יותר של אינפורמציה בכלל ואינפורמציה סטטיסטית בפרט.
הסקר שנותח ברשימה אליה התייחס ג’רמי פשוט הגיע לתיבת הדואר הביתית שלי. זה היה סקר “טוב” בכך שהוא אפשר לי להמחיש נושאים בעייתיים רבים. אני לא עוסק בקריאה שיטתית של כל הסקרים שמתפרסמים, זמני מוגבל. גם אין טעם שאכתוב רשימה לניתוח כל סקר שמופיע – גם משרה מלאה לא תספיק לכך.
אני סבור שקורא אינטליגנטי יכול לנסות לנתח באופן דומה סקרים אחרים על פי הקווים המנחים שברשימתי. ואם יש ספקות – אז תמיד אפשר לפנות אלי בשאלות.
ולנושא הבא:
שוקי גלילי פרסם היום לינק לסקר שקבע כי “רוב הציבור סבור שהתקשורת אוהדת את קדימה”. אני לא מתכוון לדון בכל הסקר הזה, אלא רק בשני נושאים, הקשורים שניהם בפסקה האחרונה של הכתבה.
מהי טעות הדגימה?
כפי שהסברתי כבר, “טעות הדגימה המרבית” (שאינה מרבית, אלא מאפשרת רווח-סמך/רמת בטחון של 95%) נקבעת על ידי גודל המדגם, N, ושווה לפעמיים סטיית התקן של המדגם. סטיית התקן, מצידה, אינה גבוהה מ חצי מהשורש הריבועי של אחד חלקי שורש המדגם, ולכן נוכל לחשב ולמצוא כי “טעות הדגימה” כאן היא בערך 4.5% כמו בסקר של “מאגר מוחות”, ולא 1%, כמצויין כאן. ניתן גם לעשות את החישוב ההפוך, ולהראות כי המדגם הדרוש כדי להבטיח טעות דגימה של 1% ברמת-סמך של 95% הינו בגודל של 10000 (כן, עשרת אלפים). אשמח לדעת כיצד ד”ר יורם פרי הגיע לטעות דגימה של 1%.
הנושא האחרון שיידון ברשימה זו הוא תיאוריית האדם השלישי.
“9.5% מאמינים כי התקשורת תשפיע מאוד על הצבעתם של אחרים, אך רק 2.5% ציינו זאת לגבי עצמם”, נכתב בידיעה.
מה המשמעות של הנתון הזה?
קשה לדעת, כיוון שחסר נתון. לא נמסר איזה אחוז מהמשיבים סבור כי התקשורת משפיעה מאוד גם על הצבעתם שלהם וגם על הצבעתם של אחרים.
הבה נראה: 9.5% מ-509 הם 48 איש (בערך). 2.5% מ-509 הם 13 איש בערך. מה יכול להיות ערכו של הנתון החסר? ובכן, בנתונים הקיימים האחוז הזה יכול לנוע בין 0 ל-2.5% (יהיה לכם קל יותר לברר מדוע אם תחשבו במספרים מוחלטים ולא באחוזים – מספר האנשים במדגם הסבורים כי התקשורת משפיעה מאוד גם על הצבעתם שלהם וגם על הצבעתם של אחרים לא יכול להיות יותר מ-13!).
התשובה לקיומו או אי קיומו של אפקט “אדם שלישי” תלויה בערכו של הנתון הזה. אם ערכו נמוך (בסביבות 0) – אז אין אפקט, ואם ערכו גבוה (בסביבות 13, או 2.5% ) אז יש אפקט – כך מגלה לנו מבחן פישר (למעוניינים: הסבר על מבחן פישר באתר mathworld). נקודת האיזון בין קיומו של האפקט ואי קיומו היא בערך 4. האפקט התיאורטי אכן מעניין, אך מהתוצאות שפורסמו לא ניתן לדעת האם הוא אכן קיים.
פורסם לראשונה באתר “רשימות” בתאריך 7 במרץ 2006 18:55 במדור לסקר יש רגליים שם התקבלו 5 תגובות
אבי בתאריך 3/8/2006 7:12:22 AM
מדגם טלפוני
האם בעצם עריכת המדגם בטלפון אין טעות ביצוג ? לכמה מבני ה 18 עד ה 25 יש טלפון שמופיע במדריך ביחס למספרם באוכלסיה ולכוח ההצבעה וההשפעה שלהם ? איך נתון זה משוקלל, אם בכלל ?
יוסי לוי [אתר] בתאריך 3/8/2006 7:57:16 AM
תשובה לאבי
שאלה מצויינת.
כיום לא דוגמים מספרי טלפונים מהמדריך, אלא באמצעים ממוחשבים.
חפש בגוגל את הביטוי
“computer-assisted telephone interviewing”
או פשוט CATI ותמצא יותר פרטים.
אני מצידי רושם לי לרשום על כך רשימה בעתיד.
אבי בתאריך 3/8/2006 6:06:56 PM
תודה
ממתין לרשימה העתידית מאחר ולדעתי עדיין, ולא חשוב מה האמצעי, הרי שלרוב בני ה 18 עד ה 25 והגיל עולה כל הזמן – אין טלפון רשום. מנסיון שלי, בדקתי בסביבתי הקרובה -מ 10 בני ה 18 עד ה 30 ששאלתי – רק אחד ניתן לאתר טלפונית
יוסי לוי [אתר] בתאריך 3/8/2006 9:52:39 PM
עוד תשובה לאבי
בעניין המשקל של קבוצת אוכלוסיה מסויימת במדגם – הוא לא חייב להיות זהה למשקל באוכלוסיה, אפשר אח”כ לערוך שקלולים מתאימים.
מיתר בתאריך 3/14/2006 11:23:38 AM
תגובה ליוסי
האם השקלולים לא מורידים את האמינות (מגדילים את טעות הדגימה)