בחודשים האחרונים, בעקבות ביקורת פוליטית בעיקרה ((ומוצדקת, לדעתי)), עברו אמצעי התקשורת בישראל לפרסם סקרי דעת קהל בהם נסקרת גם דעתם של ערביי ישראל, בניגוד לנוהג הקודם שבו נערכו סקרי דעת הקהל בקרב “האוכלוסייה היהודית הבוגרת”. סקרים אלה מבוססים על עריכה של שני סקרים נפרדים, אחד בקרב האוכלוסייה היהודית והשני בקרב האוכלוסייה הערבית, ושיקלול תוצאות שני הסקרים. מתודולוגיה זו ידועה בשם “מדגם שכבות”.
הרעיון של מדגם שכבות אכן פשוט מאוד, וכבר הוסבר למעשה בפיסקה הקודמת. אולם יש מספר שאלות מעניינות שאנסה לתת להן תשובות כאן. לאחר שאסביר את העקרונות אנתח דוגמה ספציפית של מדגם כזה שהוצג בערוץ 10. המסקנה שלי היא כי במקרה הזה אין תועלת במדגם מפוצל, ורצוי לערוך מדגם יחיד בקרב כל האוכלוסייה.
מתי כדאי לערוך מדגם שכבות?
בעקרון כדאי לערוך מדגם שכבות כאשר האוכלוסייה הנדגמת (לא בהכרח בני אדם), מתחלקת למספר קבוצות הנקראות שכבות. מדגם שכבות יעיל יותר ככל שההבדלים בין השכבות משמעותיים יותר, ומאידך ההבדלים בין הפרטים בתוך השכבות קטנים יותר. במונחים סטטיסטיים נאמר כי השונות בין השכבות גדולה, בעוד שהשונות בתוך השכבות נמוכה.
לדוגמה, נניח שאנחנו רוצים לאמוד את מחירה של דירת 4 חדרים בתל אביב. דרך אחת היא לקחת מדגם של דירות ברחבי העיר. אולם, מאחר ויש שוני רב בין שכונות העיר (תחשבו על רמת אביב ג מול נווה עופר, למשל), ייתכן וכדאי לקחת מדגם קטן יותר בכל אחת משכונות העיר ולשקלל את תוצאות המדגמים. זאת גם מכיוון שבתוך כל שכונה ההבדלים היחסיים בין דירות דומות בתוך השכונה הינם יחסית קטנים בהשוואה להבדלים בין כלל הדירות בכל העיר.
איך מבצעים את המדגם?
לאחר שנקבעו השכבות, אפשר לדגום מדגם הסתברותי פשוט (“מדגם רגיל”) בתוך כל אחת מהשכבות, אם כי אפשר כמובן לבצע בתוך כל שכבה מדגמים מורכבים יותר.
איך משקללים את התוצאות?
את התוצאות משקללים על פי גדלי השכבות. לדוגמה, נניח שבעיר מסויימת יש שלושה איזורים: צפון, מרכז ודרום, ואנו מעוניינים לאמוד את השכר הממוצע בעיר. בצפון מתגוררים 5000 איש הנכללים במדגם, במרכז 15000 ובדרום 30000. נניח שמסיבה כלשהי הוחלט כי גודל המדגם בשכבת הצפון יהיה 500 איש, במרכז 1000, ובדרום 250 ((אגיע לכך עוד מעט)). מקבלים כי השכר הממוצע בכל אחד מהאיזורים הוא 15,000 ₪ בצפון, 5000 ₪ במרכז, ו-9000 שח בדרום. מכיוון שבצפון מתגוררים 10% מהתושבים (5000 מתוך 50000) במרכז 30% (15 אלף מתוך 50 אלף) ובדרום 60% מהתושבים (30 אלף מתוך 50 אלף), האומדן לשכר הממוצע הכולל הוא לכן 8700 ₪:
האינטואיציה לחישוב: השכר הממוצע בשכבת הצפון הוא 15000 ₪. לא משנה איך הוא נאמד, הפרשנות של הנתון היא כי כל תושב בשכבה מרוויח “בממוצע” 15000 ₪, ולכן 5000 תושבים מרוויחים בסך הכל 5000 כפול 15000 ₪, כלומר 75 מיליון שח, באותן אופן סך כל השכר באיזור המרכז הוא 6000 ₪ כפול 15000 כלומר 90 מיליון ₪, ובאיזור הדרום סך השכר של כל התושבים הוא 9000 ₪ כפול 30000 תושבים, וזה יוצא 270 מיליון ₪. כעת מחברים את כל הסכומים ומקבלים 435 מיליון ₪, ומחלקים את הסכום הזה במספר התושבים, 50000, ומקבלים 8700. ((קחו מחשבון ותבדקו)).
איך מחשבים את טעות הדגימה?
טעות הדגימה תלויה בשונות הכוללת של המדגם, ובגודל המדגם. ככל השונות הכוללת גדולה יותר, כך טעות הדגימה גדולה יותר. מצד שני, אפשר להקטין את טעות הדגימה לגודל הרצוי לנו על ידי הגדלת גודל המדגם. אם השונות הכוללת וגודל המדגם הכולל נתונים, חישוב טעות הדגימה הוא סטנדרטי – מכפילים את סטיית התקן של הממוצע בקבוע מההתפלגות הנורמלית, בדרך כלל 1.96 כדי לקבל רווח סמך של 95%.
איך קובעים את גודל המדגם?
הבעיה היא כמובן שכדי לקבוע את גודל המדגם צריך לדעת את השונות הכוללת ואת השונות בתוך כל שכבה, וכדי לדעת מה השונויות האלה צריך לקחת מדגם. בעיה זו, אגב, אינה ייחודית למדגם שכבות אלא לכל מדגם שהוא.
יש מספר דרכים להתגבר על הבעיה. אפשר לבצע מדגם מקדים קטן יחסית (פיילוט) כדי לקבל הערכה גסה לשונות. אפשר להסתמך על ידע קודם, ואפשר לתכנן על פי התרחיש הגרוע (worst case scenario) – דבר המקובל בעיקר כאשר מנסים לאמוד פרופורציות, כמו למשל שיעור התומכים בעמדה מסויימת. אפשרות נוספת היא לקבוע את גודל המדגם כגודל המדגם הדרוש כדי להבטיח את גודל טעות הדגימה המירבית במדגם רגיל ללא שכבות.
את השונות הכוללת מחשבים באופן דומה לחישוב בממוצע, כלומר על ידי שקלול השונויות בכל אחת מהשכבות בגורם שקלול הקשור בגודל היחסי של השכבה. עם זאת, גורמי השקלול אינם אינטואיטיביים כמו בשקלול הממוצעים של השכבות. השקלול מתבסס על ריבועי המשקלים של השכבות. בדוגמה שלנו, המשקל של שכבת הצפון היה 10% או 0.1, ולכן המשקל שלה בשקלול השונויות יהיה 0.1 בריבוע, כלומר 0.01, וכך לשאר השכבות. שימו לב כי המשקלים כעת לא מסתכמים ל-100%.
לאחר שיש בידינו את אומדני השונויות אפשר לחשב מתוכן את גודל המדגם הדרוש (אני אחסוך מכם את הנוסחה).
דרך אחרת לקבוע את גודל המדגם היא לקבוע בנפרד את גודל המדגם בכל שכבה, וגודל המדגם הכולל יהיה לכן סכום גדלי כל המדגמים השכבתיים. דרך זו בדרך כלל אינה יעילה.
איך קובעים את גדלי המדגם בכל שכבה?
בהנחה שקבענו את גודל המדגם הכולל (ולא את גודל המדגם לכל שכבה בנפרד), יש מספר דרכים לקבוע איך לחלק אותו בין השכבות.
האפשרות הנאיבית היא לחלק את המדגמים באופן פרופורציונלי לגדלי השכבות. בדוגמה שלנו היה מדגם בגודל 1750. חלוקה פרופורציונלית בעיר שלנו הייתה מובילה למדגם בגודל 175 באיזור הצפון (10% מ-1750), 525 במרכז (30% מתוך 1750) ו-1050 בדרום (60% מתוך 1750).
מה נאיבי בחלוקה כזו? היא לא מתחשבת בשונויות שבתוך השכבות, ומכיוון שכך, למה לטרוח? כל הרעיון של מדגם שכבות הוא לנצל את ההבדלים שבין השכבות.
החלוקה האופטימלית מתבצעת על פי השונויות – ככל שהשונות בשכבה גדולה יותר, כך יידגמו יותר פרטים מהשכבה. בדוגמה שלנו נלקח מדגם בגודל 1000 ממרכז העיר בו מתגוררים 15000 תושבים, אך מדרום העיר שם מתגורר מספר כפול של תושבים נלקח מדגם קטן פי 4. זאת ככל הנראה מכיוון שהשונות בדרום העיר קטנה באופן משמעותי מהשונות במרכז העיר ((בהנחה כי גדלי המדגם האלה אכן חושבו על פי השונויות בכל שכבה אפשר לחשב פי כמה השונות בדרום העיר יותר קטנה מהשונות במרכז אם ממש רוצים))
דוגמה: למה בוטל המשחק של ארגנטינה בישראל
מה הסיבה המדוייקת לביטול אי אפשר כנראה לדעת, אבל אפשר לשאול את הציבור מה דעתו בנושא. הנה לדוגמה תוצאות של סקר שנערך בערוץ 10:
הסקר בוצע בצורת מדגם של שתי שכבות: האוכלוסייה היהודית ו-“המגזר הלא יהודי”. טעות הדגימה לא דווחה. ((עוד שאלה מעניינת: כיצד מבצעים מדגם כזה בקרב אוכלוסייה מסויימת, יהודית או לא יהודית? למיטב ידיעתי, אלה סקרים טלפוניים, כאשר מספרי הטלפון אליהם מתקשרים נבחרים באופן אקראי. האם אפשר לדעת על פי מספר הטלפון האם האדם אליו מתקשרים הוא יהודי או לא יהודי? אני חושב שלא. ))
מהאוכלוסייה היהודית נלקח מדגם בגודל 615 ובמגזר הלא יהודי נלקח מדגם בגודל 150. מדוע נקבעה החלוקה הזו? יכולות להיות לכך מספר סיבות.
סיבה אפשרית אחת היא כי חישבו תחילה שגודל המדגם הכולל צריך להיות 765 ואחר כך חילקו אותו באופן קרוב לפרופורציונלי. זו לא חלוקה מדוייקת כי האוכלוסייה היהודית הבוגרת מהווה 76% מסך האוכלוסייה הבוגרת במדינה, על פי נתוני הלמ”ס לשנת 2015 (קישור לקובץ פדף). חלוקה פרופורציונלית צריכה להוביל למדגם בגודל 581 באוכלוסייה היהודית, ו-184 במגזר הלא יהודי. במקרה הזה, גודל המדגם במגזר הלא יהודי נמוך בכמעט 20% ממה שהוא צריך להיות על פי הקצאה פרופורציונלית.
סיבה אפשרית שניה היא כי ההקצאה נובעת מכך שהשונות בתוך המגזר הלא יהודי נמוכה באופן משמעותי מהשונות במגזר היהודי, ולכן גודל המדגם יכול להיות קטן יותר. ערכתי את החישובים ((למעוניינים ראו את הנוסחה כאן, תחת הכותרת Neyman Allocation)) ומצאתי כי אם זו אכן הייתה הסיבה, הרי שההערכה הייתה כי השונות במגזר הלא יהודי קטנה בערך ב-40% מהשונות באוכלוסייה היהודית. שאלה מעניינת היא על מה התבססה הערכה זו, אם אכן כך היה. במקרה הזה טעות הדגימה המירבית היא 3.4% ((בהנחה שבאוכלוסייה היהודית השונות לשאלת כן/לא היא מקסימלית ולכן שווה ל-0.25, ומכאן שהשונות המקסימלית במגזר הלא יהודי היא לכן 0.15)) . לו היו לוקחים מדגם רגיל בגודל 765 מתוך כל האוכלוסייה, טעות הדגימה המירבית הייתה 3.6%. כלומר, דגימת השכבות הפחיתה את טעות הדגימה ב-0.2%. ((למי שמעוניין לבדוק את החישובים שלי – מצורף קישור לקובץ pdf ))
סיבה אפשרית שלישית היא שלקחו את גודל המדגם “הרגיל” בו נהגו להשתמש כאשר ביצעו מדגמים רק בקרב האוכלוסייה היהודית – משהו בסביבות 500-600 ((שנותן טעות דגימה של 4 עד 5 אחוז)), והוסיפו מדגם יותר קטן במגזר הלא יהודי כדי לצאת ידי חובה.
המסקנה שלי מכל הדיון הזה היא שהאופן בו מתבצעים היום סקרי דעת הקהל – שני מדגמים, אחד בקרב האוכלוסייה היהודית ואחד במגזר הלא יהודי, אינו מביא תועלת רבה, ומתבסס על הנחה בעייתית במקרה הטוב: ההנחה כי שונות הדיעות בקרב המגזר הלא יהודי נמוכה באופן משמעותי מהשונות באוכלוסייה היהודית. כפי שראינו, גם אם הנחה זו נכונה, ההשפעה שלה על טעות הדגימה המירבית היא מזערית. במצב כזה ראוי יותר לבצע מדגם אחד שיכלול בתוכו את כל האוכלוסייה, יהודים ולא יהודים.
אולי “פאנל פרויקט המדגם” דוברים ערבית פחות טובה משל statsnet, ולכן בחברת החדשות נאלצו להשתמש בשתי חברות מדגם.
ייתכן. זה הופך את התהליך למאוד לא יעיל, אך יכול להיות שאין ברירה.
״במונחים סטטיסטיים נאמר כי השונות בין השכבות גדולה, בעוד שהשונות בין השכבות נמוכה.״
אה…
חוץ מההערה הקטנונית הזו, פוסט מוצלח כרגיל.
תודה! תיקנתי
יוסי:
“למיטב ידיעתי, אלה סקרים טלפוניים, כאשר מספרי הטלפון אליהם מתקשרים נבחרים באופן אקראי. האם אפשר לדעת על פי מספר הטלפון האם האדם אליו מתקשרים הוא יהודי או לא יהודי? אני חושב שלא”
מכוני סקרים בד״כ עובדים עם pool של טלפונים שמסופק ע״י הלמ״ס. הפול הזה מחולק לפי דירוג סוציו-אקו׳ ושיוך אתני. על פי רוב זה עובד בסדר.