Skip to content

נסיכת המדעים

אלוהים משחק ביקום בקוביות

  • עמוד הבית
  • אודות נסיכת המדעים
  • ייעוץ סטטיסטי
  • מבוא לסטטיסטיקה
  • מצגות Presentations
  • יצירת קשר
  • Toggle search form

סקרים בקרב יהודים ולא יהודים: מדגם שכבות

Posted on 25 ביוני 201826 ביוני 2018 By יוסי לוי 5 תגובות על סקרים בקרב יהודים ולא יהודים: מדגם שכבות

בחודשים האחרונים, בעקבות ביקורת פוליטית בעיקרה ((ומוצדקת, לדעתי)), עברו אמצעי התקשורת בישראל לפרסם סקרי דעת קהל בהם נסקרת גם דעתם של ערביי ישראל, בניגוד לנוהג הקודם שבו נערכו סקרי דעת הקהל בקרב “האוכלוסייה היהודית הבוגרת”. סקרים אלה מבוססים על עריכה של שני סקרים נפרדים, אחד בקרב האוכלוסייה היהודית והשני בקרב האוכלוסייה הערבית, ושיקלול תוצאות שני הסקרים. מתודולוגיה זו ידועה בשם “מדגם שכבות”.

הרעיון של מדגם שכבות אכן פשוט מאוד, וכבר הוסבר למעשה בפיסקה הקודמת. אולם יש מספר שאלות מעניינות שאנסה לתת להן תשובות כאן. לאחר שאסביר את העקרונות אנתח דוגמה ספציפית של מדגם כזה שהוצג בערוץ 10. המסקנה שלי היא כי במקרה הזה אין תועלת במדגם מפוצל, ורצוי לערוך מדגם יחיד בקרב כל האוכלוסייה.

מתי כדאי לערוך מדגם שכבות?

בעקרון כדאי לערוך מדגם שכבות כאשר האוכלוסייה הנדגמת (לא בהכרח בני אדם), מתחלקת למספר קבוצות הנקראות שכבות. מדגם שכבות יעיל יותר ככל שההבדלים בין השכבות משמעותיים יותר, ומאידך ההבדלים בין הפרטים בתוך השכבות קטנים יותר. במונחים סטטיסטיים נאמר כי השונות בין השכבות גדולה, בעוד שהשונות בתוך השכבות נמוכה.

לדוגמה, נניח שאנחנו רוצים לאמוד את מחירה של דירת 4 חדרים בתל אביב. דרך אחת היא לקחת מדגם של דירות ברחבי העיר. אולם, מאחר ויש שוני רב בין שכונות העיר (תחשבו על רמת אביב ג מול נווה עופר, למשל), ייתכן וכדאי לקחת מדגם קטן יותר בכל אחת משכונות העיר ולשקלל את תוצאות המדגמים. זאת גם מכיוון שבתוך כל שכונה ההבדלים היחסיים בין דירות דומות בתוך השכונה הינם יחסית קטנים בהשוואה להבדלים בין כלל הדירות בכל העיר.

איך מבצעים את המדגם?

לאחר שנקבעו השכבות, אפשר לדגום מדגם הסתברותי פשוט (“מדגם רגיל”) בתוך כל אחת מהשכבות, אם כי אפשר כמובן לבצע בתוך כל שכבה מדגמים מורכבים יותר.

איך משקללים את התוצאות?

את התוצאות משקללים על פי גדלי השכבות. לדוגמה, נניח שבעיר מסויימת יש שלושה איזורים: צפון, מרכז ודרום, ואנו מעוניינים לאמוד את השכר הממוצע בעיר. בצפון מתגוררים 5000 איש הנכללים במדגם, במרכז 15000 ובדרום 30000. נניח שמסיבה כלשהי הוחלט כי גודל המדגם בשכבת הצפון יהיה 500 איש, במרכז 1000, ובדרום 250 ((אגיע לכך עוד מעט)). מקבלים כי השכר הממוצע בכל אחד מהאיזורים הוא 15,000 ₪ בצפון, 5000 ₪ במרכז, ו-9000 שח בדרום. מכיוון שבצפון מתגוררים 10% מהתושבים (5000 מתוך 50000) במרכז 30% (15 אלף מתוך 50 אלף) ובדרום 60% מהתושבים (30 אלף מתוך 50 אלף), האומדן לשכר הממוצע הכולל הוא לכן 8700 ₪:

 

 

 

האינטואיציה לחישוב: השכר הממוצע בשכבת הצפון הוא 15000 ₪. לא משנה איך הוא נאמד, הפרשנות של הנתון היא כי כל תושב בשכבה מרוויח “בממוצע” 15000 ₪, ולכן 5000 תושבים מרוויחים בסך הכל 5000 כפול 15000 ₪, כלומר 75 מיליון שח, באותן אופן סך כל השכר באיזור המרכז הוא 6000 ₪ כפול 15000 כלומר 90 מיליון ₪, ובאיזור הדרום סך השכר של כל התושבים הוא 9000 ₪ כפול 30000 תושבים, וזה יוצא 270 מיליון ₪. כעת מחברים את כל הסכומים ומקבלים 435 מיליון ₪, ומחלקים את הסכום הזה במספר התושבים, 50000, ומקבלים 8700. ((קחו מחשבון ותבדקו)).

איך מחשבים את טעות הדגימה?

טעות הדגימה תלויה בשונות הכוללת של המדגם, ובגודל המדגם. ככל השונות הכוללת גדולה יותר, כך טעות הדגימה גדולה יותר. מצד שני, אפשר להקטין את טעות הדגימה לגודל הרצוי לנו על ידי הגדלת גודל המדגם. אם השונות הכוללת וגודל המדגם הכולל נתונים, חישוב טעות הדגימה הוא סטנדרטי – מכפילים את סטיית התקן של הממוצע בקבוע מההתפלגות הנורמלית, בדרך כלל 1.96 כדי לקבל רווח סמך של 95%.

איך קובעים את גודל המדגם?

הבעיה היא כמובן שכדי לקבוע את גודל המדגם צריך לדעת את השונות הכוללת ואת השונות בתוך כל שכבה, וכדי לדעת מה השונויות האלה צריך לקחת מדגם. בעיה זו, אגב, אינה ייחודית למדגם שכבות אלא לכל מדגם שהוא.

יש מספר דרכים להתגבר על הבעיה. אפשר לבצע מדגם מקדים קטן יחסית (פיילוט) כדי לקבל הערכה גסה לשונות. אפשר להסתמך על ידע קודם, ואפשר לתכנן על פי התרחיש הגרוע (worst case scenario) – דבר המקובל בעיקר כאשר מנסים לאמוד פרופורציות, כמו למשל שיעור התומכים בעמדה מסויימת. אפשרות נוספת היא לקבוע את גודל המדגם כגודל המדגם הדרוש כדי להבטיח את גודל טעות הדגימה המירבית במדגם רגיל ללא שכבות.

את השונות הכוללת מחשבים באופן דומה לחישוב בממוצע, כלומר על ידי שקלול השונויות בכל אחת מהשכבות בגורם שקלול הקשור בגודל היחסי של השכבה. עם זאת, גורמי השקלול אינם אינטואיטיביים כמו בשקלול הממוצעים של השכבות. השקלול מתבסס על ריבועי המשקלים של השכבות. בדוגמה שלנו, המשקל של שכבת הצפון היה 10% או 0.1, ולכן המשקל שלה בשקלול השונויות יהיה 0.1 בריבוע, כלומר 0.01, וכך לשאר השכבות. שימו לב כי המשקלים כעת לא מסתכמים ל-100%.

לאחר שיש בידינו את אומדני השונויות אפשר לחשב מתוכן את גודל המדגם הדרוש (אני אחסוך מכם את הנוסחה).

דרך אחרת לקבוע את גודל המדגם היא לקבוע בנפרד את גודל המדגם בכל שכבה, וגודל המדגם הכולל יהיה לכן סכום גדלי כל המדגמים השכבתיים. דרך זו בדרך כלל אינה יעילה.

איך קובעים את גדלי המדגם בכל שכבה?

בהנחה שקבענו את גודל המדגם הכולל (ולא את גודל המדגם לכל שכבה בנפרד), יש מספר דרכים לקבוע איך לחלק אותו בין השכבות.

האפשרות הנאיבית היא לחלק את המדגמים באופן פרופורציונלי לגדלי השכבות. בדוגמה שלנו היה מדגם בגודל 1750. חלוקה פרופורציונלית בעיר שלנו הייתה מובילה למדגם בגודל 175 באיזור הצפון (10% מ-1750), 525 במרכז (30% מתוך 1750) ו-1050 בדרום (60% מתוך 1750).

מה נאיבי בחלוקה כזו? היא לא מתחשבת בשונויות שבתוך השכבות, ומכיוון שכך, למה לטרוח? כל הרעיון של מדגם שכבות הוא לנצל את ההבדלים שבין השכבות.

החלוקה האופטימלית מתבצעת על פי השונויות – ככל שהשונות בשכבה גדולה יותר, כך יידגמו יותר פרטים מהשכבה. בדוגמה שלנו נלקח מדגם בגודל  1000 ממרכז העיר בו מתגוררים 15000 תושבים, אך מדרום העיר שם מתגורר מספר כפול של תושבים נלקח מדגם קטן פי 4. זאת ככל הנראה מכיוון שהשונות בדרום העיר קטנה באופן משמעותי מהשונות במרכז העיר ((בהנחה כי גדלי המדגם האלה אכן חושבו על פי השונויות בכל שכבה אפשר לחשב פי כמה השונות בדרום העיר יותר קטנה מהשונות במרכז אם ממש רוצים))

דוגמה: למה בוטל המשחק של ארגנטינה בישראל

מה הסיבה המדוייקת לביטול אי אפשר כנראה לדעת, אבל אפשר לשאול את הציבור מה דעתו בנושא. הנה לדוגמה תוצאות של סקר שנערך בערוץ 10:

 

 

 

 

 

 

 

 

הסקר בוצע בצורת מדגם של שתי שכבות: האוכלוסייה היהודית ו-“המגזר הלא יהודי”. טעות הדגימה לא דווחה. ((עוד שאלה מעניינת: כיצד מבצעים מדגם כזה בקרב אוכלוסייה מסויימת, יהודית או לא יהודית? למיטב ידיעתי, אלה סקרים טלפוניים, כאשר מספרי הטלפון אליהם מתקשרים נבחרים באופן אקראי. האם אפשר לדעת על פי מספר הטלפון האם האדם אליו מתקשרים הוא יהודי או לא יהודי? אני חושב שלא. ))

מהאוכלוסייה היהודית נלקח מדגם בגודל 615 ובמגזר הלא יהודי נלקח מדגם בגודל 150. מדוע נקבעה החלוקה הזו? יכולות להיות לכך מספר סיבות.

סיבה אפשרית אחת היא כי חישבו תחילה שגודל המדגם הכולל צריך להיות 765 ואחר כך חילקו אותו באופן קרוב לפרופורציונלי. זו לא חלוקה מדוייקת כי האוכלוסייה היהודית הבוגרת מהווה 76% מסך האוכלוסייה הבוגרת במדינה, על פי נתוני הלמ”ס לשנת 2015 (קישור לקובץ פדף). חלוקה פרופורציונלית צריכה להוביל למדגם בגודל 581 באוכלוסייה היהודית, ו-184 במגזר הלא יהודי. במקרה הזה, גודל המדגם במגזר הלא יהודי נמוך בכמעט 20% ממה שהוא צריך להיות על פי הקצאה פרופורציונלית.

סיבה אפשרית שניה היא כי ההקצאה נובעת מכך שהשונות בתוך המגזר הלא יהודי נמוכה באופן משמעותי מהשונות במגזר היהודי, ולכן גודל המדגם יכול להיות קטן יותר. ערכתי את החישובים ((למעוניינים ראו את הנוסחה כאן, תחת הכותרת Neyman Allocation)) ומצאתי כי אם זו אכן הייתה הסיבה, הרי שההערכה הייתה כי השונות במגזר הלא יהודי קטנה בערך ב-40% מהשונות באוכלוסייה היהודית. שאלה מעניינת היא על מה התבססה הערכה זו, אם אכן כך היה. במקרה הזה טעות הדגימה המירבית היא 3.4% ((בהנחה שבאוכלוסייה היהודית השונות לשאלת כן/לא היא מקסימלית ולכן שווה ל-0.25, ומכאן שהשונות המקסימלית במגזר הלא יהודי היא לכן 0.15)) . לו היו לוקחים מדגם רגיל בגודל 765 מתוך כל האוכלוסייה, טעות הדגימה המירבית הייתה 3.6%. כלומר, דגימת השכבות הפחיתה את טעות הדגימה ב-0.2%. ((למי שמעוניין לבדוק את החישובים שלי – מצורף קישור לקובץ pdf ))

סיבה אפשרית שלישית היא שלקחו את גודל המדגם “הרגיל” בו נהגו להשתמש כאשר ביצעו מדגמים רק בקרב האוכלוסייה היהודית – משהו בסביבות 500-600 ((שנותן טעות דגימה של 4 עד 5 אחוז)), והוסיפו מדגם יותר קטן במגזר הלא יהודי כדי לצאת ידי חובה.

המסקנה שלי מכל הדיון הזה היא שהאופן בו מתבצעים היום סקרי דעת הקהל – שני מדגמים, אחד בקרב האוכלוסייה היהודית ואחד במגזר הלא יהודי, אינו מביא תועלת רבה, ומתבסס על הנחה בעייתית במקרה הטוב: ההנחה כי שונות הדיעות בקרב המגזר הלא יהודי נמוכה באופן משמעותי מהשונות באוכלוסייה היהודית. כפי שראינו, גם אם הנחה זו נכונה, ההשפעה שלה על טעות הדגימה המירבית היא מזערית. במצב כזה ראוי יותר לבצע מדגם אחד שיכלול בתוכו את כל האוכלוסייה, יהודים ולא יהודים.

לקריאה נוספת

  • עוד רשימות בנושא מדגמים
  • עוד רשימות בנושא סקרים
מה אומרת הסטטיסטיקה, סקרים Tags:מדגמים, סקרים

ניווט

Previous Post: איך אפשר לדעת מי תזכה במונדיאל?
Next Post: תאונות הדרכים בישראל – לפני ואחרי מינוי של ישראל כץ לשר התחבורה

Comments (5) on “סקרים בקרב יהודים ולא יהודים: מדגם שכבות”

  1. איתי הגיב:
    25 ביוני 2018 בשעה 21:35

    אולי “פאנל פרויקט המדגם” דוברים ערבית פחות טובה משל statsnet, ולכן בחברת החדשות נאלצו להשתמש בשתי חברות מדגם.

    הגב
    1. יוסי לוי הגיב:
      26 ביוני 2018 בשעה 09:39

      ייתכן. זה הופך את התהליך למאוד לא יעיל, אך יכול להיות שאין ברירה.

      הגב
  2. איל הגיב:
    26 ביוני 2018 בשעה 00:54

    ״במונחים סטטיסטיים נאמר כי השונות בין השכבות גדולה, בעוד שהשונות בין השכבות נמוכה.״
    אה…
    חוץ מההערה הקטנונית הזו, פוסט מוצלח כרגיל.

    הגב
    1. יוסי לוי הגיב:
      26 ביוני 2018 בשעה 09:37

      תודה! תיקנתי

      הגב
  3. uria הגיב:
    26 ביוני 2018 בשעה 21:25

    יוסי:
    “למיטב ידיעתי, אלה סקרים טלפוניים, כאשר מספרי הטלפון אליהם מתקשרים נבחרים באופן אקראי. האם אפשר לדעת על פי מספר הטלפון האם האדם אליו מתקשרים הוא יהודי או לא יהודי? אני חושב שלא”

    מכוני סקרים בד״כ עובדים עם pool של טלפונים שמסופק ע״י הלמ״ס. הפול הזה מחולק לפי דירוג סוציו-אקו׳ ושיוך אתני. על פי רוב זה עובד בסדר.

    הגב

כתיבת תגובה לבטל

האימייל לא יוצג באתר. שדות החובה מסומנים *

אתר זה עושה שימוש באקיזמט למניעת הודעות זבל. לחצו כאן כדי ללמוד איך נתוני התגובה שלכם מעובדים.

  • תכנים נוספים בנסיכת המדעים
  • ערוץ היוטיוב של נסיכת המדעים 
  • נסיכת המדעים בפייסבוק
  • חפירות על סטטיסטיקה
  • תכנים מומלצים ברשת בנושאי סטטיסטיקה ו- Data Science
  • Privacy policy
  • מה אומרת הסטטיסטיקה
  • כלכלה וחברה
  • בריאות
  • ביוסטטיסטיקה
  • האנשים שמאחורי הסטטיסטיקה
  • נשים בסטטיסטיקה
  • סטטיסטיקה רעה
  • אותי זה מצחיק
  • בנימה אישית

Copyright © 2025 נסיכת המדעים.

Powered by PressBook WordPress theme

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish.Accept Read More
Privacy & Cookies Policy

Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
Necessary
Always Enabled
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Non-necessary
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
SAVE & ACCEPT