אוכלוסיית ישראל גדולה בערך פי 2 מאוכלוסיית ניו זילנד. כדי לאמוד את מספר התומכים בראש הממשלה בישראל (עם טעות דגימה של כ-3%, וברמת סמך של כ-80%) דרוש מדגם מייצג בגודל של כ-500 איש (( המספר המדוייק הוא 457 )). מה צריך להיות גודלו של מדגם מייצג בסקר דומה בניו זילנד?
שאלתי את השאלה הזו בסקר שערכתי בטוויטר, ולשמחתי הרבה רוב העונים ענו את התשובה הנכונה: גם בניו זילנד צריך סקר בגודל 500. ברשימה הזו אסביר מדוע זה נכון, וגם מדוע זה לא בהכרח נכון.
סיפור מהעבר: אי שם בתחילת שנות ה-90 לימדתי כמה קורסים של סטטיסטיקה לכלכלנים. שאלתי שאלה דומה לזו באחד המבחנים נתתי. חלק מהסטודנטים טענו כי השאלה לא הייתה הוגנת. אני טענתי שכן, ומייד אסביר מדוע.
השאלה הזו נועדה לבדוק ישירות האם הסטודנט מבין כיצד מחושב גודל המדגם. לכאורה אין בעיה. יש נוסחה (לפחות למקרה הספציפי הזה), מציבים בנוסחה את כל הפרטים הדרושים, ומחשבים. לראיה, בשאלה אחרת התבקשו הנבחנים לחשב גודל מדגם, רוב הסטודנטים ענו נכון על השאלה, ואיש לא טען שהשאלה לא הוגנת.
אבל יש בעיה. יש הבדל בין לדעת לחשב את גודל המדגם ובין להבין כיצד גודל המדגם מחושב. לדעתי ולמיטב זכרוני עמדתי בהרצאות על ההבדל בין שני הדברים, וציינתי כי גודל המדגם לא תלוי בגודל האוכלוסייה, אבל כנראה לא הדגשתי את זה מספיק בקורס הספציפי המדובר. בהמשך הקריירה שלי הקפדתי יותר להדגיש את המשמעות של הנוסחה, ולא רק את השימוש בה (בתקווה שזה עניין מישהו).
בואו ניכנס לפרטים. אנחנו נדבר כאן רק על המקרה הפשוט ביותר, בו רוצים לאמוד פרופורציה באוכלוסייה, כגון שיעור התומכים בראש הממשלה, אחוז הגברים שגובהם מעל 180 ס”מ, או אחוז התומכים בלגליזציה של סמים קלים. העקרונות שאציג נכונים גם למקרים מורכבים יותר.
הדרך הכי קלה (לפחות למרצה שעומד מול סטודנט זועם) להסביר למה צריך את אותו גודל מדגם בישראל ובניו זילנד היא לשלוח אותו לנוסחה, או למחשבון חישוב גודל מדגם שניתן למצוא בקלות באינטרנט. יש כל מיני נתונים שאתם צריכים להציב בנוסחה או להזין למחשבון. גודל האוכלוסייה לא נדרש. סוף הסיפור.
אבל בואו ננסה להבין באופן אינטואיטיבי מה קורה פה. התשובות האפשריות בסקר שערכתי היו 500 – התשובה הנכונה, 250 – תשובה שנועדה לתפוס את אלה שההיגיון שלהם אמר שאם האוכלוסייה קטנה פי 2 אז גם המדגם צריך להיות קטן פי 2. ל-350 הגעתי על ידי חלוקה של 500 בשורש של 2.
מה היה קורה אם התשובה 250 הייתה נכונה? כלומר, מה היה קורה אם גודל המדגם היה פרופורציוני לגודל האוכלוסייה? אז בניו זילנד, עם 4 מיליון תושבים בערך “צריך” מדגם של 250. בארצות הברית, שבה כ-330 מיליון תושבים, צריך מדגם בגודל 20625 (נשמע הגיוני, לא?), בסלובניה שבה כ-2 מיליון תושבים אפשר להסתפק במדגם בגודל 125, באיסלנד שבה 350 אלף תושבים יספיק מדגם של 22 איש, ובקיבוץ אייל, שבו יש לפי ויקיפדיה 485 תושבים, צריך מדגם בגודל 0.03 איש. מה? משהו לא מסתדר פה. מקווה שהתחלתם לחשוד כבר באיסלנד.
מצד שני, יש בעיה אחרת שעולה כאן. איך נוכל לדגום 500 איש בקיבוץ אייל, כאשר אין שם בכלל 500 איש?
התשובה היא שצריך לקרוא את האותיות הקטנות. הנוסחה שמלמדים בקורס מבוא לסטטיסטיקה מניחה שהאוכלוסייה ממנה דוגמים היא אינסופית, או לפחות גדולה מאוד (( אם תכנסו לקישור לדף בו נמצאת נוסחת גודל המדגם שנתתי קודם, תראו שכותרת הדף היא Estimating a Proportion for a Large Population , וזה כתוב באותיות גדולות )) . מה קורה כשהאוכלוסייה לא גדולה? בשביל לדעת את זה צריך להגיע לשנה ג בלימודי הסטטיסטיקה, אז לומדים את הקורס הבסיסי בדגימה. שם דנים בנושא של דגימה מאוכלוסייה סופית. הנוסחה לגודל המדגם במקרה זה כן כוללת בתוכה את גודל האוכלוסייה. נכון שאנחנו תמיד מתייחסים לאוכלוסייה סופית (גם בסין יש מספר סופי של תושבים), אך כאשר מדובר באוכלוסייה גדולה יחסית שתי הנוסחאות נותנות תוצאה דומה. במקרה של ישראל, ניו זילנד, ארצות הברית וסלובניה תתקבל אותה תוצאה גם אם משתמשים בנוסחה לאוכלוסייה אינסופית וגם כאשר משתמשים בנוסחה לאוכלוסייה סופית שלוקחת בחשבון את גודל האוכלוסייה. ההבדל זניח. באיסלנד כבד יש הבדל – אפשר להקטין שם את גודל המדגם ב-1. למעשה אם גודל האוכלוסייה הוא 10000 ומעלה הבדל בין התוצאות של שתי הנוסחאות הוא פחות מאחוז. בקיבוץ אייל כבר חייבים להשתמש בחישוב עבור אוכלוסייה סופית. שם גודל המדגם הדרוש הוא 236.
אני אבחר בכל מי שאינו ליכוד, או מר נתניהו.
מה עושים אם כן אם רוצים לדגום מאוכלוסיות קטנות מאוד ועדיין לדגום מהן ?
מה הגודל המינימלי ?
לדוגמה קיבוץ אייל עם 500 איש, (או 500 גפרורים שרוצה לדעת אחוז תקינים בלי לשרוף את כולם…)
ונניח שאני רוצה לברר סוגיה בלי לשאול את כל האוכלוסייה (500) – כמה לדגום ?
499 – אין משמעות – כבר עדיף כל האוכלוסיה, כי מתאיינת כל המשמעות של דגימה
5 אנשים -י אינטואיטיבית פחות מידי
נא התייחס לשימוש במבחן t למדגמים קטנים,
וכן זכור לי שבניסויי מעבדה משווים בין קבוצות לביקורת גם במספרים קטנים.
תודה רבה על ההסבר הממצה ועל הקישורים המועילים! עזרת לי מאוד.