חיפוש באתר

קישורים

עמודים

קטגוריות

ארכיב עבור תגית סקרים

סקרים בקרב יהודים ולא יהודים: מדגם שכבות

בחודשים האחרונים, בעקבות ביקורת פוליטית בעיקרה[1], עברו אמצעי התקשורת בישראל לפרסם סקרי דעת קהל בהם נסקרת גם דעתם של ערביי ישראל, בניגוד לנוהג הקודם שבו נערכו סקרי דעת הקהל בקרב "האוכלוסייה היהודית הבוגרת". סקרים אלה מבוססים על עריכה של שני סקרים נפרדים, אחד בקרב האוכלוסייה היהודית והשני בקרב האוכלוסייה הערבית, ושיקלול תוצאות שני הסקרים. מתודולוגיה זו ידועה בשם "מדגם שכבות".

הרעיון של מדגם שכבות אכן פשוט מאוד, וכבר הוסבר למעשה בפיסקה הקודמת. אולם יש מספר שאלות מעניינות שאנסה לתת להן תשובות כאן. לאחר שאסביר את העקרונות אנתח דוגמה ספציפית של מדגם כזה שהוצג בערוץ 10. המסקנה שלי היא כי במקרה הזה אין תועלת במדגם מפוצל, ורצוי לערוך מדגם יחיד בקרב כל האוכלוסייה.

מתי כדאי לערוך מדגם שכבות?

בעקרון כדאי לערוך מדגם שכבות כאשר האוכלוסייה הנדגמת (לא בהכרח בני אדם), מתחלקת למספר קבוצות הנקראות שכבות. מדגם שכבות יעיל יותר ככל שההבדלים בין השכבות משמעותיים יותר, ומאידך ההבדלים בין הפרטים בתוך השכבות קטנים יותר. במונחים סטטיסטיים נאמר כי השונות בין השכבות גדולה, בעוד שהשונות בתוך השכבות נמוכה.

לדוגמה, נניח שאנחנו רוצים לאמוד את מחירה של דירת 4 חדרים בתל אביב. דרך אחת היא לקחת מדגם של דירות ברחבי העיר. אולם, מאחר ויש שוני רב בין שכונות העיר (תחשבו על רמת אביב ג מול נווה עופר, למשל), ייתכן וכדאי לקחת מדגם קטן יותר בכל אחת משכונות העיר ולשקלל את תוצאות המדגמים. זאת גם מכיוון שבתוך כל שכונה ההבדלים היחסיים בין דירות דומות בתוך השכונה הינם יחסית קטנים בהשוואה להבדלים בין כלל הדירות בכל העיר.

איך מבצעים את המדגם?

לאחר שנקבעו השכבות, אפשר לדגום מדגם הסתברותי פשוט ("מדגם רגיל") בתוך כל אחת מהשכבות, אם כי אפשר כמובן לבצע בתוך כל שכבה מדגמים מורכבים יותר.

איך משקללים את התוצאות?

את התוצאות משקללים על פי גדלי השכבות. לדוגמה, נניח שבעיר מסויימת יש שלושה איזורים: צפון, מרכז ודרום, ואנו מעוניינים לאמוד את השכר הממוצע בעיר. בצפון מתגוררים 5000 איש הנכללים במדגם, במרכז 15000 ובדרום 30000. נניח שמסיבה כלשהי הוחלט כי גודל המדגם בשכבת הצפון יהיה 500 איש, במרכז 1000, ובדרום 250[2]. מקבלים כי השכר הממוצע בכל אחד מהאיזורים הוא 15,000 ₪ בצפון, 5000 ₪ במרכז, ו-9000 שח בדרום. מכיוון שבצפון מתגוררים 10% מהתושבים (5000 מתוך 50000) במרכז 30% (15 אלף מתוך 50 אלף) ובדרום 60% מהתושבים (30 אלף מתוך 50 אלף), האומדן לשכר הממוצע הכולל הוא לכן 8700 ₪:

 

 

 

האינטואיציה לחישוב: השכר הממוצע בשכבת הצפון הוא 15000 ₪. לא משנה איך הוא נאמד, הפרשנות של הנתון היא כי כל תושב בשכבה מרוויח "בממוצע" 15000 ₪, ולכן 5000 תושבים מרוויחים בסך הכל 5000 כפול 15000 ₪, כלומר 75 מיליון שח, באותן אופן סך כל השכר באיזור המרכז הוא 6000 ₪ כפול 15000 כלומר 90 מיליון ₪, ובאיזור הדרום סך השכר של כל התושבים הוא 9000 ₪ כפול 30000 תושבים, וזה יוצא 270 מיליון ₪. כעת מחברים את כל הסכומים ומקבלים 435 מיליון ₪, ומחלקים את הסכום הזה במספר התושבים, 50000, ומקבלים 8700.[3].

איך מחשבים את טעות הדגימה?

טעות הדגימה תלויה בשונות הכוללת של המדגם, ובגודל המדגם. ככל השונות הכוללת גדולה יותר, כך טעות הדגימה גדולה יותר. מצד שני, אפשר להקטין את טעות הדגימה לגודל הרצוי לנו על ידי הגדלת גודל המדגם. אם השונות הכוללת וגודל המדגם הכולל נתונים, חישוב טעות הדגימה הוא סטנדרטי – מכפילים את סטיית התקן של הממוצע בקבוע מההתפלגות הנורמלית, בדרך כלל 1.96 כדי לקבל רווח סמך של 95%.

איך קובעים את גודל המדגם?

הבעיה היא כמובן שכדי לקבוע את גודל המדגם צריך לדעת את השונות הכוללת ואת השונות בתוך כל שכבה, וכדי לדעת מה השונויות האלה צריך לקחת מדגם. בעיה זו, אגב, אינה ייחודית למדגם שכבות אלא לכל מדגם שהוא.

יש מספר דרכים להתגבר על הבעיה. אפשר לבצע מדגם מקדים קטן יחסית (פיילוט) כדי לקבל הערכה גסה לשונות. אפשר להסתמך על ידע קודם, ואפשר לתכנן על פי התרחיש הגרוע (worst case scenario) – דבר המקובל בעיקר כאשר מנסים לאמוד פרופורציות, כמו למשל שיעור התומכים בעמדה מסויימת. אפשרות נוספת היא לקבוע את גודל המדגם כגודל המדגם הדרוש כדי להבטיח את גודל טעות הדגימה המירבית במדגם רגיל ללא שכבות.

את השונות הכוללת מחשבים באופן דומה לחישוב בממוצע, כלומר על ידי שקלול השונויות בכל אחת מהשכבות בגורם שקלול הקשור בגודל היחסי של השכבה. עם זאת, גורמי השקלול אינם אינטואיטיביים כמו בשקלול הממוצעים של השכבות. השקלול מתבסס על ריבועי המשקלים של השכבות. בדוגמה שלנו, המשקל של שכבת הצפון היה 10% או 0.1, ולכן המשקל שלה בשקלול השונויות יהיה 0.1 בריבוע, כלומר 0.01, וכך לשאר השכבות. שימו לב כי המשקלים כעת לא מסתכמים ל-100%.

לאחר שיש בידינו את אומדני השונויות אפשר לחשב מתוכן את גודל המדגם הדרוש (אני אחסוך מכם את הנוסחה).

דרך אחרת לקבוע את גודל המדגם היא לקבוע בנפרד את גודל המדגם בכל שכבה, וגודל המדגם הכולל יהיה לכן סכום גדלי כל המדגמים השכבתיים. דרך זו בדרך כלל אינה יעילה.

איך קובעים את גדלי המדגם בכל שכבה?

בהנחה שקבענו את גודל המדגם הכולל (ולא את גודל המדגם לכל שכבה בנפרד), יש מספר דרכים לקבוע איך לחלק אותו בין השכבות.

האפשרות הנאיבית היא לחלק את המדגמים באופן פרופורציונלי לגדלי השכבות. בדוגמה שלנו היה מדגם בגודל 1750. חלוקה פרופורציונלית בעיר שלנו הייתה מובילה למדגם בגודל 175 באיזור הצפון (10% מ-1750), 525 במרכז (30% מתוך 1750) ו-1050 בדרום (60% מתוך 1750).

מה נאיבי בחלוקה כזו? היא לא מתחשבת בשונויות שבתוך השכבות, ומכיוון שכך, למה לטרוח? כל הרעיון של מדגם שכבות הוא לנצל את ההבדלים שבין השכבות.

החלוקה האופטימלית מתבצעת על פי השונויות – ככל שהשונות בשכבה גדולה יותר, כך יידגמו יותר פרטים מהשכבה. בדוגמה שלנו נלקח מדגם בגודל  1000 ממרכז העיר בו מתגוררים 15000 תושבים, אך מדרום העיר שם מתגורר מספר כפול של תושבים נלקח מדגם קטן פי 4. זאת ככל הנראה מכיוון שהשונות בדרום העיר קטנה באופן משמעותי מהשונות במרכז העיר[4]

דוגמה: למה בוטל המשחק של ארגנטינה בישראל

מה הסיבה המדוייקת לביטול אי אפשר כנראה לדעת, אבל אפשר לשאול את הציבור מה דעתו בנושא. הנה לדוגמה תוצאות של סקר שנערך בערוץ 10:

 

 

 

 

 

 

 

 

הסקר בוצע בצורת מדגם של שתי שכבות: האוכלוסייה היהודית ו-"המגזר הלא יהודי". טעות הדגימה לא דווחה.[5]

מהאוכלוסייה היהודית נלקח מדגם בגודל 615 ובמגזר הלא יהודי נלקח מדגם בגודל 150. מדוע נקבעה החלוקה הזו? יכולות להיות לכך מספר סיבות.

סיבה אפשרית אחת היא כי חישבו תחילה שגודל המדגם הכולל צריך להיות 765 ואחר כך חילקו אותו באופן קרוב לפרופורציונלי. זו לא חלוקה מדוייקת כי האוכלוסייה היהודית הבוגרת מהווה 76% מסך האוכלוסייה הבוגרת במדינה, על פי נתוני הלמ"ס לשנת 2015 (קישור לקובץ פדף). חלוקה פרופורציונלית צריכה להוביל למדגם בגודל 581 באוכלוסייה היהודית, ו-184 במגזר הלא יהודי. במקרה הזה, גודל המדגם במגזר הלא יהודי נמוך בכמעט 20% ממה שהוא צריך להיות על פי הקצאה פרופורציונלית.

סיבה אפשרית שניה היא כי ההקצאה נובעת מכך שהשונות בתוך המגזר הלא יהודי נמוכה באופן משמעותי מהשונות במגזר היהודי, ולכן גודל המדגם יכול להיות קטן יותר. ערכתי את החישובים[6] ומצאתי כי אם זו אכן הייתה הסיבה, הרי שההערכה הייתה כי השונות במגזר הלא יהודי קטנה בערך ב-40% מהשונות באוכלוסייה היהודית. שאלה מעניינת היא על מה התבססה הערכה זו, אם אכן כך היה. במקרה הזה טעות הדגימה המירבית היא 3.4%[7] . לו היו לוקחים מדגם רגיל בגודל 765 מתוך כל האוכלוסייה, טעות הדגימה המירבית הייתה 3.6%. כלומר, דגימת השכבות הפחיתה את טעות הדגימה ב-0.2%.[8]

סיבה אפשרית שלישית היא שלקחו את גודל המדגם "הרגיל" בו נהגו להשתמש כאשר ביצעו מדגמים רק בקרב האוכלוסייה היהודית – משהו בסביבות 500-600[9], והוסיפו מדגם יותר קטן במגזר הלא יהודי כדי לצאת ידי חובה.

המסקנה שלי מכל הדיון הזה היא שהאופן בו מתבצעים היום סקרי דעת הקהל – שני מדגמים, אחד בקרב האוכלוסייה היהודית ואחד במגזר הלא יהודי, אינו מביא תועלת רבה, ומתבסס על הנחה בעייתית במקרה הטוב: ההנחה כי שונות הדיעות בקרב המגזר הלא יהודי נמוכה באופן משמעותי מהשונות באוכלוסייה היהודית. כפי שראינו, גם אם הנחה זו נכונה, ההשפעה שלה על טעות הדגימה המירבית היא מזערית. במצב כזה ראוי יותר לבצע מדגם אחד שיכלול בתוכו את כל האוכלוסייה, יהודים ולא יהודים.

לקריאה נוספת


הערות
  1. ומוצדקת, לדעתי []
  2. אגיע לכך עוד מעט []
  3. קחו מחשבון ותבדקו []
  4. בהנחה כי גדלי המדגם האלה אכן חושבו על פי השונויות בכל שכבה אפשר לחשב פי כמה השונות בדרום העיר יותר קטנה מהשונות במרכז אם ממש רוצים []
  5. עוד שאלה מעניינת: כיצד מבצעים מדגם כזה בקרב אוכלוסייה מסויימת, יהודית או לא יהודית? למיטב ידיעתי, אלה סקרים טלפוניים, כאשר מספרי הטלפון אליהם מתקשרים נבחרים באופן אקראי. האם אפשר לדעת על פי מספר הטלפון האם האדם אליו מתקשרים הוא יהודי או לא יהודי? אני חושב שלא. []
  6. למעוניינים ראו את הנוסחה כאן, תחת הכותרת Neyman Allocation []
  7. בהנחה שבאוכלוסייה היהודית השונות לשאלת כן/לא היא מקסימלית ולכן שווה ל-0.25, ומכאן שהשונות המקסימלית במגזר הלא יהודי היא לכן 0.15 []
  8. למי שמעוניין לבדוק את החישובים שלי – מצורף קישור לקובץ pdf []
  9. שנותן טעות דגימה של 4 עד 5 אחוז []

סטטיסטיקה רעה: מדגם לא מייצג

הסטטיסטיקה מבוססת על מדגמים. מדגם לא מייצג מוביל בדרך כלל להטיה בנתונים הנאספים ולמסקנות שאינן תקפות.

לרוב אין זה מעשי לאסוף את כל הנתונים הדרושים למחקר מסויים[1], ולכן יש להסתפק במדגם – כלומר בנתונים חלקיים. המדגם צריך לאפשר הסקה לגבי כלל הנתונים. אם המדגם אכן מאפשר זאת, המדגם הוא מייצג. מדגם לא מייצג, ברוב המקרים, לא מאפשר הסקה אמינה.

במקום לתת הסברים טכניים, אציג כאן מספר דוגמאות. רובן עוסקות בסקרים, אך הבעיות עלולות לצוץ בכל מיני יישומים אחרים (למשל דגימה של מוצרים מפס הייצור לצורך בקרת איכות, או ביצוע AB testing בקרב משתמשים, למשל עלי ידי הכללה של משתמשים חדשים בלבד).

נתחיל בסקרי בחירות. שתי דוגמאות מפורסמות הן סקרי הבחירות לנשיאות ארצות הברית ב-1936 (רוזוולט נגד לנדון) וב-1948 (טרומן נגד דיואי) .

ב-1936 ערך העיתון Literary Digest סקר שהקיף 2.4 מיליון משתתפים. זהו הסקר הגדול ביותר שנערך אי פעם. למעשה נשלחו 10 מיליון שאלונים, אך רק רבע מהנמענים השיבו. הסקר חזה ניצחון מוחץ ללנדון, אך רוזוולט הוא זה שנבחר. התברר שהמדגם לא היה מייצג. במדגם היו שתי בעיות. השאלונים נשלחו לאנשים שהופיעו ברשימות של חברי מועדונים ו/או בספרי טלפונים. ב-1936, רוב מוחלט של האנשים האלה היו עשירים. הסקר דגם אנשים עשירים באופן שיטתי. אנשים עשירים תמכו בלנדון. העניים, שהיו רבים יותר מן העשירים, תמכו ברוזוולט. בעיה נוספת בסקר הייתה שכשלושה רבעים מהאנשים אליהם נשלחו השאלונים לא השיבו. האנשים שלא השיבו שונים מאלה שהשיבו (הם הרי לא השיבו). ייתכן מאוד כי הם נבדלו מהמשיבים גם בהעדפותיהם הפוליטיות.

יש לציין כי סקרים קודמים שהעיתון ערך בשיטה זו חזו את המנצחים בבחירות, למרות שהמדגמים לא היו מייצגים[2]. זה קרה מכיוון שהנושאים המרכזיים בבחירות קודמות היו מדיניים ולא כלכליים, ובנושאים אלה אין הבדלים מהותיים בין עניים ועשירים.

מסקנה חשובה מהסקר של 1936: מדגם גדול לא עוזר להתגבר על הטיה באיסוף הנתונים. להיפך – הוא מעצים את ההטיה.

עם זאת, היה מי שחזה היטב את התוצאות ששל הבחירות האלה – ג'ורג' גאלופ, והוא עשה זו בעזרת מדגם של 50,000 נסקרים בלבד. גאלופ השתמש בשיטת דגימה שנקראת Quota Sampling. הסוקרים שלו יצאו לשטח וראיינו בעלי זכות בחירה. כך נמנע חלק גדול מבעיית חוסר ההשבה. כמו כן, הסוקרים קיבלו הוראות מדוייקות איך לדגום את המרואיינים. למשל, סוקר שנשלח לראיין 13 איש, הונחה לראיין 7 גברים ו-6 נשים. את 7 הגברים היה עליו לבחור כך ש-3 מהם יהיו מתחת לגיל 40 ו-4 מעל גיל 40, וכולי. כך קיבל גאלופ מדגם שייצג את אוכלוסיית הבוחרים בכל הפרמטרים שלפיהם נבנתה תכנית הדגימה: מין, גיל ופרמטרים נוספים. השיטה הזו עבדה יפה עד 1948. ב-1948 חזה גאלופ, על פי השיטה הזו, כי בבחירות לנשיאות המועמד הרפובליקני, דיואי, יביס את המועמד הדמוקרטי, טרומן. טרומן ניצח. מה קרה פה? הוראות הדגימה לא כללו פילוח לפי העדפה מפלגתית – הרי זה מה שהסקר ניסה לחזות. התברר כי לסוקרים היה הרבה יותר נוח לדגום רפובליקאים (בלי שיהיו מודעים לכך, כמובן). הסקר היה מוטה לטובת הרפובליקאים.

מה קרה בבחירות 2016, בהן הסקרים והמודלים חזו כי הילארי קלינטון תנצח את טראמפ בבחירות לנשיאות?[3] התשובה עדיין לא ברורה. החיזוי נעשה על פי מודלים ששקללו מספר רב של סקרי בחירות, מעין מטה-אנליזה. המודלים האלה פותחו לקראת בחירות 2012, וחזו בדייקנות את נצחונו של אובמה על רומני. הם כשלו ב-2016. יש ויכוח בין המומחים האם המודל היה מוטה כבר ב-2012, וחזה את ניצחון אובמה למרות ההטיה, או שמא המודל נפל קורבן להטיה ספציפית ב-2016.

ראינו קודם בעיה בסקר שנגרמה, בין השאר, כיוון שרוב הנסקרים הפוטנציאליים לא השיבו לשאלות הסקר. יכולה להיות גם בעיה הפוכה – אנשים שנלהבים להשיב לסקר. כך, למשל, קרה לבעלת הטור אן לנדרס, ששאלה את קוראיה שהינם הורים לילדים שאלה פשוטה: "לו הייתם חיים שוב את חייכם, האם שוב הייתם מביאים ילדים לעולם?" (קישור לקובץ pdf). היא קיבלה כ-10000 תגובות לסקר. 70% אמרו שלא. בסקר דומה שנערך על ידי המגזין Good Housekeeping, מספר חודשים לאחר מכן, שיעור משיבי ה-"לא" היה 95%. אני חושב שכאן ברור שהמדגם לא מייצג. סביר להניח שציבור הקוראים אינו מייצג את כל האוכלוסייה (מדובר בטור במדור שמיועד לנשים, ובמגזין לנשים). כמו כן, המשיבים לסקר לא נדגמו מתוך האוכלוסייה הכללית. הם בחרו להשיב לסקר. ייתכן מאוד כי בעלי הדיעה הקיצונית, משיבי ה-"לא", היו נלהבים יותר להשיב לסקר.

דוגמה היסטורית נוספת – מחקריו של אלפרד קינזי על מיניות האדם. אני חושב שאין חולק על כך שקינזי היה פורץ דרך במחקר תחום שנחשב בזמנו לטאבו. גם ממצאיו האיכותניים עדיין נחשבים כמשמעותיים, גם כאשר עברו יותר מ-60 שנה מאז פירסם את הדו"ח שלו על מיניות האדם. עם זאת, שיטות המחקר שלו היו שנויות במחלוקת, בלשון המעטה. אני אתייחס כאן רק למחקר הכמותי שביצע. קינזי הכיר בקיומה של הומוסקסואליות, גם אצל גברים וגם אצל נשים, ואף הבחין כי מדובר ברצף, ובנה סולם בן 7 דרגות, כך שרמת הנטייה המינית של כל אדם מבוטאת על ידי דרגה בסולם, שעדיין נמצא בשימוש. שאלה מעניינת, עד עצם היום הזה, היא איזה אחוז מהאוכלוסייה נמצא בכל שלב של הסולם? הנמצאים בשתי הדרגות של הסולם נחשבים כהומוסקסואלים (או לסביות). קינזי הגיע למסקנה כי  13% מהנשים ו-7% מהגברים נמצאים בדרגות האלה.[4] אולם המדגם של קינזי לא היה מייצג, ככל הנראה במודע. היה בו ייצוג יתר לאסירים ולזונות ממין זכר. גם העובדה כי רוב הנסקרים (והנסקרות) שלו היו מתנדבים הפחיתה מרמת הייצוג של הסקרים שלו. עקב כך, ממצאיו הכמותיים שנויים במחלוקת.

הדוגמה האחרונה שאביא היא מהמחקר שפירסם משרד האוצר בשנת 2004 על מה שכינה "שכר המינימום ונזקיו". החלק הכמותי/אקונומטרי של המחקר עסק בנתונים מתקופה של 11 שנים, מ-1993 ל-2003, וזאת למרות ששכר המינימום הונהג בישראל בראשית שנות ה-70. ה-"מדגם" שלהם לא מייצג, וזה נעשה במודע. החוקרים[5] הסבירו כי "תקופת המדגם נבחרה כך שלא תכלול את השינויים המבניים הגדולים שהתרחשו בתחילת שנות ה-90". במילים אחרת, הם התעלמו במכוון מתקופה של כ-20 שנה בהן היה נהוג שכר מינימום, ומהתובנות שעשויות לעלות מהנתונים הכלכליים של התקופה ההיא. אפשר לחשוב על הרבה סיבות נוספות לבחירה שלהם, מלבד הסיבה שהם סיפקו. לא אכנס כאן לספקולציות. כמו כן, עדיין לא ניתן לקבוע בבירור האם הם צדקו במסקנותיהם. שכר המינימום כמעט ולא השתנה באופן ריאלי בין 2004 ל-2014. עם זאת, מאז 2014 חלה עליה ריאלית משמעותית בשכר המינימום, והאסונות שנחזו בדו"ח (שהיו אמורים להיות מיידיים) עדיין לא אירעו.

אז איך עורכים מדגם לא מייצג?

נסביר תחילה איך עורכים מדגם מייצג, כפי שמלמדים בקורס הבסיסי בדגימה בשנה ג' של לימודי הסטטיסטיקה. קודם כל צריכים לערוך רשימה של כל המועמדים להיכלל במדגם. זוהי מסגרת הדגימה. כעת אפשר לבחור את שיטת הדגימה.

הבסיס לכל השיטות היא דגימה הסתברותית – לכל פרט באוכלוסייה נקבעת ההסתברות כי ייכלל במדגם.

הדרך הפשוטה ביותר היא לערוך מדגם מקרי פשוט – לכל הפרטים יש את אותה ההסתברות להיכלל במדגם. כדי לקבוע מי יידגם, מכניסים לתוך כובע גדול פתקים, כשלכל פרט באוכלוסייה יש פתק עליו כתוב השם (או מזהה אחר) הפרט. מערבבים היטב את כל הפתקים, ומוציאים מהכובע מספר פתקים על פי גודל המדגם הדרוש. אפשר, כמובן, לבצע את התהליך הזה באופן ממוחשב.

יש וריאציות יותר מתקדמות. אם האוכלוסייה מתחלקת למספר שכבות אשר שונות זו מזו באופן מהותי (למשל דתיים וחילוניים), אפשר לבצע מדגם נפרד בתוך כל שכבה ולאחר מכן לשקלל את התוצאות. אם לעומת זאת, האוכלוסייה מורכבת מאשכולות אשר לא שונים זה מזה באופן מהותי (דוגמה היפותטית: אוכלוסיית הקיבוצים), אפשר לדגום רק מספר אשכולות (קיבוצים) מתוך רשימת הקיבוצים, ובעזרת מודל מתמטי לא מורכב להסיק ממדגם זה על האוכלוסייה כולה.

אבל יש גם דרכים לקבל מדגם לא מייצג. ציינתי חלק מהן בדוגמאות שהבאתי. אציין כמה מהשיטות הפופולריות.

המקרה הנפוץ הוא להשתמש במסגרת דגימה השונה באופן מהותי מהאוכלוסייה הנחקרת. זה עשוי לקרות בטעות, כפי שקרה בסקר הבחירות בארה"ב ב-1936, או במודע, כפי שנעשה במחקר המדובר של משרד האוצר. מסגרת דגימה לא ראויה עלולה לגרום לייצוג יתר של חלק מהאוכלוסייה, וייצוג חסר של חלקים אחרים. ייתכן גם כי יידגמו פרטים שאינם נכללים באוכלוסייה (למשל, נער בן 16 העונה לסוקר טלפוני לשאלה בעד מי יצביע בבחירות הקרובות).

גם כאשר בונים היטב את מסגרת הדגימה, המדגם שמתקבל עשוי להיות מוטה ובלתי מייצג עקב שיעורי השתתפות נמוכים של הנדגמים במדגם עצמו.

מדגם נוחות, בו החוקר בוחר את המדגם באופן הנוח לו (למשל, חוקר באוניברסיטה שבמחקר שלו משתתפים הסטודנטים שלו) הוא מתכון כמעט בטוח למדגם לא מייצג.

שליחת שאלונים לכל מי שאפשר (כמו בבחירות 1936 בארצות הברית) גורמת בדרך כלל גם היא לחוסר ייצוג. לפרטים שונים באוכלוסייה יש הסתברויות שונות להכללות במדגם, אולם איש אינו יודע מה ההסתברויות האלה, ולכן אין אפשרות סבירה לסיכום התוצאות.

מדגם המבוסס על מתנדבים יביא גם הוא לחוסר ייצוג, כפי שלמדנו מהמקרה של אן לנדרס. אנשים המעוניינים להיות חלק מהמדגם (נניח, מוכנים להשיב לסקר כלשהו) שונים באופן מהותי מאלה שאינם מעוניינים. זו בעיה די שכיחה בטכניקה של הפצת שאלונים באינטרנט, למשל.

המתודולוגיה של הפצת שאלונים (כיום בעיקר דרך האינטרנט) כאשר מצורפת אליהם הבקשה "אנא שתפו עם חבריכם" ידועה בשם "מדגם כדור השלג". מספר ראשוני קטן של נדגמים מפיצים את השאלון בקרב חבריהם, ואלה בתורם מפיצים את השאלון הלאה. התוצאה: הנדגמים יהיו כולם שייכים לרשת חברתית מסויימת, שקרוב לוודאי תהיה שונה באופן מהותי מכלל האוכלוסייה ולא תייצג אותה.

לסיכום – יש להחליט על הדרך בה ייאספו הנתונים שישמשו לאחר מכן כבסיס לניתוח סטטיסטי בכובד ראש, וזאת כדי להמנע מהכשלים והבעיות שנימנו כאן. מדגם לא מייצג יוביל כמעט תמיד לתוצאות לא תקפות.

 


רשימות נוספות בסדרה:


הערות
  1. למשל נתוני השכר של כל אזרחי מדינת ישראל []
  2. גם אז הם דגמו יותר עשירים באופן שיטתי []
  3. טראמפ ניצח, לידיעת מי שהדחיק []
  4. הנתון הידוע, הטוען כי שיעור ההומוסקסואלים ו/או לסביות באוכלוסייה הוא 10%, הגיע מחישוב הממוצע של 7 ו-13 []
  5. שלא היו מספיק אמיצים כדי לחתום על המחקר בשמם []

מהו גודל המדגם המתאים?

אוכלוסיית ישראל גדולה בערך פי 2 מאוכלוסיית ניו זילנד. כדי לאמוד את מספר התומכים בראש הממשלה בישראל (עם טעות דגימה של כ-3%, וברמת סמך של כ-80%) דרוש מדגם מייצג בגודל של כ-500 איש[1].  מה צריך להיות גודלו של מדגם מייצג בסקר דומה בניו זילנד?

שאלתי את השאלה הזו בסקר שערכתי בטוויטר, ולשמחתי הרבה רוב העונים ענו את התשובה הנכונה: גם בניו זילנד צריך סקר בגודל 500. ברשימה הזו אסביר מדוע זה נכון, וגם מדוע זה לא בהכרח נכון.

סיפור מהעבר: אי שם בתחילת שנות ה-90 לימדתי כמה קורסים של סטטיסטיקה לכלכלנים. שאלתי שאלה דומה לזו באחד המבחנים נתתי. חלק מהסטודנטים טענו כי השאלה לא הייתה הוגנת. אני טענתי שכן, ומייד אסביר מדוע.

השאלה הזו נועדה לבדוק ישירות האם הסטודנט מבין כיצד מחושב גודל המדגם. לכאורה אין בעיה. יש נוסחה (לפחות למקרה הספציפי הזה), מציבים בנוסחה את כל הפרטים הדרושים, ומחשבים. לראיה, בשאלה אחרת התבקשו הנבחנים לחשב גודל מדגם, רוב הסטודנטים ענו נכון על השאלה, ואיש לא טען שהשאלה לא הוגנת.

אבל יש בעיה. יש הבדל בין לדעת לחשב את גודל המדגם ובין להבין כיצד גודל המדגם מחושב. לדעתי ולמיטב זכרוני עמדתי בהרצאות על ההבדל בין שני הדברים, וציינתי כי גודל המדגם לא תלוי בגודל האוכלוסייה, אבל כנראה לא הדגשתי את זה מספיק בקורס הספציפי המדובר. בהמשך הקריירה שלי הקפדתי יותר להדגיש את המשמעות של הנוסחה, ולא רק את השימוש בה (בתקווה שזה עניין מישהו).

בואו ניכנס לפרטים. אנחנו נדבר כאן רק על המקרה הפשוט ביותר, בו רוצים לאמוד פרופורציה באוכלוסייה, כגון שיעור התומכים בראש הממשלה, אחוז הגברים שגובהם מעל 180 ס"מ, או אחוז התומכים בלגליזציה של סמים קלים. העקרונות שאציג נכונים גם למקרים מורכבים יותר.

הדרך הכי קלה (לפחות למרצה שעומד מול סטודנט זועם) להסביר למה צריך את אותו גודל מדגם בישראל ובניו זילנד היא לשלוח אותו לנוסחה, או למחשבון חישוב גודל מדגם שניתן למצוא בקלות באינטרנט. יש כל מיני נתונים שאתם צריכים להציב בנוסחה או להזין למחשבון. גודל האוכלוסייה לא נדרש. סוף הסיפור.

אבל בואו ננסה להבין באופן אינטואיטיבי מה קורה פה. התשובות האפשריות בסקר שערכתי היו 500 – התשובה הנכונה, 250 – תשובה שנועדה לתפוס את אלה שההיגיון שלהם אמר שאם האוכלוסייה קטנה פי 2 אז גם המדגם צריך להיות קטן פי 2. ל-350 הגעתי על ידי חלוקה של 500 בשורש של 2.

מה היה קורה אם התשובה 250 הייתה נכונה? כלומר, מה היה קורה אם גודל המדגם היה פרופורציוני לגודל האוכלוסייה? אז בניו זילנד, עם 4 מיליון תושבים בערך "צריך" מדגם של 250. בארצות הברית, שבה כ-330 מיליון תושבים, צריך מדגם בגודל 20625 (נשמע הגיוני, לא?), בסלובניה שבה כ-2 מיליון תושבים אפשר להסתפק במדגם בגודל 125, באיסלנד שבה 350 אלף תושבים יספיק מדגם של 22 איש, ובקיבוץ אייל, שבו יש לפי ויקיפדיה 485 תושבים, צריך מדגם בגודל 0.03 איש. מה? משהו לא מסתדר פה. מקווה שהתחלתם לחשוד כבר באיסלנד.

מצד שני, יש בעיה אחרת שעולה כאן. איך נוכל לדגום 500 איש בקיבוץ אייל, כאשר אין שם בכלל 500 איש?

התשובה היא שצריך לקרוא את האותיות הקטנות. הנוסחה שמלמדים בקורס מבוא לסטטיסטיקה מניחה שהאוכלוסייה ממנה דוגמים היא אינסופית, או לפחות גדולה מאוד[2] . מה קורה כשהאוכלוסייה לא גדולה? בשביל לדעת את זה צריך להגיע לשנה ג בלימודי הסטטיסטיקה, אז לומדים את הקורס הבסיסי בדגימה. שם דנים בנושא של דגימה מאוכלוסייה סופית. הנוסחה לגודל המדגם במקרה זה כן כוללת בתוכה את גודל האוכלוסייה. נכון שאנחנו תמיד מתייחסים לאוכלוסייה סופית (גם בסין יש מספר סופי של תושבים), אך כאשר מדובר באוכלוסייה גדולה יחסית שתי הנוסחאות נותנות תוצאה דומה. במקרה של ישראל, ניו זילנד, ארצות הברית וסלובניה תתקבל אותה תוצאה גם אם משתמשים בנוסחה לאוכלוסייה אינסופית וגם כאשר משתמשים בנוסחה לאוכלוסייה סופית שלוקחת בחשבון את גודל האוכלוסייה. ההבדל זניח. באיסלנד כבד יש הבדל – אפשר להקטין שם את גודל המדגם ב-1. למעשה אם גודל האוכלוסייה הוא 10000 ומעלה הבדל בין התוצאות של שתי הנוסחאות הוא פחות מאחוז. בקיבוץ אייל כבר חייבים להשתמש בחישוב עבור אוכלוסייה סופית. שם גודל המדגם הדרוש הוא 236.


הערות
  1. המספר המדוייק הוא 457 []
  2. אם תכנסו לקישור לדף בו נמצאת נוסחת גודל המדגם שנתתי קודם, תראו שכותרת הדף היא Estimating a Proportion for a Large Population , וזה כתוב באותיות גדולות []

מהי טעות הדגימה?

הקדמה – מדגמים וטעויות

רשימה זו נכתבת שבוע לפני הבחירות לכנסת, אירוע המניב כמות גדולה למדי של סקרי דעת קהל. עם זאת, סקרי דעת קהל ומחקרים סטטיסטיים אחרים נפוצים למדי בכל ימות השנה. ברוב הסקרים המתפרסמים בעיתונות יש מידע כלשהו על "טעות הדגימה", או "טעות הדגימה המירבית". כך למשל, בסקר שבוצע על ידי חברת דיאלוג בפיקוח פרופסור קמיל פוקס ופורסם באתר עיתון "הארץ" נאמר כי "שיעור הטעות המקרית לכל שאלה בנפרד היא 3.9%". בסקר אחר שנערך על ידי מכון דחף בניהולה של ד"ר מינה צמח ופורסם באתר Ynet  נמסר כי "טעות הדגימה: בין 0.8  מנדטים למפלגה עם שני מנדטים לבין 3 מנדטים לערך למפלגה עם 33 מנדטים". מכאן שעל פי סקר מכון דחף, טעות הדגימה נעה בין 9 ל-40 אחוזים. סקר דחף, אגב התבסס על מדגם של 1000 משיבים, בעוד שסקר מכון דיאלוג הסתמך על מדגם קטן יותר של 666 נבדקים.

מבולבלים? אנסה לעשות קצת סדר בדברים.

ראשית, אזכיר לכם מהו מדגם. אנו מעוניינים לדעת תכונה מסויימת של אוכלוסיה מסויימת, כמו למשל, שיעור האזרחים המתכוונים להצביע עבור מפלגה מסויימת בבחירות הקרובות. אפשר כמובן, לפנות לכל אחד מהאזרחים בעלי זכות ההצבעה ולשאול אותם, אבל זו דרך בלתי יעילה (בלשון המעטה). אפשרות אחרת היא לבחור קבוצה חלקית של האוכלוסיה, ולשאול את חברי הקבוצה הזו לגבי כוונת הצבעתם בבחירות. הקבוצה הזו נקראת "מדגם". לאחר שיש בידינו את הנתונים מהמדגם, אנו מנסים להסיק מהפרט (קבוצת המדגם) אל הכלל (כלל האוכלוסיה). שלב זה הוא שלב ההסקה הסטטיסטית, וזו למעשה כל התורה הסטטיסטית על רגל אחת.

הבעיה במדגם היא שיכולות לקרות טעויות, ועקב כך, הנתונים שאספנו במדגם לא משקפים את התכונות האמיתיות של האוכלוסיה. כל הטעויות האלה נכללות תחת המטריה של "טעות הדגימה". למעוניינים בהגדרה מדויקת: טעות הדגימה היא אי הדיוק באמידה של פרמטר באוכלוסיה הנגרמת עקב מדידתו בקבוצה חלקית בלבד של האוכלוסיה.

ניתן לחלק את כל הטעויות האפשריות לשני סוגים: טעויות שיטתיות וטעויות מקריות. טעות הדגימה היא סך שני סוגי הטעויות – השיטתיות והמקריות.

טעויות שיטתיות

טעויות שיטתיות הן טעויות הנובעות מתכנון וביצוע לקוי של הדגימה. הן מביאות לכך שנתוני המדגם שונים באופן אינהרנטי מנתוני האוכלוסיה, או, במלים יותר עממיות: המדגם אינו מייצג את האוכלוסיה. הנה מספר דוגמאות מפורסמות של טעויות שיטתיות בסקרי בחירות:

  • בבחירות לנשיאות ארצות הברית ב-1936, חזה סקר ה-Literary Digest ניצחון למועמד הרפובליקני לנדון שהתמודד מול הנשיא המכהן רוזוולט. שאלון הסקר נשלח בדואר אל בעלי טלפונים וחברי מועדונים, כלומר תת אוכלוסיה של אנשים אמידים בזמן משבר כלכלי קשה. בעוד שהאמידים נטו לתמוך בלנדון, מעוטי היכולת, שהיו רוב גדול בקרב הבוחרים, תמכו ברוזוולט. הסקר דגם באופן שיטתי יותר תומכי לנדון מתומכי רוזוולט.  בעיה נוספת בסקר זה הייתה השיעור הגבוה של נסקרים שלא השיבו לשאלון הסקר – 76%. בניסיון שהצטבר מאז התברר כי יש הבדלים משמעותיים בין המשיבים לשאלות הסוקרים ובין אלה שבוחרים לא להשתתף במדגם.
  • בבחירות לנשיאות ארצות הברית ב-1948, חזו כל הסקרים ניצחון למועמד הרפובליקני דיואי שהתמודד מול הנשיא המכהן טרומן. חלק מהסקרים היו טלפוניים, בתקופה בה מכשיר הטלפון עדיין לא היה נפוץ כבימינו. בעלי מכשיר טלפון היו באופן טבעי אמידים יותר מאלה שאין ברשותם מכשיר, וגם תומכים ברפובליקנים. בסקרים אחרים, שהתבצעו על ידי מראיינים בשטח, המראיינים יכלו לבחור את הנסקרים כרצונם, ומטבע הדברים פנו לחפש אותם באזורים "נוחים" – שכונות טובות, יותר עשירים, יותר רפובליקנים. בעיה נוספת הייתה שרוב הסקרים נערכו כחודשיים לפני הבחירות עצמן, כיוון שהיה מקובל לחשוב כי רוב הבוחרים מחליטים למי יצביעו כבר בספטמבר. כך לא לקחו הסקרים בחשבון את המומנטום של טרומן בחודש האחרון לפני הבחירות.
  • לעיתים הנסקרים אינם כנים בתשובותיהם.
    • בשיחה עם אלכס אנסקי[1] סיפר יוסי שריד על סקר בחירות שביצע "מומחה גדול מחברה בעל מוניטין בסקרי דעת קהל" עבור המערך במערכת הבחירות לכנסת השביעית ב-1969. הסקר חזה כי המערך יזכה ב-72 מנדטים. שריד הסביר את טעותו של הסוקר: "הוא לא ידע שבארץ אנשים שמצביעים בשביל האופוזיציה לא אומרים זאת בגלוי, ובמקום זאת מסמנים 'לא יודע'". מסיבות השמורות עימם (ואני לא שופט אותם), העדיפו תומכי האופוזיציה לא לענות בכנות לחלק משאלות הסקר.
    • בבחירות 1981, חזה מדגם הטלוויזיה הישראלית ניצחון למערך בראשותו של שמעון פרס. המדגם, שנערך על ידי חנוך סמית, נערך בשיטת "סקר יציאה": המדגם היה מדגם של קלפיות, וביציאה של כל קלפי הוצבה קלפי על ידי צוות הסקר, וכל אדם שהצביע התבקש להצביע שוב בקלפי הסקר בדיוק כפי שהצביע דקות אחדות קודם לכן בקלפי האמיתית. כאמור, על פי התוצאות מקלפיות הסקר נחזה ניצחון למערך. כשעתיים לאחר סגירת הקלפיות, כאשר התקבלו תוצאות האמת מהקלפיות שנדגמו, התגלו פערים משמעותיים בין ההצבעה האמיתית וההצבעה בקלפיות הסקר. ככל הנראה, מצביעים רבים שבחרו בליכוד, הצביעו בקלפיות הסקר עבור המערך. סמית תיקן את תחזיתו על סמך תוצאות האמת מקלפיות המדגם, שהראו כי הליכוד ניצח בבחירות, כפי שהתברר לאחר ספירת כל הקולות.
  • כיום רוב מוחלט של הסקרים נערכים באופן טלפוני, כאשר הסוקרים מתקשרים לטלפון קווי ומבקשים מהעונה שמעבר לקו לענות לשאלון. בשנים האחרונות גדלה תפוצתו של הטלפון הסלולרי, וכיום יש חלק גדול באוכלוסיה שאין ברשותו טלפון נייח אלא רק טלפון סלולרי. חלק זה אינו נכלל ברוב מדגמי הסקרים, נכון לכתיבת שורות אלה. ברור לחלוטין כי יש הבדלים משמעותיים בין בעלי טלפון נייח ובין אלה המשתמשים בטלפון סלולרי בלבד. האם הבדלים אלה משתקפים גם באופן ההצבעה שלהם? איש אינו יודע, עדיין.

טעויות שיטתיות קשות ביותר לגילוי, ובדרך כלל מתגלות, אם הן מתגלות, רק לאחר מעשה. לרוע המזל, לא ניתן להתגבר עליהן באמצעות הגדלת גודל המדגם. הסקר של ה-Literary Digest מ-1936 היה סקר הבחירות הגדול ביותר שנערך אי פעם – 2.4 מליון איש השיבו לסקר, ובכל זאת הסקר כשל לחזות את המנצח בבחירות. כאשר יש טעות שיטתית, מדגם גדול יותר רק מעצים את הטעות, ואינו מכפר עליה. כמו כן, למרבה הצער, אין דרך לחשב מראש את ההשפעה הכמותית של טעות שיטתית על תוצאת המדגם.

מדגמים הסתברותיים וטעויות מקריות

כתוצאה מכישלונות סקרי הבחירות של 1948 בארה"ב, עברו בהדרגה הסוקרים להסתמך על מדגמים הסתברותיים. במדגמים כאלה, המדגם נבחר באופן מקרי מתוך האוכלוסיה, אולם הסטטיסטיקאי הסוקר יודע מה ההסתברות של כל פרט באוכלוסיה להיכלל במדגם. מדגמים הסתברותיים מאפשרים להתגבר על חלק גדול של הטעויות השיטתיות הנפוצות. בנוסף לכך, מדגם הסתברותי מאפשר לחשב את גודלה של הטעות המקרית.

מהי טעות מקרית? אם סוקר בוחר באופן מקרי 1000 איש מתוך אוכלוסיית בעלי זכות הבחירה, יש הסתברות מסויימת כי כל אותם 1000 נדגמים יהיו תומכי מפלגה קטנה בעלת כמה אלפי תומכים בלבד בכל הארץ. במקרה כזה הסוקר יחזה כי מפלגת "העתיד המופלא", למשל, תזכה ב-120 מושבים בכנסת, בעוד שבפועל היא לא תעבור את אחוז החסימה. זה מאורע מביך, אך ההסתברות להתרחשותו של מאורע כזה קטנה ביותר. אפשר לחשב את ההסתברות, כי ההסתברות של כל אדם להיכלל בסקר ידועה. כיוון שכך, אפשר לחשב מדד סטטיסטי שיכמת את שיעורה של הטעות המקרית. כך יכול פרופסור פוקס לדווח כי שיעורה של הטעות המקרית בסקר שלו היא 3.9%. הבעיה בדיווח זה: מה משמעותו של המספר הזה? בסקר שאליו קישרתי למעלה מדווח כי מפלגות קדימה ועוצמה לישראל עוברות את אחוז החסימה וזוכות לשני מנדטים כל אחת. האם ייתכן כי אחת מהן תזכה ב-2.078 מנדטים (2 מנדטים ועוד 3.9% מ-2)? האם הכוונה היא שלפי הסקר קדימה זוכה אולי ב-2.1% מהקולות, אך יתכן שתזכה במינוס 1.8 אחוזים (2.1 פחות 3.9)?

הערכת גודל הטעות המקרית בעזרת רווח סמך

בסקר בחירות טיפוסי, נשאל כל נדגם לאיזה מפלגה הינו מתכוון להצביע בבחירות. אם ניקח את הסקר של פרופסור פוקס כדוגמא, בו השתתפו 666 איש, ייתכן כי 183 מתוכם הצהירו כי בכוונתם להצביע עבור מפלגת הליכוד ביתנו[2]. אם מחלקים 183 ב-666 ומכפילים במאה מקבלים 27.5, כלומר אמדן לשיעור התומכים במפלגה זו הוא 27.5% שאמורים להעניק למפלגה 33 מושבים בכנסת[3]. כאמור, יש טעות מקרית. במדגם היו יכולים לעלות 182 תומכי הליכוד ביתנו, או 184, או 663, או כל מספר אחר בין 0 ל-666. דרך סטטיסטית מקובלת לכמת את גודל הטעות, או במלים אחרות, לציין את מידת אי הודאות של האומדן לערך האמיתי, היא לבנות עבורו רווח סמך. במלים פשוטות אך לא מדויקות, רווח סמך עבור השיעור האמיתי של תומכי הליכוד ביתנו באוכלוסיה הוא קטע המחושב מתוך תוצאות המדגם (גבול עליון וגבול תחתון) באופן שהסיכוי "לתפוס" את השיעור האמיתי בתוך הקטע הוא קבוע. נשמע מסובך, אך לסטטיסטיקאים יש כלי חזק מאוד לחישוב רווחי סמך: משפט הגבול המרכזי. אדלג על הפרטים הטכניים, ואמר רק כי רווח סמך מקורב לשיעור התומכים באוכלוסיה, ברמת סמך של 95%, הוא שיעור התומכים במדגם, פלוס מינוס אחד חלקי שורש גודל המדגם. כל זאת, כאשר מתקיימים התנאים של המשפט.

בדוגמא שלנו, שיעור התומכים בליכוד ביתנו במדגם הוא 0.275 או 27.5%. גודל המדגם הוא 666, ולכן אחד חלקי שורש 666 הוא 0.0387 או 3.9%. קמיל פוקס יודע מה הוא עושה. הדיווח בעיתון/אתר בעייתי. כאשר מדווחים כי שיעור הטעות המקרית הוא 3.9%, הכוונה היא לומר כי המרווח שבין 23.6% לבין 31.4% מכיל בתוכו "תופס" את שיעור התמיכה האמיתי בליכוד ביתנו בהסתברות של כ-95%, אם תנאי משפט הגבול המרכזי מתקיימים[4].

הבעיה היא שתנאי המשפט לא תמיד מתקיימים. תנאי יסודי במשפט הוא שמדובר במדגם מספיק גדול. כמה זה "מספיק גדול"? התשובה היא: תלוי.[5].

אומר רק שהקירוב הנורמלי הולך ונחלש ככל שמתרחקים ממרכז ההתפלגות לקצוות. באותו סקר שפורסם באתר "הארץ" דווח גם כי מפלגת "ארץ חדשה" זוכה ב-0.7% ורחוקה מאחוז החסימה. מה זה אומר? גודל המדגם היה כזכור 666, ולכן רק 4 או 5 מהנשאלים אמרו כי יצביעו עבור ארץ חדשה. משפט הגבול המרכזי לא תקף במקרה הזה, ו-0.7 פלוס/מינוס 3.9 אינו רווח סמך לשיעור האמיתי של התומכים בארץ חדשה. שימו לב כי לו זה היה רווח הסמך, לא היה ניתן להסיק כי המפלגה אינה עוברת את אחוז החסימה[6].

דוגמא יותר קיצונית היא שיעור התמיכה במפלגות קטנות יותר. איש מבין 666 הנשאלים לא אמר כי יצביע בעד מפלגת "חיים בכבוד". האם פירוש הדבר כי בבחירות תקבל מפלגה זו אפס קולות (פלוס/מינוס 3.9%)? אני מרשה לעצמי לא לענות לשאלה רטורית זו.

מה עושים כאשר משפט הגבול המרכזי אינו תקף? משתמשים בשיטות אחרות שאינן מסתמכות על המשפט. חישבתי את רווחי הסמך לשיעור התמיכה במפלגת "ארץ חדשה" על פי מספר שיטות שאינן מסתמכות על משפט הגבול המרכזי בהנחה ש-5 מבין 666 הנשאלים אכן אמרו כי יצביעו עבורה. בכל שיטות החישוב, הגבול העליון של רווח הסמך אינו עולה על 1.8%. הדיווח שוב נכון: על פי תוצאות הסקר, מפלגה זו אינה עוברת את אחוז החסימה. יש רק לזכור כי הנתון של "טעות דגימה בגובה 3.9%" אינו מתייחס למקרים בהם מספר התומכים בסקר קטן מדי.


הערות
  1. 1. מכירת הליכוד – אלכס אנסקי, עמוד 167, הוצאת זמורה ביתן מודן, 1978 []
  2. 2. לא הצלחתי למצוא את הנתונים, ולכן אני נותן את המספר הזה כדוגמא []
  3. 3. אני מתעלם מפלפולי חוק בדר עופר לצורך העניין []
  4. 4. יש להבהיר כי כי אין פירוש הדבר כי שיעור התמיכה בליכוד ביתנו נמצא בין 23.6% לבין 31.4% בהסתברות 95%. ראו גם את תגובתו של עמית גל לרשימה זו. []
  5. 5. למעוניינים: לינק לערך ויקיפדיה על הקירוב הנורמלי להתפלגות הבינומית, שנותן תשובה מפורטת יותר וטכנית []
  6. 5. כי 0.7 ועוד 3.9 שווים ל-4.8 והגבול העליון גבוה מאחוז החסימה שהוא 2% []

ספקנים בפאב – ערב הרצאות מיוחד לכבוד יום הסטטיסטיקה הבינלאומי

"ספקנים בפאב" הם מפגשים המיועדים לכל מי שמתעניין במדע, היסטוריה, פילוסופיה ובחינה רציונלית של המציאות. המפגשים מתקיימים בפאבים או במקומות אחרים שמאפשרים אווירה חברית ובלתי פורמלית, וכוללים בדרך כלל הרצאה  ודיון. "ספקנים בפאב" נערך לראשונה בלונדון בשנת 1999, וכיום קיימות עשרות קבוצות ברחבי העולם. במסגרת הקהילה הספקנית בישראל קיימות ארבע קבוצות של ספקנים בפאב, בחיפה, תל-אביב, באר שבע וירושלים.

ב-20 באוקטובר צויין ברחבי העולם יום הסטטיסטיקה הבינלאומי. לציון(מאוחר) של האירוע ייערך בתאריך 14.11.2011 ערב הרצאות מיוחד במסגרת "ספקנים בפאב" בתל-אביב בשיתוף פעולה עם האיגוד הישראלי לסטטיסטיקה (ששת קוראיי יודעים בודאי על הקשרים ההדוקים שיש לי גם עם הקהילה הספקנית וגם עם איגוד הסטטיסטיקה).

הערב יכלול חמש הרצאות קצרות (15 דקות כל אחת) שיסקרו את נושא הסטטיסטיקה מכיוונים שונים.

האירוע יתקיים בתאריך 14.11.2011 בפאב "גורדו", בחוף גורדון בטיילת תל אביב. ההתכנסות היא בשעה 8 בערב, וההרצאות יחלו בשעה 8.30. דמי הכניסה הם 10 ש"ח, ומיועדים לכיסוי הוצאות הפקת האירוע.

 

המרצים, (באופן מפתיע, לא כולם סטטיסטיקאים) וכותרות ההרצאות הם:

  • טל גלילי – כיצד חוקרים עכברים שחוקרים את סביבתם
  • יוסי לוי – כדור הכסף
  • דובי קננגיסר – מחשב, מחשב שעל הקיר
  • רון קנת – 42
  • אבנר שחר קשתן – שקרים יפים

אני מניח כי מי שקרא עד כאן כבר הבין שגם אני נמנה עם המרצים 🙂

אשמח לראותם!