אני מניח שלאור 25 אחוזי הרייטינג להם זכה חיים הכט אתמול (11 ביולי 2004) בתכניתו “בין כרכור לסינגפור“, חלק מכם ראה את התכנית. אני מניח שעוד יאמרו וייכתבו דברים רבים על יצירתו האחרונה של מייקל מור של הימין הישראלי, לכן אסתפק כאן בדיון קצר אודות אפיזודה קטנה מהתכנית הנ”ל, הקשורה (כמובן) לנסיכת המדעים, היא הסטטיסטיקה.
כדי לקלס את מערכת החינוך הסינגפורית, הביא הכט את מה שכינה “מדגם אקראי” של תלמידות כיתה ג’ סינגפוריות וישראליות, וממנו עלה כי הסינגפוריות מעדיפות לקרוא ספרים, לעומת הישראליות המעדיפות לצפות ב-MTV. אבל למה התכוון במילים “מדגם אקראי”?
מה שראינו בהחלט היה מדגם, שכן מדגם מוגדר כקבוצה חלקית של האוכלוסייה. בדרך כלל, שואפים שמדגם יהיה מדגם מייצג לאוכלוסיה. אני מניח כי במילים “מדגם אקראי” התכוון הכט לומר כי המדגם לא היה מייצג, ולכן אין לראות בתשובות שהציג בתכנית עדות מוסמכת להעדפותיהן של בנות ה-9 בשתי הארצות (מה שכל צופה רציונאלי היה מסיק ממילא). ברור לי כי הכט ראיין מספר תלמידות, ובעריכה שתל את התשובות שידגישו את המסר שהוא רוצה להעביר. התלמידות שהוצגו בתכנית נבחרו באופן בלתי אקראי כלל וכלל. להיפך. העדויות שהוצגו בפנינו היו מוּטוֹת (biased) לטובת המסר של הכט.
ואם המדגם שהוצג לא היה מדגם אקראי, למרות שכך נאמר, מהו באמת מדגם אקראי, ומה תועלתו?
הארי טרומן לא ממש מתרגש מסקר השיקאגו טריביון שהכריז על הפסדו לדיואי בבחירות לנשיאות ארה”ב ב-1948
סוקרים למדו בדרך הקשה כי לקיחת מדגם מייצג היא בעיה קשה במיוחד (הדוגמא הבולטת היא הסקר שהכריז על הפסדו של הארי טרומן בבחירות לנשיאת ארה”ב ב-1948). ניתן לקחת מדגם שייצג תכונות ידועות באוכלוסיה בקלות (יחס בין מספר הגברים לנשים למשל), אולם כיצד נדע אם המדגם מייצג את האוכלוסייה גם בערכו של הפרמטר הבלתי ידוע, למשל העדפה בין קריאה לצפייה בטלוויזיה? מתברר שניתן לעשות זאת אם שיטת הדגימה היא הסתברותית. אם נדע בדיוק את ההסתברות של כל פרט באוכלוסיה להיכלל במדגם, אזי נוכל לאמוד בדיוק רב את ערכו של הפרמטר הבלתי ידוע (למשל, איזה אחוז מתלמידות כיתה ג בישראל מעדיף קריאת ספרים על פני צפייה ב-MTV). הדרך הקלה ביותר לעשות זאת, היא על ידי בחירת המדגם באופן אקראי לחלוטין מתוך האוכלוסייה. מתודולוגיה זו נקראת בסטטיסטיקה בשם “מדגם מקרי פשוט” (simple random sample – באנגלית זה נשמע יותר טוב).
מוזר – אך המדגם האקראי הוא המדגם האמין שניתן להסתמך על תוצאותיו.
פורסם לראשונה ב 12 ביולי 2004 באתר “רשימות”