לפני כמה שנים (אוקיי, 15 שנה בערך), כשהייתי דוקטורנט צעיר לסטטיסטיקה באוניברסיטה העברית, השתתפתי במסגרת לימודיי בסדנה לייעוץ סטטיסטי. במסגרת הסדנה הציגו חוקרים מהאוניברסיטה, בדרך כלל דוקטורנטים ממחלקות אחרות, בעיות סטטיסטיות עימן התמודדו במסגרת מחקרם, והסטודנטים שהשתתפו בסדנה ניסו, בסיוע מרצים במחלקה לסטטיסטיקה, לסייע לחוקרים כמיטב יכולתם.
עליי הוטל לסייע לדוקטורנט מהמחלקה לגיאוגרפיה בשם סיימון (אני לא זוכר את שם המשפחה). ידידי סיימון עסק בחקר המדבר. אחד הרעיונות שהעלה היה למדוד את רמת המדבור של קרקע על ידי צפיפות האוכלוסיה של בעל חיים מסויים (איזופוד) בקרקע, שהרי ככל שהקרקע לחה יותר, יחיו בה יותר איזופודים על כל מטר מרובע.
לצורך היישום של מחקרו, הוקצו לחוקר שטחים בנגב ב-14 אתרים שונים, כאשר שטח כל אתר כשטח מגרש כדורגל או שניים. סיימון חילק כל שטח למשבצות בגודל 4 מ"ר כל אחת. אתר טיפוסי הכיל כ-2400 משבצות, 20 משבצות בשורה וכ-120 שורות. ובמשך מספר שנים בילה חלק ניכר בזמנו בנגב, סורק את הקרקע, ועורך רישום מדוייק של אוכלוסיית האיזופודים בכל משבצת ומשבצת. כאשר הגיע אל הסדנה לייעוץ סטטיסטי, היו ברשותו עשרות אלפי רשומות אודות אוכלוסיית האיזופודים, ושאלה אחת – מה עושים עם כל הנתונים האלה.
השתדלתי לעזור לו כמיטב יכולתי, ואני מקווה שהצלחתי לעזור לו בניתוח הנתונים (למיטב ידיעתי הוא קיבל את תואר הדוקטור). אבל את העזרה העיקרית שהיה יכול לקבל מסטטיסטיקאי לא יכולתי להעניק לו. הוא פשוט הגיע מאוחר מדי. לו התייעץ סיימון עם סטטיסטיקאי לפני שהתחיל את מחקרו, מציג לו את מטרות המחקר ואת המתודולוגיה הבסיסית בה הוא עומד להשתמש, אני מניח שלא היה נאלץ לספור את אוכלוסיית האיזופודים בכל משבצת ומשבצת. ניתן היה להכין תכנית דגימה שתאפשר להשיג את כל האינפורמציה הדרושה בהרבה פחות מאמץ.
נזכרתי השבוע בסיפור הזה כאשר קראתי בהארץ/דה-מרקר כתבה בנושא אחר לגמרי. "מה הגורם מספר אחת לתאונות? גם משטרת ישראל לא יודעת" – דיווח תומר הדר ב-13.5.07. הסיבה די פרוזאית: תכנת איסוף הנתונים של משטרת ישראל מאפשרת לציין רק עבירה אחת כסיבה לתאונה. אם נהג שיכור סטה מנתיב הנסיעה וגרם לתאונה, אז הסיבה לתאונה היא סטייה מנתיב עקב נהיגה בשכרות, אבל במאגר הנתונים של המשטרה ניתן לציין כסיבה "סטיה מנתיב" או "נהיגה בשכרות", אך לא את שתי הסיבות יחד. הדר שואל, ובצדק, האם הנתונים שמשטרת ישראל מעבירה ללשכה המרכזית לסטטיסטיקה, ועליהם מתבסס דו"ח הלשכה על תאונות דרכים עם נפגעים, באמת משקפים את העבירות שביצעו הנהגים. לא ברור לי כיצד התייחסו אנשי הלמ"ס לבעייתיות בדיווח הסיבות לתאונות – בהודעה לעיתונות לא נאמר על כך דבר. (מי שמעוניין מוזמן לפנות אליהם ולנסות לברר – הכתב תומר הדר לא טרח לקבל את תגובת הלמ"ס).
מה הקשר בין שני הסיפורים האלה? בשניהם יש איסוף לקוי של נתונים, שנובע מחוסר תכנון מראש של תהליך האיסוף. במקרה של משטרת ישראל יש נסיבות מקלות, כפי שמסביר בכתבה ד"ר משה בקר: "המשטרה מסמנת את העבירה שנראית לה מתאימה ביותר לצורך תביעה משטרתית מבחינת הפרקליטות". מערכת הדיווח והאיסוף אכן ממלאת כנראה את תפקידה במערכת האכיפה והענישה, אך למחקר עמוק יותר, שיוכל אולי לסייע במניעה של תאונות דרכים, לא תצלח המערכת המשטרתית. את המחיר ישלמו הנפגעים בתאונות הבאות. אבל הנסיבות המקלות אינן מהוות תירוץ עבור הלמ"ס: האם לא ניתן היה לדגום חלק מהתאונות, ולחפש בניירת שבארכיון את כל הנתונים הרלוונטיים לתאונה? זה דורש תקציב, כמובן, וכח אדם. האם הייתה בקשה לתקצוב מחקר סטטיסטי מעמיק יותר של תאונות הדרכים? לא ברור, אם כי אני מעריך שמחקר כזה אכן אינו אפשרי מעשית.
המסקנה משני הסיפורים הלא קשורים האלה ברורה: כדי להשיג ביעילות את הנתונים המתאימים כדי לענות על שאלה מחקר (מהו הגורמים לתאונות הדרכים או מהי מידת הלחות בקרקע מדברית), יש צורך לתכנן מראש איזה נתונים צריך לאסוף, וכיצד לאסוף אותם. התייעצות עם סטטיסטיקאי לפני הביצוע חיונית. אם אתם מגיעים לפגישה ראשונה עם הסטטיסטיקאי לאחר שהנתונים נאספו, זה עלול להיות מאוחר מדי. ייתכן שתגלו כי השקעתם משאבים רבים באיסוף נתונים מיותרים, או גרוע מכך – אין ברשותכם נתונים חשובים שכבר אי אפשר לשחזר
פורסם לראשונה באתר "רשימות" בתאריך 25 במאי 2007 שם התקבלו 3 תגובות
התגובות מתפרסמות על דעת ובאחריות כותביהן בלבד.
רחל בתאריך 5/25/2007 7:51:45 PM
זה מריח לי מוכר מדי…
ואין לי שום נגיעה לסטטיסטיקה אלא סתם שכל ישר ויצירתיות. פשוט הבעיה היא שאלת מחקר כושלת.
איסוף נתונים כושל ואז כבר אין לך מה לעשות בקיצור מה שנקרא בעיברית מדוברת סינדרום וינוגרד.
או בלשון עדות הספרות המדוברת: מעט מדי מאוחר מדי.
כלומר קודם היה צריך לקרוא לך ואז רק לבצע את המחקר האמור.
קודם היה צריך לאסוף את הנתונים הנכונים מזירת התאונה ולדווח עליהם בצורה הנכונה ללשכה המרכזית לסטטיסטיקה ולא רק על נתון חלקי בלבד
כלומר, לשני הגורמים יש כנראה חוזק שונה מבחינה סטטיסטית אבל הוא מכריע כגורם משולב לתאונה.
כלומר נהיגה במהירות מופרזת לבדה כאשר האדם פיכח תספיק לו אולי לבלום בזמן.
נהיגה במהירות בשילוב עם שיכרות תהיה קטלנית!!!
אולי התוכנה לש המשטרה דפוקה ואפשר להכניס רק נתון אחד כגורם לתאונה מי יודע?
בהנת את שטקר?
רחל
גיל [אתר] בתאריך 5/26/2007 3:44:52 AM
בכל מקרה, עדיף שיש עודף נתונים
שצריך לסנן ממחסור חמור בנתונים.
טל גלילי [אתר] בתאריך 6/6/2007 11:32:56 PM
רשומה מעניינת
תודה יוסי.
אגב,
את אותו קורס שתיארת (אצלנו הוא כונה "סמינר המעבדה לסטטיסטיקה"), לקחתי בשנתי האחרונה לתואר הראשון – וזו הייתה הסדנה שהובילה אותי להמשיך בלימודי הסטטיסטיקה שלי לתואר השני.
טל.