ארכיב עבור תגית סטטיסטיקה
קריירה בסטטיסטיקה – גליון מיוחד של AMSTAT NEWS
גליון חודש ספטמבר 2009 של AMSTAT NEWS, המגזין החודשי של האיגוד האמריקני לסטטיסטיקה, מוקדש לנושא המעניין במיוחד של קריירה בסטטיסטיקה. בין היתר, תוכלו למצוא שם כתבה בנושא עבודה מול ממשקים, מאמר על אסטרטגיה בחיפוש עבודה, וטיפים לכתיבת תוצאות מחקר במאמר מדעי – שלושה נושאים שיכולים לעניין גם את אלה שאינם סטטיסטיקאים.
במאמרים שיעניינו יותר את ציבור הסטטיסטיקאים מסביר הסטטיסטיקאי סיו-לי מנג מדוע הסטטיסטיקה היא הסיכוי שלך לאושר (או לסבל), וסטטיסטיקאים מרחבי ארצות הברית מתארים את עיסוקיהם הרבים והמגוונים.
חמישה מאמרים נוספים מביטים לאחור ומסכמים את הקריירות של חמישה סטטיסטיקאים נודעים.
נשלח: 22 בספטמבר, 2009. נושאים: האנשים שמאחורי הסטטיסטיקה.
תגובות: אין
| טראקבק
סטטיסטיקה זה סקסי
סטטיסטיקה זה סקסי. אני ידעתי את זה מאז ומתמיד, אבל עכשיו כולם (כנראה) מתחילים לראות את האור.
האל וריאן הוא פרופסור למדעי המידע, עסקים וכלכלה באוניברסיטת קליפורניה בברקלי. הוא גם הכלכלן הראשי של חברה שאולי שמעתם עליה, שנקראת בשם המוזר גוגל. בראיון שנתן וריאן בתחילת השנה לכתב העת של חברת הייעוץ מקינזי, אמר וריאן:
.I keep saying the sexy job in the next ten years will be statisticians
והסביר את דבריו (תרגום חופשי שלי):
"היכולות לקחת נתונים, להבין אותם, לעבד אותם, להעניק להם ערך, להציג אותם, לתקשר אותם – יהיו כישורים בעלי חשיבות עצומה בעשורים הקרובים, לא רק ברמה המקצועית, אלא גם ברמה החינוכית מבית הספר היסודי ועד לאוניברסיטה. הנתונים זמינים לכולנו באופן חפשי. היתרון נמצא ביכולת להבין את הנתונים ואת ערכם.
דבריו של וריאן הגיעו במהירות אל הניו-יורק טיימס, שם הופיעה אתמול כתבה תחת הכותרת: "For Today’s Graduate, Just One Word: Statistics", ובה מתוארים השימושים המתקדמים של הסטטיסטיקה בתחומים שונים, החל ממדעי המחשב וכלה בארכיאולוגיה. אתם מוזמנים לקרוא.
ובכל זאת, אני לא התרגשתי מהדברים. וריאן רק חזר, במלים אחרות, על דבריו של סופר המדע הבדיוני ה. ג'. וולס:
"Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write." – H. G. Wells
ששימשו אותי כמוטו להרצאה שנתתי לפני כשנתיים וחצי ביום העיון של האיגוד הישראלי לסטטיסטיקה שעסק בנושא "הסטטיסטיקה בתעשייה לאן?".
תודה לכל מי ששלח לי את הלינקים לשתי הכתבות.
נשלח: 7 באוגוסט, 2009. נושאים: האנשים שמאחורי הסטטיסטיקה, הממ... מעניין..., על סדר היום.
תגובות: 4
| טראקבק
כנס האיגוד הישראלי לסטטיסטיקה 2009
כנס האיגוד הישראלי לסטטיסטיקה ייערך השנה בבאר שבע בתאריך 17.6.התכנית (הלא סופית) של הכנס פורסמה היום באתר האיגוד.
מי שיעיין בתכנית יוכל לראות שאני אהיה שם. אני מארגן את אחד המושבים, שיעסוק בביוסטטיסטיקה (הכותרת הלא מדוייקת של המושב היא "סטטיסטיקה בתעשיית התרופות"), וגם אתן את אחת ההרצאות במושב הזה, שתעסוק באספקט מסויים של ניסויים קליניים להערכת שרידות (survival). מצגת ההרצאה תהיה זמינה כאן בסמוך למועד הכנס. כמו כן ירצו במושב זה: אלי אייל – על תכנון ניסוי קליני במחלת הפרקינסון, דני רוטשטיין – על תפקיד הסטטיסטיקאי בתעשיה הפרמצבטית, וחבי מורד – בהרצאה יותר מתודולוגית על אמידה ובדיקה של אינטראקציות במודל רגרסיה כאשר טעות המדידה לא מקיימת את הנחות הקלאסיות.
גם המושבים האחרים יהיו מעניינים, ונראה שתהיה לי התלבטות קשה בין מושב הביוסטטיסטיקה השני ומושב הסטטיסטיקה התעשייתית שבשניהם יש לי עניין רב.
וכמובן, יהיה משמח לראות שוב כל כך הרבה סטטיסטיקאים במקום אחד.
נשלח: 28 במאי, 2009. נושאים: ביוסטטיסטיקה, האנשים שמאחורי הסטטיסטיקה.
תגובות: אין
| טראקבק
הרהורים מקליפורניה
1) רשימה זו נכתבת בחדר המלון בו אני שוהה כעת, אי שם בדרום קליפורניה. כאשר הגעתי אתמול בצהריים למלון, 25 שעות לאחר שיצאתי לדרכי מביתי, הייתי עייף, אך עוד יותר רעב. לאחר מקלחת מהירה, ירדתי לארוחת צהריים במסעדת המלון. לא חיפשתי ארוחת גורמה, ולמעשה בחרתי מהתפריט המבורגר, זה הכל. אבל בקליפורניה כמו בקליפורניה. ההמבורגר הוגש עם כרובית, גזר ואספרגוס כתוספת.
2) קליפורניה (ולמעשה ארה"ב כולה) רועשת לאחר שהיום הושעה כוכב קבוצת הבייסבול לוס-אנג'לס דודג'רס מני ראמירז ל-50 משחקים, לאחר שבבדיקת סמים שנערכה לו התקבלה תוצאה חיובית. למי שזוכר, זה אותו ראמירז שסירב לחתום על חוזה שיעניק לו שכר מעליב של 45 מליון דולר במשך שנתיים (אם כי לבסוף נכנע וחתם). הנה שתי נקודות למחשבה: לאור העובדה שבבדיקה התקבלה תוצאה חיובית, מה ההסתברות כי רמירז אכן השתמש בסמים אסורים? ומה בכלל לא בסדר בשימוש בסמים? רמזים: התשובה לשאלה הראשונה נמצאת בעולם הסטטיסטיקה (רמז עבה: מספר 4 ברשימת 15 הסטטיסטיקאים הגדולים), והתשובה לשאלה השניה נמצאת בעולם הכלכלה. תשובות יגיעו מתישהו כשאתפנה לכתוב רשימות על שני הנושאים. עדכון (19.8.2009): הנה הרשימה עם התשובה לשאלה הראשונה. עדכון (27.1.2010): הנה הרשימה עם התשובה לשאלה השניה.
3) הנסיעה הארוכה אפשרה לי לקרוא סוף סוף בספר The Drunkard's Walk שקניתי לי בנסיעתי הקודמת לארה"ב. בנקודה מסויימת הספר עוסק באפשרות (או אי האפשרות) לייצר מספרים מקריים (ראו גם את רשימתו של גדי אלכסנדרוביץ’ על הנושא בבלוג שלו). בדיון שבספר מצוטט סטטיסטיקאי ירושלמי העונה לשם משה, שטען כי אין אפשרות לייצר סדרה אמיתית של מספרים מקריים, בודאי לא באמצעות מחשב, ואף לא באמצעות הטלת קוביה, למשל, וזאת בשל חוסר האפשרות הפיזית לייצר קוביה הוגנת מושלמת. בטווח הארוך, טען משה, יתגלו אי סדירויות בסדרה של תוצאות ההטלות, שישקפו את היות הקוביה בלתי מושלמת. אני מכיר שני סטטיסטיקאים באוניברסיטה העברית שעונים לשם משה, אולם מחבר הספר צמצם את מספר האפשרויות, כמסר גם כי אותו משה הוא יהודי דתי. האימות בוצע במייל, ומשה מהספר הוא פרופ' משה פולק מהאוניברסיטה העברית, האדם אשר פתח לפני את שערי עולם הסטטיסטיקה כאשר הייתי תלמיד שנה א.
4) זהו ביקורי השני בקליפורניה. הביקור הקודם היה בקיץ 1997. הטיסה חזרה אז כללה עצירת ביניים והחלפת מטוס בפניקס, אריזונה, שהתארכה הרבה מעבר לצפוי עקב תקלה טכנית במטוס. אני ומשפחתי ניסינו לשרוד בטרמינל הצפוף והמחניק, כלפתע הופיעו מולנו חברת הילדות של דודתי ובעלה. וואו! מה הסיכוי שזה יקרה? הסיכוי שאני ומשפחתי נפגוש את חברת הילדות של דודתי בפניקס אריזונה הוא קטן למדי, אבל הסיכוי שמתישהו אפגוש מישהו שאני מכיר במקום לא צפוי הוא כבר גדול למדי. אני מניח שחלק ניכר מהקוראים יכולים להזכר באירוע דומה (או אפילו יותר מאחד) שאירע להם. ומה עם הטלפון המצלצל שמעברו השני נמצא מישהו שבדיוק חשבת עליו? או החלום שחלמתם ש"התגשם"? צירופי מקרים קורים, וקורים כל הזמן. הסיפור שסיפרתי לא ממש מפתיע. מי שלא ממש מבין למה, יכול לנסות לצפות בסרטון הבא, שמסביר מדוע צירופי מקרים אינם כה נדירים, ואין בהם כל משמעות נסתרת:
נשלח: 8 במאי, 2009. נושאים: בנימה אישית, האנשים שמאחורי הסטטיסטיקה.
תגובות: 5
| טראקבק
15 הסטטיסטיקאים הגדולים
הקדמה
אמנם יש כאלה שאומרים שפוסטים של רשימות הם כל כך 2006, אבל רשימות הן בכל זאת דבר נחמד, ובמונחי הזמן שלי, 2006 לא כל כך רחוקה. הבלוג המעניין The list universe שאני קורא באופן קבוע (מומלץ) מביא כמעט כל יום רשימה מעניינת של 10 או 15 או 20 ה<שימו כאן כל דבר כמעט>. גם לי מתחשק לכתוב רשימה מהסוג הזה, ואני כידוע לא רק סטטיסטיקאי, אלא גם אדם שאוהב סטטיסטיקה, ולכן הרשימה שלי מביאה באופן טבעי את 15 הסטטיסטיקאים הגדולים ביותר, לדעתי, כמובן. אני צופה שיהיו כאלה שיחלקו על דעתי, יטענו כי הדירוג מקפח את זה ועושה חסד עם זה, ואולי יש מישהו שאינו ראוי להכלל ברשימה ואני כללתי אותו, או להיפך. זה רק שעשוע.
הקריטריון לפיו בחרתי להכניס סטטיסטיקאי (או סטטיסטיקאית) לרשימה הוא אחד ויחיד: מידת ההשפעה שלו על הסטטיסטיקה המודרנית, ואני מתכוון להשפעה ישירה. לכן כל אבות תורת ההסתברות, ובכללם פרמה, הברנולים, פסקל, לפלס, דה-מואבר, ואפילו קולמוגורוב ומרקוב לא מופיעים ברשימה שלי. הם הניחו יסודות, אבל את הסטטיסטיקה שנבנתה על היסודות האלה בנו אחרים. כמו לכל כלל, גם לכלל הזה יש יוצא מן הכלל (נא להמנע מתגובות שעוסקות בפרדוקס השקרן), ומי שתהיה לו סבלנות ימצא את היוצא מהכלל הזה קרוב מאוד לראש הרשימה.
השתדלתי לשמור על ראייה היסטורית. עשרה מהנכללים ברשימה כבר אינם חיים עימנו היום, שלושה נוספים הם בני 90, והצעיר ביותר הינו בן 71. אני יכול לחשוב על כמה סטטיסטיקאים הפעילים כיום שיכולים להימנות ביחד עם ה-15 שבחרתי, אולי במסגרת "רשימת 20", אחד או שניים אף יכולים להכנס לרשימת ה-15 על חשבון אלה שדירגתי בתחתית. אבל אני מעדיף להמתין להיסטוריה שתאמר את דברה.
אז הנה הרשימה שלי. על חלק הנזכרים הרשימה כבר כתבתי בעבר, ואני מצרף לינקים (אני גם מצרף לכל אחד לינק לביוגרפיה שלו בויקיפדיה – לחצו על השם בכותרת). על השאר אני מקווה לכתוב בעתיד, ואעדכן את הלינקים בהתאם. תיהנו.
15. דויד בלקוול (נולד 1919)

סטטיסטיקאי מאוניברסיטת ברקלי, קליפורניה, חוגג באפריל השנה את יום הולדתו ה-90. תרומתו הידועה ביותר לסטטיסטיקה היא חלקו במשפט ראו-בלקוול, המאפשר בניה קונסרוקטיבית של אמד לפרמטר, שהינו עדיף על פני אמד נתון נאיבי כלשהו. בלקוול תרם גם תרומות משמעותיות לסטטיסטיקה הבייסיאנית, תורת המשחקים ותורת ההחלטות הסטטיסטיות.
14. ג'ורג' בוקס (נולד 1919)

סטטיסטיקאי אנגלי שפעל רוב ימיו באוניברסיטת ויסקונסין במדיסון. מחלוצי המחקר בתחומים של סטטיסטיקה בייסיאנית, בקרת איכות, ניתוח סדרות עיתיות ותכנון ניסויים.
13.ק.ר. ראו (נולד 1920)

סטטיסטיקאי הודי, מתלמידיו של רונלד פישר. שותפו של דויד בלקוול למשפט ראו-בלקוול. תוצאה ידועה נוספת הנושאת את שמו היא אי-שוויון ראו-קראמר, הנותן חסם תחתון לשונותו של אמד, ובכך מהווה הערכה לטיבו. מלבד תרומותיו לתורת האמידה, נודע ראו גם בתרומותיו לפיתוח שיטות לניתוח רב-משתני.
12. פרנק וילקוקסון (1892-1965)

את וילקוקסון אני אוהב במיוחד, כי הוא הגיע אל העיסוק בסטטיסטיקה כמוני – במקרה. הוא בכלל היה כימאי, וחיפש שיטת ניתוח סטטיסטית שלא תהיה תלויה בהתפלגות של הנתונים. הוא חשב על שיטה פשוטה למדי, אך לא הצליח למצוא מראה מקום ביבליוגרפי עבורה. לכן כתב מאמר שתיאר אותה ושלח אותו לכתב עת סטטיסטי, מתוך מחשבה כי המאמר יידחה עם הפניה לעבודה המקורית שמתארת את השיטה, וכך סוף סוף ישיג את ההפניה הביבליוגרפית שחסרה לו למאמר שלו. למרבה הפתעתו, המאמר ששלח התקבל לפירסום, וכך נולד תחום סטטיסטי חדש – הסטטיסטיקה האי-פרמטרית, וגם סטטיסטיקאי חדש.
11. ויליאם סילי גוסט (1876-1937)

הסטטיסטיקאי שכמעט אף אחד לא שמע עליו, כולל בעלי תארים אקדמיים בסטטיסטיקה, אבל כ-ו-ל-ם מכירים. גוסט עבד במבשלות הבירה "גינס", ושם פיתח במסגרת עבודתו טכניקות סטטיסטיות שונות שעסקו בתכנון ניסויים וניתוח נתונים סטטיסטיים. את עבודותיו פרסם תחת הכינוי "סטודנט" בכתב העת ביומטריקה, הודות לקשריו הטובים עם העורך, קרל פירסון. את השיטה המפורסמת שפיתח להשוואת ממוצעים של שתי אוכלוסיות, מבחן t, מכיר כל מי שלמד קורס מבוא לסטטיסטיקה כלשהו.
10. דויד קוקס (נולד 1924)

סטטיסטיקאי אנגלי, נודע בעיקר בזכות תרומתו המכרעת לתחום של ניתוח נתוני השרדות (למשל, משך הזמן העובר עד שינוי במצבו הקליני של חולה). המודל של קוקס הוא סוס העבודה של ניתוח נתונים מסוג זה. תוצר לואי חשוב מאין כמוהו של מודל קוקס הוא שיטת אמידה חדשנית – "נראות חלקית" שמהווה אלטרנטיבה עמידה (רובסטית) לשיטת הנראות המירבית של פישר. הקוראים חדי העין שמו לב לדמיון בין שמו של קוקס ובין סטטיסטיקאי אנגלי אחר שנמצא ברשימה זו – ג'ורג' בוקס. השניים גם שמו לב לכך, והחליטו לכתוב מאמר משותף, פשוט כי מאמר שנושא את השמות בוקס-קוקס נראה להם משעשע (נסו להגיד "בוקס קוקס" עשר פעמים בקול רם בלי לצחוק). התוצאה הייתה מאמר חשוב שהגדיר, ניתח, והכניס לשימוש נרחב משפחה של טרנספומציות לנתונים, שנודעת מאז בשם טרנספומציית בוקס-קוקס.
9. ג'ון טוקי (1915-2000)

סטטיסטיקאי אמריקני זה היה "general practitioner". תופתעו אולי לשמוע שהוא זה שנמציא את המלים "ביט" ו-"software". אפשר לתאר כאן את עבודתו על טרנספומציות פורייה מהירות (FFT) ועל שיטת ה-jackknife, שהיא וריאציה של שיטת ה-bootstrap שפותחה מאוחר יותר על ידי ברדלי אפרון (שתשמעו עליו מייד). אבל טוקי נכנס לרשימה הזו בזכות גישת ה-"Exploratory Data Analysis" שפיתח וקידם. גישה זו דוגלת בהתבוננות בנתונים ואיתור תבניות בתוכם, בניגוד לגישה השלטת של "Confirmatory Data Analysis", שדוגלת בניסוח השערות ובדיקתן. ניתן לראות בשיטות כריית הנתונים (data mining) הפופולריות כיום כהרחבה של גישת טוקי, וללא ספק ההתפתחות העצומה בתחום מדעי המחשב סייעה לגישתו של טוקי להפוך לפופולרית ולגיטימית. מעניין לדעת האם טוקי חזה כל זאת כאשר עבד בשיתוף פעולה עם ג'ון פון ניומן בשנות הארבעים של המאה הקודמת.
8. ברדלי אפרון (נולד 1938)

אני נתקל בהרבה אנשים שמתייחסים לסטטיסטיקה כאל סוג של קסם, אבל אם יש שיטה סטטיסטית קסומה באמת, הרי זו שיטת ה-bootstrap שהגה ופיתח ברדלי אפרון מאוניברסיטת סטנפורד. חלקכם אולי מכירים את סיפורו של הברון מינכהאוזן, ששקע עם סוסו בבוץ טובעני. הברון רב התושיה וסוסו ניצלו מטביעה כאשר אחז הברון ברצועת המגף שלו עצמו ומשך את עצמו כלפי מעלה. תאמינו או לא, אבל בסטטיסטיקה הדבר אפשרי. אפרון הוכיח כי ניתן לאמוד מאפיינים סטטיסטיים של אמדים על ידי דגימה חוזרת ונשנית מתוך הנתונים שבידינו (שגם הם, מן הסתם, מהווים מדגם). כך נוצרת הדמיה (סימולציה) של מדגמים אלטרנטיביים שהיינו עשויים לראות. הטכניקה של אפרון עתירת מחשוב, והוצגה לראשונה בשנות השבעים של המאה הקודמת.
7. וו. אדוארדס דמינג (1900-1993)

זהו אחד משני הסטטיסטיקאים ברשימה שלא היו חוקרים באקדמיה, השני הוא ויליאם גוסט. אך בעוד שגוסט עבד בחברה אחת, ונאלץ לפרסם את עבודותיו בעילום שם בגלל מדיניות החברה, דמינג סבב בעולם והרצה את הפילוסופיה הניהולית-סטטיסטית שלו שדגלה באבטחת איכות תהליכית באמצעים סטטיסטיים (תחום הידוע כ-SPC , Statistical Process Control). לכל מי שהיה מוכן לשמוע. מי שהקשיבו והפנימו היו היפנים, ודמינג נחשב לאחראי העיקרי לזינוק הטכנולוגי של יפן בשנות החמישים והשישים של המאה הקודמת.
6. קרל פרידריך גאוס (1777-1855)

הרי אמרתי בדברי הפתיחה כי ברשימה יכללו אלה שיש להם השפעה ישירה על הסטטיסטיקה המודרנית, אז מה עושה כאן, ועוד במקום השישי, מתמטיקאי מהמאה ה-19? ובכן, לגאוס יש שתי השפעות כאלה: חלקו בגילוי משפט הגבול המרכזי ויישומיו, וכמובן, שיטת הריבועים הפחותים שפיתח. תוכלו לקרוא על שתי תרומות מכריעות אלה בהרחבה בשתי רשימות שפירסמתי כאן בעבר: למי צלצל הפעמון? וכן הכוכב הנעלם והאמד הכחול: משפט גאוס מרקוב ושיטת הריבועים הפחותים.
5. פלורנס נייטינגייל (1820-1910)

נייטינגייל ידועה בציבור הרחב בעיקר כאחות, אך מדובר בסטטיסטיקאית חשובה, מחלוצות הביוסטטיסטיקה. "כדי להבין את מחשבותיו של האלוהים עלינו לדעת סטטיסטיקה, משום שזהו כלי המדידה של כוונותיו", אמרה נייטינגייל. היא הבהירה היטב את דבריה כאשר השתמשה בנתונים סטטיסטיים שאספה בקפדנות והציגה באמצעות שיטות שפיתחה כדי להוכיח כי שמירה על רמת סניטציה נכונה יכולה להוריד את שיעור התמותה בבתי החולים מ-80% ל-2% בלבד. על חייה של ניטינגייל ופועלה כתבתי כאן בהרחבה בעבר: הסטטיסטיקה שהצילה חיים – סיפורה של פלורנס נייטינגייל.
4. תומאס בייס (1702-1761)

תומאס בייס היה כומר אנגלי שחי לו במאה ה-18. בימי חייו הוא פרסם שני מאמרים בנושאים תיאולוגיים פילוסופיים, אך ככל הנראה התעניין גם במתמטיקה ובהסתברות. הסטטיסטיקה עוד לא נולדה בימיו. אז מה הוא עושה ברשימה הזו, ועוד במקום הרביעי? לאחר מותו של בייס פרסם ידידו, ריצ'רד פרייס, את אחד המכתבים ששלח אליו בייס. במכתב זה הראה בייס כיצד לחשב הסתברות מותנה "הפוכה" כאשר נתונה הסתברות מותנה. לא אכנס כאן לפרטים הטכניים (זה דורש רשימה נפרדת), אבל ההשלכות מהפכניות. בייס הראה כי במובן מסויים אין חשיבות לכיוון בו זורם הזמן – ניתן להסתכל על מאורעות בסדר בו הם מתרחשים או בכיוון ההפוך. אינטרפרטציה מיידית אחרת של התוצאה של בייס היא כי הסתברות אינה בהכרח אובייקטיבית אלא יכולה להיות תלויה ב"אמונות", כלומר בהנחות שמניחים על טבעו של העולם. על סמך אינטרפרטציה זו נבנה ענף שלם וחדש של הסטטיסטיקה – שנקרא, איך לא – סטטיסטיקה בייסיאנית. הניצנים של ענף זה החלו להופיע בשנות החמישים של המאה העשרים, והסטטיסטיקה הבייסיאנית כובשת לה אט אט עוד מעריצים.
3. ג'רזי ניימן (1894-1981)

על ג'רזי ניימן וחלק מפועלו כבר כתבתי כאן בהרחבה ברשימה "בין שתי טעויות", שתיארה את התהליך של בדיקת השערות/קבלת החלטות, ואת הלמה של ניימן ופירסון, שהראתה כיצד ניתן לבנות כלל החלטה אופטימלי. למה זו היא ללא ספק המשפט השימושי ביותר בסטטיסטיקה, ורק היא לבדה מקנה לבעליה חיי נצח סטטיסטיים. בכל זאת, אני מציב במקום השלישי את ניימן לבדו, ודוחק מהרשימה את שותפו אגון פירסון (בנו של קרל פירסון). מעניין לציין כי הלמה של ניימן ופירסון דחקה את מתודולוגיית בדיקת ההשערות ששלטה עד אז בכיפה – המתודולוגיה של קרל פירסון, שניימן עבד בשיתוף פעולה עימו במשך כשנתיים. מי שלא אהב כלל לשתף פעולה עם ניימן היה רונלד פישר. הסיבה – שניהם הציגו שיטות לאמידה מרווחית של פרמטרים, כלומר שיטה למצוא תחום שהפרמטר נמצא בתוכו ברמת בטחון מסויימת. ניימן הציע את רווח הסמך – Confidence interval, בעוד שפישר הציע את הגבולות המהימנים – Fiducial limits. פישר כעס על ניימן כי חשב שגנב ממנו את הרעיון. אכן, במקרים מסויימים שתי השיטות נתנו את אותה התוצאה בדיוק. אולם, שיטתו של ניימן עדיפה על זו של פישר, כיוון שהיא מגובה בלמה שלו ושל פירסון, ולכן היא אופטימלית. פישר לא השתכנע עד יום מותו. השיטה שפיתח עדיין בשימוש במקרים בהם לא ניתן להפעיל את שיטתו של ניימן.
2. קרל פירסון (1857-1936)

קרל פירסון הוא הראשון שממש נשא בתואר "סטטיסטיקאי". הוא יסד את המחלקה לסטטיסטיקה האקדמית הראשונה בעולם, ביוניברסיטי קולג' שבלונדון, ואת כתב העת הראשון שעסק בסטטיסטיקה בלבד – ביומטריקה. תרומותיו העיקריות לסטטיסטיקה הן בפיתוח התיאוריה של הרגרסיה הלינארית (שיסודותיה הונחו, כזכור, על ידי גאוס שהמציא את שיטת הריבועים הפחותים), פיתוח מקדם המתאם, עבודתו במיון וסיווג ההתפלגויות הסטטיסטיות השונות, ופיתוח מבחן טיב ההתאמה (שידוע גם בשם "מבחן חי-בריבוע").
1. רונלד פישר (1890-1962)

לו ניתנה לי הזדמנות לפגוש באדם אחד אשר אינו בין החיים היום, האדם אותו הייתי בוחר לפגוש היה רונלד פישר. פישר למד אסטרונומיה בקיימברידג´, והתעניין במיוחד בהערכת הטעויות בחישובים אסטרונומיים. לאחר סיום לימודיו עסק מספר שנים בהוראת מתמטיקה, וב-1919 עזב את ההוראה לטובת משרת מחקר בחווה לניסויים חקלאיים, שם עסק בניסויים גנטיים. עבודתו בחווה הוליכה אותו אל העיסוק בסטטיסטיקה, שהייתה אז ענף זנוח של המתמטיקה. במסגרת עבודתו היה עליו לתכנן ניסויים ולנתח את תוצאותיהם – שני השלבים הקריטיים בכל מחקר המתבסס על איסוף נתונים ועיבודם. במשך שנות עבודתו בחווה הניח פישר את היסודות לסטטיסטיקה המודרנית. הוא הגה ופיתח את שיטת הרנדומיזציה לתכנון ניסויים, ואת ניתוח השונות (ANOVA), כלים יסודיים ומרכזיים בסטטיסטיקה המודרנית. פישר הדגיש כי שלב התכנון הוא השלב הקריטי ביותר בכל ניסוי. "לקרוא לסטטיסטיקאי לאחר שהניסוי הסתיים זה כמו לקרוא לרופא לאחר שהחולה מת", אמר פישר. "לכל היותר יוכל הסטטיסטיקאי לומר מדוע הניסוי נכשל". כמו כן הגה פישר מושג מרכזי נוסף בסטטיסטיקה – מושג הנראות (Likelihood) וממנו פיתח את שיטת האמידה הידועה כשיטת הנראות המקסימלית. פיתוחים מרכזיים נוספים שלו כללו שיטות סטטיסטיות לניתוח מדגמים קטנים, וחישובי פונקציות ההתפלגות המדויקות של מדדים סטטיסטיים רבים. חלק מעבודתו של פישר נתקל בביקורת מצידו של בכיר העוסקים בסטטיסטיקה באותה תקופה, קרל פירסון, שהתנגד במיוחד למושג הנראות ושיטת הנראות המירבית. פישר, בתגובה, פירסם מאמר ובו הצביע על טעויות באחת מעבודותיו של פירסון. היריבות בין השניים נמשכה עד מותו של פירסון, ולמעשה גם אחריה, כאשר בנו של קרל פירסון, סטטיסטיקאי נודע בזכות עצמו, המשיך לריב את ריבו של אביו. נצחון בעל משמעות סמלית נחל פישר כאשר התמנה לכהן בקתדרה על שם גאלטון בקיימברידג´ במקום פירסון, כאשר האחרון פרש לגמלאות (העלבון כפול, כי פירסון היה כזכור תלמידו של גאלטון). גם בראיה היסטורית, ניצח פישר בויכוח עם פירסון ובנו. הוא זכה להכרה בהישגיו כאשר נבחר לחברה המלכותית, זכה בפרסים רבים, כולל מדליית דרוין, וכן הוענק לו תואר אצולה. פישר פרסם מאמרים רבים הן בסטטיסטיקה והן בגנטיקה. נציין כאן את שני ספריו החשובים ביותר: "שיטות סטטיסטיות למחקר", בו סיכם את תרומותיו לסטטיסטיקה, ו-"תיאוריה גנטית של הברירה הטבעית", בו סיכם את מחקריו בתחום הגנטיקה.
הקוראים הותיקים של הבלוג הזה בודאי זוכרים את האנקדוטה אודות פישר שסירב להשתכנע כי עישון גורם לסרטן על סמך מתאם שנצפה בין שתי התופעות (ראו את הרשימה הראשונה שפירסמתי: האם החסידה מביאה ילדים לעולם?), נאמן לעקרון הסטטיסטי לפיו מתאם אינו מעיד על סיבתיות. פישר, מעשן כבד כל חייו, מת לאחר שחלה בסרטן המעי הגס בשנת 1962.
נשלח: 12 באפריל, 2009. נושאים: האנשים שמאחורי הסטטיסטיקה, היסטוריה.
תגובות: 15
| טראקבק
סקירה על סולמות מדידה
הקדמה
בעקבות דיון שהתפתח בתגובות לאחת הרשימות האחרונות שלי (וכן מספר חיפושים בגוגל על הנושא שהגיעו אל הבלוג) החלטתי להקדיש רשימה לנושא של סולמות המדידה.
עלי לציין כי במסגרת לימודיי הפורמליים מעולם לא למדתי את הנושא, ואיכשהו מניחים כי הוא ברור מאליו. אבל כשלימדתי קורסים במבוא לסטטיסטיקה מחוץ למסגרת האוניברסיטה העברית (במכללה למנהל ובאוניברסיטה הפתוחה) היה עלי ללמד את הנושא (כמובן, אחרי שלמדתי אותו היטב בכוחות עצמי), והתברר לי כי הוא גורם לקשיים אצל הסטודנטים. בחוברות המבוא לסטטיסטיקה של האוניברסיטה הפתוחה קיים טקסט ממצה של הנושא, ולכאורה, קריאה בו אמורה להקנות לקורא את כל הידע הבסיסי בנושא. אמנם האינטואיציה של הנושא ברורה לכל מי שיש לו אינטואיציה לסטטיסטיקה, כך שלי הנושא נראה טריוויאלי, אבל לא כך הדברים נראים מזוית המבט של סטודנט למדעי החברה/כלכלה/מנהל עסקים שצריך ללמוד קורס חובה בסטטיסטיקה בסיסית. כמו כן, למרות שמדובר בנושא בסיסי ופשוט יחסית, הוא דורש בכל זאת מעט חשיבה לא שגרתית, התגברות על הנטייה לייחס למושגים מתמטיים את משמעותם היומיומית, ומעל לכל, הבנה טובה של הנושא היא בסיס הכרחי להבנה של הכלים הסטטיסטיים אליהם נחשפים בהמשך.
הרשימה הזו כוללת את עיקרי הדברים המופיעים בכל טקסט בסיסי, עם מספר דוגמאות והבהרות שנהגתי לתת כהסברתי את הנושא לסטודנטים.
מהי מדידה?
כל אחד יכול לחשוב על דוגמא כלשהי למדידה. אפשר לקחת סרט מדידה ולמדוד את רוחב החלון בסנטימטרים. אנחנו לעמוד על מאזניים ביתיים ולמדוד את משקל גופנו (פעולה שאני נמנע מלבצע בדרך כלל). שוטרים משתמשים במערכות אלקטרוניות כדי למדוד את מהירות נסיעתה של מכונית. כל אלה דוגמאות נפוצות מחיי היום יום.

סטטיסטיקאי יכול לחשוב על דוגמאות נוספות שלא יעלו בדעתו של אדם רגיל, שלא נתקל בנושא סולמות המדידה באיזה קורס או טקסט. הסיבה? הגדרת המושג "מדידה". "מדידה" בלשון הסטטיסטיקה היא התאמה של ערך מספרי לתכונה. ההתאמה יכולה להיות מבוססת על מערכת פיזיקלית כלשהי, או אולי מערכת קוגניטיבית, או שרירותית לחלוטין.
לדוגמא, אם אני רוצה לשמור במחשב נתונים של מינם של המשתתפים בניסוי קליני, אני יכול להצמיד לגברים את הערך המספרי "0" ולנשים את הערך המספרי "1". "מדדתי" את מינו של כל משתתף בניסוי, על ידי כל שהתאמתי ערך מספרי (בדוגמא הזו 0 או 1) לתכונה (בדוגמא הזו: מין המשתתף בניסוי).
מנסיוני, זהו המוקש הראשון עליו עולים רוב סטודנטים. וזו בעיה ידועה, לא רק בסטטיסטיקה אלא בכל לימודי המדעים המדויקים. צריך לעשות הפרדה בין המושג האינטואיטיבי של "מדידה", שתואר בפסקה הראשונה בסעיף זה, ובין המושג הסטטיסטי של מדידה, כפי שהוגדר בפסקה השניה.
לסיכום הסעיף הזה: בכל פעם שאתם משתמשים במספר כדי לתאר משהו – ביצעתם מדידה.
מהם סולמות מדידה?
אם מדידה היא התאמה של ערך מספרי לתכונה, אז מערכת מספרית ספציפית לפיה מתאימים מספר לתכונה נקראת "סולם מדידה".
בדוגמא שנתתי בסעיף הקודם השתמשתי בסולם המדידה: גבר=0, אשה=1. לא הייתי חייב לבחור דווקא בסולם הזה. יש עוד סולמות אפשריים למדידת התכונה של מין המשתתף בניסוי, למשל: גבר=2, אשה=1. או: גבר=17, אשה=23, וכולי וכולי. חדי העין שבין הקוראים ישימו לב בודאי שיש תכונה משותפת לשלוש הדוגמאות שנתתי לסולם המדידה למין המשתתף בניסוי.
אנחנו יכולים לנסות לבדוק את כל ההתאמות האפשריות ולנסות לסווג אותן על פי תכונותיהן. מייד אציג דרך אפשרית לסווג את כל סולמות המדידה (כלומר את כל ההתאמות האפשריות של מערכות מספריות לתכונות) לארבע קבוצות עיקריות המכונות: סולם שמי, סולם סודר, סולם רווח וסולם מנה. מתברר כי החלוקה הגסה הזו מספיקה לרוב צרכי הסטטיסטיקה.
סולם המדידה השמי
סולם המדידה השמי הוא סולם בו הערך המספרי משמש לזיהוי בלבד של התכונה נמדדת, ואין כל משמעות נוספת לערך המספרי מעבר לכך. סולמות המדידה שהצגתי למין המשתתפים בניסוי הוא דוגמא לכך (חשבו מדוע לפני שתמשיכו לקרוא, ואח"כ חישבו איזה הסתייגות אפשר להוסיף לדברים האלה).
הנה עוד מספר דוגמאות:
- מספרים של קווי אוטובוסים
- מספרי תעודת זהות
- מספרים אישיים בצה"ל
- מספרי החולצות של שחקנים בקבוצת ספורט
- סוג הקפה הנמס (המבוטא על יד בר-קוד) שקנה לקוח בסופרמרקט
בכל המקרים האלה (כמעט) אין משמעות למספרים מעבר למתן האפשרות לזיהוי. אם בקבוצת כדורסל מסוימת מיקי לובש את הגופיה מספר 9 ומוטי את הגופיה מספר 7, זה לא אומר בהכרח כי מיקי שחקן טוב יותר ממוטי (אולי כן, אבל זה לא נובע ממספר החולצה). אם אפשר לנסוע מבת-ים לתל-אביב במספר קווי אוטובוס, כולל 10, 18, 25 ו-26, זה לא אומר שנסיעה בקו 25 עדיפה על נסיעה בקו 18 (אלא אם אתה רוצה להגיע לרמת אביב). נסיעה בקו 44 בודאי שאינה עדיפה כפליים על נסיעה בקו 22, והאמירה לפיה קו האוטובוס הממוצע הנוסע בבת-ים הוא 53.12 (סתם המצאתי) חסרת כל משמעות. אין משמעות לטענה המתייחסת לטיב החבטות של שחקני בייסבול שמספר החולצה שלהם קטן מ-17.

עם זאת, קיים מקרה מיוחד בו לממוצע של משתנה שמי יש משמעות. נסו לגלות מהו. התשובה תופיע בהמשך הרשימה.
המדדים הסטטיסטיים היחידים שיש להם משמעות בהקשר של מדידה שמית הם נתוני שכיחות ושכיחות יחסית. יש משמעות לטענות כמו "34% מהלקוחות קנו קפה נמס מסוג X", או "סוג הקפה הנרכש ביותר הוא קפה נמס מסוג Y". עם זאת, הניתוח הסטטיסטי של נתונים מסולם מדידה שמי, המכונים לעיתים "נתונים קטגוריים" אינו מוגבל רק ליצירת טבלאות שכיחות, וקיימות שיטות סטטיסטיות מתוחכמות לניתוח נתונים כאלה (עבודת הדוקטורט של כותב שורות אלה עסקה בניתוח נתונים קטגוריים).
קוראים ששירתו בצבא יאמרו בודאי כי הדוגמא של מספרים אישיים אולי אינה מתאימה: מי שהתגייס קודם, המספר האישי שלו קטן יותר, ואכן קיימת בצבא תרבות שלמה של "ותיקות" ששלוש הספרות הראשונות במספר האישי, המהוות אינדיקציה למחזור הגיוס, הן אחד הסממנים שלה. זה מביא אותנו אל הסולם הבא בתור.
סולם המדידה הסודר
סולם מדידה סודר הוא סולם בו הערכים המספריים מבטאים סדר טבעי של התכונה הנמדדת.
סולמות כאלה נפוצים מאוד גם במדעי החברה וגם ברפואה. כל מי שמילא שאלון או השתתף בסקר כלשהו בודאי ענה לשאלה בסגנון הבא: "בסולם של 1 עד 5, כאשר 1 מבטא חוסר הסכמה מוחלטת ו-5 מבטא הסכמה מלאה, עד כמה אתה מסכים עם המשפט הבא….". מדדים קליניים רבים לחומרת מחלה מבוססים על סולם סדר. חומרת המחלה של טרשת נפוצה, למשל, נמדד על ידי סולם בן 21 שלבים, המכונה EDSS. סולם זה מתחיל ב-0 ועולה בקפיצות של 0.5 עד 10.
מה משותף לסולמות האלה? קודם כל, הם מזהים את כל אחד מהנמדדים כשייכים לקבוצה מסויימת. סולם ההסכמה 1-5 מזהה כל נסקר כשייך לאחת מחמש קבוצות: קבוצת הנסקרים שמבטאים חוסר הסכמה מוחלטת (1), קבוצת הנסקרים שמבאים חוסר הסכמה מסויים (2) וכך הלאה. גם סולם EDSS מחלק את כל חולי הטרשת הנפוצה ל-19 קבוצות על פי חומרת מחלתם. במלים אחרות, כל סולם מדידה סודר הוא גם סולם מדידה שמי. ההיפך לא נכון. מדוע? כי אנו יכולים לדעת שחולה עם ערך EDSS השווה ל- 4, למשל, הוא חולה שמצבו הקליני חמור יותר מחולה שערך ה-EDSS שלו הוא 3.
וכאן המקום להזהיר: למספרים שבסולם המדידה הסודר אין משמעות מעבר לסדר שהם מגדירים. את הסולם ההסכמה "1-5" אנו יכולים להפוך לסולם "0-4" או "12-16" או להצמיד לחוסר הסכמה מוחלטת את המספר 1, לאי הסכמה חלקית את 3.14, לאדישות את 17, להסכמה חלקית את 100 ולהסכמה מלאה את המספר מליון ואחת עשרה. על המערכות האלה שקולות, ושינוי מערכת המספור לא ישנה את האינפורמציה הטמונה בנתונים. מכאן שעדיין אין משמעות למשפטים כמו "דרגת ה-EDSS הממוצעת של החולים היא 4.1" או "רמת ההסכמה הממוצעת לטענה היא 2.7 עם סטיית תקן 0.3". אם תחליפו את הסולם בסולם אחר השומר על הסדר המספרי בין התכונות, הנתונים המספריים ישתנו למרות שמהותית לא השתנה דבר.

לעומת זאת, יש בהחלט מדדים סטטיסטיים בעלי משמעות לתיאור משתנים סודרים. הידוע שבהם הוא החציון, ואליו מתלווים אחיו האחוזונים. יש משמעות לטענות כמו "70% מהמשיבים לסקר לא הביעו חוסר הסכמה (מוחלטת או חלקית) עם הטענה", או "דרגת החומרה החציונית של החולים שהשתתפו בניסוי הייתה 3.5 בסולם EDSS".
סולם הרווח
זהו הסולם הראשון בו יש משמעות כמותית לערכים המספריים הנמדדים, ולכן מותר לבצע עליהם פעולות אריתמטיות מסוימות. המגבלה שמוטלת על סולם הרווח היא שיש משמעות להפרשים (רווחים) שבין הערכים הנמדדים, אך לא ליחסים שבין הערכים. בסולם זה גם יש לראשונה התאמה בין המשמעות האינטואיטיבית של המילה "מדידה" ובין המשמעות הסטטיסטית שלה.
הדוגמא העיקרית המוכרת לי היא סולמות המדידה של הטמפרטורות. אם היום הטמפרטורה היא 20 מעלות צלזיוס, ומחר הטמפרטורה היא 25 מעלות צלזיוס, אז לגיטימי לומר כי הבדלי הטמפרטורות בין שני הימים הם חמש מעלות צלזיוס. כמי שגר בשיקגו כמה שנים טובות, אני יכול בהחלט להעיד כי ההבדל בין טמפרטורה של 25 מעלות צלזיוס וטמפרטורה של 10 מעלות צלזיוס זהה להבדל בין הטמפרטורות מינוס 10 מעלות ומינוס 25 מעלות, מבחינת ההרגשה.
אבל, אם היום הטמפרטורה הייתה 20 מעלות ולפני שבוע היא הייתה 10 מעלות, האם פירוש הדבר כי היום חם כפליים מאשר אתמול? לא ולא. אילו מדדנו את הטמפרטורות בסולם פרנהייט, כמו ידידינו שמעבר לאוקיינוס האטלנטי, היינו מודדים היום 68 מעלות פרנהייט, ולפני שבוע 50 מעלות פרנהייט, ו-68 אינו גדול כפליים מ-50. החום הוא אותו חום, אך הטמפרטורות שונות. אין משמעות ליחס שבין הטמפרטורות (מדוע – נראה מייד).
מבחינה מעשית, רוב המדדים הסטטיסטיים והשיטות הסטטיסטיות ניתנים ליישום על גבי נתונים שנמדדו בסולם הרווח. לממוצע טמפרטורת יש משמעות, גם לסטיית התקן שלהן. עם זאת, יש להיזהר באינטרפרטציה של התוצאות.
סולם המנה
בסולם המנה יש משמעות כמותית לערכים המספריים הנמדדים, כולל ליחסים ביניהם. זה אפשרי רק כאשר ערך האפס של הסולם הינו מוחלט. לכן אם משקלו של אדם אחד הוא 100 ק"ג ומשקלו של חברו רק 50 ק"ג, אפשר בהחלט לומר כי משקל האדם הראשון גדול כפליים ממשקל חברו. אתם יכולים לחשוב על המון דוגמאות למדדים כאלה: משקל, גובה, מרחק, מהירות, מחירים ועוד. כל המדדים הסטטיסטיים ניתנים לחישוב עבור נתונים שנמדדים בסולם מנה, וכל השיטות הסטטיסטיות ניתנות בעיקרון ליישום על נתונים אלה.
יוצא הדופן
ציינתי למעלה כי יש מקרה מיוחד בו לממוצע של משתנה שמי יש משמעות. מי שהייתה לו סבלנות להגיע עד כאן יגלה עכשיו את התשובה. כזכור, משתנה שמי הוא משתנה בו הערך המספרי משמש לזיהוי בלבד של התכונה נמדדת, ואין כל משמעות נוספת לערך המספרי מעבר לכך. כך למשל, אם המשתנה הוא מינו של הנבדק בניסוי הקליני, אז סימון של 0 לגבר ו-1 לאשה הוא פשוט קידוד שרירותי המתאים ערך מספרי למין הנבדק. ובכל זאת, נניח שעכשיו אנו מחשבים את הממוצע של המשתנה הזה. מה נקבל? נניח שבניסוי שלנו היו 500 משתתפים ומתוכם 300 נשים. כדי לחשב את הממוצע, נחבר 300 אחדים (אחד לכל אישה) ו-200 אפסים (עבור 200 גברים). את התוצאה, 300, נחלק ב-500. נקבל כי המין הממוצע הוא 0.6, וזו בדיוק פרופורציית הגברים באוכלוסיה.
נשלח: 4 באפריל, 2009. נושאים: מה אומרת הסטטיסטיקה.
תגובות: אין
| טראקבק
יום עיון בנושא אוריינות סטטיסטית
הפקולטה לחינוך של אוניברסיטת חיפה עורכת יום עיון בנושא: "בין אנשים למספרים: אוריינות סטטיסטית במאה ה-21".
האירוע מתקיים לרגל פרסום ספרם של דר' דני בן-צבי ופרופ' ג'ואן גרפילד: "Developing Students' Statistical Reasoning ".
יום העיון יתקיים ביום שני, 23.3.2009 בשעות 16:00 – 19:00באוניברסיטת חיפה. לפני יום העיון תתקים סדנא בת שעה על פיתוח חשיבה סטטיסטית בגיל הצעיר בסביבה עתירת טכנולוגיה.
למעוניינים, תכנית הכנס המלאה נמצאת כאן (קובץ pdf), וניתן להירשם בלינק זה.
נשלח: 22 בפברואר, 2009. נושאים: חינוך.
תגובות: 2
| טראקבק
נפלאות המחקר – שיעור באחוזונים
הנה מחקר נפלא שתוצאותיו פורסמו ב-Scientific Ynet (ותודה לעריסטו מפורום מתמטיקה בתפוז), שקבע כי "למעלה משליש מהילדים בארץ – בעודף משקל":
נמצא כי בממוצע לאורך שבע שנות המחקר 29 אחוז מבני השש היו בעלי עודף משקל (משקלם היה גבוה מהאחוזון ה-85, כלומר גבוה מ-85 אחוז מבני גילם). מחציתם אף הוגדרו כסובלים מהשמנה (שקלו יותר מ-95 אחוז מבני גילם).
ואני לתומי חשבתי כי רק ל-15% מהאוכלוסיה משקך הגבוה מהאחוזון ה-85, ורק ל-5% משקל הגבוה מהאחוזון ה-95. נו, מה אני כבר יודע?
נשלח: 20 בינואר, 2009. נושאים: אותי זה מצחיק, חשבון פשוט, מה אומרת הסטטיסטיקה.
תגובות: 5
| טראקבק
סקרים טלפוניים: דיווח תוצאות בדילברט


נשלח: 14 בדצמבר, 2008. נושאים: אותי זה מצחיק, סקרים.
תגובות: אין
| טראקבק
הסטטיסטיקה בתעשייה – לאן?
נהוג לפתוח כל מאמר או הרצאה באנקדוטה משעשעת או באמירה פילוסופית. המאמר הבא, שמבוסס על הרצאה שנתתי בסמינר האיגוד הישראלי לסטטיסטיקה, מתבסס על נסיוני בתעשייה (בעיקר התעשיה הפרמצבטית) בעשר השנים האחרונות, ועל האמירה הבאה, המיוחסת לסופר המדע הבדיוני ה. ג'. וולס:

"Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write." – H. G. Wells
בכל הנוגע לתעשייה הפרמצבטית, העתיד אותו חזה וולס כבר כאן. הסטטיסטיקה מהווה נדבך מרכזי בכל תהליכי המחקר, הפיתוח, והייצור של התעשיה. איש אינו מעלה על דעתו לצאת לניסוי קליני ללא ליווי סטטיסטי צמוד, ובשנים האחרונות הדרישה לתמיכה סטטיסטית גם בשלבי פיתוח מוקדמים יותר, וגם בתהליכי הייצור גוברת, בד בבד עם עליית המודעות לערך המוסף שמביאה הסטטיסטיקה עמה. כמובן, ככל שמתרחב השימוש בסטטיסטיקה כך גדלה הנחיצות של יכולת חשיבה סטטיסטית מצד השותפים לתהליך. אני חושש שלמרות שהעתיד שניבא וולס כבר כאן, יכולות החשיבה הסטטיסטית עדיין לא מספיקות עבור המציאות החדשה.
לפני זמן מה, בבוקרו של יום א' בשבוע, נערכה במקום עבודתי ישיבה שעסקה בעניינים שברומו של עולם. בתחילת הישיבה דווח כי אחד המשתתפים, רופא במקצועו, לא יוכל להשתתף מכיוון שהינו חולה. מייד הועפו באוויר כל מיני הערות בסגנון "הסנדלר הולך יחף" וכדומה, ואני התבדחתי והערתי כי 40% מימי המחלה מדווחים בימי ראשון או חמישי. ההערה גרפה צחוק רועם, אך מייד לאחר מכן התפתח דיון בנושא ימי המחלה, וממנו התחוור לי כי הבדיחה כלל לא הובנה, והצחוק התעורר מהסיטואציה בה סטטיסטיקאי שולף בביטחון עצמי נתון סטטיסטי מהשרוול. בסופו של דבר מצאתי את עצמי נאלץ להסביר את הבדיחה לקהל, דבר שחיסל כל סיכוי לכך שמישהו יהיה משועשע מהבדיחה, וגרם לי להרהר בהמשך היום על המסר שעובר ממני ללקוחות שלי.
עלי לציין כי הבדיחה אינה בדיחה מקורית שלי, והיא כבר נזכרה בכתביו של סקוט אדמס, יוצר הסאגה המודרנית "דילברט". בקריקטורה המובאת כאן אחד הנוכחים דווקא מבין את החשיבה המגוחכת שמאחורי טרוניית הבוס מחודד השיער, אולם העובדים הותיקים יודעים כי חוש הומור המבוסס על "קומון סנס", שלא לדבר על חשיבה סטטיסטית, אינו נמנה עם התכונות של הבוס.

אומרים שסקוט אדמס מבסס את טור הקומיקס שלו על סיפורים אמיתיים שהוא מקבל במייל. הנה מספר סיפורים שיכולים לפרנס עוד כמה טורים – כולם דברים שנאמרו בנוכחותי בשנים האחרונות (בתוספת הרהורים משלי):
- "אני לא יודע מה זה עוצמה" (הנטייה הראשונית שלי הייתה לצעוק עליו "החוצה!", אבל ישבנו והסברתי לו מה המשמעות של עצמה סטטיסטית).
- "איך זה שאתה חישבת גודל מדגם X ולמתחרים יש גודל מדגם Y?" (דווקא לזה יש לי תשובה ארוכה, מפורטת ומצויינת).
- "אם ה-p-value הוא 0.051, למה זה לא מובהק?" (יש לי תשובה גם לשאלה הזו, אבל אף אחד לא יאהב אותה).
- "לא רצינו לבזבז זמן עד לישיבה ולכן בינתיים התחלנו את הניסוי" (נאמר בפתח ישיבת DOE , כלומר ישיבה בה אמורים לתכנן את הניסוי).
- "מה זה משנה אם בודקים השערה אחת או שתיים?" (שאלה טובה, שלא לומדים את התשובה עליה בקורס מבוא לסטטיסטיקה).
- "תכנון ניסוי זו המלצה – יש לנו זכות לשנות אותו כרצוננו" (לסת נשמטת בתדהמה).
- "אל תעשה לי מודלים על הפרוייקט שלי" (משפט זה נאמר בזעם, תוך כדי דפיקה על השולחן, לאחר שאמרתי בתמימותי כי אני מתכוון לנתח את הנתונים לפי מודל סטטיסטי כלשהו).
- "בכימיה לא צריך סטטיסטיקה" (ההיפך דווקא נכון – בסטטיסטיקה לא צריך כימיה, לא שיש לנו משהו נגד כימיה).
- "הנתונים מהייצור בעייתיים, אולי אתה יכול לעשות איתם משהו?" (בקשה שהגיע מאנשי הכימיה).
עד כאן התסכולים שלי, אבל איך הרגישו האנשים שאמרו את הדברים הנ"ל כאשר קראו משפטים כגון:

את כל המשפטים הלא מובנים האלה כתבתי אני בכל מיני דו"חות, ואני בטוח שכל האנשים הטובים (באמת אנשים טובים, אין כאן טיפת ציניות) שאמרו את המשפטים שהבאתי למעלה יכולים לדלות מהזיכרון שלהם כל מיני משפטים תמוהים ומשעשעים (בעיניהם) שאני אמרתי להם.
אז מה קורה כאן בעצם? יש מספר אפשרויות. האם יתכן שהתקשורת אשמה? האם אנו עדים להכשרה סטטיסטית לקויה של ביולוגים/כימאים/מהנדסים? הייתכן כי האשם הוא דווקא בהכשרה לקויה של סטטיסטיקאים לקראת עבודה יישומית בתעשייה?
התשובה לכל שלוש השאלות האלה היא "כן".
מה אפשר לעשות? לדעתי יש להכניס מספר שינויים בתכניות הלימודים הנהוגות היום באוניברסיטאות. אפתח בתובנות שלי בנושא ההכשרה הסטטיסטית ללא סטטיסטיקאים.

באוניברסיטה העברית יש קורס יחיד שעוסק, על פי כותרתו, בחשיבה סטטיסטית. כפי שהעיר פרופ' צבי גילולה, שנכח בהרצאתי, תרגום כותרת הקורס באנגלית לא ממש מתאימה לכותרת העברית, ואכן, מבט מהיר בתיאור הקורס מעלה את החשד כי מדובר בעוד קורס מבוא לסטטיסטיקה, שבו התלמידים ילמדו לחשב סטיית תקן ולשרטט היסטוגרמה, ואולי אפילו לחשב רווח סמך באמצעות שימוש בהתפלגות t. סביר מאוד להניח שהם ינצרו את הידע הזה במוחם החל מאי שם לקראת סוף הסמסטר ועד פרסום תוצאות המבחן (אי אפשר למחוק הכל מהזיכרון מייד עם סיום המבחן, תמיד יש לקחת בחשבון סכנה של מועד ב').
אני בטוח שכל האנשים בעלי תארי מוסמך ודוקטור שעובדים איתי ידעו גם הם פעם, במהלך חייהם, לחשב סטיית תקן וכדומה (ציון עובר בסטטיסטיקה הוא תנאי הכרחי, אם כי לא מספיק, לקבלת התואר), ולמרות זאת חלקם אינם ניחנים ביכולת חשיבה סטטיסטית. זו לא אשמתם. אף אחד לא מלמד באוניברסיטה את היכולת (הנרכשת) הזו. התמזל מזלי ושהיתי עשר שנים במחיצת טובי הסטטיסטיקאים של האוניברסיטה העברית, והצלחתי ללמוד מהם משהו. אבל מי שלומד במשך סמסטר אחד או שניים מבוא לחישובים סטטיסטיים, וזה הכל, ספק רב אם יסגל לעצמו עקרונות של חשיבה סטטיסטית.
יש לערוך שינוי גישה בהוראת הסטטיסטיקה ללא סטטיסטיקאים. בעידן שבו כל אחד יכול להוריד מהאינטרנט תכנה סטטיסטית חופשית ולערוך כמעט כל חישוב סטטיסטי בלחיצת כפתור, חבל לבזבז את הזמן היקר והמועט העומד לרשותנו כדי ללמד סטודנטים איך לחשב סטיית תקן או רווח סמך. הרבה יותר חשוב להסביר להם מהי המשמעות שלהם. הרבה יותר חשוב לדון בעקרונות סטטיסטיים: דגימה, תכנון ניסויים, רנדומיזציה, עקרונות ההסקה הסטטיסטית. בקיצור – יש להתרכז בחשיבה סטטיסטית ולא בחישובים סטטיסטיים.
גם הכשרת הסטטיסטיקאים צריכה לעבור שינוי מהותי, בייחוד אם תחזיתו של פרופ' גילולה לגבי עתיד הסטטיסטיקה כמדע אכן נכונה. עלינו לזכור כי הסטטיסטיקאי אינו פועל בחלל ריק, וכדי שיוכל לבצע היטב את עבודתו עליו להיות מסוגל לקיים אינטראקציה עם עמיתים מתחומים אחרים, במיוחד אם הסטטיסטיקאי נמצא בסביבה תעשייתית.
הכשרה ראויה צריכה לתת לסטטיסטיקאי יכולת להציג היטב נתונים ומסקנות – קורס בגראפיקה סטטיסטית יכול להיות שימושי. הסטטיסטיקאי זקוק ליכולת העברה ראויה של אינפורמציה ללקוחות, שיוכל לרכוש בקורס בכתיבה טכנית/מקצועית. את יכולת התקשורת העתידית הוא יוכל לשפר אם יזכה ליותר אינטראקציה עם אנשים מדיסציפלינות אחרות, זה המקום להציע לקיים יותר סדנאות לייעוץ סטטיסטי, בשיתוף עם מחלקות אקדמיות אחרות, גם במסגרת לימודי התואר הראשון. גם היפתחות לאופן חשיבה שונה יכולה להועיל, ולכן צריך לשקול את האפשרות לחייב סטודנטים לקחת קורס חובה בתחום חיצוני ("מבוא לביולוגיה ללא-ביולוגים", למשל).
ולבסוף – מה שנכון לגבי כל אחד נכון בודאי גם לסטודנטים לסטטיסטיקה. גם לימודי הסטטיסטיקה צריכים להתמקד בחaיבה הסטטיסטית, ולא בחישובים הסטטיסטיים.
פורסם לראשונה באתר "רשימות" בתאריך 20 במרץ 2007 שם התקבלו 8 תגובות
אסף ברטוב [אתר] בתאריך 3/20/2007 2:26:36 PM
ללא כותרת
יפה אמרת. ולדעתי, כך גם במתימטיקה התיכונית: יותר חשיבה מתימטית, פחות חישובים.
תלמידי ישראל לומדים איך למצוא את שורשיה של משוואה ריבועית, אך כמעט לעולם אינם לומדים באילו הזדמנויות תהא יכולת זו שימושית. כך גם לגבי כל חטיבת הטריגונומטריה, שנלמדת בד"כ כמצוות אנשים מלומדה, בלי שמץ של קישור לשאלת השימוש. ועוד ועוד.
דרומי [אתר] בתאריך 3/20/2007 3:41:39 PM
דווקא אצלנו…
דווקא אצלנו (סוציולוגיה, בן גוריון), הכיוון בתואר השני היה מאוד דומה למה שאתה מתאר. המרצה לא התעסקה בטכניקות חישוביות, אלא הציגה מודלים סטיסטיים ובדקה איתנו לאיזה סוג מחקרים חברתיים הם מתאימים, ומה מכלול השיקולים.
מצד שני, זה לא עזר הרבה, כי היא הייתה מרצה גרועה שבקושי ידעה עברית.
אסי [אתר] בתאריך 3/20/2007 3:53:16 PM
רשימה מעולה
כמאותגר סטטיסטית – בעיקר בגלל הלימודים – התחלתי לאחרונה את הספר המצויין של kirkwood & sterne ולאט לאט אני מתקדם במעלה.
מספרים מפחידים רופאים – או כמו שחמותי נוהגת לאמר בחכמה מרובה – אם היית יודע חשבון היית הולך להיות מהנדס לא רופא.
גיל [אתר] בתאריך 3/20/2007 4:02:27 PM
אתה צודק, אבל חלק ניכר מהאשמה
היא על הסטטיסטיקאים. יצא לי לקחת קורסים דומים של רגרסיה וניתוח שונות במחלקה לפסיכולוגיה ובמחלקה לסטטיסטיקה, ולפעמים נדמה היה לי שהקורסים לא עוסקים באותו נושא, כי הם נלמדו בצורה שונה כל כך. דווקא הסטטיסטיקאים עסקו בעיקר במודלים ובהרבה חישובים וכמעט לא התייחסו לבעיות יום יומיות. מאוד היה קשה ליישם את המודלים שלהם אחרי הקורס.
אני מסכים איתך שקורסים בסיסיים צריכים להיות כמה שפחות מתמטיים כי זה יוצר רתיעה אצל הסטודנטים.
איריס ח. בתאריך 3/20/2007 9:59:49 PM
מסכימה
מנסיון אישי בתור סטודנטית לביולוגיה: למדתי סטטיסטיקה ברמה של בית ספר תיכון (לפחות מה שהבת שלי לומדת בתיכון בחו"ל). והיום אין לי ברירה אלא ללמוד באופן נרחב…
אתה צודק בעיקר מכיוון שהיום אפשר לעשות מבחנים סטטיסטיים דרך האינטרנט. במיוחד כשאפשר לדחוף מספרים לטבלאות מאוניברסיטת ג'ורג'טאון, חשוב להבין אם התוצאה שיצאה והדרך הם הגיוניים.
ובאשר לחברות תרופות: הבעיה שלהם זה לא רק חוסר הבנה סטטיסטית. הם דווקא מבינים מצויין במספרים, אנשי השיווק, כשזה מתאים להם. הרי אם היה יוצא שיש הבדל סיגניפיקנטי בין הטיפול (שלהם) לבין פלצבו או טיפול של המתחרה, הם היו מבינים את זה יופי.
מ.א. בתאריך 3/20/2007 10:09:18 PM
רשימה משעשעת למדי
דווקא לאחר לימודים של קורסים קצת יותר מתקדמים בסטטיסטיקה, נפל לי האסימון שאחד הדברים החשובים במחקר הוא סטטיסטיקאי.
אבל הקשר עם הסטטיסטיקאי צריך להיות הרבה מעבר להעברת החומר במייל וקבלת פי ווליו.
כדי שהסטטיסטיקה של מחקר תהיה טובה באמת, הסטטיסטיקאי צריך להבין טוב מאוד את שלבי הניסוי והתוצאים השונים והחוקר צריך להבין טוב מאוד סטטיסטיקה.
אחרת שום דבר לא הולך…
עומרון בתאריך 3/21/2007 6:45:38 PM
דווקא לא
רשימה מעניינת, אבל אני חושב שזו טעות לחשוב שניתן לוותר על יסודות. אתן דוגמא.
ביליתי סמסטר אחד בלימוד תלמידי כיתה ז' לחשב כמה זה 3+2 ו-1+6 וכדומה. זה בגלל שבעידן של מחשבונים, מדוע בכלל ללמוד פעולות חשבון בסיסיות?
בסיס צריך. הבעיה היא שלפעמים הופכים את הנושא לקרדום לחפור בו. אבל מכאן ועד וויתור על ידע ויכולות בסיסיות המרחק רב.
נוה בתאריך 3/24/2007 12:34:02 PM
שווה לראות את זה. . .
סקירה מעניינת עם דוגמאות למדוע חשוב להבין מתחמטיקה
http://www.ted.com/tedtalks/tedtalksplayer.cfm?key=p_donnelly
נשלח: 6 בדצמבר, 2008. נושאים: ביוסטטיסטיקה, האנשים שמאחורי הסטטיסטיקה, חינוך, מדע, מה אומרת הסטטיסטיקה.
תגובות: אין
| טראקבק