לא מכבר התחלתי להשתתף בקבוצת דיון בהיסטוריה של הסטטיסטיקה, ואשתדל לתעד את המפגשים החודשיים של הקבוצה. המפגש הראשון של הקבוצה עסק במחלוקת ביןקרל פירסון ותלמידו אדני יוּל בדבר הדרך הראויה למדוד את עצמת ההקשר (“מתאם”) בין שני משתנים איכותיים (כלומר משתנים שסולם המדידה שלהם אינו רציף). בתחילה אסביר בקצרה את הבעיה הסטטיסטית. לאחר מכן אתאר את הגישות השונות של השניים לפתרון הבעיה, את הרקע שהוביל כל אחד מהם לגישה אחרת, וכמובן, את ההתגוששות בין השניים (חלק זה יסתמך בעיקר על מאמרו של דונלד מקנזי מ-1978 ((1. MacKenzie, D. (1978). Statistical Theory and Social Interests A Case-Study. Social studies of science, 8(1), 35-83. )). לסיום אביע את דעתי בנושא. לטובת הקוראים שאינם בקיאים בסטטיסטיקה, אשתדל לבדל את הקטעים הטכניים בפסקאות נפרדות. אם תחושו כי אתם הולכים לאיבוד, המשיכו ללא חשש לפיסקה הבאה.
אדני יול (מימין) וקרל פירסון |
הבעיה הסטטיסטית מאוד פשוטה למעשה (( 2. יש לציין כי המחלוקת בין פירסון ויול לא הייתה מוגבלת לדיון בבעיה זו בלבד)) . אסביר אותה על ידי דוגמה שיול עצמו הציג. מדובר בנתונים שנאספו במהלך התפרצות מחלת האבעבועות השחורות בעיר שפילד בשנים 1877-1878. בסך הכל נרשמו 4703 מקרים של המחלה. קרוב ל-90% מהחולים קיבלו קודם לכן חיסון נגד מחלה זו ורובם המכריע (כ-95%) החלימו. מבין אלה שלא חוסנו, קרוב ל-50% מתו מהמחלה. יול הציג את הנתונים בטבלה:
החלימו |
נפטרו |
|
חוסנו |
3951 |
200 |
לא חוסנו |
278 |
274 |
מעניין כמובן לשאול האם החיסון גרם לשיפור סיכויי ההחלמה במקרה של הדבקות, אך לפני כן יש לשאול האם יש קשר בין עצם העובדה שחולה קיבל (או לא קיבל) חיסון מוקדם נגד המחלה ובין מצבו לאחר המחלה (החלים או מת).
אני מניח (ובודאי מקווה) כי רוב הקוראים שיעיינו בנתונים הנ”ל יגיעו למסקה כי אכן קיים קשר בין שני המשתנים. ובכל זאת, עולות מהנתונים מספר שאלות. ניתן למשל לשאול לגבי עצם יעילותו של החיסון – כיצד יותר מ-4000 איש שחוסנו נגד המחלה בכל זאת חלו? לא ניתן לענות על שאלה זו מתוך נתונים אלו. שאלה אחרת לגבי יעילות החיסון עולה מהעובדה שבכל זאת 200 מבין המחוסנים שחלו מתו במחלה. האם זה טוב? כנראה שלא. האם יכלה להתקבל תוצאה יותר טובה? בודאי. עד כמה התוצאה הייתה יכולה להיות טובה יותר? התוצאה הטובה ביותר הייתה אילו כל המחוסנים היו מחלימים. תוצאה זו הייתה מדגימה קשר חיובי חזק ביותר בין שני המשתנים.
התוצאה גם הייתה יכולה להיות גרועה יותר. תוצאה גרועה אפשרית היא שכ-50% מהמחוסנים מתים, כפי שגם כ-50% מהלא מחוסנים מתו. מצב כזה מראה שאין כל קשר בין עצם קבלת החיסון ובין הסיכוי לשרוד את המחלה.
יש תוצאה עוד יותר גרועה: על המחוסנים מתים, כל הלא מחוסנים מחלימים. תוצאה כזו הייתה מעלה מייד את הטענה שיש קשר שלילי בין מתן החיסון וסיכויי ההחלמה.
מה הייתם אומרים על הקשר אילו המספרים בטבלה היו משתנים מעט יחסית? למשל, אם 205 מחוסנים מתו במקום 200 (ו-3946 החלימו), ומבין הלא מחוסנים מספר המחלימים היה 273 במקום 278 (ומספר המתים הוא 279)? האם הקשר בין המשתנים שמראים נתונים אלה חזק יותר מהקשר שמראים הנתונים המקוריים או חלש יותר? איך בכלל מודדים את חוזקו/עוצמתו של הקשר? על שאלה זו ניסו פירסון ויול לענות בתחילת המאה ה-20.
השאלה הדומה, אשר נשאלה לגבי משתנים כמותיים (למשל גובה ומשקל), נחשבה כבר לפתורה. הפתרון התבסס על עבודתו החלוצית של פרנסיס גאלטון בנושא הרגרסיה והמתאם, ופירסון עצמו הוא זה שחתם את הדיון בנושא וסיפק את נוסחת מקדם המתאם הנמצאת השימוש עד עצם היום הזה וידועה בשם “מקדם המתאם של פירסון“. מקדם המתאם של פירסון מקבל ערך 1 כאשר יש קשר לינארי מלא וחיובי בין שני המשתנים, ערך 1- כאשר יש קשר לינארי מלא ושלילי בין שני המשתנים, וערך 0 כאשר אין כלל קשר לינארי בין המשתנים (כלומר הם “בלתי מתואמים” בשפת הסטטיסטיסטיקאים). המקדם של פירסון יכול לקבל למעשה כל ערך תחום שבין 1- ל-1. ערכים קרובים ל-1 (או ל-1-) מעידים כי הקשר הלינארי בין המשתנים חזק, וככל שהערכים מתקרבים ל-0 זה מעיד על החלשות הקשר הלינארי.
בצומת דרכים זו נפרדו דרכיהם של פירסון ויול. פירסון סבר כי תיאוריה למדידת עצמת הקשר בין שני משתנים איכותיים צריכה להתבסס על התיאוריה הקיימת למשתנים כמותיים ולהכליל אותה. יול, לעומת זאת, סבר כי משתנים איכותיים שונים באופן מהותי ממשתנים כמותיים, ולכן יש צורך לפתח עבורם תיאוריה נפרדת.
אפתח בתיאור הגישה של יול. הוא טען כי מדד לעצמת הקשר צריך לקיים שלוש תכונות (בדומה למקדם המצתם של פירסון): ערכו שווה ל-0 כאשר אין קשר בין המשתנים, שווה ל-1 כאשר יש קשר חיובי מלא בין המשתנים, ושווה ל-1- כאשר יש קשר שלילי מלא בין המשתנים.
כמו כן, יול הבחין כי כאשר אין קשר בין שני משתנים איכותיים, אז השורות בטבלה כגון זו שהוצגה קודם פרופורציוניות זו לזו (כפי שהדגמתי קודם לכן, זה עשוי להיות מקרה בו 50% מהמחוסנים מחלימים מהמחלה, וגם 50% מהלא מחוסנים מחלימים ממנה). קשר חיובי מלא קיים כאשר במשבצת השמאלית העליונה מופיע אפס (בדוגמא שלנו- איש מהמחוסנים לא נפטר), ו/או כאשר מופיע 0 במשבצת הימנית התחתונה ( כלומר מי שלא חוסן לא החלים, רק למי שחוסן היה סיכוי להחלים). קשר שלילי מלא יתבטא לעומת זאת על ידי הופעת 0 במשבצת השמאלית התחתונה ו/או במשבצת הימנית העליונה (המחוסנים לא מחלימים, הלא מחוסנים דוקא כן) ((3. יש להגדרה זו ניואנסים שלא פירטתי)) .
מכאן הייתה קצרה הדרך להגדיר מדד שמקיים בדיוק את התכונות האלה: שווה ל-0 כאשר ארבעת המספרים בטבלה יוצרים שתי שורות מספרים פרופורציוניות, שווה ל-1 כאשר באלכסון הראשי מופיע 0 באחד התאים (או שניהם), ושווה ל-1- כאשר מופיע באלכסון המשני מופיע 0 באחד התאים (או שניהם). יול כינה את המדד שלו Q, לכבודו של הסטטיסטיקאי הבלגי אדולף קאטלה.
למדד Q שהציע יול היו גם חולשות, ויול היה מודע להן. אחת החולשות העיקריות הייתה ש-Q אינו המדד היחיד העומד בשלושת הקריטריונים שדרש יול – יש עוד מדדים רבים כאלה. יול עצמו הציע עוד מספר מדדים, וניסה להצדיק כמיטב יכולתו את הצעת Q כמדד הקשר העיקרי.
פירסון כאמור, בחר ללכת בדרך אחרת, וניסה לבנות תיאוריה שתכליל את מקדם המתאם שלו, שנבנה למשתנים כמותיים, כך שישמש למדידת קשר בין שני משתנים איכותיים. אתאר את הגישה שלו בעזרת דוגמה.
נניח שאנו מעוניינים לבדוק האם יש קשר בין גובהו של אדם ומשקלו (באוכלוסיה נתונה). אין בעיה. אם נתונים לנו גובהו ומשקלו של כל אדם באוכלוסיה, אפשר לעבד את הנתונים בעזרת נוסחת מקדם המתאם ולקבל איזשהו מספר. אבל מה קורה אם אין לנו את הנתונים המלאים? נניח שיש לנו רק נתון איכותי לגבי כל אדם. אנו יודעים האם הוא “גבוה” או “נמוך”, וכן אם הוא “רזה” או “שמן”, ואין אינפורמציה לגבי הגבול המפריד בין גבוה לנמוך ובין רזה לשמן. כל מה שיש לנו זה ארבעה מספרים, מסודרים בטבלה דומה לזו שהוצגה בתחילת הרשימה: יש כך וכך אנשים גבוהים ורזים, כך וכך אנשים גבוהים ורזים, וכולי. מה עושים?
פירסון טען כי הנתונים האלה מקורם בהתפלגות נורמלית (“פעמונית”). ידוע כי התפלגות גובהם של בני אדם היא בקירוב נורמלית, וידוע גם כי התפלגות המשקל היא בקירוב נורמלית. יתר על כן, ידוע כי לגובה ולמשקל יש התפלגות משותפת דו-נורמלית (תחשבו על פעמון תלת מימדי).
להתפלגות נורמלית יש שני פרמטרים – התוחלת וסטיית התקן של ההתפלגות. להתפלגות דו-נורמלית יש חמישה פרמטרים: התוחלת וסטיית התקן של כל אחד מהמשתנים, וכן פרמטר נוסף הקושר את שני המשתנים בהתפלגות המשותפת.
לו היו בידינו נתוני המשקל והגובה המקוריים, אזי מקדם המתאם של פירסון מהווה אמד לפרמטר חמישי של ההתפלגות הדו נורמלית (ופרמטר זה מכונה אכן בשם “מקדם המתאם”). פירסון פיתח שיטה מתמטית לאמידת הפרמטר החמישי של ההתפלגות הדו-נורמלית מהנתונים החלקיים של החלוקה גבוה/רזה/נמוך/שמן. את האמד שקיבל כינה “מקדם המתאם הטטרהכורי” – ” Tetrachoric correlation coefficient”. פירסון יישם את השיטה שלו גם כאשר לא היה ברור לחלוטין כי מקורם של הנתונים האיכותיים הוא בהתפלגות נסתרת (בלתי ניתנת לצפיה) דו-נורמלית.
פירסון ידע היטב כי המקדם הטטרהכורי אינו אמד טוב במיוחד עבור מקדם המתאם של ההתפלגות הדו-נורמלית. עם זאת, הוא סבר כי זהו האמדן הטוב ביותר שניתן להגיע אליו כאשר הנתונים הם איכותיים. הוא סבר גם כי מקדם ה-Q של יול הינו אמד למקדם המתאם של ההתפלגות הדו-נורמלית, וטען כי המקדם שהוא פיתח עדיף על Q.
יול, מצידו, טען כי במקרים רבים ההנחה הבסיסית של פירסון לפיה מקורם של הנתונים האיכותיים נמצא בהתפלגות דו-נורמלית שאינה ניתנת לצפיה אינה נכונה. האם ערכים של “מוות ממחלה” ו-“החלמה ממחלה” מקורם במשתנה רציף נורמלי? שאל ולא נענה. יול פיתח שיטות לבדיקת ההנחה של פירסון, ובדק בדקדקנות את כל הדוגמאות שפירסון הביא במאמריו. במקרים רבים הגיע למסקנה כי הנחת הנורמליות של פירסון אינה ניתנת להצדקה.
גם פירסון היה מודע לבעיות של המקדם הטטרהכורי. הוא השקיע עבודה בפיתוחו ושיפורו, וב-1922 הציג את מקדם המתאם הפוליכורי (( 4. Pearson, K., & Pearson, E. S. (1922). On polychoric coefficients of correlation. Biometrika, 14(1-2), 127-156. )) . עם זאת, החליט לנסות ולפתח מקדם קשר אחר, המבוסס על מבחן החי-בריבוע לבדיקת אי תלות בין שני משתנים (שהוא עצמו פיתח מוקדם יותר).
חילוקי הדיעות בין השניים היו ידועים. בדצמבר 1905 תקף יול את מורו וחברו פירסון בפומבי כאשר הרצה בפני החברה הסטטיסטית המלכותית, וטען כי ההנחות שבבסיס המקדם הטטרהכורי אינן תקפות. פירסון השיב ליול במאמר שפרסם בעיתון הבית שלו, ביומטריקה ((5. פירסון יסד את כתב העת ביומטריקה וערך אותו עד מותו ב-1936)). אולם השניים הקפידו לשמר את הויכוח במסגרת מדעית במידת האפשר.
הכפפות הוסרו כאשר פרסם יול את ספרו “מבוא לתיאוריה של הסטטיסטיקה” ב-1911. יול הציג בספרו את מקדם המתאם של פירסון למשתנים כמותיים, ולמשתנים איכותיים המליץ לקוראיו להשתמש ב-Q או במדד נוסף שאותו פיתח, אך נמנע מלציין את המקדם הטטרהכורי של פירסון כאפשרות נוספת למדידת עצמת הקשר. תלמיד אחר של פירסון, דויד הרון, הגיב על כך במאמר שכותרתו “הסכנה שבנוסחאות מסויימות המוצעות כתחליף למקדם המתאם” (( 6. Heron, D. (1911). The danger of certain formulae suggested as substitutes for the correlation coefficient. Biometrika, 109-122. )).
היחסים בינו ובין פירסון הדרדרו במהירות למריבה אישית. בהרצאה נוספת שנשא בפני החברה הסטטיסטית המלכותית ב-1912 (( 7. Yule, G. U. (1912). On the methods of measuring association between two attributes. Journal of the Royal Statistical Society, 579-652. )) , יול תקף את גישתו של פירסון ואף את פירסון אישית. “הצגת הנחות בלתי נחוצות שאינן ניתנות לאימות אינה נראית לי כהתקדמות רצויה במחקר המדעי”, אמר יול. והעיר כי בכל זאת קיימים מקרים מעטים בהם הנחה זו הינה “פחות בלתי מתקבלת על הדעת” ועדיין לעיתים קרובות יש להטיל ספק, לדעתו, בטענה כי ההתפלגות הבלתי נצפית היא דו-נורמלית.
פירסון והרון לא נשארו חייבים. הם השיבו ליול ב-1913, עת פירסמו מאמר נוסף בביומטריקה שהשתרע על פני לא פחות מ-157 עמודים (( 8. Pearson, K., & Heron, D. (1913). On theories of association.Biometrika, 9(1-2), 159-315. )) . “המחלוקת בינינו”, הבהירו פירסון והרון, “היא המחלוקת ארוכת הימים בין הגישה הנומינליסטית והגישה הריאליסטית. מר יול מלהטט בהגדרות מושגים כאילו מדובר בעצמים אמיתיים. ניתוחיו הסטטיסטיטיים הם למעשה סוג של לוגיקה סימבולית. תיאוריות כאלה לא הניבו מעולם שום תועלת מעשית. ייתכן כי יש בתרגילים לוגיים כאלה יש ערך חינוכי עבור סטודנטים, אבל ייגרם נזק גדול לסטטיסטיקה כמקצוע מודרני, אם המתודולוגיות של מר יול ייעשו מקובלות. יש בכך סכנה ממשית (( 9. פירסון והרון השתמשו בבביטוי “grave danger”, כלומר סכנת נפשות )) , כי קל ללכת בדרך שיול מתווה, ורוב האנשים מתעלמים מהסכנות”.
ב-1914 פרצה מלחמת העולם הראשונה והשעתה את הויכוח בין השניים. לאחר המלחמה, תחומי העניין המחקריים של פירסון השתנו, ועימם גם ירדה המוטיבציה שלו לעסוק בבעיית מדידת עצמת הקשר. יתר על כן, גישה חדשה לתיאוריה הסטטיסטית, שהוביל רונלד פישר, הפנתה את תשומת הלב של הסטטיסטיקאים לבעיות אחרות. למרות שהויכוח בין השניים שכך, היחסים בין פירסון ויול לא שבו לקדמותם.
לדעת מקנזי, מקור הסיבה למחלוקת בין פירסון ויול הוא ב-“אינטרסים הקוגניטיביים” השונים שלהם. מטרות המחקר שלהם היו שונות, וכל אחד מהם נקט בגישה המתאימה למטרותיו, אך לא למטרות של חברו/יריבו.
פירסון היה בין החוקרים המובילים בתחום האאוגניקה , ועבודתו בתחום הסטטיסטיקה נעשתה כדי לקדם את מחקריו האאוגניים/ביומטריים (( 10. למעשה פירסון לא ראה את עצמו כסטטיסטיקאי, למרות שהיה האדם הראשון שנשא בתואר “פרופסור לסטטיסטיקה”. הוא מעולם לא ביקש להצטרף לחברה הסטטיסטית המלכותית, וממילא לא היה חבר בה)) . הוא היה מעוניין בעיקר בכלים לחיזוי: אם ידוע ערכו של משתנה אחד, מהי תוחלת ערכו הצפוי של המשתנה האחר? משום כך היה סבור כי יש להכליל את תיאוריית הרגרסיה של גאלטון גם למשתנים איכותיים. ההנחה של ההתפלגות הדו-נורמלית הייתה עבורו רק הנחה. התפלגות זו הייתה חלק מהמודל שלו, לא חלק מהנתונים. התוצאות שקיבל היו די טובות, לדעתו, גם אם ההנחה לא הייתה נכונה. לעומת זאת, שאלות בדבר סיבתיות לא עניינו אותו – אין זה סביר כי תכונה מסויימת של אדם (למשל, רגל גדולה) תגרום לתכונה אחרת (כמו ראש גדול, למשל). שתי התכונות מושפעות מהרקע הגנטי/משפחתי של האדם.
מחקריו של יול, לעומת זאת, היו בתחום מדעי החברה, ושם שאלת הסיבתיות האפשרית הייתה חשובה יותר. לכן, בעיניו של יול, הקשר בין המשתנים היה ביטוי לקשר סיבתי אפשרי בינם, ולא רק תכונה של ההתפלגות המשותפת (( 11. ראו גם Stigler, S. M. (1986). The history of statistics: The measurement of uncertainty before 1900. Harvard University Press. Pages 352-358. )). העובדה שאדם הוא קבצן, טען יול, אינה תלויה ברקע (ובניוון) הגנטי שלו כפי שטוענים תומכי האאגוניקה. (( 12. יול התנגד לתורה זו. במכתב לחברו הטוב, מייג’ור גרינווד כתב: “התיאוריה האאוגנית מעוררת בי סלידה כמו הרעיון לתת זכות הצבעה לנשים”. )) במחקריו הראה יול כיצד רפורמות חברתיות הביאו להקטנה במספר הקבצנים.
מקנזי מרחיק לכת ומעלה השערה כי התיאוריה/אידיאולוגיה האאוגנית ביטאה את ההעדפות החברתיות של חלק מסויים בלבד בחברה הבריטית של סוף המאה ה-19 ותחילת המאה ה-20, המאופיין על ידי רקע מעמדי והעדפות פוליטיות. לדעת מקנזי, ייתכן כי ההבדלים האלה שבין יול ופירסון גרמו לכיווני המחקר השונים שלהם, ומכך נבע הניגוד שבין גישותיהם לנושא מדידת עצמת הקשר בין המשתנים.
מי ניצח בסופו של דבר בויכוח? לדעת מקנזי, הויכוח לא הוכרע עד ימינו, ומסתמך, בין היתר, על מאמרם הקלאסי של גודמן וקראסקל מ-1954. (( 13. Goodman, L. A., & Kruskal, W. H. (1954). Measures of association for cross classifications*. Journal of the American Statistical Association, 49(268), 732-764. )), אך מציין כי מדד ה-Q של יול עדיין פופולרי, בעוד שמקדם המתאם הטטרהכורי כמעט ונעלם. אציין כי נתקלתי במהלך לימודי הסטטיסטיקה שלי במקדם המתאם הטטרהכורי. היה זה כאשר קראתי, בהיותי תלמיד שנה ג’ לתואר ראשון בסטטיסטיקה, את אותו מאמר של גודמן וקראסקל. הם מציינים בפירוש כי ניתן להשתמש במקדם הטטרהכורי במקרים בהם מקור הנתונים בהתפלגות דו-נורמלית. למען ההגינות, אומר גם כי לא זכרתי זאת במשך השנים שעברו. חזרתי למאמר של גודמן וקראסקל בעקבות הקריאה המאמר של מקנזי, ראיתי כי המקדם הטטרהכורי הוזכר בתחילת המאמר, והסקתי כי נתקלתי בו גם בפעם הראשונה בה קראתי את המאמר.
למיטב הבנתי, גודמן וקראסקל ממליצים בפועל על הגישה של יול, לפיה יש לבחור את מדד הקשר בהתאם לבעיה הנדונה, ואינם מעודדים הנחת התפלגות נסתרת. לכן, לדעתי יול הם למעשה הכתירו את יול כמנצח בקרב הזה. המקדם הטטרהכורי כמעט ונכחד, בעוד שכל תכנה סטטיסטית המכבדת את עצמה מחשבת את Q ומדדים דומים נוספים.
עם זאת, גישתו של פירסון המניחה התפלגות נסתרת/בלתי-נצפית עדיין חיה וקיימת. בסטטיסטיקה המודרנית, סוס העבודה העיקרי לניתוח נתונים איכותיים הוא הרגרסיה הלוגיסטית. בבסיסה של שיטה זו טמונה ההנחה כי מקורו של המשתנה האיכותי הוא במשתנה נסתר/בלתי-נצפה, שמניחים כי התפלגותו היא התפלגות לוגיסטית (( 14. אם מניחים כי התפלגות של המשתנה הנסתר היא נורמלית, הכלי המתקבל הוא “מודל פרוביט“)) . אם ערכו של המשתנה הנסתר נמוך מסף מסויים, המשתנה האיכותי מקבל ערך מסויים (“החלים מהמחלה”, אם ניצמד לדוגמה של יול שהובאה בראשית הרשימה הזו), וכאשר ערכו של המשתנה הנסתר חוצה את הסף, המשתנה האיכותי מקבל ערך אחר (“מת מהמחלה”). גישה זו ננקטת גם בשיטת סטטיסטיות נוספות, כאשר הסטטיסטיקאי מודע לכך כי המשתנה הנסתר אינו חלק מהנתונים שלו, אלא רק חלק מהמודל. מכאן, למרות שגישתו של פירסון נוצחה בקרב המסויים שתיארתי כאן, היא הוכיחה את עצמה כגישה יעילה לניתוח נתונים איכותיים ונמצאת בשימוש יומיומי במחקר המדעי.
פוסט מעולה, כן ירבו.
תודה רבה, גיל
מעניין ביותר, אני מדפיסה כדי לקרוא שוב. על פי תחושתי, יש דימיון בין הסקת המסקנות בסטטיסטיקה רפואית לזו בסטטיסטיקה כלכלית שאותה אני מכירה מקרוב.
וגם, סתם זיכרון נוסטלגי שלי. בסוף שנות ה-60, עבדתי שנה אחת בארה”ב במחקר רפואי. היה שם מומחה לסטטיסטיקה רפואית שהדריך אותי להשתמש במדד קולמוגורוב-סמירנוב. לא זוכרת כבר מה זה היה בדיוק. אומר לך משהו?
העקרונות של הסטטיסטיקה “הרפואית” וזו “הכלכלית” הם בודאי אותם עקרונות, שהרי מדובר רק ביישומים שונים של אותה סטטיסטיקה. כמובן, יש שיטות המתאימות יותר לתחום הרפואי וכאלה המתאימות לתחום הכלכלי. מעניין לציין כי יול הניח את היסודות לאחד הכלים העיקריים המשמשים לניתוח סטטיסטי של נתונים כלכליים: סדרות עיתיות (time series).
מבחן קולמוגורוב-סמירנוב מיועד לבדוק עד כמה ניתן להניח כי מקורם של נתונים הינו בהתפלכגות מסויימת (נורמלית, למשל) או האם לשתי קבוצות נתונים משתי אוכלוסיות שונות אותה ההתפלגות.
שכחתי לומר שהמדד שהזכרתי (אולי סמירנוף בסוף) היה גם הוא מדד מתאם למשתנים איכותיים (ניתחנו שאלון של סקר שמדד את המתאם בין מחלת עיניים מסויימת למשתנים איכותיים וכמותיים שונים).
מבחן קולמוגורוב-סמירנוב הוא מסיפור אחר…
מעניין לציין שדוקא מקדם המתאם הפוליכורי מתאים במיוחד למדידת המתאם בין משתנה כמותי למשתנה איכותי, אם כי רוב הסטטיסטיקאים יעדיפו להשתמש ברגרסיה לוגיסטית.
תשמע, זה אחד הדברים המעניינים שקראתי לאחרונה. תפס אותי במיוחד העניין של פירסון באאוגניקה, אולי תוכל להמליץ על ספרים\מאמרים מעניינים על ההיסטוריה של הסטטיסטיקה (רצוי בעברית…)?
ספרים ומאמרים בעברית על ההיסטוריה של הסטטיסטיקה אני לא מכיר, לצערי, ולכן גם לא אוכל להממליץ.
״נגד האלים״ מאת פיטר ברנשטיין עוסק בתולדות ההתייחסות לסיכון, כולל תולדות הסטטיסטיקה. הנה סקירה שכתב שלמה יונה כולל הפניה לספרים נוספים:
http://shlomoyona.blogspot.co.il/2012/04/blog-post_24.html
״אין מידה לאדם״ מאת סטיבן ג׳יי גולד מדבר הרבה על אאוגניקה וקצת על פירסון.
“נגד האלים” הוא בהחלט ספר מעניין, אם כי הוא לא ממש עוסק בסטטיסטיקה. הוא מתאר בצורה סבירה פרקים מתולדות תורת ההסתברות, אך לעיתים נעשה מסורבל מדי וקשה להבנה למי שפוגש את הנושא בפעם הראשונה. מבחינת הסטטיסטיקה, הסיקור הוא מצומצם ביותר ומוגבל ליישומי ביטוח והימורים.
מלבד זאת, התרגום לעברית הוא ברמה נמוכה מאוד, וניכר כי המתרגמת אינה בקיאה בנושאי הספר. למרבה הצער, עורך התרגום והעורך המדעי השאירו את התרגום הקלוקל על כנו.
המון תודה בכל מקרה!
יוסי – שוב עשית את זה. מעניין, מקיף ומלמד, המון תודה
שלוש הערות לדיון לעיל:
1. ניתן לקרוא על ההיסטוריה של האיגוד הישראלי לסטטיסטיקה בעבודה מקיפה של מלכה קנטרוביץ שניתן להוריד מ http://www.statistics.org.il/wp-content/uploads/2013/05/ISA-History-version-1.pdf
2. אישית, אני מקפיד לקרוא למשתנים שהזכרת משתנים איכותניים (חלקם איכותיים, חלקם לא)
3. דיון משלים בחברוה של פירסון, יול ואחרים הוא הדין על מקום חקר הסיבתיות. לטענת יהודה פרל, קרל פירסון היה הדמות הדומיננתית העיקרית שמנעה מסטטיסטיקאים לעסוק בנושא והסתפק בעיסוק בלוחות contingency tables כביטוי לקשרים בין משתנים. האירוניה היא שהמאמש הראשון של פרל על מודלים גרפיים לניתוח סיבתיות הת]רסם בעיתון Biometrika שיסד פירסון.
תודה רון.
בייחוד תודה על ההפניה לנושא ההיסטורי של חקר הסיבתיות. מודה שאני לא מכיר את הטענות של פרל לגבי ההשתלשלות ההיסטורית. זה בספר האחרון שלו? הוא ברשימת הקריאה שלי, אגיע אליו מישהו…