היסטוריה וקונטקסט
הוא סטטיסטיקאי וכלכלן וולשי אמריקני, שזכה בפרס נובל לכלכלה ((במשותף עם רוברט פ. אנג’ל )) בשנת 2003, בזכות תרומותיו לתיאוריה ולמתודולוגיה של . בשנת 1969 הציע גריינג’ר מבחן סטטיסטית לבדיקת השערת הסיבתיות בקונטקסט של סדרות עיתיות.
הקריטריונים של ברדפורד היל שהוצגו ב-1965 מתאימים בעיקר לבעיות בתחום האפידמיולוגיה ובריאות הציבור, שם מתעניינים בדרך כלל בחשיפה לגורם סיכון או התערבות, ובתוצאה בריאותית חיובית או שלילית, לפי ההקשר. בעוד שניתן ליישם את הקריטריונים גם בתחומים אחרים, למשל פסיכולוגיה ותחומים נוספים במדעי החברה, חלק ניכר מקריטריונים אלה אינם ישימים כאשר דנים בסדרות עיתיות, שלהן חשיבות מיוחדת בכלכלה. לכן נדרש כאן פיתרון אחר. הוא פיתרון אפשרי.
סדרה עיתית היא סדרה של נתונים הנאספים לאורך זמן. לכל נתון מצורפת נקודת הזמן בה נדגם הנתון. אתם מכירים הרבה סדרות כאלה. הלשכה המרכזית לסטטיסטיקה מפרסמת כל חודש את השכר הממוצע ואת מדד המחירים לצרכן. בנק ישראל מפרסם מדי יום את שער החליפין בין השקל לדולר. השירות המטאורולוגי מפרסם כל יום מה הייתה הטמפרטורה בצהריים בכל מיני מקומות בארץ.
מבחן גריינג’ר
גריינג’ר התבסס על שתי הנחות יסוד:
- הגורם מתרחש לפני התוצאה
- הגורם מכיל מידע ייחודי על התוצאה
בעוד שההנחה הראשונה ברורה ומובנת מאליה, ההנחה השניה דורשת הסבר.
קודם כל, זכרו כי כאן אנו דנים בסיבתיות בקונטקסט של זמן. לכן ניסוח יותר מדוייק של ההנחה השניה היא כי הגורם מכיל מידע ייחודי אודות הערכים העתידיים של התוצאה. כלומר, מדובר בגורם המכיל מידע ייחודי לחיזוי של התוצאה.
נניח כי אנחנו יכולים לחזות במידת הצלחה כלשהי את הערכים העתידיים של התוצאה כאשר בידינו כל המידע האפשרי בעולם. מה יקרה אם נשליך החוצה את המידע על המשתנה שלדעתנו גורם את התוצאה, ונשתמש רק בשאר המידע?
אשתמש בדוגמה: האם הטמפרטורה בצהריים בתל אביב משפיעה על היקף מכירות הגלידה בעיר? ובפרט, האם טמפרטורה גבוהה יותר גורמת למכירת יותר גלידה?
אנחנו יכולים לאסוף נתונים על שני המשתנים האלה, ולקבל שתי סדרות עיתיות.
השלב הבא הוא לבנות שני מודלים לחיזוי היקף מכירת הגלידה היומי. במודל אחד אתם יכולים להסתמך על כל המידע שיש בעולם ועומד לרשותכם. כמובן שנתוני הטמפרטורה נכללים במידע עליו אתם יכולים להסתמך.
והנה הטוויסט: במודל השני אסור לכם להסתמך על נתוני הטמפרטורה. חוץ מזה הכל הולך.
אם החיזויים של שני המודלים שונים באופן משמעותי, המסקנה היא כי הטמפרטורה משפיעה על היקף מכירות הגלידה. במקרה כזה נאמר כי הטמפרטורה היא גורם סיבתית על פי גריינג’ר להיקף מכירות הגלידה.
עכשיו נמקד את תשומת ליבנו על המילים “באופן משמעותי”. איך מחליטים אם הבדל הוא משמעותי? גריינג’ר הציע להשתמש במבחן סטטיסטי, כלומר לזהות משמעות עם מובהקות סטטיסטית. המבחן שלו מסתמך על מודלים של אוטורגרסיה, מבחני t ומבחני F, שהם הכללות של רגרסיה לינארית. היא הפנים האחרות של . במילים אחרות, גריינג’ר הציע נתיב שמוביל ממתאם לסיבתיות.
זהו נתיב מסוכן, וגריינג’ר ידע זאת היטב. בנאום שנשא בטקס שבו הוענק לו פרס נובל, גריינג’ר התייחס למבחן הסיבתיות שהציע ואמר כי “התפרסמו הרבה מאמרים עם תוצאות מגוחכות”.
ביקורת על מבחן גריינג’ר וחולשותיו
ראשית, יש לשים לב כי הסיבתיות מוסקת על סמך חיזוי. לא מוצע מנגנון סיבתי, ופורמלית אין צורך להציע מנגנון כזה. זהו פער משמעותי בין גריינג’ר ובין הקריטריונים של ברדפורד היל המחייבים הצעה של מנגנון כזה. טענה שקולה היא הטענה כי מבחן גריינג’ר אינו עונה על השאלה הפורמלית ושאלת הנימוק של אריסטו.
שנית, מי שמשתמש במבחן בחוסר זהירות, עלול ליפול בכשל הפוסט הוק, טענה מוטעית לפיה אם Y קרה לאחר X אז X גרם ל-Y. אמנם, כפי שטען , קיום הטמפורליות הוא תנאי הכרחי לסיבתיות, אך תנאי זה בהחלט אינו מספיק.
המבחן גם לא לוקח בחשבון , כאלה המשפיעים על שני משתנים אחרים ויוצרים ביניהם מתאם מלאכותי (spurious correlation). לא במקרה בחרתי לדוגמה את הגלידה והטמפרטורה. אני מניח שכולם מכירים את הדוגמה המשעשעת שבה יש מתאם בין מכירות הגלידה ומספר הטביעות בבריכה. ככל שמוכרים יותר גלידה, יותר אנשים טובעים. האם ניתן להסיק על פי מבחן גריינג’ר כי קניית גלידה גורמת לטביעות? ייתכן מאוד שכן.
מגבלות נוספות של סיבתיות גריינג’ר הן: (( ראו A review of the Granger-causality fallacy – Mariusz Maziarz – קישור לקובץ pdf ))
- רגישות לתדירות הסדרות העיתית ולמשך הזמן בו צופים בהן. לדוגמה, מחקר האוצר על מה שכונה “שכר המינימום ונזקיו” שפורסם בשנת 2004, חזה כי העלאת שכר המינימום תגרום לעליה באבטלה, בין היתר על ידי שימוש בסיבתיות גריינג’ר. כפי שציינתי בפוסט שהתייחס למחקר הנ”ל, בעיה מרכזית במחקר הייתה בכך שהוא הסתמך על נתונים שהתייחסו לתקופה קצרה יחסית של 11 שנים, בעוד שבזמן עריכת המחקר שכר המינימום כבר היה נהוג בישראל במשך יותר מ-30 שנה.
- חוסר יכולת לזהות סיבתיות לא לינארית
- חוסר יכולת להתמודד עם סדרות עיתיות לא לינאריות ו/או לא סטציונריות
- ההנחה של ההתפלגות הנורמלית של טעויות המדידה לא תמיד מתקיימת.
- היפוך הזמן: בתנאים מסויימים ניתן לחזות את ערכי העבר על ידי ערכי העתיד. מבחני גריינג’ר יראו גם במקרים אלה סיבתיות, אלא שהגורם קרה לאחר התוצאה.
למרות המגבלות האלה, מבחן גריינג’ר וההכללות שלו נמצאים בשימוש נרחב. על המשתמשים בו לעשות זאת בזהירות, וכל טענה לסיבתיות על פי גריינג’ר צריכה להיבחן לגופה באופן ביקורתי.
הפוסטים הקודמים בסדרה
- סיבתיות: הגדרות ותיאוריות
- סטנדרט הזהב להוכחת סיבתיות
- רנדומיזציה – לא הכל זהב
- ממתאם לסיבתיות: הקריטריונים של ברדפורד היל
- ממתאם לסיבתיות – הקשר בין עישון ותחלואה בסרטן הריאה
מענייח אותי לדעת מי דחף לשימוש בשיטות אלה אם הוא עצמו ביקר זאת?
הוא גם המציא את מושג הקואינטגרציה. תוכל לכתוב על כך ?
1) לא רציתי להיכנס לעניין הזה מכיוון שאין לי מקורות להסתמך עליהם. ראיתי לפחות אמירה אחת באיזה פורום כי הוא כינה את השיטה שלו כסיבתית מטעמים שיווקיים – כדי למשוך יותר תשומת לב. אבל כאמור, אין לי אישור לכך ממקור אחר, ולכן זה נשאר בגדר רכילות ששמעתי.
2) אני לא בקי בזה, ולא חושב שאגיע לזה בזמן הקרוב.
גרינגר עבוד עם פול ניובולד שקודם לכך היה במדיסון ועבד עם בוקס. יש טענה שהיתה כאן העברת ידע, משיטות ARIMA של בוקס למה שגרימג’ר עשה שזיכה אותו בנובל בכלכלה. בוקס וטיאו עבדו על נתוני איכות אוויר בלוס אנגלס ופיתחו מודלים של התערבות בשדרות עיתיות. בובס אברהם, סטודנט של בוקס, גם עבד על הנושאים האלה. רוב המאמרים בנושאים האלה פורסמו ב JASA.
נכחתי בסמינר של גינג’ר במדיסון בנוכחות בוקס וזכור לי שנושא הראוניות בפיתוח השיטות האלה עלה.
בלי כל קשר – יוסי, כל הכבוד על הסדרה הזו!!
תודה רון. חשבת לכתוב ספר זכרונות על כל המפגשים האלה שלך?