ארכיב עבור ינואר, 2009

שיחה שנצפתה אי שם במישור המרוכב

שטרסלר עובד עליכם – חמש פעמים

במאמר שפורסם ביום שישי, 2.1.2009 לכבוד השנה האזרחית החדשה, מתיימר נחמיה שטרסלר להסביר "איך עבדו עלינו ב-2008". "שנת 2008 תיזכר כשנת המפולת הגדולה", הוא כותב, אבל מנחם ואומר כי "המשבר הנוכחי יהיה דרמטי פחות (מזה של שנות השלושים, י.ל.). המשק העולמי חזק היום בהרבה, ואין סכנה שנידרדר לשפל ארוך בנוסח שנות השלושים. אבל המשבר עמוק ומפחיד דיו כדי שנביאי השקר ובעלי האינטרסים יסובבו בכחש את הציבור ויספרו לו אגדות מפחידות – כדי לצאת ברווח אישי או פוליטי".

ומייד הוא מביא חמש דוגמאות בהן, לדעתו, עבדו עלינו. האמת, עם שתיים מהן אני מסכים. שטרסלר טוען כי אסור היה לנו להאמין למומחים ולטייקונים. הוא קרא את המאמר של אריאל רובינשטיין במקרה? חבל שהוא לא הגיע לתובנות האלה בעצמו לפני כמה שנים. עוד יותר חבל שהוא לא מפנים אותן. אל תשכחו: זה שטרסלר שכתב, וחזר וכתב, כמה המצב הכלכלי נפלא ומצויין. הוא דיבר כמו "המומחים" שהוא מזכיר, ונשמע כאילו הטייקונים דיברו מגרונו. הוא עדיין אומר, בנחרצות, שאין סכנה שנידרדר לשפל ארוך בנוסח שנות השלושים.  הכל בסדר, אל תדאגו, הוא מרגיע אתכם. ואני אומד: תדאגו. שטרסלר מנסה לעבוד עליכם. פעמיים.

הוא מדבר למשל על מה שהוא מכנה "אגדת רשת הבטחון". כך כותב שטרסלר: "הנתונים מלמדים, שקופות הגמל הפסידו 18% בשנת 2008, הפסד שבא לאחר רווח של 66% בחמש השנים שקדמו ל-2008. כלומר, בשש השנים האחרונות נשאר רווח נאה". אבל שטרסלר עובד עליכם.

בואו נניח שהנתונים של שטרסלר נכונים. אז מה הרווח הנאה שנשאר אחרי שש שנים? לא, זה לא 48%, ואפילו לא 36.12% (למי שזוכר שאחוזים מכפילים ולא מחברים). האם בכלל נשאר רווח (נאה או לא נאה), או ששטרסלר מנסה לעבוד עלינו?

נסתכל על אדם שמפקיד לקופת הגמל שלו 100 שקלים בכל שנה. רווח של 66% בחמש שנים הוא רווח 10.67% בממוצע לשנה (תוציאו שורש חמישי מ-1.66). בשנה הראשונה הוא הפקיד 100 שקלים, הרוויח, 10.66% וסיים אותה עם 110.66 שקלים. בשנה השניה הפקיד עוד 100, והרוויח עוד 10.66% על הסכום שעבר מהשנה הקודמת, כלומר הרווח הוא 10.66% על סך של 210.66 שקלים. בסוף השנה השניה יהיו לכן בקופה 233.13 שקלים. אפשר להמשיך את החשבון הזה (למעוניינים, הנה קישור לקובץ אקסל עם החישובים) ולמצוא כי בתום חמש השנים הטובות, שבהן היה רווח כולל של 66% לאורך כל התקופה, יהיו בקופה של האדם שלנו 684.68 שקלים (בהנחה שהוא לא שילם דמי ניהול). סה"כ הרווח שלו על 500 השקלים שהשקיע עד כה הוא 184.68 שקלים, שזה בערך 37%, אבל זה בגלל שלא כל הכסף היה מושקע במשך כל התקופה.

(הערה: פסקה זו תוקנה בתאריך 6.1.2008 בעקבות הערתו של דני  (תגובה מספר 8). גם קובץ האקסל תוקן). עכשיו הגיעה השנה השישית. האיש שלנו מפקיד עוד 100 שקלים, ומפסיד 18% מהם, שזה 18 שקלים. הוא גם הפסיד 18% מ-684.68 השקלים שהיו בקופה בתום חמש השנים הטובות, שזה יוצא עוד 123.24 שקלים. סה"כ הפסדיו בשנה הזו היו 141.24 שקלים, ולאיש שלנו, שהפקיד במשך 6 שנים 600 שקלים בקופת הגמל שלו יש עכשיו 643.44 שקלים. אכן, רווח נאה, מר שטרסלר.

שטרסלר נטפל גם לברק אובמה. אובמה, כותב שטרסלר, עומד לשנות את פני הקפיטליזם האמריקאי לכיוון חברתי יותר. שטרסלר מזכיר כי "הממשלה בישראל מעורבת בכלכלה עמוק יותר ובאופן חברתי יותר, לכן אין לנו מה ללמוד מאובמה. הוא צריך ללמוד מאתנו". האמנם? הזהו שטרסלר, שבכל הזדמנות מזכיר מדוע עלינו לקצץ בתקציב הממשלה, לצמצם את שירותי הממשלה לאזרחים, ולהפריט כל מה שאפשר תוך כדי הפחתת מסים? וזאת תוך כדי שהוא מכנה את עצמו, בנסיון לשבור את שיאי החוצפה, "חברתי אמיתי"? אל תייעץ לאובמה ללמוד מ"איתנו", מר שטרסלר, כי אתה לא איתנו. הלא לו תתמנה מחר לתפקיד שר האוצר, ותנסה לקיים את המדיניות לה אתה מטיף במאמריך, תשחזר כאן את המדיניות של רייגן, תאצ'ר, וצמד הבושים. אובמה וארה"ב בהחלט יכולים ללמוד מישראל של פעם, ואף מסקנדינביה ומערב אירופה של היום. אבל שטרסלר מיתמם ומנסה לעבוד עלינו. הוא באמת היה מעדיף שישראל תלמד מארה"ב של טרם-אובמה.

ולסיום, מדבר שטרסלר על אגדת הקפיטליזם והגלובליזציה. הוא לועג לאלה הרוצים "לחזור לסוציאליזם הוותיק והטוב", ושוכחים, כביכול, שהקפיטליזם והגלובליזציה, הם שהביאו לעולם את הפריחה הכלכלית הנפלאה שלו. נכון שיש תקלות, כותב שטרסלר, אבל השיטה הנוכחית טובה יותר מהאלטרנטיבה. נשמע משכנע, אבל גם כאן שטרסלר עובד עליכם. על איזו אלטרנטיבה בדיוק הוא מדבר? לא יכול להיות שיש אלטרנטיבה טובה יותר מהמצב הנוכחי? האם הקפיטליזם והגלובליזציה הם לבדם אחראים לכל הטוב שבעולם? אני לא חושב שאני צריך לענות על השאלות האלה, כי לכל השאלות האלה כבר ענה חתן פרס נובל לכלכלה, ג'וזף שטיגליץ, בספרו "לתקן את הגלובליזציה". אני ממליץ לקורא שטרסלר, ולכולכם, לקרוא את הספר הזה, ואז באמת שטרסלר לא יוכל לעבוד עליכם.

הכוכב הנעלם והאמד הכחול: משפט גאוס מרקוב ושיטת הריבועים הפחותים

שמחה גדולה אחזה בעולם האסטרונומיה בשנת 1781, עם גילויו של כוכב הלכת אוראנוס. לאחר שכוכב לכת זה נצפה, מסלולו חושב ומרחקו מהשמש הוערך, התברר כי מרחקו מהשמש מתאים לתחזית של "חוק טיטיוס-בודה", מעין להטוט חשבוני (שגוי, כך התברר בדיעבד) המתאר את מרחקו של כוכב לכת מהשמש כפונקציה של מספרו הסידורי. החוק תיאר בצורה טובה את מרחקיהם של כל כוכבי הלכת שהיו חדועים עד אז, אך השאיר "חור" בין מאדים לצדק. לפי החוק, "צריך" היה להיות שם עוד כוכב לכת, שלא נתגלה עדיין.

האסטרונומים הפנו את מאמציהם לגילוי כוכב הלכת האבוד. המאמץ נשא פרי כעבור 20 שנה. באחד בינואר 1801 גילה האסטרונום האיטלקי ג'וזפה פיאצי גוף שמימי שנע במסלול המיועד לכוכב הלכת האבוד. הוא כינה כוכב לכת חדש זה בשם צרס, לכבוד אלת החקלאות הרומית.

שמחתם של פיאצי ועמיתיו הייתה קצרה. לאחר שצפו בצרס במשך 41 לילות, "התקרב" מסלולו אל השמש, ובשל אורה החזק לא יכלו המשיך ולצפות בו. כמובן, כאשר יסיים צרס את הקפתו ויופיע מצידה השני של השמש יוכלו לצפות בו שוב, אבל, היכן בדיוק יופיע בשמי הלילה? הנתונים המועטים שנצברו (רק 22 תצפיות בפועל נאספו במשך 41 הלילות) לא אפשרו חישוב מדוייק של מסלולו.

מספר מלומדים ניסו לחזות את מסלולו של הכוכב הסורר. אחד מהם היה קרל פרידריך גאוס, מתמטיקאי ואסטרונום מהאוניברסיטה של גטינגן (אני מניח שכבר שמעתם עליו אי אלו פעמים). גאוס פרסם את תחזיתו למסלול של צרס בספטמבר 1801. צרס ציית לתחזיותיו של גאוס, והופיע בשמים בהתאם. עם גילוים של אסטרואידים נוספים שנעו במסלול בין מאדים לצדק, חזר גאוס על התרגיל וחישב את מסלולם של רבים מהם.

שרטוט המסלול של צרס על ידי גאוס

שרטוט המסלולים של האסטרואידים צרס ופאלאס על ידי גאוס (מקור: http://www.math.rutgers.edu/~cherlin/History/Papers1999/weiss.html)

מה היה הסוד של גאוס? רק ב-1809 פרסם גאוס ברבים את שיטתו, הידועה כיום כשיטת הריבועים הפחותים. ככל הנראה, גאוס נכנע ופרסם את השיטה רק לאחר שהמתמטיקאי הצרפתי לז'נדר פרסם בשנת 1806 את שיטתו לחישוב מסלולי שביטים, ולמעשה הוא שטבע את שם השיטה :"Méthode des Moindres Quarrés ". עם זאת, ידוע כי גאוס הכיר את השיטה כבר ב-1795, והוכיח ב-1798 כי אמד הריבועים הפחותים הוא אמד נראות מירבית – Maximum Likelihood Estimator (כמובן, המושגים האלה, שלקוחים מתחום התיאוריה הסטטיסטית,  עדיין לא היו ידועים בימיו). ב-1823 הוכיח גאוס כי השיטה אכן מספקת את האמד הלינארי הטוב ביותר במובן שזהו האמד הלינארי חסר ההטיה ששונותו מינימלית. מכאן הופיע הביטוי "אמד כחול" בכותרת הרשימה. כחול – BLUE- הם ראשי התיבות של Best Linear Unbiased Estimator. אין צורך להבהל מהמונחים הטכניים האלה, שלא אסביר בפירוט. אומר רק כי במלים פשוטות, גאוס הוכיח כי השיטה אופטימלית בשלושה מובנים שונים – גם נראות מירבית, גם שונות מינימלית וגם חסר הטיה.

גאוס ומרקוב

גאוס (משמאל) ומרקוב חולקים בתהילה של שיטת הריבועים הפחותים

המתמטיקאי הרוסי אנדריי אנדרייביץ מרקוב, שידוע בעיקר בזכות תרומתו לחקר התהליכים המקריים, תיאר בפירוט את שיטת הריבועים הפחותים בספר שפרסם ב-1912, וניסח אותה מחדש באופן ברור יותר, ובכך תרם את תרומתו להפצתה של השיטה ולפיתוחה. בזכות תרומתו זו זכה לחלוק בתהילה עם גאוס, והמשפט המוכיח את האופטימליות של שיטת הריבועים הפחותים נקרא משפש גאוס-מרקוב.

השיטה והכללותיה משמשות עד היום ככלי מרכזי לניתוח סטטיסטי של נתונים, ונמצאת בשימוש גם במדעים המדוייקים וגם במדעי החברה, בעיקר בתחום הכלכלה. סטיבן לויט, מחבר הספר רב המכר "פריקונומיקס", כתב בספרו כי השימוש בשיטה הוא "יותר אמנות מאשר מדע". אני חולק על דבריו. זוהי שיטה מדעית, המבוססת על תיאוריה מתמטית. יש לה יתרונות עצומים, כמובן, אך גם מגבלות. המשתמש בה חייב תמיד להיות מודע למגבלות האלה, ולא, מסקנותיו יהיו שגויות.

עד כאן ה"ציונות". אבל מהי בעצם שיטת הריבועים הפחותים? אנסה כעת לתת הסבר שווה לכל נפש.

נניח כי יש בידינו קבוצת נתונים, שנאספה ממדגם כלשהו. לכל פרט במדגם יש שני נתונים כמותיים. לדוגמא, אם אנו מסתכלים על מדגם של כפרים, נתון אחד יכול להיות מספר החסידות שקיננו בכפר באביב, והנתון השני יכול להיות מספר הלידות שהיו בכפר בקיץ שלאחר מכן. כלכלנים יעדיפו אולי להסתכל על מדגם של מדינות, כאשר נתון אחד הוא גובה המס שמטילה ממשלת המדינה על העסקים בתחומה, והנתון השני הוא הכנסות הממשלה ממסים באחוזים מהתמ"ג. חוקרים בחברת תרופות יסתכלו על מדגם של חולים, ויאספו נתונים על מינון התרופה הנסיונית שניתן לכל חולה ועל השינוי במצבו. בכל מקרה, אפשר לשרטט את הנתונים שהתקבלו על מערכת צירים, ומתקבלת דיאגרמת פיזור (scatterplot). בשרטוט אנו רואים מדגם בגודל עשרה כפרים. הנקודה המסומנת בחץ, לדוגמא, מייצגת כפר במדגם בו קיננו עשר חסידות ונולדו שני תינוקות (הנתונים לא אמיתיים, כמובן, אלא נדגמו ממוחי הקודח):

נניח שאנו רוצים לגלות האם קיים קשר קווי בין שני המשתנים. במלים אחרות, אנו שואלים את עצמנו האם ניתן לשרטט על מערכת הצירים קו שיתאר את הקשר בין המשתנים? כמובן שאי אפשר לשרטט קו ישר שיעבור דרך כל 10 הנקודות, אבל ישנם הרבה (אינסוף) קוים שעוברים דרך "ענן" הנקודות שלנו.  שרטטתי כמה מהם על פני מערכת הצירים. איזה מהם מתאר את הקשר בין שני המשתנים בצורה הטובה ביותר?

הנה הרעיון של גאוס. הוא בחר קו ישר אחד, ומדד את המרחק האנכי מכל נקודה אל הקו. סימנתי את המרחק האנכי מכל נקודה אל הקו על השרטוט שלנו. בכפר הראשון, בו קיננו 2 חסידות והיו 10 לידות, המרחק האנכי (כלומר אורך הקו האדום) הוא בערך 5. בכפר השני, בו קיננו 3 חסידות והיו 5 לידות, אורך הקו האדום הוא בערך 0.5, אבל כיוון שהנקודה נמצאת מתחת לקו, המרחק האנכי הוא 0.5-.

הקו האידיאלי הוא זה שעבורו כל המרחקים האנכיים שוים לאפס, אבל קו כזה לא קיים בדרך כלל. לכן אין ברירה אלא לחשב את הקו האופטימלי. אפשר, למשל, לחפש את הקו שעבורו סכום המרחקים בערכיהם המוחלטים הוא מינימלי. גאוס הבין כי עדיף לחפש את הקו שעבורו סכום ריבועי המרחקים הוא מינימלי (מכאן השם "ריבועים פחותים" – "Least Squares"). גאוס גם הראה כיצד ניתן למצוא את הקו האופטימלי. כל קו ישר ניתן לאפיון מלא על ידי שני פרמטרים – שיפועו ונקודת החיתוך שלו עם הציר האנכי. לכן ניתן לרשום את סכום ריבועי המרחקים האנכיים כפונקציה של שני הפרמטרים האלה, ולמצוא את נקודת המינימום של הפונקציה. ניתן לעשות זאת על ידי שימוש בחשבון דיפרנציאלי או תוך כדי שימוש בשיקולים גיאומטריים/אלגבריים. אפשר לחשב ולמצוא כי הקו האופטימלי לנתונים שבדוגמא הוא:

ניתן לפרש זאת בערך כך: גם ללא חסידות יהיו בממוצע 6.8 לידות, וכל חמש (בערך) חסידות נוספות יביאו ללידת תינוק נוסף. אינטרפרטציה מפתה נוספת היא אינטרפרטצית הניבוי: מה יקרה בכפר בו יקננו 20 חסידות? אם נציב 20 בנוסחא, קו הריבועים הפחותים ינבא כי יהיו בכפר זה 10.6 לידות.

אבל, אבוי, קו הריבועים הפחותים אינו מאפשר ניבוי אמיתי. הפרמטרים הנאמדים (שהם כזכור שיפוע הקו ונקודת החיתוך שלו עם הציר האנכי) תלויים ישירות במקדם המתאם בין שני המשתנים. קו הריבועים הפחותים מתאר קשר אפשרי בין המשתנים, אבל לא סיבה ותוצאה. גם אם היינו מחליפים את תפקידי המשתנים, כמספר הלידות הוא המשתנה ה"מסביר" את מספר החסידות (כמשתנה ה"מוסבר"), מקדם המתאם בין שני המשתנים לא היה משתנה, וההסבר לפיו מספר החסידות מנבא את מספר הלידות הגיוני בדיוק כמו ההסבר לפיו מספר הלידות מנבא את מספר החסידות.

זאת ועוד: קו הריבועים הפחותים מתאר רק את מה שקורה בתחום הערכים בו צפינו. הוא לא יכול לומר לנו שום דבר על מהות הקשר בין המשתנים מחוץ לטווח הזה. במלים אחרות: קו הריבועים הפחותים הוא מודל תיאורי של הנתונים, וככזה הוא מוגבל להסברה של הנתונים המתוארים ותו לא. המציאות עשויה להיות שונה. באיור הבא מובאות ארבע דיאגרמות פיזור שמצאתי באינטרנט, עם קוי הריבועים הפחותים שהיו עשויים להתקבל לו הייינו מסתכלים רק על טווח חלקי של הנתונים:

קו הריבועים הפחותים מול המציאות

קו הריבועים הפחותים מול המציאות - ארבע דוגמאות

גאוס הצליח בניבוי המסלול של צרס בעזרת קו הריבועים הפחותים כיוון שהסתבך על מודל מוצק, לפיו צרס (כמו שאר כוכבי הלכת) מקיף את השמש במסלול אליפטי. לאחר שיש מודל, הכלים הסטטיסטיים יכולים לאפשר את אמידת הפרמטרים שלו. ההיפך לא בהכרח נכון. ניתן להשתמש בכלים הסטטיסטיים כדי לתאר את הנתונים, אך אין די בכך כדי לבנות ולאשר מודל. לצערנו, ישנם אנשים שבכל זאת בונים מודל סביב הנתונים הסטטיסטיים שלהם, מבלי להתחשב במגבלות של כלי הרגרסיה.