המפגש השני של קבוצת הדיון בהיסטוריה של הסטטיסטיקה עסק בתולדות ההתפלגות הנורמלית. הדיון הסתמך בעיקר על פרק 13 מספרו של איאן האקינג, “אילוף הגורל” ((1. Hacking, I. (1990). The taming of chance (Vol. 17). Cambridge University Press. )), ובמידה פחותה על מאמרה של לוריין דאסטון ((2. Daston, L. (2008). Analogies and the migration of scientific ideas: the strange career of the normal curve. Nova Acta Leopoldina, N. F, 97(358), 169-185. )), שעקבה אחרי תולדות ההתפלגות בין 1770 ל-1870. עם זאת, רשימה זו הולכת בדרך שהתוותה דאסטון. בכתיבת הרשימה נעזרתי גם בפרק 2 מספרו של סטיגלר ((3. Stigler, S. M. (2002). Statistics on the table: The history of statistical concepts and methods. Harvard University Press. )).
ההתפלגות הנורמלית, אותה התפלגות פעמונית מפורסמת, הופיעה ככל הנראה לראשונה כאשר המתמטיקאי הצרפתי-הוגנוטי אברהם דה-מואבר חקר את התפלגות מספר ה-“ראשים” המתקבלים בסדרה של הטלות מטבע, כאשר מספר ההטלות הולך וגדל. ב-1733 הוכיח דה-מואבר כי כאשר מספר ההטלות שואף לאינסוף, אז ההתפלגות הולכת ומתקרבת בצורתה לאותו פעמון מיוחד:
פעמון ההתפלגות הנורמלית והנוסחה המאפיינת אותו |
אותו פעמון הופיע במפתיע במקום אחר לגמרי – מדידות אסטרונומיות. מי שגרם למהומה הוא האסטרונום הדני טיכו ברהה, שבסוף המאה ה-16 החליט לבצע מדידות מרובות של גרמי שמיים והמרחקים בינם. תוצאות המדידות לא היו זהות. בכך הראה טיכו לא רק כי קיימת אפשרות לטעות במדידה, אלא אף כי טעויות המדידה הן אולי בלתי נמנעות. נעשו נסיונות לשפר את איכות המדידה ודיוק המכשירים, אך הבעיה נשארה. עד אמצע המאה ה-18 הצטברו ערימות של מדידות אסטרונומיות וגיאודזיות, והתגלע ויכוח עז בין האסטרונומים מה לעשות בקשר לכך: האם לקחת ממוצע של התצפיות, לבחור את המדידה ה-“טובה ביותר”, או לפטר את עוזר המחקר שחישוביו היו שונים במיוחד מאלה על עמיתיו?
המתמטיקאי הצרפתי פייר סימון לפלס הציע ב-1810 פתרון שיכונה בימינו “בייסיאני” (( 4. על הסטטיסטיקה הבייסיאנית אכתוב, אולי, בפעם אחרת)) – הוא הניח כי לטעויות המדידה יש התפלגות מסויימת, ובהתאם לכך בנה פרוצדורה לצירוף המדידות כך שטעות המדידה הכוללת תהיה מינימלית. יותר מכך, לפלס הראה כי אם התפלגות טעויות המדידה היא ההתפלגות הפעמונית, אז ממוצע המדידות יביא למינימום את טעות המדידה הכוללת. שנה לפני כן, נקט קרל פרידריך גאוס בגישה הפוכה: הוא הניח כי הדבר הנכון הוא לחשב את ממוצע המדידות, כלומר ממוצע המדידות יביא למינימום את טעות המדידה הכוללת, ועל סמך הנחה זו חישב ומצא כי התפלגות טעויות המדידה צריכה להיות אותה התפלגות פעמונית. ההתפלגות הפעמונית, שהופיעה לראשונה בהקשר של משחקי מזל והטלות מטבע, תפסה לעצמה מקום מרכזי במדע האסטרונומיה. גאוס אף זיהה את הקשר בין ההימורים והטלות המטבע ובין טעויות המדידה האסטרונומיות. הוא הבחין בין טעויות שיטתיות, בהן ניתן לטפל ולהקטין למינימום את השפעתן, ובין טעויות מקריות (“chance errors”) שמקורן בחושים לא חדים דיים, תנאים אטמוספריים וכדומה. גאוס וגם לפלס סברו כי יש מספר רב של גורמים לטעויות המקריות האלה, חלקם מטים את המדידה כלפי מעלה וחלקם כלפי מטה. במובן מסויים, לדעתי, הם הבינו את רעיון משפט הגבול המרכזי. עם זאת, הקישור בין ההתפלגות הנורמלית כגבול של תוצאות הימורים/הטלות מטבע, ובין התפלגות טעויות המדידה, נעשה עדיין באופן פורמלי בלבד, על ידי זיהוי הפונקציה המשותפת לשניהם. ההתפלגות הנורמלית מכונה עד היום בשם “התפלגות לפלסיאנית” בצרפת, ובשם “התפלגות גאוסיאנית” בגרמניה ובקרב מספר בעלי מקצוע (פיזיקאים, מהנדסים ועוד), לציון תרומתם של שני מתמטיקאים אלה לגילויה.
מניחי היסודות (משמאל לימין): דה-מואבר, לפלס, גאוס |
האקינג מדגיש כי ההתפלגות הנורמלית הופיעה בהקשר של ערכים ממשיים: ההסתברות של מטבע ליפול על ראש, ההסתברות לנצח במשחק מזל מסויים, או המרחק בין שני כוכבים. ההתפלגות עצמה, והפרמטרים שלה (הממוצע וסטיית התקן) נותרו ערכים אידאליים, פרמטרים מתמטיים בלבד. האסטרונום הבלגי אדולף קטלה ((5. אותו קטלה שלכבודו סומן מקדם המתאם של יול באות Q)) שינה את כללי המשחק. בתחילת שנות ה-30 של המאה ה-19 פרסם קטלה סדרת מאמרים בה הראה כי עקומת ההתפלגות הנורמלית מופיעה גם כאשר מתבוננים בתופעות ביולוגיות וחברתיות. ב-1835 הוא הציג בפני העולם את “האדם הממוצע”, שבוהו 168 ס”מ, התגרש 0.17 פעמים והינו אב ל-2.2 ילדים. קטלה לא טען כי יש אדם כזה, בניגוד לגאוס ולפלס, שאמרו כי אם ממוצע המדידות למרחק בין שני כוכבים הוא 10 שנות אור, אז המרחק האמיתי קרוב מאוד לערך זה. קטלה תיאר באמצעות ערכים אלה מאפיינים כמותיים של אוכלוסיה, בדיוק כמו שמוצא אתני, למשל, הינו מאפיין איכותי. קטלה הפך את הממוצע מפרמטר מתמטי לערך כמותי ממשי.
ב-1844 צעד קטלה צעד גדול נוסף קדימה: הוא שינה את התיאוריה של מדידת ערך ממשי לא ידוע עם טעויות מדידה, לתיאוריה של מדידת ערך מאפיין של אוכלוסיה. במלים אחרות, הוא הופך את השיטות הסטטיסטיות של תיאור וסיכום תצפיות לחוקים המתייחסים לתופעות בטבע ובחברה, ועוסקים במהותן ובגורמים להן. זה נעשה בארבעה צעדים:
- קטלה מזכיר כי אם ימדוד את גובהו של אדם מסויים מספר פעמים, המדידות לא יהיו זהות עקב טעויות המדידה, ותתקבל התפלגות סביב הגובה האמיתי.
- הוא משווה את הסיטואציה הקודמת למדידות חוזרות של ערך אסטרונומי, בה מתקבלת התקבלות “גאוסיאנית” סביב הערך האמיתי. אין הבדל עקרוני, טוען קטלה, בין מדידת גובהו של אדם ובין מדידת ערך אסטרונומי.
- עכשיו מציע קטלה להתבונן באוסף של מדידות גובה, כאשר אנו לא יודעים האם מדובר במספר מדידות של אותו אדם, או במדידות של מספר אנשים. האם נוכל לדעת באיזה מקרה מדובר? לא נוכל לדעת מכיוון שהתפלגות המדידות החוזרות של אדם אחד היא אותה התפלגות כמו מדידות של אנשים שונים מתוך האוכלוסיה.
- ומכיוון שקטלה הראה כי ההתפלגות הנורמלית מופיעה במגוון רחב של מדידות תכונות של אוכלוסיות, הוא מצדיק בכך את המעבר מדיון בערך ממשי בלתי ידוע (כמו גובה של אדם מסויים) לערך שמניחים כי הוא ממשי, המהווה תכונה אובייקטיבית של האוכלוסיה (הגובה הממוצע של האוכלוסיה, שאינו בהכרח ממוצע הגבהים של המדגם שנלקח).
האקינג מנסה להסביר את הלך המחשבה של קטלה שהוביל אותו למסקנה כי אכן ההתפלגויות המופיעות בטבע ובתופעות חברתיות היא אכן פעמונית/נורמלית. אני מודה שלא ירדתי לסוף דעתו של האקינג, ובודאי לא אוכל לתמצת כאן את ההסבר שלו. אומר רק כי למיטב הבנתי, האקינג טוען כי קטלה תפס גם הוא את משפט הגבול המרכזי באופן אינטואיטיבי בדומה ללפלס ולגאוס, ((6. משפט הגבול המרכזי הוכח רק בראשית המאה ה-20. גירסה ראשונית הוכחה על ידי ליאפונוב ב-1901, והמשפט כפי שהוא מוכר כיום הוכח על ידי לינדברג ב-1920)) ומקור ההתפלגות הוא בהצטברות של סיבות רבות בלתי תלויות אשר כל אחת מהן מושכת את הגובה של אדם אל מעל או מתחת לממוצע האוכלוסיה.
מתווי הדרך (מימין לשמאל): קטלה, גאלטון, מקסוול |
החוקר האנגלי פרנסיס גאלטון אימץ את שיטותיו של קטלה במחקריו שלו. גאלטון היה חובב נלהב של מדידות: באפריקה מדד את גופן של בנות השבטים ממרחק בעזרת סקסטנט, הוא אסף נתונים על גיל המוות כדי לבדוק האם כמרים, המבלים זמן רב בתפילות לאל חיים זמן רב יותר מאנשים “רגילים” (הם לא), והמציא מכשירים למדידת רמת השעמום בישיבות. בהיותו מושפע עמוקות מהתיאוריה של בן-דודו, צ’ארלס דארווין, כי מוטציות מקריות הן הכוח המניע של האבולוציה הביולוגית, התעניין גאלטון בפיזור, למעשה בסטיית התקן, של ההתפלגות, בניגוד לקטלה שהתעניין בממוצעים. עבודתו של גאלטון בפיתוח הרגרסיה ומקדם המתאם מתבססת במפורש על ההנחה כי למשתנים המעורבים יש התפלגות נורמלית, ולפי סטיגלר, מנסה ליישב בין הטענה של קטלה להומוגניות של האוכלוסיות (הניתנות לאפיון על ידי פרמטר בודד) ובין מגוון הסיבות המובילות לשונות בין פרטי האוכלוסיה.
גאלטון התעניין גם במדידת אינטליגנציה ובדרך בה היא עוברת בתורשה. אם גובה ומשקל של אדם מפולגים נורמלית, שאל גאלטון, מדוע שהתפלגות האינטליגנציה לא תהיה נורמלית? (( 7. המונח “התפלגות נורמלית” נטבע ככל הנראה על ידי צ’רלס פירס, פרנסיס גאלטון, ווילהלם לקסיס, באופן בלתי תלוי, בסביבות 1875)) גאלטון עצמו לא הצליח למדוד אינטליגנציה באופן שהשביע את רצונו, לא כל שכן את מידת ההורשה שלה. מבחני אינטליגנציה החלו להכנס לשימוש בשנות ה-20 של המאה ה-20.
ההתפלגות הנורמלית המשיכה להופיע במקומות מפתיעים. ב-1873 נאם הפיזיקאי ג’יימס קלרק מקסוול הרצאה בפני האגודה הבריטית לקידום המדע, והציג בה את תגליותיו האחרונות בתחום הדינמיקה והקינטיקה של הגזים. מקסוול דיבר גם על הבעיות המתודולוגיות בהן נאבק במחקריו. אין זה אפשרי, הסביר, למדוד את מהירותן של מיליוני מולקולות גז ולחשב את מסלוליהן, כאשר הן נעות במהירות ומתנגשות זו בזו. לכן אימץ מקסוול, יחד עם עמיתיו למחקר, שיטות מתחום מדעי החברה: במקום לדון במהירות ובמסלול של כל מולקולה ומולקולה, חקר מקסוול את התפלגות המהירויות. הוא עשה זאת כבר ב-1859, בגישה דומה לגישתו של לפלס. ההתפלגות, המכונה כיום התפלגות מקסוול-בולצמן, אינה התפלגות נורמלית, אך קשורה אליה קשר הדוק. הסטטיסטיקאים מכירים התפלגות זו בשם “התפלגות חי-בריבוע”, והיא מתקבלת על ידי העלאה בריבוע של ערכי ההתפלגות הנורמלית.
בהרצאתו ב-1873 מקסוול סטה סטייה חדה מהדרך שהתוו עד כה לפלס וממשיכיו. לפלס טען כי העולם הינו דטרמיניסטי, והמקריות הנצפית בו (המתבטאת במשחקי מזל, וגם במדידות אסטרונומיות) משקפת למעשה חוסר ידע ויכולת שלנו, בני האדם, לדעת מהם כל הכוחות הפועלים על המטבע המוטל, למשל, ולו ידענו מהם יכולנו לדעת מראש אם יפול על ראש או על זנב. מקסוול טען כי השונות בתופעות פיזיקליות הינה אמיתית, ולא רק שיקוף של הבורות האנושית. הוא אמנם נמנע מלטעון כי קיימת מקריות אמיתית בעולם; טענה זו הועלתה רק בתחילת המאה ה-20, ובקונטקסט של תורת הקוואנטים (( 8. שבה הבנתי דלה ביותר )). עם זאת, מקסוול הראה כיצד ניתן ליישם את התיאוריה הסטטיסטית, שצמחה מניתוח משחקי הימורים, ופותחה ככלי למחקרים סוציולוגיים וביולוגיים, במדע מדוייק יותר כפיזיקה.
היסטוריה לא נורמלית 🙂 והספר של סטיגלר מעולה.
ומהשילוב של סטטיסטיקה ופיזיקה קיבלנו את האנטרופיה, שהיא אחד הדברים היותר מעניינים שיש, ומקיימת את היחס 20-80 מאותה התפלגות ‘פעמון’.
באשר לשאלת המקריות – היית מצפה שיהיה דיון פילוזופי מקיף בנושא, אבל אין… מראה כמה הפילוזופיה שווה.