נסיכת המדעים » מה אומרת הסטטיסטיקה

ארכיב עבור 'מה אומרת הסטטיסטיקה'

הרהורים על תקציב התרבות

לא, אני לא באמת מהרהר על תקציב התרבות. אבל קראתי את תחילתו של טור הדיעה שפרסם רותם סלע היום בגלובס. תחת הכותרת "תקציב התרבות חונק את הפריפריה" כותב סלע כי "כ-40% מההקצבות (תקציב התרבות י.ל.) מופנות למוסדות בתל אביב שתושביה מהווים כ-5% בלבד מאוכלוסיית המדינה".

אני לא רוצה להכנס לכל המשנה הסדורה שסלע מנסח בהמשך מאמרו. בהחלט יכול להיות שהוא צודק. יש לי בעיה עם הטיעון הכמותי שלו. נכון שבתחומי העיר תל-אביב-יפו חיים כ-5% מאוכלוסיית המדינה, אבל תל-אביב היא קצת יותר מהתחום המוניציפלי. במטרופולין של תל אביב חיים כ-3.2 מיליון איש, שהם כ-45% מתושבי המדינה, לא 5%. את הנתון הסטטיסטי הזה סלע לא לוקח בחשבון. הוא לא תומך בטיעון שלו (ולמען האמת, גם הנתון שהוא הביא – מיותר).

נשלח: 26 במאי, 2009. נושאים: מה אומרת הסטטיסטיקה.
תגובות: 3 | טראקבק

כשלים סטטיסטיים אפשריים בניסויים קליניים – הקדמה

לפני כחודשיים פנה אלי אחד מבכירי החברה בה אני עובד וביקש ממני שאעזור לו להכין מצגת על נושאים סטטיסטיים הקשורים בפיתוח תרופות בכלל ובניסויים קליניים בפרט. שמחתי לעזור (חלק החומר הדרוש היה לי מן המוכן: תפקיד הסטטיסטיקאי בתהליך הפיתוח הקליני, שיקולים סטטיסטיים בתכנון ניסויים בבעלי חיים, בין שתי טעויות – הרשימה בה הסברתי את נושא בדיקת ההשערות, ועוד כמה דברים). נתבקשתי גם לסקור כשלים סטטיסטיים נפוצים בניסויים קליניים, וזו הייתה משימה יותר מאתגרת, ובזכותה תיהנו אתם, קוראי הבלוג המתעניינים בנושא זה, מסדרה של רשימות שתסכם את ממצאי והגיגי.

ראשית, אתייחס לכותרת הסדרה. סטטיסטיקאים הם גם בני אדם (בניגוד לסברה הרווחת). לכן הם צפויים לטעות, וכיוון שכך, טעויות/כשלים סטטיסטיים בניסויים קליניים (או בכל מקום אחר בו פועל הסטטיסטיקאי) הינם בלתי נמנעים. רק מי שלא עושה לא טועה. האם יש כשלים סטטיסטיים "נפוצים"? אני רוצה לקוות שלא. במקומות מסודרים ישנם תהליכי בקרת איכות שתפקידם לסייע באיתור טעויות מבעוד מועד ולתקן אותן בזמן. עם זאת אף תהליך בקרת איכות אינו מושלם, וטעויות קרו, קורות ויקרו, גם לסטטיסטיקאים וגם לכל אדם אחר. לכן, הכותרת של סדרת רשימות זו תהיה "כשלים סטטיסטיים אפשריים בניסויים קליניים", לא כשלים נפוצים, בתקווה שאכן זה המצב.

כלי מרכזי בבקרת איכות של עשיה סטטיסטית היא בקרת עמיתים (peer review). בקרה כזו עלולה להיכשל בשל מה שמכונה לפעמים "שלטון הקונספציה". אם כולם משוכנעים שמשהו נכון, למרות שהוא שגוי, השגיאה לא תתגלה, אלא רק כאשר יהיה מאוחר מדי. דרך טובה להמנע מכשל כזה היא מודעות. מי שמודע לשגיאה אפשרית ידע גם לחפש אותה ולהמנע ממנה. פעם נשאלתי בראיון עבודה מהי התכונה הטובה ביותר שלי. השבתי כי אני לומר משגיאות, ואיני עושה את אותה השגיאה פעמיים. אני עדיין חושב שזו תכונה טובה, ובכל זאת, עדיף תמיד ללמוד משגיאות של אחרים, לא משלך, וכן כדאי תמיד להשקיע עוד קצת מחשבה ומאמץ כדי להמנע מלעשות את השגיאה גם בפעם הראשונה.

כשהתחלתי לחפש "חומר" על הנושא נדהמתי לגלות כמה מעט נכתב על כשלים סטטיסטיים בתחום הניסויים הקליניים. תדהמה שניה אחזה בי שהחזקתי בידי את הרשימה של הכשלים האפשריים שזיהיתי, אם ממקורות שמצאתי ברשת ובפרסומים המדעיים, ואם כאלה שזיהיתי בכוחות עצמי. אמנם, לא גיליתי תגליות חדשות, כלומר כשלים אפשריים שלא הייתי מודע להם קודם לכן (וזה לא אומר שאין כאלה), אבל מה מצאתי מספיק בהחלט כדי להעיק, ולעורר (לפחות בי) מודעות נוספת לנזקים שאני ועמיתי עלולים לעולל אם רק נירדם לרגע בשמירה.

איפה אפשר לטעות? בכל שלב שהוא. למעשה, הרשימה "תפקיד הסטטיסטיקאי בתהליך הפיתוח הקליני" שימשה אותי כנקודת מוצא. אפשר לטעות בשלב תכנון הניסוי, אפשר לטעות במהלך ביצוע הניסוי, ואפשר לטעות במהלך ניתוח הנתונים, הצגתם ופרשנותם. מטבע הדברים, ככל שטעות מתרחשת מוקדם יותר, כך השפעתה גדולה יותר, ולכן הטעויות הקריטיות ביותר נעשות בשלב התכנון (ראו למשל את הרשימה "מה הקשר בין איזופודים ותאונות דרכים?"). עם זאת, אין פירוש הדבר כי טעויות בשלבים מאוחרים ביותר הן זניחות. להיפך, הן עשויות להיות קריטיות לא פחות.

גם מי שלא עוסק בניסויים קליניים יוכל להפיק תועלת, לדעתי, מרוב הדברים שיובאו ברשימות הבאות. ההשלכה לתחומים אחרים היא מיידית. למעשה, כבר בשלב הראשוני, שהמצגת עוד הייתה טיוטה על גבי נייר, נוכחתי לדעת שדוגמאות רלוונטיות רבות כבר נסקרו כאן בבלוג. הצגות גרפיות מטעות יש כמעט בכל מקום, ופירוש שגוי של מתאם כסיבתיות נפוץ הרבה יותר בתחומים אחרים. לכן אני סבור שסדרת הרשימות הזו תעזור לא רק לעוסקים בסטטיסטיקה, אלא גם לצרכני הסטטיסטיקה, כלומר לכולכם, למעשה.

הרשימות הבאות בסדרה

– כשלים סטטיסטיים אפשריים בניסויים קליניים – סקירת ספרות

נשלח: 27 באפריל, 2009. נושאים: ביוסטטיסטיקה, מה אומרת הסטטיסטיקה.
תגובות: 2 | טראקבק

סקירה על סולמות מדידה

הקדמה

בעקבות דיון שהתפתח בתגובות לאחת הרשימות האחרונות שלי (וכן מספר חיפושים בגוגל על הנושא שהגיעו אל הבלוג) החלטתי להקדיש רשימה לנושא של סולמות המדידה.

עלי לציין כי במסגרת לימודיי הפורמליים מעולם לא למדתי את הנושא, ואיכשהו מניחים כי הוא ברור מאליו. אבל כשלימדתי קורסים במבוא לסטטיסטיקה מחוץ למסגרת האוניברסיטה העברית (במכללה למנהל ובאוניברסיטה הפתוחה) היה עלי ללמד את הנושא (כמובן, אחרי שלמדתי אותו היטב בכוחות עצמי), והתברר לי כי הוא גורם לקשיים אצל הסטודנטים. בחוברות המבוא לסטטיסטיקה של האוניברסיטה הפתוחה קיים טקסט ממצה של הנושא, ולכאורה, קריאה בו אמורה להקנות לקורא את כל הידע הבסיסי בנושא. אמנם האינטואיציה של הנושא ברורה לכל מי שיש לו אינטואיציה לסטטיסטיקה, כך שלי הנושא נראה טריוויאלי, אבל לא כך הדברים נראים מזוית המבט של סטודנט למדעי החברה/כלכלה/מנהל עסקים שצריך ללמוד קורס חובה בסטטיסטיקה בסיסית. כמו כן, למרות שמדובר בנושא בסיסי ופשוט יחסית, הוא דורש בכל זאת מעט חשיבה לא שגרתית, התגברות על הנטייה לייחס למושגים מתמטיים את משמעותם היומיומית, ומעל לכל, הבנה טובה של הנושא היא בסיס הכרחי להבנה של הכלים הסטטיסטיים אליהם נחשפים בהמשך.

הרשימה הזו כוללת את עיקרי הדברים המופיעים בכל טקסט בסיסי, עם מספר דוגמאות והבהרות שנהגתי לתת כהסברתי את הנושא לסטודנטים.

מהי מדידה?

כל אחד יכול לחשוב על דוגמא כלשהי למדידה. אפשר לקחת סרט מדידה ולמדוד את רוחב החלון בסנטימטרים. אנחנו לעמוד על מאזניים ביתיים ולמדוד את משקל גופנו (פעולה שאני נמנע מלבצע בדרך כלל). שוטרים משתמשים במערכות אלקטרוניות כדי למדוד את מהירות נסיעתה של מכונית. כל אלה דוגמאות נפוצות מחיי היום יום.

סטטיסטיקאי יכול לחשוב על דוגמאות נוספות שלא יעלו בדעתו של אדם רגיל, שלא נתקל בנושא סולמות המדידה באיזה קורס או טקסט. הסיבה? הגדרת המושג "מדידה". "מדידה" בלשון הסטטיסטיקה היא התאמה של ערך מספרי לתכונה. ההתאמה יכולה להיות מבוססת על מערכת פיזיקלית כלשהי, או אולי מערכת קוגניטיבית, או שרירותית לחלוטין.

לדוגמא, אם אני רוצה לשמור במחשב נתונים של מינם של המשתתפים בניסוי קליני, אני יכול להצמיד לגברים את הערך המספרי "0" ולנשים את הערך המספרי "1". "מדדתי" את מינו של כל משתתף בניסוי, על ידי כל שהתאמתי ערך מספרי (בדוגמא הזו 0 או 1) לתכונה (בדוגמא הזו: מין המשתתף בניסוי).

מנסיוני, זהו המוקש הראשון עליו עולים רוב סטודנטים. וזו בעיה ידועה, לא רק בסטטיסטיקה אלא בכל לימודי המדעים המדויקים. צריך לעשות הפרדה בין המושג האינטואיטיבי של "מדידה", שתואר בפסקה הראשונה בסעיף זה, ובין המושג הסטטיסטי של מדידה, כפי שהוגדר בפסקה השניה.

לסיכום הסעיף הזה: בכל פעם שאתם משתמשים במספר כדי לתאר משהו – ביצעתם מדידה.

מהם סולמות מדידה?

אם מדידה היא התאמה של ערך מספרי לתכונה, אז מערכת מספרית ספציפית לפיה מתאימים מספר לתכונה נקראת "סולם מדידה".

בדוגמא שנתתי בסעיף הקודם השתמשתי בסולם המדידה: גבר=0, אשה=1. לא הייתי חייב לבחור דווקא בסולם הזה. יש עוד סולמות אפשריים למדידת התכונה של מין המשתתף בניסוי, למשל: גבר=2, אשה=1. או: גבר=17, אשה=23, וכולי וכולי. חדי העין שבין הקוראים ישימו לב בודאי שיש תכונה משותפת לשלוש הדוגמאות שנתתי לסולם המדידה למין המשתתף בניסוי.

אנחנו יכולים לנסות לבדוק את כל ההתאמות האפשריות ולנסות לסווג אותן על פי תכונותיהן. מייד אציג דרך אפשרית לסווג את כל סולמות המדידה (כלומר את כל ההתאמות האפשריות של מערכות מספריות לתכונות) לארבע קבוצות עיקריות המכונות: סולם שמי, סולם סודר, סולם רווח וסולם מנה. מתברר כי החלוקה הגסה הזו מספיקה לרוב צרכי הסטטיסטיקה.

סולם המדידה השמי

סולם המדידה השמי הוא סולם בו הערך המספרי משמש לזיהוי בלבד של התכונה נמדדת, ואין כל משמעות נוספת לערך המספרי מעבר לכך. סולמות המדידה שהצגתי למין המשתתפים בניסוי הוא דוגמא לכך (חשבו מדוע לפני שתמשיכו לקרוא, ואח"כ חישבו איזה הסתייגות אפשר להוסיף לדברים האלה).

הנה עוד מספר דוגמאות:

מספרים של קווי אוטובוסים
מספרי תעודת זהות
מספרים אישיים בצה"ל
מספרי החולצות של שחקנים בקבוצת ספורט
סוג הקפה הנמס (המבוטא על יד בר-קוד) שקנה לקוח בסופרמרקט

בכל המקרים האלה (כמעט) אין משמעות למספרים מעבר למתן האפשרות לזיהוי. אם בקבוצת כדורסל מסוימת מיקי לובש את הגופיה מספר 9 ומוטי את הגופיה מספר 7, זה לא אומר בהכרח כי מיקי שחקן טוב יותר ממוטי (אולי כן, אבל זה לא נובע ממספר החולצה). אם אפשר לנסוע מבת-ים לתל-אביב במספר קווי אוטובוס, כולל 10, 18, 25 ו-26, זה לא אומר שנסיעה בקו 25 עדיפה על נסיעה בקו 18 (אלא אם אתה רוצה להגיע לרמת אביב). נסיעה בקו 44 בודאי שאינה עדיפה כפליים על נסיעה בקו 22, והאמירה לפיה קו האוטובוס הממוצע הנוסע בבת-ים הוא 53.12 (סתם המצאתי) חסרת כל משמעות. אין משמעות לטענה המתייחסת לטיב החבטות של שחקני בייסבול שמספר החולצה שלהם קטן מ-17.

מיקי ומוטי

עם זאת, קיים מקרה מיוחד בו לממוצע של משתנה שמי יש משמעות. נסו לגלות מהו. התשובה תופיע בהמשך הרשימה.

המדדים הסטטיסטיים היחידים שיש להם משמעות בהקשר של מדידה שמית הם נתוני שכיחות ושכיחות יחסית. יש משמעות לטענות כמו "34% מהלקוחות קנו קפה נמס מסוג X", או "סוג הקפה הנרכש ביותר הוא קפה נמס מסוג Y". עם זאת, הניתוח הסטטיסטי של נתונים מסולם מדידה שמי, המכונים לעיתים "נתונים קטגוריים" אינו מוגבל רק ליצירת טבלאות שכיחות, וקיימות שיטות סטטיסטיות מתוחכמות לניתוח נתונים כאלה (עבודת הדוקטורט של כותב שורות אלה עסקה בניתוח נתונים קטגוריים).

קוראים ששירתו בצבא יאמרו בודאי כי הדוגמא של מספרים אישיים אולי אינה מתאימה: מי שהתגייס קודם, המספר האישי שלו קטן יותר, ואכן קיימת בצבא תרבות שלמה של "ותיקות" ששלוש הספרות הראשונות במספר האישי, המהוות אינדיקציה למחזור הגיוס, הן אחד הסממנים שלה. זה מביא אותנו אל הסולם הבא בתור.

סולם המדידה הסודר

סולם מדידה סודר הוא סולם בו הערכים המספריים מבטאים סדר טבעי של התכונה הנמדדת.

סולמות כאלה נפוצים מאוד גם במדעי החברה וגם ברפואה. כל מי שמילא שאלון או השתתף בסקר כלשהו בודאי ענה לשאלה בסגנון הבא: "בסולם של 1 עד 5, כאשר 1 מבטא חוסר הסכמה מוחלטת ו-5 מבטא הסכמה מלאה, עד כמה אתה מסכים עם המשפט הבא….". מדדים קליניים רבים לחומרת מחלה מבוססים על סולם סדר. חומרת המחלה של טרשת נפוצה, למשל, נמדד על ידי סולם בן 21 שלבים, המכונה EDSS. סולם זה מתחיל ב-0 ועולה בקפיצות של 0.5 עד 10.

מה משותף לסולמות האלה? קודם כל, הם מזהים את כל אחד מהנמדדים כשייכים לקבוצה מסויימת. סולם ההסכמה 1-5 מזהה כל נסקר כשייך לאחת מחמש קבוצות: קבוצת הנסקרים שמבטאים חוסר הסכמה מוחלטת (1), קבוצת הנסקרים שמבאים חוסר הסכמה מסויים (2) וכך הלאה. גם סולם EDSS מחלק את כל חולי הטרשת הנפוצה ל-19 קבוצות על פי חומרת מחלתם. במלים אחרות, כל סולם מדידה סודר הוא גם סולם מדידה שמי. ההיפך לא נכון. מדוע? כי אנו יכולים לדעת שחולה עם ערך EDSS השווה ל- 4, למשל, הוא חולה שמצבו הקליני חמור יותר מחולה שערך ה-EDSS שלו הוא 3.

וכאן המקום להזהיר: למספרים שבסולם המדידה הסודר אין משמעות מעבר לסדר שהם מגדירים. את הסולם ההסכמה "1-5" אנו יכולים להפוך לסולם "0-4" או "12-16" או להצמיד לחוסר הסכמה מוחלטת את המספר 1, לאי הסכמה חלקית את 3.14, לאדישות את 17, להסכמה חלקית את 100 ולהסכמה מלאה את המספר מליון ואחת עשרה. על המערכות האלה שקולות, ושינוי מערכת המספור לא ישנה את האינפורמציה הטמונה בנתונים. מכאן שעדיין אין משמעות למשפטים כמו "דרגת ה-EDSS הממוצעת של החולים היא 4.1" או "רמת ההסכמה הממוצעת לטענה היא 2.7 עם סטיית תקן 0.3". אם תחליפו את הסולם בסולם אחר השומר על הסדר המספרי בין התכונות, הנתונים המספריים ישתנו למרות שמהותית לא השתנה דבר.

לעומת זאת, יש בהחלט מדדים סטטיסטיים בעלי משמעות לתיאור משתנים סודרים. הידוע שבהם הוא החציון, ואליו מתלווים אחיו האחוזונים. יש משמעות לטענות כמו "70% מהמשיבים לסקר לא הביעו חוסר הסכמה (מוחלטת או חלקית) עם הטענה", או "דרגת החומרה החציונית של החולים שהשתתפו בניסוי הייתה 3.5 בסולם EDSS".

סולם הרווח

זהו הסולם הראשון בו יש משמעות כמותית לערכים המספריים הנמדדים, ולכן מותר לבצע עליהם פעולות אריתמטיות מסוימות. המגבלה שמוטלת על סולם הרווח היא שיש משמעות להפרשים (רווחים) שבין הערכים הנמדדים, אך לא ליחסים שבין הערכים. בסולם זה גם יש לראשונה התאמה בין המשמעות האינטואיטיבית של המילה "מדידה" ובין המשמעות הסטטיסטית שלה.

הדוגמא העיקרית המוכרת לי היא סולמות המדידה של הטמפרטורות. אם היום הטמפרטורה היא 20 מעלות צלזיוס, ומחר הטמפרטורה היא 25 מעלות צלזיוס, אז לגיטימי לומר כי הבדלי הטמפרטורות בין שני הימים הם חמש מעלות צלזיוס. כמי שגר בשיקגו כמה שנים טובות, אני יכול בהחלט להעיד כי ההבדל בין טמפרטורה של 25 מעלות צלזיוס וטמפרטורה של 10 מעלות צלזיוס זהה להבדל בין הטמפרטורות מינוס 10 מעלות ומינוס 25 מעלות, מבחינת ההרגשה.

אבל, אם היום הטמפרטורה הייתה 20 מעלות ולפני שבוע היא הייתה 10 מעלות, האם פירוש הדבר כי היום חם כפליים מאשר אתמול? לא ולא. אילו מדדנו את הטמפרטורות בסולם פרנהייט, כמו ידידינו שמעבר לאוקיינוס האטלנטי, היינו מודדים היום 68 מעלות פרנהייט, ולפני שבוע 50 מעלות פרנהייט, ו-68 אינו גדול כפליים מ-50. החום הוא אותו חום, אך הטמפרטורות שונות. אין משמעות ליחס שבין הטמפרטורות (מדוע – נראה מייד).

מבחינה מעשית, רוב המדדים הסטטיסטיים והשיטות הסטטיסטיות ניתנים ליישום על גבי נתונים שנמדדו בסולם הרווח. לממוצע טמפרטורת יש משמעות, גם לסטיית התקן שלהן. עם זאת, יש להיזהר באינטרפרטציה של התוצאות.

סולם המנה

בסולם המנה יש משמעות כמותית לערכים המספריים הנמדדים, כולל ליחסים ביניהם. זה אפשרי רק כאשר ערך האפס של הסולם הינו מוחלט. לכן אם משקלו של אדם אחד הוא 100 ק"ג ומשקלו של חברו רק 50 ק"ג, אפשר בהחלט לומר כי משקל האדם הראשון גדול כפליים ממשקל חברו. אתם יכולים לחשוב על המון דוגמאות למדדים כאלה: משקל, גובה, מרחק, מהירות, מחירים ועוד. כל המדדים הסטטיסטיים ניתנים לחישוב עבור נתונים שנמדדים בסולם מנה, וכל השיטות הסטטיסטיות ניתנות בעיקרון ליישום על נתונים אלה.

יוצא הדופן

ציינתי למעלה כי יש מקרה מיוחד בו לממוצע של משתנה שמי יש משמעות. מי שהייתה לו סבלנות להגיע עד כאן יגלה עכשיו את התשובה. כזכור, משתנה שמי הוא משתנה בו הערך המספרי משמש לזיהוי בלבד של התכונה נמדדת, ואין כל משמעות נוספת לערך המספרי מעבר לכך. כך למשל, אם המשתנה הוא מינו של הנבדק בניסוי הקליני, אז סימון של 0 לגבר ו-1 לאשה הוא פשוט קידוד שרירותי המתאים ערך מספרי למין הנבדק. ובכל זאת, נניח שעכשיו אנו מחשבים את הממוצע של המשתנה הזה. מה נקבל? נניח שבניסוי שלנו היו 500 משתתפים ומתוכם 300 נשים. כדי לחשב את הממוצע, נחבר 300 אחדים (אחד לכל אישה) ו-200 אפסים (עבור 200 גברים). את התוצאה, 300, נחלק ב-500. נקבל כי המין הממוצע הוא 0.6, וזו בדיוק פרופורציית הגברים באוכלוסיה.

נשלח: 4 באפריל, 2009. נושאים: מה אומרת הסטטיסטיקה.
תגובות: אין | טראקבק

בעיית מונטי הול חוזרת

גיל גרינגרוז פרסם רשימה מצויינת על בעיית מונטי הול בבלוג שלו ב"רשימות" – אותה בעיה בה יש שלוש דלתות, מאחורי אחת מהן פרס גדול, וכולי וכולי.

הקוראים שמכירים את הבעיה יודעים בודאי כי החוכמה היא לא למצוא את הפתרון הנכון, אלא להשתכנע שזהו אכן הפתרון הנכון, ובכך עוסקת רוב הרשימה של גיל. בהזדמנות זו אפנה את קוראיי שוב לרשימה שאני כתבתי על בעיית מונטי הול, שעסקה בקשיים שלי להסביר את הפתרון ואת האינטואיציה שמאחוריו.

נשלח: 25 בפברואר, 2009. נושאים: מה אומרת הסטטיסטיקה.
תגובות: 1 | טראקבק

הזהרו מעצי באובב וממכוניות שחורות

אחד מקוראי שלח לי את הכתבה הבאה שפורסמה ב"ידיעות אחרונות" לפני זמן מה (לחצו על התמונה כדי לראות אותה בגודל מלא). על פי הכתבה, מכוניות שחורות הינן מסוכנות. לפי נתוני חברת "שגריר", נטען שם, "הסיכוי של מכונית שחורה להיות מעורבת בתאונה הוא פי 1.5 משל מכונית לבנה או אדומה". ואכן, מהתבוננות בטבלה נראה כי 2.12% מהמכוניות השחורות היו מעורבות בתאונות, לעומת 1.48% מהמכוניות האדומות ו-1.50% מהמכוניות הלבנות. האם כדאי לזוז הצידה כאשר רואים במראה מכונית שחורה, כמו שמייעץ לנו הכתב? לא בטוח.

קודם כל, ההבדלים בין האחוזים המצוינים עבור המכוניות השחורות והאדומות אינם מובהקים סטטיסטית. ההבדל בין המכוניות השחורות למכוניות הלבנות כן מובהק סטטיסטית, וזאת בגלל המספר הגבוה של המכוניות הלבנות (כ-35,000) לעומת המספר הנמוך יחסית של מכוניות שחורות ב"מדגם" (פחות מ-3000). אבל זה באמת לא משנה. ממילא התוצאה הזו אנקדוטלית, ולא בהכרח מייצגת, כפי שאסביר מייד.

מדוע נצפתה התופעה? יכולים להיות מספר הסברים. הסבר אפשרי אחד ניתן בכתבה על ידי מנכ"ל חברת שגריר. קשה יותר להבחין במכוניות כהות על רקע הכביש, הסביר, וכן הצבע האדון מאפיין מכוניות ספורט ונהגים צעירים. במלים מקצועיות, ייתכן ויש כאן משתנים המתווכים בין צבע המכונית והסיכוי שלה להיות מעורבת בתאונה – סוג המכונית ואופי הנהג. אני חייב לשבח את המנכ"ל הנכבד שסיפק את ההסבר המתבקש, ומיתן בכך את פתיחת הכתבה הסוערת.

ברצוני להוסיף שתי הערות. ראשית, כפי שאולי שמתם לב, הכנסתי את המילה מדגם למרכאות כפולות כאשר התייחסתי לנתונים שפורסמו בפיסקה השניה של רשימה זו. זה לא במקרה. הנתונים אינם נתוני מדגם, אלא נתונים המתייחסים לכלי הרכב של מנויי חברת שגריר. ייתכן כי מנויי החברה שונים באופן מהותי מנהגים שאינם מנויים. למשל, ייתכן כי שרוב המנויים מקבלים את המנוי כתוספת לביטוח המקיף של הרכב, ומצד שני רוב הנהגים שאין להם ביטוח מקיף גם אינם מנויים של שגריר. אם כך הדבר, אזי המסקנות הנגזרות מנתוני שגריר אינן תקפות לכלל אוכלוסיית הנהגים ומכוניותיהם.

הערה שניה: כיצד אפשר באמת לוודא האם לצבע הרכב יש או אין השפעה על הסיכוי להיות מעורב בתאונת דרכים? במלים אחרות – כיצד אפשר לנטרל את השפעת המשתנים המתווכים? הדרך לשעות זאת היא בעזרת ניסוי מבוקר. לוקחים קבוצת נהגים, ומקצים להם באופן מקרי מכוניות בצבעים שונים. לאחר תקופת מה, בודקים את שיעור המעורבות בתאונות הדרכים של כל אחת מקבוצות המכוניות. זה לא מעשי כמובן, כשמדובר במכוניות, אבל זו פרקטיקה מקובלת בהרבה תחומים אחרים – פיתוח תרופות למשל.

ולסיום – לא משנה מה צבע המכונית שלכם. סעו בזהירות!

נשלח: 7 בפברואר, 2009. נושאים: מה אומרת הסטטיסטיקה, סטטיסטיקה רעה.
תגובות: 9 | טראקבק

איך לקרוא את הסקרים?

הבוקר התפרסם ב"הארץ" מאמר מאת פרופ' יואב בנימיני, נשיא האיגוד הישראלי לסטטיסטיקה, שכותרתו "איך לקרוא את הסקרים?".

ארבעה ימים לפני הבחירות, וביום האחרון בו החוק מתיר פרסום פומבי של סקרי בחירות ותוצאותיהם, מפרט בנימיני סיבות אפשריות לשוני הגדול הנצפה כעת בין הסקרים השונים.

סיבה אפשרית אחת, מסביר בנימיני, היא השפעה אפשרית של מי שמממן את הסקר, באמצעות הטיות קטנות כמו בחירת האוכלוסייה המיוצגת בסקר, סדר השאלות, או אפילו השפעה על נוסח השאלה. לכן ממליץ בנימיני להתייחס בחשדנות לסקרים שתוצאותיהם נמסרות על ידי בעלי אינטרסים, כגון דוברי מפלגות.

בנימיני מפרט גם בעיות מתודולוגיות העלולות להטות את התוצאות, כגון סירוב להשתתף בסקר, ושיעור הבלתי מחליטים ("הקולות הצפים" ). ככל שחלקן של שתי קבוצות אלה במדגם גבוה יותר, כך גדלה הבעיה הפוטנציאלית בסקר.

בנימיני לא התייחס, לצערי, לתופעה של נסקרים המשיבים בכוונה תשובות לא נכונות לסוקרים. אני יכול להבין מדוע. בעוד שאת שיעור הבלתי משיבים ואת שיעור הקולות הצפים ניתן למדוד, היכולת לאמוד את שיעור השקרנים שעלו במדגם מוגבלת (אם כי ניתן ככל הנראה לעשות משהו גם בעניין זה, על ידי השוואת תשובת הנסקר לשאלה למי הוא יצביע עם הניבוי שמספקים משתני הרקע שלו).

בסופו של דבר, מסביר בנימיני, כדי להעריך את תוצאותיו של סקר יש לדעת מי מימן אותו, מי ערך אותו ומתי; מי הנשאלים ומה נשאלו; כמה סירבו להשיב, מה טעות הדגימה וכמה מתלבטים עדיין. למרות שלפי דרישות החוק חובה לפרסם נתונים אלה ביחד עם תוצאות הסקר, מצביע שוב בנימיני על הפרת החוק בידי אמצעי התקשורת, ואזלת היד של ועדת הבחירות המרכזית שלא מבהירה מספיק, לדעתו, את החובה למלא את דרישות החוק. אני אחריף את דבריו ואומר כי ועדת הבחירות המרכזית מעלה בתפקידה כאשר נמנעה מאכיפת החוק.

בנימיני מסכם ואומר כי "מן הראוי לנקוט משנה זהירות כאשר נשענים על תוצאות הסקרים כדי להחליט בעבור מי להצביע". דברים אלה נכונים אמנם, אך אני מציע לכם, קוראיי, להחליט למי תתנו את קולכם על פי צו מצפונכם והשקפת עולמכם, ולא להסתמך על סקרי הבחירות המפורסמים בארצנו ככלי תומך החלטות.

נשלח: 6 בפברואר, 2009. נושאים: מה אומרת הסטטיסטיקה, סקרים, על סדר היום.
תגובות: אין | טראקבק

הסטטיסטיקן הממשלתי וקו העוני: חוסר הבנה או ציניות?

הפרסום התקופתי של דו"ח העוני בשבוע שעבר נתן למירב ארלוזורוב עוד הזדמנות להביע את דעותיה על גבי העיתון בו היא כותבת, דה-מרקר. ארלוזורוב בחרה שלא לכתוב מאמר דיעה, אלא נקטה בטכניקה אחרת, פרסום שלושה ראיונות עם שני אינטרסנטים במסווה של ידיעה עיתונאית.

ברשימה של היום אדון בידיעה שהקדישה ארלוזורוב לדבריו של הסטטיסטיקן הממשלתי, פרופ' שלמה יצחקי, שאינו סטטיסטיקאי אלא כלכלן. יצחקי אמר לארלוזורוב: "קו העוני הוא קו מטופש, מכיוון שהוא נתון למניפולציות של האוצר ושל משרד הרווחה". ועוד אמר: "חיתוך ההתפלגות של האוכלוסייה בנקודה מסוימת, כדי לקבוע שכל מי שנמצא מתחתיה נחשב לעני, הוא חסר חשיבות". במקום קו שרירותי, מדווחת ארלוזורוב, מציע יצחקי לקבוע קו אחיד; למשל, לקבוע כי שני העשירונים התחתונים של האוכלוסייה ייחשבו לעניים. אבל יצחקי מפגין גם נדיבות: הוא מוכן לחשב את קו העוני ללא תוספת תקציב במקום המוסד לביטוח לאומי. זה דורש יום אחד של עבודה, הוא אומר. הוא לא דורש תקציב, אבל בהחלט מבהיר את המחיר: "אצלי", אומר יצחקי, "קו העוני יהיה סתם עוד נתון סטטיסטי אחד".

עד כאן דברי הסטטיסטיקן הממשלתי.

מה באמת אומר יצחקי? בוא נעבור על הטיעונים אחד לאחד.

"קו העוני הוא קו מטופש, כיוון שהוא נתון למניפולציות". הוא אכן מביא דוגמאות, כגון עדכון או אי-עדכון מדרגות המס. אם לא מעדכנים את המדרגות (דבר שאסור על פי החוק, אז לא ברור לי איך זה קורה), אומר יצחקי, הכנסתם של משלמי המסים יורדת ולכן גם השכר החציוני יורד ועימו קו העוני. לא נכון, מר יצחקי. קודם כל, טבלאות השכר, וגם חישובי קו העוני, נעשים על פי שכר הברוטו, אז מה לחישובי מס ההכנסה ולקו העוני? וגם אם החישוב היה נעשה על פי שכר הנטו ולא על פי שכר הברוטו, הטעון של יצחקי לא ממש מדוייק. ב-2006, למשל, היה השכר החציוני 5246 שח לחודש (קישור לאתר הלמ"ס, קובץ pdf). סף המס באותה שנה, (ההכנסה החודשית המינימלית שבגינה משלמים מס הכנסה) נע בין 4005 שח לגבר שאינו משפחה חד הורית, 4560 שח לאשה ללא ילדים, 5370 שח לאשה נשואה עם ילד אחד, ועד 6178 שח לאשה נשואה עם שני ילדים. במלים אחרות, סף המס קרוב למדי לשכר החציוני. השינויים שחלים בערכים שמעל החציון בגלל "מניפולציות" כביכול במדרגות המס, לא חלים בערכים שמתחת לחציון, והחציון יישאר בערך באותו מקום (לא בדיוק, כי סף המס אינו שווה בדיוק לחציון), ועימו יישאר גם קו העוני השווה למחצית החציון. ה"מניפולציות" שיצחקי תיאר לא משפיעות על קו העוני באופן משמעותי, והסבריו של יצחקי מעידים על חוסר הבנה או ציניות.

האם חיתוך ההתפלגות של האוכלוסיה בנקודה מסוימת, כדי לראות איזה אחוז נמצא מתחת לקו החיתוך ואיזה אחוז מעליו הוא חסר חשיבות? יצחקי לא טורח להסביר מדוע, כי אין לו הסבר. אם זהו נתון כל כך חסר חשיבות, מדוע הוא טורח כל כך להשמיץ אותו? ברור שלנתון יש חשיבות. ראשית, המתודולוגיה של קביעת ערך סף היא מתודולוגיה מדעית מקובלת, במדעי החיים, למשל, אך לא רק שם. את הטיעון העיקרי אומר בדברים שיצחקי עצמו כתב לי לפני כשנתיים: "במידה ויש נושא חשוב לדיווח שיטתי בסטטיסטיקה הרשמית הרי שהוא קיים לאורך זמן ולא בגלל שמישהו כרגע העלה את הנושא לראש שמחתו. כלל זה גם מעוגן בתקנות בינלאומיות המדגישות את הצורך לאי תלות של סטטיסטיקה ממלכתית באירועים פוליטיים". ובמלים פשוטות: חשיבותו של נתון זה נובעת מכך שפרסומו לאורך זמן מאפשרת מעקב אחרי השינויים בחלוקת ההכנסות ואחרי הדינמיקה של האוכלוסיה שבתחתית סולם ההכנסה. אני מסכים שאפשר היה לבחור מדד אחר, אולי בעל עדיפות מתודולוגית כלשהי על המדד הנוכחי. אפשר אולי גם להחליף אותו במדד אחר, אם הדבר ייעשה באופן שיאפשר את המעקב (למשל, תקופת מעבר בה יפורסמו שני המדדים גם יחד)*. אבל להגיד שהמדד לא חשוב – זה חוסר הבנה או ציניות.

טוב, בואו נבחר מדד אחר. מה בקשר להצעת יצחקי כי שני העשירונים התחתונים של האוכלוסייה ייחשבו לעניים? יש כאן כמה בעיות. ראשית, זהו מדד יחסי, כמו המדד הנוכחי שיצחקי ואחרים כל כך מתעבים. שנית, הוא לא ילמד אותנו דבר על שיעור העוני באוכלוסיה, כי שני העשירונים התחתונים מהווים תמיד 20% מהאוכלוסיה. היתרון: לא יהיה גידול בעוני, לפחות לא בשיעור באוכלוסיה, אם כי מספר העניים המוחלט לפי מדד יצחקי ילך ויגדל עם גידול האוכלוסיה. הרי לכם מדד מטופש וחסר חשיבות. האם יצחקי באמת לא מבין מה הוא הציע, או שזו פשוט הצעה צינית שתאפשר לו ולחבריו לטאטא את בעיית העוני אל מתחת לשטיח?

ולסיום, הבה נדון בהצעתו הנדיבה של יצחקי לחשב את קו העוני ללא תוספת תקציב. ביננו, זה לא ייקח יום עבודה, לי זה לקח חמש דקות (למצוא את השכר החציוני בטבלה ולחלק ב-2, כולל הזמן שהוקדש לחיפוש אחרי המחשבון בתוך ארגז הצעצועים של בני הצעיר). ובלמ"ס יש הרבה סטטיסטיקאים מוכשרים. המחיר בו נוקב יצחקי הוא מחיר הרבה יותר גבוה מתוספת תקציב. "אצלי זה יהיה סתם עוד נתון". נתון שייקבר בין טבלאות נתונים אחרים, נתון שננסה לחפש אחריו ונקבל תשובות סתומות מהלמ"ס (כמו הנתון על מספר המורים ושכרם הממוצע, שלא נמצא עד היום). יצחקי מבקש שנרשה לו לקחת את נתוני העוני ולהעלים אותם, ובכך לשבש את הדיון הציבורי בנושא. כאן אני בטוח שיצחקי מבין היטב מה הוא מציע. וזוהי הצעה צינית. נקודה.

* למיטב זכרוני, העיתונאי אריה כספי ז"ל השווה בשעתו מספר מדדי עוני אלטרנטיביים, כולל מדד מוחלט, והגיע למסקנה (הבלתי מפתhעה) כי כל המדדים שבחן מתנהגים באןפן דומה לאורך זמן (כלומר, קיים בינהם מתאם), ולכן לא ממש משנה באיזה מדד משתמשים. אני מקווה למצוא את הציטוט בספר המקבץ את מבחר מאמריו ולהביא ואתו בפניכם.

נשלח: 1 בפברואר, 2009. נושאים: כלכלה וחברה, מה אומרת הסטטיסטיקה, על סדר היום.
תגובות: 6 | טראקבק

הסטטיסטיקן הממשלתי ומלחמתו באוצר

היום בדה מרקר מופיעים שני מאמרים של "יקירת הבלוג", מירב ארלוזורוב, העוסקים במאבקי הכח בין הסטטיסטיקן הממשלתי, פרופ' שלמה יצחקי, ובין משרד האוצר.

הסטטיסטיקן הממשלתי (שאינו סטטיסטיקאי, דרך אגב, אלא כלכלן) מאשים בראיון שהעניק לארלוזורוב את התנהלות משרד האוצר בנושא תקצוב הלמ"ס ומביא שפע דוגמאות. זה לא חדש כמובן הטענה לפיה המדינה מנוהלת על ידי חנוונים אינה חדשה. ארלוזורוב, במפתיע, תומכת ביצחקי בטענותיו כלפי האוצר, כפי שהיא מבהירה במאמר דיעה הצמוד לראיון.

לעומת זאת, ארלוזורוב נמנעת מהבעת דיעה בעניין אחר שמעלה יצחקי. לדבריו, האוצר מעוות נתונים שונים המועברים ללשכה, כגון נתונים בדבר הכנסות המדינה והכנסות משקי בית מהאחוזון/אלפיון העליון."משרד האוצר לא רוצה שקיפות כי נוח לו שהפוליטיקאים לא יודעים מהי האמת ולא מתערבים לו", אומר יצחקי. אני לא ממש מופתע. ואתם?

נשלח: 21 בינואר, 2009. נושאים: כלכלה וחברה, מה אומרת הסטטיסטיקה, על סדר היום.
תגובות: אין | טראקבק

נפלאות המחקר – שיעור באחוזונים

הנה מחקר נפלא שתוצאותיו פורסמו ב-Scientific Ynet (ותודה לעריסטו מפורום מתמטיקה בתפוז), שקבע כי "למעלה משליש מהילדים בארץ – בעודף משקל":

נמצא כי בממוצע לאורך שבע שנות המחקר 29 אחוז מבני השש היו בעלי עודף משקל (משקלם היה גבוה מהאחוזון ה-85, כלומר גבוה מ-85 אחוז מבני גילם). מחציתם אף הוגדרו כסובלים מהשמנה (שקלו יותר מ-95 אחוז מבני גילם).

ואני לתומי חשבתי כי רק ל-15% מהאוכלוסיה משקך הגבוה מהאחוזון ה-85, ורק ל-5% משקל הגבוה מהאחוזון ה-95. נו, מה אני כבר יודע?

נשלח: 20 בינואר, 2009. נושאים: אותי זה מצחיק, חשבון פשוט, מה אומרת הסטטיסטיקה.
תגובות: 5 | טראקבק

הכוכב הנעלם והאמד הכחול: משפט גאוס מרקוב ושיטת הריבועים הפחותים

שמחה גדולה אחזה בעולם האסטרונומיה בשנת 1781, עם גילויו של כוכב הלכת אוראנוס. לאחר שכוכב לכת זה נצפה, מסלולו חושב ומרחקו מהשמש הוערך, התברר כי מרחקו מהשמש מתאים לתחזית של "חוק טיטיוס-בודה", מעין להטוט חשבוני (שגוי, כך התברר בדיעבד) המתאר את מרחקו של כוכב לכת מהשמש כפונקציה של מספרו הסידורי. החוק תיאר בצורה טובה את מרחקיהם של כל כוכבי הלכת שהיו חדועים עד אז, אך השאיר "חור" בין מאדים לצדק. לפי החוק, "צריך" היה להיות שם עוד כוכב לכת, שלא נתגלה עדיין.

האסטרונומים הפנו את מאמציהם לגילוי כוכב הלכת האבוד. המאמץ נשא פרי כעבור 20 שנה. באחד בינואר 1801 גילה האסטרונום האיטלקי ג'וזפה פיאצי גוף שמימי שנע במסלול המיועד לכוכב הלכת האבוד. הוא כינה כוכב לכת חדש זה בשם צרס, לכבוד אלת החקלאות הרומית.

שמחתם של פיאצי ועמיתיו הייתה קצרה. לאחר שצפו בצרס במשך 41 לילות, "התקרב" מסלולו אל השמש, ובשל אורה החזק לא יכלו המשיך ולצפות בו. כמובן, כאשר יסיים צרס את הקפתו ויופיע מצידה השני של השמש יוכלו לצפות בו שוב, אבל, היכן בדיוק יופיע בשמי הלילה? הנתונים המועטים שנצברו (רק 22 תצפיות בפועל נאספו במשך 41 הלילות) לא אפשרו חישוב מדוייק של מסלולו.

מספר מלומדים ניסו לחזות את מסלולו של הכוכב הסורר. אחד מהם היה קרל פרידריך גאוס, מתמטיקאי ואסטרונום מהאוניברסיטה של גטינגן (אני מניח שכבר שמעתם עליו אי אלו פעמים). גאוס פרסם את תחזיתו למסלול של צרס בספטמבר 1801. צרס ציית לתחזיותיו של גאוס, והופיע בשמים בהתאם. עם גילוים של אסטרואידים נוספים שנעו במסלול בין מאדים לצדק, חזר גאוס על התרגיל וחישב את מסלולם של רבים מהם.

שרטוט המסלולים של האסטרואידים צרס ופאלאס על ידי גאוס (מקור: http://www.math.rutgers.edu/~cherlin/History/Papers1999/weiss.html)

מה היה הסוד של גאוס? רק ב-1809 פרסם גאוס ברבים את שיטתו, הידועה כיום כשיטת הריבועים הפחותים. ככל הנראה, גאוס נכנע ופרסם את השיטה רק לאחר שהמתמטיקאי הצרפתי לז'נדר פרסם בשנת 1806 את שיטתו לחישוב מסלולי שביטים, ולמעשה הוא שטבע את שם השיטה :"Méthode des Moindres Quarrés ". עם זאת, ידוע כי גאוס הכיר את השיטה כבר ב-1795, והוכיח ב-1798 כי אמד הריבועים הפחותים הוא אמד נראות מירבית – Maximum Likelihood Estimator (כמובן, המושגים האלה, שלקוחים מתחום התיאוריה הסטטיסטית, עדיין לא היו ידועים בימיו). ב-1823 הוכיח גאוס כי השיטה אכן מספקת את האמד הלינארי הטוב ביותר במובן שזהו האמד הלינארי חסר ההטיה ששונותו מינימלית. מכאן הופיע הביטוי "אמד כחול" בכותרת הרשימה. כחול – BLUE- הם ראשי התיבות של Best Linear Unbiased Estimator. אין צורך להבהל מהמונחים הטכניים האלה, שלא אסביר בפירוט. אומר רק כי במלים פשוטות, גאוס הוכיח כי השיטה אופטימלית בשלושה מובנים שונים – גם נראות מירבית, גם שונות מינימלית וגם חסר הטיה.

גאוס (משמאל) ומרקוב חולקים בתהילה של שיטת הריבועים הפחותים

המתמטיקאי הרוסי אנדריי אנדרייביץ מרקוב, שידוע בעיקר בזכות תרומתו לחקר התהליכים המקריים, תיאר בפירוט את שיטת הריבועים הפחותים בספר שפרסם ב-1912, וניסח אותה מחדש באופן ברור יותר, ובכך תרם את תרומתו להפצתה של השיטה ולפיתוחה. בזכות תרומתו זו זכה לחלוק בתהילה עם גאוס, והמשפט המוכיח את האופטימליות של שיטת הריבועים הפחותים נקרא משפש גאוס-מרקוב.

השיטה והכללותיה משמשות עד היום ככלי מרכזי לניתוח סטטיסטי של נתונים, ונמצאת בשימוש גם במדעים המדוייקים וגם במדעי החברה, בעיקר בתחום הכלכלה. סטיבן לויט, מחבר הספר רב המכר "פריקונומיקס", כתב בספרו כי השימוש בשיטה הוא "יותר אמנות מאשר מדע". אני חולק על דבריו. זוהי שיטה מדעית, המבוססת על תיאוריה מתמטית. יש לה יתרונות עצומים, כמובן, אך גם מגבלות. המשתמש בה חייב תמיד להיות מודע למגבלות האלה, ולא, מסקנותיו יהיו שגויות.

עד כאן ה"ציונות". אבל מהי בעצם שיטת הריבועים הפחותים? אנסה כעת לתת הסבר שווה לכל נפש.

נניח כי יש בידינו קבוצת נתונים, שנאספה ממדגם כלשהו. לכל פרט במדגם יש שני נתונים כמותיים. לדוגמא, אם אנו מסתכלים על מדגם של כפרים, נתון אחד יכול להיות מספר החסידות שקיננו בכפר באביב, והנתון השני יכול להיות מספר הלידות שהיו בכפר בקיץ שלאחר מכן. כלכלנים יעדיפו אולי להסתכל על מדגם של מדינות, כאשר נתון אחד הוא גובה המס שמטילה ממשלת המדינה על העסקים בתחומה, והנתון השני הוא הכנסות הממשלה ממסים באחוזים מהתמ"ג. חוקרים בחברת תרופות יסתכלו על מדגם של חולים, ויאספו נתונים על מינון התרופה הנסיונית שניתן לכל חולה ועל השינוי במצבו. בכל מקרה, אפשר לשרטט את הנתונים שהתקבלו על מערכת צירים, ומתקבלת דיאגרמת פיזור (scatterplot). בשרטוט אנו רואים מדגם בגודל עשרה כפרים. הנקודה המסומנת בחץ, לדוגמא, מייצגת כפר במדגם בו קיננו עשר חסידות ונולדו שני תינוקות (הנתונים לא אמיתיים, כמובן, אלא נדגמו ממוחי הקודח):

נניח שאנו רוצים לגלות האם קיים קשר קווי בין שני המשתנים. במלים אחרות, אנו שואלים את עצמנו האם ניתן לשרטט על מערכת הצירים קו שיתאר את הקשר בין המשתנים? כמובן שאי אפשר לשרטט קו ישר שיעבור דרך כל 10 הנקודות, אבל ישנם הרבה (אינסוף) קוים שעוברים דרך "ענן" הנקודות שלנו. שרטטתי כמה מהם על פני מערכת הצירים. איזה מהם מתאר את הקשר בין שני המשתנים בצורה הטובה ביותר?

הנה הרעיון של גאוס. הוא בחר קו ישר אחד, ומדד את המרחק האנכי מכל נקודה אל הקו. סימנתי את המרחק האנכי מכל נקודה אל הקו על השרטוט שלנו. בכפר הראשון, בו קיננו 2 חסידות והיו 10 לידות, המרחק האנכי (כלומר אורך הקו האדום) הוא בערך 5. בכפר השני, בו קיננו 3 חסידות והיו 5 לידות, אורך הקו האדום הוא בערך 0.5, אבל כיוון שהנקודה נמצאת מתחת לקו, המרחק האנכי הוא 0.5-.

הקו האידיאלי הוא זה שעבורו כל המרחקים האנכיים שוים לאפס, אבל קו כזה לא קיים בדרך כלל. לכן אין ברירה אלא לחשב את הקו האופטימלי. אפשר, למשל, לחפש את הקו שעבורו סכום המרחקים בערכיהם המוחלטים הוא מינימלי. גאוס הבין כי עדיף לחפש את הקו שעבורו סכום ריבועי המרחקים הוא מינימלי (מכאן השם "ריבועים פחותים" – "Least Squares"). גאוס גם הראה כיצד ניתן למצוא את הקו האופטימלי. כל קו ישר ניתן לאפיון מלא על ידי שני פרמטרים – שיפועו ונקודת החיתוך שלו עם הציר האנכי. לכן ניתן לרשום את סכום ריבועי המרחקים האנכיים כפונקציה של שני הפרמטרים האלה, ולמצוא את נקודת המינימום של הפונקציה. ניתן לעשות זאת על ידי שימוש בחשבון דיפרנציאלי או תוך כדי שימוש בשיקולים גיאומטריים/אלגבריים. אפשר לחשב ולמצוא כי הקו האופטימלי לנתונים שבדוגמא הוא:

ניתן לפרש זאת בערך כך: גם ללא חסידות יהיו בממוצע 6.8 לידות, וכל חמש (בערך) חסידות נוספות יביאו ללידת תינוק נוסף. אינטרפרטציה מפתה נוספת היא אינטרפרטצית הניבוי: מה יקרה בכפר בו יקננו 20 חסידות? אם נציב 20 בנוסחא, קו הריבועים הפחותים ינבא כי יהיו בכפר זה 10.6 לידות.

אבל, אבוי, קו הריבועים הפחותים אינו מאפשר ניבוי אמיתי. הפרמטרים הנאמדים (שהם כזכור שיפוע הקו ונקודת החיתוך שלו עם הציר האנכי) תלויים ישירות במקדם המתאם בין שני המשתנים. קו הריבועים הפחותים מתאר קשר אפשרי בין המשתנים, אבל לא סיבה ותוצאה. גם אם היינו מחליפים את תפקידי המשתנים, כמספר הלידות הוא המשתנה ה"מסביר" את מספר החסידות (כמשתנה ה"מוסבר"), מקדם המתאם בין שני המשתנים לא היה משתנה, וההסבר לפיו מספר החסידות מנבא את מספר הלידות הגיוני בדיוק כמו ההסבר לפיו מספר הלידות מנבא את מספר החסידות.

זאת ועוד: קו הריבועים הפחותים מתאר רק את מה שקורה בתחום הערכים בו צפינו. הוא לא יכול לומר לנו שום דבר על מהות הקשר בין המשתנים מחוץ לטווח הזה. במלים אחרות: קו הריבועים הפחותים הוא מודל תיאורי של הנתונים, וככזה הוא מוגבל להסברה של הנתונים המתוארים ותו לא. המציאות עשויה להיות שונה. באיור הבא מובאות ארבע דיאגרמות פיזור שמצאתי באינטרנט, עם קוי הריבועים הפחותים שהיו עשויים להתקבל לו הייינו מסתכלים רק על טווח חלקי של הנתונים:

קו הריבועים הפחותים מול המציאות - ארבע דוגמאות

גאוס הצליח בניבוי המסלול של צרס בעזרת קו הריבועים הפחותים כיוון שהסתבך על מודל מוצק, לפיו צרס (כמו שאר כוכבי הלכת) מקיף את השמש במסלול אליפטי. לאחר שיש מודל, הכלים הסטטיסטיים יכולים לאפשר את אמידת הפרמטרים שלו. ההיפך לא בהכרח נכון. ניתן להשתמש בכלים הסטטיסטיים כדי לתאר את הנתונים, אך אין די בכך כדי לבנות ולאשר מודל. לצערנו, ישנם אנשים שבכל זאת בונים מודל סביב הנתונים הסטטיסטיים שלהם, מבלי להתחשב במגבלות של כלי הרגרסיה.

נשלח: 1 בינואר, 2009. נושאים: האנשים שמאחורי הסטטיסטיקה, המשפטים הגדולים של הסטטיסטיקה, מה אומרת הסטטיסטיקה.
תגובות: 14 | טראקבק