סטטיסטיקה רעה: לקבל את השערת האפס

בתהליך הסטטיסטי של בדיקת השערות מוצבות זו מול זו שתי השערות. ההשערה הבסיסית, המכונה השערת האפס, מתארת את הידע הקיים (ידע מדעי או אחר), ומולה ניצבת השערה אלטרנטיבית, המייצגת תיאוריה חדשה. כדי להוכיח כי התיאוריה החדשה נכונה, על החוקר להציג ראיות מובהקות ומשמעותיות שיביאו לדחיית השערת האפס לטובת ההשערה האלטרנטיבית.

מה קורה אם אין ראיות מובהקות? האם ניתן להסיק מכך שהשערת האפס נכונה? ממש לא. הטענה כי השערת האפס נכונה רק בגלל שלא הצלחנו להפריך אותה היא כשל לוגי הידוע בשם "אד איגנורנטיאם" – טיעון מן הבורות. וכפי שאמר קארל סאגאן: "Absence of evidence is not evidence of absence" ((אני לא מצליח לתרגם אמירה קולעת זו לעברית בצורה מניה את הדעת)) . כאשר אין עדויות לטובת התיאוריה החדשה, עדיין אי אפשר לראות בכך עדות לנכונות התיאוריה הישנה.

 

 

 

 

 

מה צריך לעשות כדי להראות כי השערת האפס נכונה? יש להחליף בין ההשערות. הפרוצדורה הזו נפוצה בתעשייה פרמצבטית. כדי להראות כי תרופה נתונה שקולה לתרופה אחרת (במובן שמוגדר מראש, כמו אפקט קליני, או במקרים של תרופה גנרית, פרמטרים פרמקוקינטיים), יש לערוך ניסוי bioequivalence – שקילות ביולוגית. השערת האפס מניחה כי התרופות שונות זו מזו, ומטרת הניסוי היא, כמו תמיד, להביא עדויות סטטיסטיות נגד השערת האפס, ואם השערת האפס נדחית ניתן לקבל את הקביעה כי שתי התרופות שקולות.

למרות שתוצאות לא מובהקות בדרך כלל לא מתפרסמות, עדיין תוכלו למצוא את הכשל הזה במקומות רבים, ומישהו אפילו טען כי הדבר לגיטימי ((קישור למאמר משנת 1995)). חיפוש בגוגל אחרי הביטוי "There was no difference"  באתר https://www.ncbi.nlm.nih.gov  מצא כ-1000 מאמרים שהתפרסמו החל מ-2010 ועד סוף 2017 שהכילו בתוכם את הביטוי הזה, וברבים מהם צורף לטענה p-value, שערכו כמובן גדול מ-5%. אין לדעת מתי החוקרים מרימים ידיים כאשר לא הצליחו לדחות את השערת האפס, ומסיקים כי היא נכונה. השאלה החשובה היא אם הם מושכים את הכתפיים מכיוון שממילא הם לא מייחסים לכך משמעות, או קופצים למסקנות על סמך ההנחה המוטעית כי כישלונם לדחות את השערת האפס מבטא עובדה בעלת משמעות.

כישלון לדחות את השערת האפס יכול לנבוע מגורמים רבים: תכנון לא נכון של הניסוי, עצמה סטטיסטית נמוכה, או אפקט קטן ובלתי משמעותי. קשה בדרך כלל לדעת מהי הסיבה. עם זאת, אפשר (ולא קשה) לתכנן ניסוי בצורה טובה, ובעל עצמה מספקת כדי לדחות את השערת (או השערות) האפס שהינן בעלות חשיבות.

לסיכום: כישלון לדחות את השערת האפס לא מוכיח כי היא נכונה. אנחנו אמנם ממשיכים להאמין כי היא נכונה, כיוון שהיא מייצגת את הידע הקיים, אבל יש כמובן הבדל גדול בין הוכחה לאמונה.


רשימות נוספות בסדרה:

סטטיסטיקה ופיתוח תרופות לכיתה ג

בבית הספר של ילדיי התקיים הבוקר "יום ההורה המעשיר", במסגרתו הגיעו הורים והעבירו שיעורים בכל מיני נושאים מעניינים. אני, כמובן, העברתי שיעור על סטטיסטיקה ופיתוח תרופות, לתלמידי כיתה ג.

למעוניינים, מצגת השיעור נמצאת כאן.

 

סטטיסטיקה רעה: אי אבחנה בין מתאם לסיבתיות

בנושא המתאם והסיבתיות דנתי רבות ((זה היה הפוסט הראשון שהופיע בנסיכת המדעים!)). יש הרבה דוגמאות משעשעות: מתאם בין יבוא לימונים לבטיחות בדרכיםבין צבעה של מכונית והסיכוי כי תהיה מעורבת בתאונת דרכים, ובין מחזורי הירח ומחירי המניות. קוריוזים כאלה בדרך כלל לא גורמים נזק ((אם כי עלולים להיגרם הפסדים כספיים למי שישקיע את כספו על פי מחזורי הירח)). אף אחד לא יציע להטיל מגבלות על יבוא לימונים, או לצבוע מכוניות שחורות בצבע אחר. למעוניינים יש אתר שלם וספר שעוסק בכך.

ברשותכם אעבור לדוגמאות יותר רציניות.

דוגמא מפורסמת קשורה לגדול הסטטיסטיקאים, רונלד פישר, שהיה מעשן כבד. באמצע שנות החמישים של המאה העשרים, התגלו המתאמים הראשונים בין העישון ובין הסיכוי לחלות בסרטן הריאות. תלמידיו של פישר פנו אליו, וביקשו ממנו שינסה לעשן פחות למען בריאותו. הם נימקו את בקשתם במתאם הסטטיסטי שזה עתה התגלה. פישר דחה אותם, בנימוק שהמתאם עצמו אינו מראה סיבה ותוצאה, ואף הביע את דעתו זו בכתב העת החשוב Nature. ייתכן, אמר פישר, כי מחלת הסרטן גורמת בשלב הראשון של המחלה לצורך בניקוטין, המתבטא בכך שהחולה מעשן, ורק אחר כך מתפתחים הגידולים. פישר נפטר בשנת 1962. רק בשנות השבעים של המאה העשרים הוכיחו המדענים כי צריכה מוגברת של ניקוטין אכן גורמת לעליית הסיכון לחלות בסרטן הריאות.

טענה אחרת שהועלתה היא כי צמחונות אצל נערות בגיל ההתבגרות גורמת לאנורקסיה, וזאת על סמך מתאם גבוה בין שתי התופעות. ניתוח יותר זהיר הראה כי אורח חיים צמחוני לכשעצמו לא בהכרח גורם לאנורקסיה, אך בשילוב עם גורמי סיכון נוספים המחלה עלולה להתפתח.

הסקת סיבתיות עקב קיומו של מתאם עלולה בקלות להגיע לאבדן חיי אדם. הדוגמא המפורסמת ביותר (ואחת המזיקות ביותר) היא הטענה שחיסונים גורמים לאוטיזם, וזאת על פי מחקר גרוע במיוחד ((שתוצאותיו התבררו לאחר מכן כמזוייפות, אבל גם אם היו אמיתיות לא היה ניתן להסיק מהן דבר)). מאמר מאת אנדרו וייקפילד ((שהיה ד"ר לרפואה עד שרישיונו נשלל)) , שפורסם בכתב העת Lancet בשנת 1998, הראה מתאם בין מתן חיסון MMR לילדים ובין אבחון אוטיזם אצל ילדים שחוסנו. זה הספיק כדי להצית תנועה רחבה של התנגדות לחיסונים, שקיימת עד היום. אי מתן חיסונים מוביל להתפרצות מגיפות ולמקרי מוות שהיו יכולים להימנע.

ב-2010 התפרסם מחקר שמצא כי צריכת חומצות שומניות כגון אומגה 3 יכולה להפחית את הסיכון להתקף לב. הטענה התבססה על מספר מחקרים תצפיתיים, וכן מספר ניסויי מעבדה. התברר כי לחומצות שומניות יש תכונות אנטי דלקתיות, וכי יש מתאם שלילי בין רמת הצריכה שלהן ובין רמת הטריגליצרידים בדם. כמו כן יש מתאם בין שלילי בין רמת הטריגליצרידים ובין הסיכון להתקף לב. מכאן הדרך קצרה להשערה כי צריכת חומצות שומניות תוביל להורדת הסיכון להתקף לב. זו תיאוריה יפה, אך היא מבוססת על מתאמים. היא התבררה כלא נכונה. בשנת 2013 התפרסמו התוצאות של מחקר קליני מבוקר, בו המטופלים צרכו, על פי הקצאה רנדומלית, שמן דגים (העשיר באומגה 3) או פלסבו. המחקר הראה כי אין עדות לאפקט חיובי של צריכת שמן דגים.

הדוגמא הטריה ביותר היא המחקר PURE, שתוצאותיו החלו להתפרסם לפני מספר חודשים. בין היתר, טענו החוקרים כי "יש מתאם גבוה בין צריכה גבוהה של פחמימות לשיעורי התמותה, בעוד שצריכת שומנים קשורה לשיעורי תמותה נמוכים". במחקר יש בעיות מתודולוגיות רבות המעמידות בספק רב את עצם קיומו של המתאמים המתוארים, אולם זה לא הפריע לעיתונים לצאת בכותרות כמו "שומן מפחית את הסיכון לתמותה", "שומן לא מזיק, הבעיה עם פחמימות", ו-"תזונה דלת שומן מעלה סיכון למוות מוקדם". שוב, פרשנות מוטעית של מתאם רשלני עלולה להביא להגברה של צריכת שומן, שתוביל לשיעורי תמותה גבוהים יותר ממחלות לב ומחלות נוספות.

כפי שכתב סטיבן ג'יי גולד בספרו The Mismeasure of Man: "ההנחה חסרת התוקף לפיה ממתאם נובעת סיבתיות היא ככל הנראה אחת מתוך שתיים או שלוש השגיאות החמורות ביותר והנפוצות ביותר בשיקול הדעת האנושי".


רשימות נוספות בסדרה:

סטטיסטיקה רעה: פרשנות לא נכונה של ה-p-value ואי הבחנה בין תוצאות מובהקות לתוצאות משמעותיות

כבר הסברתי כאן באריכות מהו ה-p-value, ומה הוא לא. לא אחזור כאן על כל הפרשנויות המוטעות למשמעותו של ה-p-value, אך אציין את המובן מאליו – פרשנות לא נכונה של ה-p-value והתרכזות בלעדית בשאלה האם תוצאה היא מובהקת או לא, מהווה סטטיסטיקה רעה שעלולה להביא לתוצאות חמורות.

האיגוד האמריקני לסטטיסטיקה (ASA) פירסם בראשית 2016 הצהרה בדבר המובהקות הסטטיסטית ו-p-values , (( קישור לקובץ pdf )) ובה מפורטים שישה עקרונות שישפרו את הביצוע והפרשנות של מחקרים כמותיים. ASA מציינים כי ה-p-value אמנם מספק הערכה עד כמה הנתונים אינם עולים בקנה אחד עם מודל סטטיסטי ספציפי, אך אינו מודד את ההסתברות כי השערת האפס נכונה ((אין דבר כזה)) או את ההסתברות כי התוצאות התקבלו במקרה. ASA מבהירים כי אין להסיק מסקנות מדעיות, או לקבל החלטות עסקיות או החלטות בדבר מדיניות על סמך ה-p-value בלבד. ה-p-value  לכשעצמו אינו מדד טוב של ראיות (evidence) בעד או נגד השערה או מודל. וכמובן, מובהקות סטטיסטית אינה מעידה או מודדת את גודלו של האפקט הנצפה או חשיבותו.

הבאתי כאן בעבר מספר דוגמאות היפותטיות ואמיתיות בדבר פרשנות לקויה של p-values, והתעלמות מהמשמעות של האפקט הנצפה או חשיבותו. חברת תרופות עלולה להיאחז בתוצאה מובהקת של ניסוי קליני כדי להחליט על המשך הפיתוח של תרופה חסרת תועלת ולבזבז מאות מיליוני דולרים. חוקרים מכובדים פרסמו תוצאות מובהקות של מודל רגרסיה שהריצו, בלי להתייחס לכך שאין משמעות מעשית לתוצאות וגרוע מכך, לא שמו לב כי אחת התוצאות היא אבסורדית. חוקרים אחרים הגיעו למסקנה המובהקת כי במשפחות שבהן שלושה בנים, ההסתברות שהילד הרביעי יהיה גם הוא בן גבוהה יותר. המשמעות של התוצאה היא שכל שנתיים נולד בן אחד יותר ממה שהיה "צריך" להיות אילו ההסתברות לבן רביעי לא הייתה שונה, כלומר ההבדל בין ההסתברות התיאורטית וההסתברות הנצפית ללידת בן רביעי לא היה משמעותי.

אבל הבעיה היא ככל הנראה רחבה יותר וקיימת במחקרים בתחומים רבים.

ב-1996, החוקרים מקלוסקי וזיליאק בדקו 182 מחקרים שהתפרסמו בכתב העת American Economic Review בשנות ה-80 של המאה העשרים והשתמשו ברגרסיה ככלי ניתוח סטטיסטי. הם מצאו כי 70% מהמחקרים לא הבדילו בין מובהקות סטטיסטית למשמעות כלכלית. השניים מציינים גם כי ספרי הלימוד בכלכלה לא דנים בהבדל בין תוצאה מובהקת לתוצאה משמעותית. ((המצב בספרי הלימוד בסטטיסטיקה אינו טוב יותר, לצערי))  הם חזרו על המחקר כעבור עשר שנים, ומצאו כי לא חל שיפור. מתוך 137 מחקרים שפורסמו בשנות ה-90, 82% לא הבחינו בין מובהקות סטטיסטית ומשמעות כלכלית. מאחר ולכלכלנים יש השפעה רבה על החלטות בדבר מדיניות ציבורית, לסטטיסטיקה רעה כזו יש השפעה ישירה על כל אחד מאיתנו.

גם בתחום כלכלת הבריאות יש בעיה. הבלוגר סם ווטסון, אחד הכותבים בבלוג העוסק בכלכלת בריאות, סקר ((אמנם באופן לא שיטתי)) את גיליון מאי 2017 של כתב העת Health Economics. בתשעת המאמרים שהופיעו בגיליון, הוא מצא שמונה מקרים בהם השתמשו ב-p-value באופן בלעדי כדי לקבוע האם קיים אפקט. וכאשר מיישמים סטטיסטיקה רעה לקביעת מדיניות ציבורית בתחום הבריאות, יש לכך השפעה על חיי אדם.

לסיכום: ה-p-value הוא כלי יעיל לבדיקת מובהקות סטטיסטית, כאשר שיטת ניתוח הנתונים ורמת המובהקות של הניתוח נקבעות מראש. עם זאת, ה-p-value אינו מדד טוב לטיבם של הנתונים (ראיות), לגודלו של האפקט הנצפה, משמועות או חשיבותו.

נסיים בדבריו של רון וסרשטיין: “The p-value was never intended to be a substitute for scientific reasoning" – ה-p-value מעולם לא נועד להיות תחליף לחשיבה מדעית.


רשימות נוספות בסדרה:

מה הסיכוי שקולך ישפיע אם תצביעי בבחירות (ג)

לפני מספר שנים כתבתי כאן שלוש רשימות על הסיכוי שקול בודד ישפיע על התוצאות של הבחירות. (למה להצביע ומה הסיכוי שקולך ישפיעמה הסיכוי שקולך ישפיע אם תצביעי בבחירותמה הסיכוי שקולך ישפיע בבחירות – המשך דיון).

היום ראיתי בפייסבוק קישור לידיעה שהעלה יובל אילון. מסתבר שבבחירות לבית הנבחרים של מדינת וירג'יניה, שנערכו שלשום, הביסה המתמודדת הדמוקרטית את המתמודד הרפובליקני בהפרש של… קול אחד: 11608 מול 11607.

בעיית ימי ההולדת

שוב פירסמתי סקר בטוויטר שמאחוריו מסתתרת רשימה על בעיה מעניינת בהסתברות – והפעם בעיית ימי ההולדת. הנה השאלה והתפלגות התוצאות:

בואו ננסה להבין ביחד מה קורה כאן. לשם כך, כרגיל, צריך להניח הנחות.

ההנחה הראשונה היא שאין תלות בין תאריכי הלידה של שני אנשים שונים. כלומר, אם אתם יודעים, למשל, שאני נולדתי ב-13 באוקטובר ((אל תשכחו לציין את זה בלוח השנה שלכם)), זה לא אומר לכם כלום על תאריך ההולדת של דונלד טראמפ, וגם לגבי תאריך ההולדת של כל אדם אחר. שימו לב שבהנחה הזו אנו מוציאם מהמשחק אפשרות של תאומים, שלישיות וכולי.

ההנחה השנייה היא שיש בשנה 365 ימים, ויש לכן 365 ימי הולדת אפשריים. ההנחה הזו מאפשרת לי להתעלם מכל האנשים המעצבנים שנולדו ב-29 לפברואר.

ההנחה השלישית היא שהתפלגות ימי ההולדת היא אחידה. פירוש הדבר הוא שהסיכוי כי אדם שבחרתם באופן מקרי נולד ב-1 בינואר שווה לסיכוי שהוא נולד ב-35 במאי, או בכל יום אחר בשנה, והסיכוי הזה הוא 1/365.

כרגיל, אפשר להתווכח על ההנחות, ולהחליף כל הנחה בהנחה אחרת, אבל זה רק יגרום לחישובים יותר מסובכים, בעוד שהתשובות המהותיות לא ישתנו. אם החישובים לא מדברים אליכם, דלגו עליהם, והתרכזו בעקרונות ובתוצאות. כדאי לכם להגיע עד הסוף, כי יש גם סרט.

ועכשיו נענה לשאלות. אם יש 23 אנשים באוטובוס, מה ההסתברות שלשניים מהם יש יום הולדת באותו יום?

אפשר לשאול את השאלה הזו בצורה אחרת: מה המספר המינימלי של אנשים באוטובוס כדי שההסתברות שלשניים מהם יש יום הולדת באותו יום תעלה על 50%?

קודם כל אסביר מדוע יש מספר אנשים שבו ההסתברות שלשניים מהם יש יום הולדת באותו יום עולה על 50%.

ובכן, אם יש באוטובוס רק בן אדם אחד (הנהג, אני מקווה), ההסתברות כי יש באוטובוס שני אנשים שנולדו באותו יום היא כמובן 0.

אם יש באוטובוס שני אנשים, ההסתברות ששניהם נולדו באותו יום היא 1/365. אסביר: ההסתברות ששניהם נולדו ב-1 בינואר היא 1/365 כפול 1/365. ההסתברות ששניהם נולדו ב-2 בינואר היא שוב 1/365 כפול 1/36, וכן הלאה. נחבר 1/365 כפול 1/365 לעצמו 365 פעמים, ונקבל 1/365.

אם יש באוטובוס 3 אנשים ההסתברות ששניים מהם נולדו באותו יום גבוהה יותר. ההסתברות שהנהג והנוסע הראשון נולדו באותו יום היא כאמור 1/365, אבל יש לקחת בחשבון גם את האפשרות שהנהג והנוסע השני נולדו באותו יום, וגם את האפשרות ששני הנוסעים נולדו באותו יום. התוצאה אמנם אינה חיבור פשוט של כל שלושת ההסתברויות ((כי יש חפיפה בין המאורעות)), אבל אני מקווה שברור כי היא גבוהה יותר.

אם נוסיף עוד נוסע ועוד נוסע ועוד נוסע ההסתברות שיש באוטובוס שני אנשים שנולדו באותו יום תלך ותגדל.

אם יהיו באוטובוס 366 איש ((זה אוטובוס ממש גדול)), ההסתברות שבאוטובוס יש שני אנשים שחולקים יום הולדת מגיעה ל-100%: במקרה הכי גרוע יש 365 אנשים שכל אחד נולד ביום אחר בשנה, ואז יום ההולדת של האדם ה-366 חייב להיות זהה ליום הולדת של אחד מהאחרים ((כי הנחנו שאין 29 בפברואר)). הטיעון הזה, אגב, מבוסס על טענה מתמטית המכונה "עקרון שובך היונים".

ובכן, ההסתברות של המאורע שלנו מתחילה ב-0, גדלה ככל שנוספים אנשים לאוטובוס ומגיעה בסוף ל-100%. לכן חייבת להיות נקודה בה ההסתברות הזו תעבור את ה-50%. הנקודה הזו היא, באופן מפתיע, כאשר מספר האנשים באוטובוס מגיע ל-23. אני לא מתכוון לעבור כאן על כל החישוב, אבל  יש ברשת מחשבון לחישוב ההסתברויות , שם גם יש הסבר כיצד ההסתברות מחושבת. 23 הוא מספר יחסית קטן של אנשים, והאינטואיציה של רוב בני האדם ((כן, כן, גם שלי)) אומרת להם כי זה מספר קטן מדי של אנשים, יחסית למספר ימי ההולדת האפשריים. מסיבה זו בעיית ימי ההולדת מכונה "פרדוקס ימי ההולדת", למרות שאין כאן שום סתירה לוגית.

אם תביטו שוב בתוצאות הסקר, אתם עלולים לחשוב כי כמעט מחצית מהמשיבים (49%) ענו את התשובה הנכונה. אבל זה לא נכון. זו התשובה הנכונה לשאלה שדנתי בה עד עתה, אבל זו לא התשובה לשאלה ששאלתי.

אני שאלתי מה ההסתברות כי בין 22 הנוסעים האחרים יש אדם שחולק איתי יום הולדת. במילים אחרות, מה ההסתברות שיש באוטובוס עוד אדם שנולד ב-13 באוקטובר. התשובה לשאלה הזו היא בערך 5%. כדי שההסתברות שמישהו באוטובוס חולק איתי יום הולדת תהיה בערך 50%, צריכים להיות עליו 253 אנשים. החישוב כאן יותר פשוט מהחישוב של השאלה הקודמת, ולכן אסביר אותו במפורט. מי שלא מתעניין בחישובים יכול לדלג פיסקה.

ההסתברות כי הנוסע הראשון מבין 22 הנוסעים האחרים נולד ב-13 באוקטובר היא 1/365, ולכן ההסתברות כי לא נולד ב-13 באוקטובר היא 364/365. באופן דומה, ההסתברות כי הנוסע השני לא נולד ב-13 באוקטובר גם היא 364/365, וכך הלאה לכל שאר הנוסעים. בגלל אי התלות בין ימי ההולדת, ההסתברות כי אף אחד מבין 22 הנוסעים האחרים היא לכן המכפלה של 364/365 בעצמו 22 פעמים. זה יוצא 0.941. מכאן שההסתברות כי לפחות אחד מבין ה-22 נולד ב-13 באוקטובר היא 1-0.941=0.058, או, בקירוב טיפה גס, בערך 5%. שליש מהמשיבים לסקר בחרו את התשובה הנכונה. ((ומי שענה "אחר" בגלל שהתוצאה יותר קרובה ל-6% מאשר ל-5%, גם זה סבבה))

יש הרבה פולקלור מסביב לבעיית ימי ההולדת. בספר הקלאסי Lady Luck מספר המחבר, המתמטיקאי וורן וויבר, כי השתתף בארוחה עם מספר גנרלים בזמן מלחמת העולם השנייה. הוא סיפר להם על בעיית ימי ההולדת, וכצפוי, הטענה כי אם יש בחדר 23 אנשים אז הסיכוי ששניים מהם חולקים יום הולדת היא כ-50% לא תאמה את האינטואיציה של חלק מהנוכחים. מכיוון שבארוחה השתתפו 22 איש, הם החליטו להעמיד את הטענה למבחן: כל אחד מהמשתתפים אמר מהו יום הולדתו, ולא נמצאו שני סועדים עם יום הולדת משותף. אז התערבה בשיחה המלצרית שנכחה בחדר ואמרה "סלחו לי, אבל אני האדם ה-23 בחדר, ויום הולדתי הוא ה-17 במאי, כמו יום ההולדת של הגנרל היושב שם".

מבין 45 הנשיאים של ארצות הברית, הנשיאים פולק והרדינג נולדו שניהם ב-2 בנובמבר. הנשיאים פילמור וטאפט מתו שניהם ב-8 במרץ, ושלושת הנשיאים אדמס, ג'פרסון ומונרו מתו ב-4 ביולי. אף נשיא לא חולק איתי יום הולדת.

ג'וני קארסון, המנחה ההמיתולוגי של ה-Tonight Show, התעמק גם הוא בבעיה. בשידור ב-6.2.1980 הוא סיפר לאורח שלו כי מספיק שיהיו 35-40 אנשים בחדר, כדי שיימצאו ביניהם שני אנשים שחולקים יום הולדת משותף.  (אם יש בחדר 35 אנשים, ההסתברות היא כ-85%. כשיש 40 אנשים ההסתברות היא כמעט 90%). המרואיין לא השתכנב וקארסון החליט לערוך הדגמה. הוא שאל גברת מהקהל מה תאריך הלידה שלה, והיא ענתה שיום הולדתה הוא ב-9 לאוגוסט. התברר כי אין עוד אדם בקהל שזהו יום הולדתו. קארסון החליט לנסות שוב. הוא בחר מישהו אחר מהקהל, ויום הולדתו היה ה-9 באפריל. שוב התברר כי אין בקהל אדם נוסף שזהו יום הולדתו. קארסון המתוסכל ניסה שוב, הפעם עם יום ההולדת של עצמו, ה-23 באוקטובר. שוב לא היה בקהל אדם נוסף שזהו יום הולדתו. הפעם היו בקהל שני אנשים שחלקו עימו יום הולדת. ((תודה לגיל גרינגרוז ששהפנה את תשומת ליבי)) מי שהגיע עד לכאן כבר הבין כי קארסון חיפש תשובה לשאלה הלא נכונה. בקהל, אגב, היו כ-500 איש, מה ששמבטיח בודאות כי היו שם לפחות שני אנשים עם יום הולדת משותף. אתם מוזמנים לצפות בהקלטת השידור.

סטטיסטיקה: שבעת החטאים

יש הרבה דרכים לעשות סטטיסטיקה רעה, אבל גם סטטיסטיקה רעה אפשר לעשות באופן רע יותר. אני לא חושב שמישהו מת כתוצאה מדיאגרמת עוגה תלת מימדית, אבל סטטיסטיקה רעה באמת עשויה להיות הרת אסון. קבלו את שבעת החטאים של הסטטיסטיקה. ((לא בסדר מסויים)) כל קישור יוביל אתכם לסקירה מורחבת על הנושא.

בשבועות הקרובים אפרסם כאן סקירות מפורטות של כל אחד מהחטאים, ומה אפשר ורצוי לעשות כדי להמנע מהם ((רשימה זו תתעדכן בקישורים מתאימים))

למה זה לא רעיון טוב לחשב מתאם בין מספר סידורי לכל דבר בעצם

לפני כשבועיים הבאתי כאן דוגמה לסטטיסטיקה רעה, בה מרצה בקורס Data Science הדגימה כיצד מחשבים בפייתון מקדם מתאם. היא השתמשה בקובץ שהכיל נתונים על סרטים, וחישבה את מקדם המתאם בין המספר הסידורי של הסרט בבסיס הנתונים ובין הרייטינג הממוצע שלו. (( הרייטינג הממוצע הוא בעצמו יצור בעייתי מבחינה סטטיסטית, ואקדיש לו רשימה אחרת ))

לי ברור כי זו סטטיסטיקה רעה, אך היו כאלה שלא הסכימו איתי. לכן אסביר מה בדיוק הבעיה כאן, ואתייחס לטענות התומכות בחישוב של הגברת הנחמדה (( היא באמת נחמדה, בלי ציניות ))

כדי להבין מה קרה פה, צריך לחזור ליסודות – סולמות מדידה. כתבתי בעבר סקירה נרחבת בנושא. יישנם ארבעה סולמות מדידה, שניים מהם מכונים סולמות כמותיים, ושניים הם סולמות איכותיים. סולמות כמותיים, מטבעם, מודדים כמויות.

אני חושב שלא קשה להשתכנע כי המספר הסידורי של סרט בבסיס הנתונים אינו משתנה כמותי. סרט מספר 4800 בדטהבייס אינו פי שניים (( פי שניים מה בדיוק? )) מסרט מספר 2400. ההבדל (( איזה הבדל בדיוק? )) בין סרט מספר 2 לסרט מספר 4 אינו שווה להבדל בין סרט מספר 2400 לסרט מספר 2402. האם מישהו יכול לטעון אחרת, ולנמק את טענתו? אני חושב שלא. (( ובכל זאת לא אופתע אם מישהו יקום ויגיד שכן ))

מקדם המתאם חישבה המרצה הוא מקדם המתאם של פירסון. מקדם מתאם זה נועד למשתנים כמותיים. הוא קשור קשר הדוק למודל הרגרסיה הלינארית, שהצגתי בקצרה ברשימה קודמת. סוף פסוק. לכאורה.

אבל מה שברור לי לא ברור לכל אחד.

הטענה הראשונה שהועלתה כדי להצדיק את החישוב שערכה המרצה הנ"ל היא שאין שום בעיה, והחישוב רק נועד להדגים את חישוב מקדם המתאם.

האמת היא שאין לי מה לומר נגד טיעון כזה. אני חושב שלדברים שעושים צריכה להיות משמעות, בייחוד כאשר מדובר בקורס מבוא לדטה סיינס. דיברתי כאן באריכות לגבי ההבדלים בין מודלים ואלגוריתמים. המרצה הדגימה את הפעלת האלגוריתם בלי להתייחס למודל הסטטיסטי שעמד בבסיסו, ולדעתי זה לא נכון. המרצה אף הוסיפה חטא על פשע כאשר עברה הלאה בלי להתייחס בכלל לתוצאה שהתקבלה ולמשמעות שלה.

הטענה השניה שהועלתה היא שייתכן כי המספר הסידורי טומן בחובו אינפורמציה נוספת. ייתכן למשל, טענו, כי ככל שהמספר הסידורי קטן יותר, אז הסרט ישן יותר. במילים אחרות, נטען כי המספר הסידורי מבטא סדר בין הנתונים, ולא משמש לזיהוי בלבד.

זו בהחלט טענה מתוחכמת יותר ואכן יש מקרים שבהם מספר מזהה מייצג גם סדר, לפחות חלקי. דוגמאות אפשריות הם מספרי תעודת הזהות, מספרים אישיים בצה"ל, ואלי גם מספרי רישוי של מכוניות (( ככה זה היה בישראל, לפחות, עד סוף שנות ה-70 של המאה ה-20 ))

לכך יש לי שתי תשובות. ראשית, גם אם מספרי הזיהוי מכילים בתוכם אינפורמציה על סדר, הם עדיין לא משתנים כמותיים, ולכן השימוש במקדם המתאם של פירסון שגוי. יש מקדמי מתאם שפותחו עבור משתנים סודרים, הידוע שבהם הוא מקדם המתאם של ספירמן (( חבילת התכנה NumPy של פייתון לא מאפשרת לערוך חישוב כה מתוחכם ))

אבל לפני שרצים לחישוב מקדם מתאם, אפילו זה של ספירמן, צריך לבדוק האם ההנחה כי המספר המזהה של הסרט מכיל אינפורמציה על סדר היא נכונה. (( ואני לא רואה שום סיבה הגיונית להניח את זה מלכתחילה )) סטטיסטיקאי טוב אמור לבדוק את ההנחות, וגם דטה סיינטיסט (להבדיל מדטה-טכנאי) אמור לעשות את זה. לבדוק את הטענה זה קל. הנה הקישור לקובץ הנתונים (קובץ zip). מי שממש רוצה להיות בטוח יפתח מתוך הזיפ את הקובץ movies.csv. סרט מספר 1 הוא Toy story, משנת 1995. סרט מספר 80827 הוא Brown of Harvard משנת 1926. סרט מספר 131262 הוא Innocence משנת 2014. ולא צריך לעבוד קשה כדי לגלות את זה. אפשר לעשות את זה בכמה שורות בפייתון, אם רוצים. אבל לא צריך לעבוד כל כך קשה. כל מה שצריך זה לקרוא את readme.txt.

הטענה השלישית היא כנראה החזקה מכולן. אצטט אותה כלשונה:


חישוב מתאם עם מספר סידורי במאגר כלשהו יכול להיות דווקא מועיל בשני היבטים שונים:
1. גילוי קשר עם סדר הרישום במאגר שלא היה ידוע.
2. במקרה שלא אמור להיות קשר עם הסדר, מספק אמדן די טוב לגובה המתאם שלא צריך לייחס לו משמעות, אפילו אם יצא מובהק.

במילים אחרות, חישוב מקדם המתאם של המספר הסידורי עם משתנה כלשהו, יכול להועיל בכך שהחישוב יראה אם יש או אין אינפורמציה על סדר (או על משהו אחר) במספר הסידורי. כך נדע האם הטענה לפיה במספר הסידורי יש גם אינפורמציה על סדר כלשהו (כפי שטענו אחדים) אכן נכונה. זו אכן היוריסטיקה שעובדת. בקובץ נתוני הסרטים, מקדם המתאם בין שנת היציאה לאור של הסרט ובין המספר הסידורי שלו הוא, דרך אגב, 0.019.

אבל לדעתי אין בהיוריסטיקה הזו הרבה תועלת. למה לבדוק אם המספר הסידורי מכיל אינפורמציה על שנת היציאה לאור, אם כבר יש לנו את הנתון של שנת היציאה לאור? הרי יש שתי אפשרויות: אפשרות אחת היא שנמצא שאין מתאם, ואז אין תועלת במספר הסידורי מעבר להיותו מזהה של תצפיות. אפשרות שניה היא שנמצא שיש מתאם, אבל זה לא יקדם אותנו לשום מקום. למה להשתמש במספר הסידורי שמכיל אינפורמציה חלקית (בהנחה הסבירה שהמתאם קטן מ-1), כאשר יש לנו משתנה עם האינפורמציה המלאה?

לסיכום: חישוב מקדם המתאם בין משתנה של מספר סידורי (ובכלל משתנה שמי כלשהו) הוא גם שגוי וגם חסר תועלת, ומהווה סימן אזהרה לסטטיסטיקה רעה.

 

מודלים ואלגוריתמים: מה ההבדל ומה הבעיה

לאחרונה השתתפתי בכמה דיונים בפייסבוק שהגיעו למבוי סתום. ניסיתי להבין למה זה קורה ולבסוף הבנתי: אני דיברתי על מודלים והם דיברו על אלגוריתמים.

לכאורה לא צריכה להיות שום בעיה. מודל זה דבר אחד, אלגוריתם זה דבר אחר. אם תחפשו בגוגל מודל, לא תמצאו שום מקום שיטען כי מודל הוא אלגוריתם. גם ההיפך נכון. אז מה קורה כאן?

כדי להסביר למה אני מתכוון, יש צורך במספר שלבים. תחילה אתן הסבר קצר וכללי (ויש יאמרו: פשטני) מהו מודל ומהו אלגוריתם. אחר כך אסביר ביותר פירוט מהו מודל סטטיסטי, ואיך הוא מתקשר למושג האלגוריתם. לבסוף אסביר מנין נובע הבלבול בין שני המושגים, לפחות בהקשר הסטטיסטי, ואצביע על בעיה העולה מכך.

מהו מודל?

מודל הוא תיאור תיאורטי של תופעה מציאותית. המציאות היא בדרך כלל מורכבת, והמודל מנסה להתרכז בגורמים החשובים שבעזרתם אפשר לתאר את התופעה, לאפיין אותה, ובעיקר לחקור אותה. המודל כמובן אינו תיאור מדוייק לגמרי של המציאות, אבל הוא מספיק טוב כדי לתת תשובה אמינה לשאלות מעניינות. כל מודל מתבסס על הנחות. מודל טוב מסוגל להסביר תצפיות על המציאות ולחזות תצפיות עתידיות. מודל צריך להיות ניתן לפירוש, כלומר אינו קופסה שחורה. מודל טוב הינו חסכוני – כלומר פשוט ככל האפשר. מודל יכול להיות פיזי, למשל חלקיק הטס לו בתוך מאיץ חלקיקים, או עכבר – במדעי החיים או ברפואה. יש מודלים המבוטאים על ידי משוואות מתמטיות.

מהו אלגוריתם?

אלגוריתם הוא סדרה של הוראות לביצוע משימה מסויימת, כך שהמשימה תסתיים במספר סופי של צעדים. מתכון להכנת עוגה הוא אלגוריתם. כאשר למדתם בבית הספר (או ניסיתם ללמוד) חילוק ארוך, למדתם אלגוריתם. לכל אלגוריתם יש קלט. במקרה של הכנת עוגה, אלה החומרים שמשמים להכנתה: קמח, ביצים וכולי. אולם כאשר הדברים על אלגוריתמים מדברים בדרך כלל על אלגוריתמים מתמטיים, והקלט שלהם הוא בדרך כלל מספרים/נתונים. התוצר של האלגוריתם נקרא פלט. פלט יכול להיות למשל מנה של עוגה, או המנה המתקבלת כתוצאה של חילוק ארוך. כמו למודל, גם לאלגוריתמים יש הנחות, ויש גם תכונות, ואני לא אכנס כאן לפירוט מכיוון שידיעותיי בנושא מוגבלות.

מהו מודל סטטיסטי?

מודל סטטיסטי הוא מודל מתמטי הכולל בתוכו אלמנט מקרי. בדרך כלל המודל עוסק במדגם מתוך אוכלוסייה, ומתאר תכונות של האוכלוסייה וקשרים אפשריים ביניהם.

אתן כאן דוגמה למודל סטטיסטי פשוט, מודל הרגרסיה הלינארית. זהו אחד המודלים הפשוטים ביותר בסטטיסטיקה. יהיו נוסחאות, אך לא צריך להיבהל מהן. אלה רק אותיות וסימנים מתמטיים כמו חיבור וכפל. אסביר בדיוק ובפשטות מה זה כל דבר. הנה המודל:

 

מה רואים כאן?

בשורה/נוסחה הראשונה יש אותיות לטיניות גדולות: X ו-Y. אלה הם המשתנים של המודל. המודל מנסה להסביר את הקשר בין המשתנים. X יכול להיות למשל המשקל של אדם, ו-Y יכול להיות הגובה שלו. אפנה את תשומת ליבכם לכך שהמודל מניח כי X ו-Y הם משתנים כמותיים ורציפים, למרות שזה לא כתוב במפורש בנוסחה. X ו-Y יכולים להיות משקל, גובה, גובה המשכורת, דברים כאלה, אבל לא מספר ההתקפים שהיו לחולה במשך שנה, לא מספר נעליים, ובטח לא מספר קו האוטובוס שעובר בשכונה.

נמשיך בהסבר: בנוסחאות יש גם אותיות יווניות קטנות: אלפא, ביתא, וגם סיגמה. אלה הם הפרמטרים של המודל. הם מתארים את הקשר בין המשתנים X ו-Y.

בעולם מושלם, אלפא וביתא לבדם היו מספיקים לתאר את הקשר בין X ל-Y. קח את המשקל של אדם בקילוגרמים (X), תכפיל אותו ב-0.5, תוסיף 136, ותקבל את הגובה שלו בסנטימטרים. (( את הערכים המספריים שנתתי כאן לאלפא וביתא חישבתי על פי קובץ הנתונים body, בו השתמשתי גם ברשימה על ה-PCA )) קשר כזה בין המשתנים נקרא "קשר לינארי". זוהי ההנחה השניה של המודל: בעולם מושלם, הקשר בין X ל-Y הוא לינארי.

אבל העולם אינו מושלם. בעולם מושלם הייתי צריך להתנשא לגובה של 188 ס"מ, אבל גובהי רק 180. האות e מבטאת את ההבדל בין העולם המושלם והעולם האמיתי – במקרה שלי 8 ס"מ.

אם יש לכם קובץ עם הרבה נתונים של משקל וגובה, יהיו לכם גם הרבה ערכים של e. המודל מניח כי אם תציירו גרף של כל הערכים של e תקבלו צורת פעמון – התפלגות הערכים של e היא נורמלית. ההנחה הזו – השלישית במודל שלנו, מתוארת בשורה השניה על ידי הסימן ~ והאות N. המודל מניח עוד הנחה על הפעמון: המרכז שלו, הממוצע של כל הערכים של e, נמצא ב-0. יהיו ערכים חיוביים של e, יהיו גם ערכים שליליים, והם יקזזו אחד את השני. הפרמטר סיגמה מבטא את צורת הפעמון. אם לסיגמה יש ערך גבוה יחסית, נקבל פעמון נמוך ורחב. זה אומר שיש הרבה ערכים של סיגמה שרחוקים מאפס. יש הרבה טעויות גדולות, לשני הכיוונים. אם לסיגמה יש ערך נמוך, הפעמון הוא גבוה וצר, כלומר רוב הטעויות הן קטנות וקרובות יחסית לאפס. ככל שסיגמה קרוב יותר לאפס, העולם "יותר מושלם". אם סיגמה שווה לאפס – זה אומר שאנחנו באמת בעולם מושלם (לא יקרה).

אציין שיש למודל הזה עוד הנחה אחת, אך היא יותר טכנית במהותה ולא אתאר אותה כאן.

עד כאן תיאור המודל.

נניח עכשיו כי יש לנו קובץ, ובו יש לנו נתונים על גובהם ומשקלם של מדגם של אנשים. אנחנו יכולים לשאול הרבה שאלות מעניינות. למשל: האם המודל של רגרסיה לינארית מתאים לנתונים? האם ההנחות של המודל מתקיימות? האם הקשר בין הגובה למשקל הוא לינארי? ואם לא, עד כמה הקשר קרוב לקשר לינארי? מהם הערכים של אלפא, ביתא וסיגמה? ועד כמה הם שונים באופן מובהק מאפס? ועוד הרבה שאלות אחרות. יש דרכים לקבל תשובות לשאלות האלה, כמובן לא בוודאות מלאה, שהרי מדובר כאן במדגם.

לערכים של אלפא ביתא וסיגמה, למשל, אפשר לקבל אומדנים. מייד יופיעו כאן נוסחאות לחישוב האומדנים לאלפא ולביתא. לא להיבהל, הן ממש לא חשובות לדיון שלנו, אני מציג אותן רק למקרה שמישהו יפקפק בקיומן. תסתכלו להן בעיניים ותעברו הלאה:

למודל. (כשהייתי בשנה ב', כתבתי בעצמי תכנית מחשב כזו, בשפת פורטרן).

 

מה שחשוב כאן זה להבין שהנוסחאות האלה מסבירות איך לקחת את הנתונים, שמסומנים על ידי x ו-y, ולבצע איתם חישובים שיתנו לנו אמדנים לערכים של אלפא וביתא. הנוסחאות האלה מגדירות אלגוריתם. הנתונים הם הקלט, האמדנים הם הפלט. אפשר לכתוב תכנית מחשב שתבצע את החישובים האלה עבורכם, ועוד הרבה חישובים אחרים, שיענו לשאלות אחרות שאפשר לשאול בקשר למודל. (כשהייתי בשנה ב', כתבתי בעצמי תכנית מחשב כזו, בשפת פורטרן).

ככלל, לכל מודל סטטיסטי מתלווים כמה אלגוריתמים, שמגדירים כיצד למצוא את התשובות לשאלות שאפשר לשאול על המודל.

מה בקשר להיפך? האם לכל אלגוריתם יש מודל שעומד בבסיסו (לא בהכרח סטטיסטי)? האמת היא שאני לא בטוח בתשובה. אני מזמין את מי שיודע (או חושב שהוא יודע) לענות לשאלה מעניינת זו.

אז מה הבעיה?

הבעיה הגדולה היא שהאלגוריתם עיוור למודל. הנוסחאות שהצגתי לחישוב האומדנים לאלפא וביתא "לא יודעות" שהן נובעות מהמודל, ולא איכפת להן אם ההנחות של המודל מתקיימות או לא. אתם יכולים, למשל, לקחת קובץ נתונים על שחקני כדורסל, להחליט ש-x הוא מספר הנעליים של שחקן, ו-y הוא מספר החולצה שלו. הנוסחאות יעבדו. תכנית המחשב לא תוציא הודעת שגיאה. פייתון לא יקרוס.

וזה נכון גם לאלגוריתמים אחרים. אתם יכולים גם לחשב את מקדם המתאם בין מספרי הנעליים של השחקנים ומספרי החולצה שלהם. או לחשב לכל שחקן את הממוצע של מספר החולצה ומספר הנעליים. נשמע מופרך? בפורום סטטיסטיקה והסתברות בפייסבוק היו כאלה חשבו שלחשב את מקדם המתאם בין המספר הסידורי של סרט בדטהבייס ובין הרייטינג הממוצע שלו זה בסדר גמור. ובפורום ML הסבירו לי שאין שום בעיה לשקלל את משקלו של אדם עם מנת המשכל שלו (אם רק עושים סקיילינג. אל תשכחו לעשות סקיילינג!). וכשטענתי שאין משמעות לשקלול של משקל הגוף ומנת המשכל, ענה לי סניור דטה סיינטיסט אחד כי "המשמעות אינה חשובה".

נכון שאפשר להריץ את כל האלגוריתמים האלה בלי להבין את המתמטיקה שעומדת בבסיסם. אפשר "לבנות מודל" – זאת אומרת, לבנות איזשהו אלגוריתם קצת יותר מסובך מאבני בניין של אלגוריתמים יותר פשוטים. אפשר לקחת את כל הנתונים ולזרוק אותם ל-xgboost . אני יודע שיש אנשים שעושים את זה, ומה איכפת להם? אם זה יביא לחברה שלהם עוד 30,000 דולר, זה מה שחשוב, ואני לא אומר שזה לא חשוב.

אני חושב שהמשמעות חשובה. אני חושב שאם אתה משתמש במודל, אתה צריך להבין מה הפירוש של המודל, לדעת מה ההנחות שעומדות בבסיסו, וכן, גם לדעת מה המגבלות שלו. ומי שלא מבין, ולא יודע, ולא איכפת לו, הוא מהנדס במקרה הטוב, טכנאי במקרה הפחות טוב, ובשום אופן לא מדען. במה שהוא עושה יש אכן הרבה דטה, אבל מעט מאוד סיינס. וצריך להכיר בזה. וכל אחד צריך לשאול את עצמו מה הוא באמת.

מחקר האוצר על "שכר המינימום ונזקיו" – 13 שנים מאוחר יותר

בשנת 2004 פירסם משרד האוצר מחקר על "שכר המינימום ונזקיו", ובו הזהירו חכמי המשרד מפני הקטסטרופה הכלכלית שתתרחש אם יועלה שכר המינימום. נזכרתי בעובדה הזו בעקבות ציוץ מתבדח בטוויטר . המחקר ההוא היה מופת של סטטיסטיקה רעה: "מדגם" מוטה בכוונה תחילה – נבחרו רק הנתונים שהתאימו לאג'נדה, בלבול בין מתאם לסיבתיות, שימוש במדדים בעייתיים, זריקת מספרים חסרי ביסוס והצגה מעוותת של הנתונים (המעוותים). תוכלו לחזור ולקרוא את כל הביקורת שלי על המחקר ההוא.

13 שנים מאוחר יותר, אני סבור שהקטסטרופה הכלכלית לא התרחשה. עסקים לא פשטו רגל בהמוניהם, האבטלה לא עלתה (ראש הממשלה מתגאה באבטלה הנמוכה), ובכלל הכלכלה "במצב מצויין" לפחות בנתוני המקרו (במיקרו זה כנראה סיפור אחר, אבל נעזוב את זה כרגע).

האם במבט לאחור אנשי משרד האוצר סבורים שמסקנות המחקר היו בעייתיות לכל הפחות? כן ולא.

מצד אחד, המחקר ההוא נגנז. בפוסט שלי מ-2004 היה לינק למחקר. הנה הוא שוב: http://www.mof.gov.il/research/skiraframe.htm. אל תטרחו ללחוץ. הלינק הזה מוביל עכשיו להודעת שגיאה. ניסיתי לחפש אותו בגוגל. אמנם לא מצאתי אותו, אבל כן מצאתי מחקר חדש! משנת 2016! "השפעת השינויים בשכר המינימום על התעסוקה והשכר
בישראל"! (קישור לקובץ pdf). קראתי (לא בעיון רב, אני מודה).  ((עדכון: המחקר המקורי התגלה בארכיון הרשת: https://web.archive.org/web/20051103080421/http://mof.gov.il:80/research/skira11_2004/skira11_2004.pdf . תודה לאייל בר חיים! ))

מה מתברר?

המחקר חדש, השטיקים אותם שטיקים. שוב המדגם המוטה, שוב בלבול בין מתאם וסיבתיות, שוב שימוש במדדים בעיתיים, שוב הצגה מעוותת של הנתונים, ושוב אותה מסקנה. הקטסטרופה בדרך.

מה אין במחקר החדש? נכון מאוד – אין התייחסות למחקר הישן, וזה מאוד נוח, כי כך אין צורך להתייחס אליו ולדון בשאלות מטרידות, כמו למשל האם התחזיות של המחקר ההוא התממשו (הן לא).

סיכום בשתי מילים: זאב זאב