נסיכת המדעים » מה אומרת הסטטיסטיקה

ארכיב עבור 'מה אומרת הסטטיסטיקה'

ניתוח מרכיבים ראשיים (PCA) – למה, איך ואיך לא

ברשימה זאת אתן הסבר אינטואיטיבי ולא מתמטי אודות שיטת ה-PCA, ואסביר כיצד להשתמש בה בצורה נכונה.

למה להשתמש ב-PCA?

PCA, או בעברית ניתוח מרכיבים ראשיים, היא שיטה סטטיסטית פופולרית בקרב Data Scientists. כאשר יש קובץ נתונים ובו מספר גדול של משתנים, מעוניינים לצמצם את מספר המשתנים כדי להקל על החישובים. יש מספר דרכים לעשות זאת, ו-PCA היא אחת הדרכים האלה. ה-PCA יכול להחליף קבוצה של משתנים בקבוצת משתנים אחרת, קטנה יותר.

איך להשתמש ב-PCA

לצורך ההדגמה אשתמש בקובץ נתונים body, המכיל נתונים אודות מימדי הגוף של 507 נבדקים. הקובץ זמין לציבור בארכיון הנתונים של ה-Journal of Statistical Education. הקובץ נמצא כאן, והסבר על הנתונים שבקובץ תוכלו למצוא כאן. אני אתרכז בשלושה משתנים בקובץ, המודדים שלושה אספקטים של היקף החזה: ,Chest_depth Chest_diameter ו- Chest_girth.

איך אפשר להחליף את שלושת המשתנים האלה במשתנה אחד? אפשרות אחת היא להחליף את המשתנים בממוצע שלהם. מחברים את הערכים של שלושת המשתנים, ומחלקים בשלוש. יש כאן בעיה – איבדנו אינפורמציה. קודם היו לנו הערכים של כל שלושת המשתנים, עכשיו יש לנו רק את הממוצע שלהם. כמה אינפורמציה איבדנו? אפשר לחשב. אבל השאלה המעניינת היא: האם אפשר ליצור משלושת המשתנים משתנה אחר, כך שאיבוד האינפורמציה יהיה קטן יותר? האם יש שקלול של שלושת המשתנים כך שאיבוד האינפורמציה יהיה מינימלי?

את התשובה לשאלה האחרונה נתן קרל פירסון בשנת 1901. כן, אפשר למצוא שקלול כך שאיבוד האינפורמציה יהיה מינימלי.

הרעיון הבסיסי של פירסון יוסבר כעת, תוך כדי שימוש מינימלי במתמטיקה.

האינפורמציה שבנתונים מתבטאת בשוניות שבין המשתנים ובשונויות המשותפות שבינהם. לכן הציע פירסון הציע להסתכל על טבלת השונויות המשותפות המשתנים (( שונות משותפת בין שני משתנים דומה בתכונותיה למקדם המתאם בין המשתנים למעשה, מקדם המתאם מחושב על ידי שקלול של השונות המשותפת. )) . (( כן, אני יודע על centering ו-scaling ודברים כאלה ))

Chest_depth	Chest_girth	Chest_diameter
20.35	4.59	6.33	Chest_diameter
23.93	7.59	4.59	Chest_girth
100.555	23.99	20.35	Chest_depth

בטבלה שמוצגת כאן אנו רואים, למשל, כי השונות המשותפת של המשתנים Chest_diameter ו-Chest_girth היא 23.93. גם מקדם המתאם בין שני המשתנים גבוה, וערכו הוא 0.87. גם המתאמים האחרים גבוהים. ככל שהמתאמים בין המשתנים גבוהים יותר, כך ה-PCA יביא יותר תועלת. לכן מומלץ לבדוק את מקדמי המתאם בין המשתנים לפני הפעלת ה-PCA.

המתמטיקאים מכנים טבלה של מספרים בשם "מטריצה", ובהתאם טבלת השונויות המשותפות נקראת בפי הסטטיסטיקאים "מטריצת השונויות המשותפות". למטריצה הזו יש כל מיני תכונות מתמטיות. יש לה, למשל, שלושה מספרים האופייניים לה, שנקראים בפי המתמטיקאים "ערכים עצמיים" (( ואפשר להוכיח כי הם יהיו ממשיים וחיוביים )) . לכל ערך עצמי מתאים יצור מתמטי שנקרא "וקטור עצמי", שהוא בעצם, בדוגמא שלנו, סדרה של 3 מספרים.

פירסון הוכיח כי השקלול הטוב ביותר של המשתנים, זה שישמר מקסימום אינפורמציה, יהיה על ידי הוקטור העצמי ששייך לערך העצמי הגדול ביותר של מטריצת השונויות המשותפות. יותר מכך, האינפורמציה הנשמרת שווה לערכו היחסי של הערך העצמי בסך הערכים העצמיים.

בדוגמה שלנו הערכים העצמיים של המטריצה הם 110.52, 2.33 ו-1.55. הערך העצמי הגדול ביותר הוא, לכן, 110.52. הוקטור העצמי המתאים לערך עצמי זה הוא: (0.953, 0.230, 0.197 ). לכן השקלול האופטימלי הוא להכפיל את Chest_depth ב-0.197, להכפיל את Chest_diameter ב-0.230, ולהכפיל את Chest_girth ב-0.953, ולבסוף לחבר הכל. המשתנה המתקבל כך נקרא "המרכיב הראשי הראשון". כמה אינפורמציה נשמרת? ובכן, סכום הערכים העצמיים הוא 114.4. 110.52 חלקי 114.4 זה 0.966. המרכיב הראשי הראשון שומר 96.6% מהאינפורמציה.

באופן דומה אפשר להגדיר את המרכיב הראשי השני והשלישי. בדוגמא שלנו אפשר להסתפק במרכיב הראשי הראשון.

מבחינה גיאומטרית השיטה מתאימה לנתונים מערכת צירים חדשה, על ידי "סיבוב" של ערכי המשתנים. בדוגמה המלאכותית הבאה רואים שני משתנים, X ו-Y, כמו שהם (לפני הפעלת ה-PCA) ואת שני הרכיבים הראשיים (אחרי הפעלת ה-PCA). ניתן לראות כי הנתונים "הסתובבו", וכעת השונות בין המשתנים מתבטאת בעיקר לאורך הציר האופקי.

איך לא להשתמש ב-PCA

מי שטרח להסתכל בקובץ הנתונים ראה שיש בו 25 משתנים. מדוע, אפשר לשאול, לא ניקח את כל המשתנים ונפעיל עליהם את פרוצדורת ה-PCA? זה אפשרי מבחינה מתמטית. אם תכניסו את כל הנתונים לתוכנה שמחשבת PCA תקבלו משהו. אבל יש כאן כמה בעיות (( הניתוח מכאן והלאה תקף גם לשיטות אחרות להקטנת מימדי הנתונים, כגון SVD, MDS וכדומה )) .

ראשית, בדוגמא שלנו, שלושת המשתנים שבחרנו מתייחסים לבית החזה (chest) ומבטאים אספקטים שונים של גודלו. המרכיב הראשי של שלושת המשתנים שחישבנו מבטא, לכן, את גודלו של בית החזה. אם נשקלל את כל המשתנים, לא ברור מה תהיה האינטרפרטציה של המרכיב הראשי שיחושב. אתן דוגמה קצת קיצונית. בדף הערך של PCA בויקיפדיה העברית נתונה דוגמה של שלושה משתנים: משקל, גובה וגיל, אבל לפני שערכתי את הדף, הדוגמה הציגה את המשתנים מנת משכל, גובה וגיל. מה המשמעות של שקלול מנת משקל, גובה וגיל? אם תחשבו עבור מישהו את הממוצע של גובהו ומנת המשכל שלו, מה תקבלו? איזה משמעות יש לזה? הכלל הראשון: יש להשתמש ב-PCA אך ורק לשקלול משתנים המבטאים אספקטים שונים של אותו הדבר, כך שלשקלול שלהם תהיה משתמעות.

שנית, אם תבחנו היטב את רשימת המשתנים, תראו שבקובץ יש משתנה המתאר את מינו של כל אחד מהאנשים שנמדדו. 1 מציין זכר, 0 מציין נקבה. הבחירה של 0 ו-1 היא שרירותית. זהו משתנה שמי. אין כלל משמעות לשונות של המשתנה הזה, או לשונות המשותפת שלו עם משתנים אחרים. הכלל השני: PCA נועד למשתנים כמותיים, כלומר, למשתנים שנמדדים בסולם מנה או סולם רווח. מה לגבי משתנים שנמדדים בסולם סודר? למשל, שביעות הרצון בסולם 1-5? גם כאן בחירת המספרים היא שרירותית. מי שמכניס משתנה כזה לתוך PCA מניח כי שביעות הרצון הזאת היא משתנה כמותי, כלומר ההפרש בין 1 ל-2, למשל, שווה להפרש בין 4 ל-5. הנחה כזו צריך להצדיק. ההצדקה היחידה שראיתי לגבי התייחסות למשתנה כזה כאל משתנה כמותי היא שכנוע עצמי.

גם כשיש נתוני ספירה (count variables), למשל מספר ההתקפים שעבר חולה במשך תקופת זמן מסויימת, צריך להזהר. זה אמנם משתנה כמותי, אבל הוא עלול להיות skewed (( איך מתרגמים את זה לעברית? )) , ומכאן ייתכן כי המתאם בין משתנה כזה ומשתנים כמותיים אחרים עלול להיות נמוך, ולפיכך לא תהיה תועלת רבה בהכנסתו למודל.

שלישית: בדוגמה שלנו, ייתכן והיחסים בין מידות בית החזה שונים אצל גברים ואצל נשים. במקרה כזה, יש לבצע שקלול שונה לגברים לחוד, ולנשים לחוד. צריך לחלק את הנתונים לשני קבצי נתונים, ולבצע PCA נפרד לגברים לחוד ולנשים לחוד. תמיד יש לבדוק האם ניתן להתייחס לכל הנתונים כמקשה אחת, או שמא יש בנתונים תת קבוצות של נתונים, כאשר בכל אחת מהן יש קשרים שונים בין המשתנים.

נשלח: 25 בנובמבר, 2017. נושאים: דטה סיינס, מה אומרת הסטטיסטיקה.
תגובות: 16 | טראקבק

מהו גודל המדגם המתאים?

אוכלוסיית ישראל גדולה בערך פי 2 מאוכלוסיית ניו זילנד. כדי לאמוד את מספר התומכים בראש הממשלה בישראל (עם טעות דגימה של כ-3%, וברמת סמך של כ-80%) דרוש מדגם מייצג בגודל של כ-500 איש (( המספר המדוייק הוא 457 )). מה צריך להיות גודלו של מדגם מייצג בסקר דומה בניו זילנד?

שאלתי את השאלה הזו בסקר שערכתי בטוויטר, ולשמחתי הרבה רוב העונים ענו את התשובה הנכונה: גם בניו זילנד צריך סקר בגודל 500. ברשימה הזו אסביר מדוע זה נכון, וגם מדוע זה לא בהכרח נכון.

סיפור מהעבר: אי שם בתחילת שנות ה-90 לימדתי כמה קורסים של סטטיסטיקה לכלכלנים. שאלתי שאלה דומה לזו באחד המבחנים נתתי. חלק מהסטודנטים טענו כי השאלה לא הייתה הוגנת. אני טענתי שכן, ומייד אסביר מדוע.

השאלה הזו נועדה לבדוק ישירות האם הסטודנט מבין כיצד מחושב גודל המדגם. לכאורה אין בעיה. יש נוסחה (לפחות למקרה הספציפי הזה), מציבים בנוסחה את כל הפרטים הדרושים, ומחשבים. לראיה, בשאלה אחרת התבקשו הנבחנים לחשב גודל מדגם, רוב הסטודנטים ענו נכון על השאלה, ואיש לא טען שהשאלה לא הוגנת.

אבל יש בעיה. יש הבדל בין לדעת לחשב את גודל המדגם ובין להבין כיצד גודל המדגם מחושב. לדעתי ולמיטב זכרוני עמדתי בהרצאות על ההבדל בין שני הדברים, וציינתי כי גודל המדגם לא תלוי בגודל האוכלוסייה, אבל כנראה לא הדגשתי את זה מספיק בקורס הספציפי המדובר. בהמשך הקריירה שלי הקפדתי יותר להדגיש את המשמעות של הנוסחה, ולא רק את השימוש בה (בתקווה שזה עניין מישהו).

בואו ניכנס לפרטים. אנחנו נדבר כאן רק על המקרה הפשוט ביותר, בו רוצים לאמוד פרופורציה באוכלוסייה, כגון שיעור התומכים בראש הממשלה, אחוז הגברים שגובהם מעל 180 ס"מ, או אחוז התומכים בלגליזציה של סמים קלים. העקרונות שאציג נכונים גם למקרים מורכבים יותר.

הדרך הכי קלה (לפחות למרצה שעומד מול סטודנט זועם) להסביר למה צריך את אותו גודל מדגם בישראל ובניו זילנד היא לשלוח אותו לנוסחה, או למחשבון חישוב גודל מדגם שניתן למצוא בקלות באינטרנט. יש כל מיני נתונים שאתם צריכים להציב בנוסחה או להזין למחשבון. גודל האוכלוסייה לא נדרש. סוף הסיפור.

אבל בואו ננסה להבין באופן אינטואיטיבי מה קורה פה. התשובות האפשריות בסקר שערכתי היו 500 – התשובה הנכונה, 250 – תשובה שנועדה לתפוס את אלה שההיגיון שלהם אמר שאם האוכלוסייה קטנה פי 2 אז גם המדגם צריך להיות קטן פי 2. ל-350 הגעתי על ידי חלוקה של 500 בשורש של 2.

מה היה קורה אם התשובה 250 הייתה נכונה? כלומר, מה היה קורה אם גודל המדגם היה פרופורציוני לגודל האוכלוסייה? אז בניו זילנד, עם 4 מיליון תושבים בערך "צריך" מדגם של 250. בארצות הברית, שבה כ-330 מיליון תושבים, צריך מדגם בגודל 20625 (נשמע הגיוני, לא?), בסלובניה שבה כ-2 מיליון תושבים אפשר להסתפק במדגם בגודל 125, באיסלנד שבה 350 אלף תושבים יספיק מדגם של 22 איש, ובקיבוץ אייל, שבו יש לפי ויקיפדיה 485 תושבים, צריך מדגם בגודל 0.03 איש. מה? משהו לא מסתדר פה. מקווה שהתחלתם לחשוד כבר באיסלנד.

מצד שני, יש בעיה אחרת שעולה כאן. איך נוכל לדגום 500 איש בקיבוץ אייל, כאשר אין שם בכלל 500 איש?

התשובה היא שצריך לקרוא את האותיות הקטנות. הנוסחה שמלמדים בקורס מבוא לסטטיסטיקה מניחה שהאוכלוסייה ממנה דוגמים היא אינסופית, או לפחות גדולה מאוד (( אם תכנסו לקישור לדף בו נמצאת נוסחת גודל המדגם שנתתי קודם, תראו שכותרת הדף היא Estimating a Proportion for a Large Population , וזה כתוב באותיות גדולות )) . מה קורה כשהאוכלוסייה לא גדולה? בשביל לדעת את זה צריך להגיע לשנה ג בלימודי הסטטיסטיקה, אז לומדים את הקורס הבסיסי בדגימה. שם דנים בנושא של דגימה מאוכלוסייה סופית. הנוסחה לגודל המדגם במקרה זה כן כוללת בתוכה את גודל האוכלוסייה. נכון שאנחנו תמיד מתייחסים לאוכלוסייה סופית (גם בסין יש מספר סופי של תושבים), אך כאשר מדובר באוכלוסייה גדולה יחסית שתי הנוסחאות נותנות תוצאה דומה. במקרה של ישראל, ניו זילנד, ארצות הברית וסלובניה תתקבל אותה תוצאה גם אם משתמשים בנוסחה לאוכלוסייה אינסופית וגם כאשר משתמשים בנוסחה לאוכלוסייה סופית שלוקחת בחשבון את גודל האוכלוסייה. ההבדל זניח. באיסלנד כבד יש הבדל – אפשר להקטין שם את גודל המדגם ב-1. למעשה אם גודל האוכלוסייה הוא 10000 ומעלה הבדל בין התוצאות של שתי הנוסחאות הוא פחות מאחוז. בקיבוץ אייל כבר חייבים להשתמש בחישוב עבור אוכלוסייה סופית. שם גודל המדגם הדרוש הוא 236.

נשלח: 16 בנובמבר, 2017. נושאים: מה אומרת הסטטיסטיקה.
תגובות: 3 | טראקבק

איך להמר (אם אתה מוכרח)

אתם חייבים 100 אלף דולר לשוק האפור, אבל יש לכם רק 50 אלף, וצריך לשלם בערב. זה לא משנה אם יהיו לכם 50 אלף דולר, או 90 אלף, או 99,999. כל סכום קטן מ-100 אלף יגרום לתוצאות הרות אסון. הסיכוי היחיד שלכם נמצא בקזינו. אתם ניגשים לשולחן הרולטה, שם אפשר להמר על אדום-שחור. אם הימרתם בדולר אחד על אדום, והתוצאה היא אדום, תקבלו בחזרה את הדולר שלכם ודולר אחד נוסף. אם התוצאה אינה אדום ((יש עוד שתי אפשרויות – שחור וירוק)) הפסדתם את הדולר. יש לציין כי הסתברות הזכיה כאשר מהמרים על אדום היא קצת פחות מ-50%. מה הכי כדאי לעשות? מהי האסטרטגיה שתביא למקסימום את ההסתברות שתצאו מהקזינו ובכיסכם 100 אלף דולר?

שאלה דומה לזו הוצגה בעמוד הראשון של הספר הקלאסי How to gamble if you must מאת Lester E. Dubins, ‎Leonard J. Savage, andb ‎William Sudderth. כותרת המשנה של הספר היא Inequalities for Stochastic Processes, ומעידה על כך שזהו בהחלט ספר מתמטי. ההוכחה לתשובה שמייד אציג נמצאת בפרק החמישי של הספר, למי שמתעניין. כאן אנסה לתת הסבר אינטואיטיבי לתשובה.

אבל לפני כן קצת שעשועים. בסקר שערכתי בטוויטר השתתפו 46 צייצנים. הדיעות התחלקו פחות או יותר שווה בשווה בין ארבע התשובות האפשריות שהוצעו:

לפני שנדון בתשובות קצת היסטוריה, על קצה המזלג. משחקי הימורים היו נפוצים כבר בזמנים קדומים, ויש תיעוד שלהם בכל התרבויות העתיקות. מחקרים אודות הימורים ומשחקי מזל שערכו מלומדים כקרדנו במאה ה-16, כריסטיאן הויגנס במאה ה-17, ואברהם דה-מואבר ויעקב ברנולי במאה ה-18, ואחרים, הניחו את היסודות לתורת ההסתברות. למעשה, הפתרון שאציג מייד נובע מעבודה של דה-מואבר משנת 1711.

ועוד אנקדוטה (אולי משעשעת): בראשית ימיה, עמדה חברת FedEx בפני משבר. היה עליה לשלם חוב של 24,000 דולר, כשבקופתה היו 5000 דולר בלבד. יו"ר החברה ומייסדה, נטל את הכסף שבקופה, טס ללאס וגאס, הימר בשולחן הבלאק ג'ק וזכה ב-27,000 דולר. כך ניצלה החברה, והשאר, כמו שאומרים, היסטוריה. תודה לשי אלקין שהסב את תשומת ליבי לסיפור.

למתעניינים בהיסטוריה של חקר ההימורים והנחת יסודות תורת ההסתברות, אמליץ לקרוא את הספר נגד האלים מאת פיטר ברנשטיין, או את הספר הקלאסי
Games, Gods and Gambling מאת פלורנס נייטיגייל דייויד (( שאין לבלבל בינה ובין פלורנס נייטינגייל )) .

ועכשיו לתשובות.

תשובה אפשרית אחת היא שלא משנה מה עושים כי ממילא נפסיד הכל. זה נכון. ההימור נוטה לטובת הקזינו. ההסתברות לזכיה ברולטה בהימור על אדום (או על שחור) היא 18/38, בערך 47%. מי שיהמר לאורך זמן יצבור אט אט הפסדים, ומי שימשיך להמר עוד ועוד יפסיד בסופו של דבר את כל כספו. את זה הוכיח כריסטיאן הויגנס. מי שענה את התשובה הזו בסקר צדק.

אבל חדי העין ישימו לב כי השאלה כפי שנוסחה כאן שונה מעט מהניסוח בטוויטר, גם בגלל מגבלת התוים בטוויטר ואולי גם בגלל חוסר דיוק מצידי. בואו נדון באסטרטגיה שתביא למקסימום את ההסתברות לצאת מהקזינו עם 100 דולר, כאשר מגיעים אליו עם 50 אלף דולר. כאן בגדול יש שתי אפשרויות. אפשרות אחת היא להמר מייד על כל הסכום, בתקוה שתזכה בהימור אדום-שחור וכספך יוכפל. ההסתברות לכך היא, כאמור, בערך 47%.

מה קורה אם מהמרים כל פעם על חלק מהסכום? בואו ניקח לדוגמא את האסטרטגיה הבאה: להמר על 25 אלף דולר, לקוות לזכות ועל ידי כך להגדיל את הונך ל-75 אלף דולר, ואחר כך להמר שוב על 25 אלף דולר, כאשר זכיה תביא אותך אל הסכום הנכסף של 100 אלף דולר. במקרה הטוב ביותר תגיע למטרה על ידי שתי זכיות רצופות של 25 אלף דולר כל אחת. ההסתברות לכך היא 0.47 כפול 0.47 ((בהנחה הסבירה לגמרי שאין תלות בין ההימורים )) , כלומר בערך 22.4%.

יש כמובן אפשרות שתפסיד בהימור הראשון את 25 אלפי הדולרים עליהם הימרת. עכשיו יהיה עליך להכפיל את הונך פי 4, וזה ידרוש שוב לפחות שתי זכיות רצופות ((להמר על 25, לזכות, ואז להמר על 50 ושוב לזכות )) , וההסתברות לכך היא שוב כ-22.4%.

אם מהמרים על סכומים קטנים יותר, יש צורך ביותר זכיות, וההסתברות להגיע ל-100 אלף דולר צונחת בהתאם.

זו האינטואיציה שעומדת מאחורי הקביעה כי האסטרטגיה האופטימלית היא להמר מייד על כל הסכום בתקווה להכפילו. ברנולי ודה-מואבר הבינו זאת כבר בראשית המאה ה-18. הוכחות מתמטיות מלאות לטענות קרובות הופיעו בתחילת המאה ה-20.

רק רגע, יש עוד אפשרות: לעשות משהו אחר. אפשר להמר בשיטת ההכפלות, הידועה גם בשם שיטת המרטינגייל.

הנה הרעיון: אתה מתחיל בהימור אדום שחור על דולר. אם זכית – קיבלת את הדולר שלך בחזרה ועוד דולר אחד כרווח. אם הפסדת, לא נורא. המר כעת על שני דולר. אם זכית, אתה מקבל את שני הדולרים שלך בחזרה, ועוד שני דולרים כרווח, בסך בכל ארבעה דולרים. אבל הימרת רק על שלושה דולרים! מכאן שהרווחת דולר.

ומה קורה אם הפסדת גם בהימור השני? אין בעיה. הכפל את סכום ההימור והמר כעת על ארבעה דולר. אם זכית, תקבל שמונה דולר, אבל הימרת רק על שבעה דולר (1+2+4). הרווחת דולר.

ומה אם הפסדת בהימור על ארבעת הדולרים? אין בעיה. הכפל את סכום ההימור ל-8 דולר. אם תזכה תקבל בחזרה 16 דולר, כשהימרת רק על 15 דולר – כלומר שוב הרווחת דולר.

ומה יקרה אם הפסדת בהימור על שמונת הדולרים? אולי עדיין אין בעיה, אבל בקרוב תהיה לך בעיה.

קודם כל נתייחס לבעיה הספציפית שלנו – להגיע מ-50 אלף דולר ל-100 אלף דולר. בשיטה הזו זה ייקח קצת זמן, ותצטרך לזכות בהרבה הימורים בדרך.

כמובן, אם עומד לרשותך סכום כסף בלתי מוגבל, השיטה הזו תוביל אותך לזכיה בהסתברות 1. אבל, הסכום שעומר לרשותך (( ולרשות כל אחד, בעצם )) מוגבל, וייתכן מאוד שתגיע למצב בו אין בידיך מספיק כסף כדי להכפיל את ההימור. למעשה, אפשר להוכיח כי אם תהמר בשיטה זו לאורך זמן, תגיע למצב בו אין בידיך די כסף כדי להכפיל את ההימור בהסתברות 1.

שלישית, ברוב בתי הקזינו יש הגבלה על גובה ההימור. שיטת ההכפלות תביא אותך בסופו של דבר אל המחסום הזה ואז לא תוכל למשיך ולהכפיל את ההימור גם אם יש בכיסך את הסכום הדרוש.

באופן אישי, אם היה לי קזינו, לא הייתי מתנגד לכך שיהמרו נגדי בשיטת ההכפלה. אדרבא. אמנם מדי פעם אפסיד דולר, אך ההפסד הזה יכוסה על ידי ההפסדים של כל המכפילים שיגיעו לגבול ההימור שלהם, והפסדים אלה יהיו יותר נפוצים ויותר גדולים מדולר אחד.

אז אם אתם רוצים להמר בשביל הכיף – סבבה. אם אתם רוצים להרוויח כסף מהימורים, כדאי שיהיה לכם קזינו. והכי חשוב, אל תסתבכו עם השוק האפור.

נשלח: 13 בנובמבר, 2017. נושאים: הימורים, הממ... מעניין..., מה אומרת הסטטיסטיקה, קבלת החלטות.
תגובות: 4 | טראקבק

האם כל תוצאה מובהקת היא משמעותית (ולהיפך)?

בכל מחקר כמותי בו נערך ניתוח סטטיסטי של הנתונים, מגיע הרגע הנכסף בו מחושב ה-P-value הנכסף. האם הוא קטן מ-0.05? שואל החוקר את עצמו בהתרגשות. אם כן – הידד! אפשר לפרסם את המאמר, או לרוץ ל-FDA להגיש לאישור תרופה חדשה, או להכניס מוצר חדש ל-production.

אבל, לפני שרצים, יש שאלה נוספת שצריך לשאול: האם התוצאה משמעותית?

נניח שערכנו ניסוי בו השתתפו 1000 איש, מחציתם נשים ומחציתם גברים. ערכנו לכל אחד ואחת מנבדקים מבחן IQ. התברר כי ה-IQ הממוצע של הנשים הוא 100, בעוד שה-IQ הממוצע של הגברים הוא 99. התוצאה מובהקת, עם פי-ואליו של 0.0016. (( בהסטיית התקן של כל קבוצה היא 5. תבדקו בעצמכם )) . לפני שתרוצו לפרסם מאמר סנסציוני בכתב העת המדעי החביב עליכם ((למשל Nature או סיינטיפיק טמקא)) ראוי שתעצרו ותשאלו את עצמכם: אז מה? ההבדל הוא כל כך קטן, האם יש לו משמעות? אם אתם חושבים שלהבדל יש משמעות, עליכם לנמק זאת.

בואו ניקח דוגמה קצת יותר מציאותית. מדען בילה ימים ולילות במעבדה, ופיתח תרופה חדשה לטיפול בטרשת נפוצה התקפית (( Relapsing Remitting Multiple Sclerosis )). התרופה מקטינה את תדירות ההתקפים ב-10%. הוא רושם פטנט, ומנסה למכור את התרופה לחברת תרופות. הסטטיסטיקאי של חברת התרופות יכול בקלות לתכנן ניסוי קליני, שיזהה את האפקט של התרופה בעוצמה של 90% ((כלומר ההסתברות לתוצאת False Negative תהיה 10%)) או אפילו 95% או 99%. האם החברה תקנה את התרופה ותפתח אותה? לא ולא. יש כבר תרופות לטיפול בטרשת נפוצה התקפית שמקטינות את תדירות ההתקפים ב-30, 40, ואפילו ב-50%. במצב זה, לתרופה עם אפקט של 10% אין משמעות, לא קלינית ולא מסחרית.

דוגמה שלישית: למשפחה נולד בשעה טובה בן בכור. האם הסיכוי כי הילד השני במשפחה זו יהיה (אם וכאשר יוולד) גם הוא בן, גדל? הנה מאמר שטוען שייתכן שכן. עיקרי הדברים: בדנמרק נאספו נתונים לגבי סדר הלידה ויחס המינים של כ-1.4 מיליון ילדים, בכ-700 אלף משפחות, במשך תקופה של כ-35 שנה. 51.2% מהבכורים היו בנים. בקרב המשפחות שבהן היו 3 בנים, והיה הבן ילד רביעי, 52.4% מקרב הילדים הרביעיים היו בנים. ההבדל מובהק, כמובן (p=0.009). בואו נתעלם מ-cherry picking אפשרי (( מה קרה במשפחות בנות שני ילדים? ומשפחות בנות 3 ילדים? למה זה לא מדווח? אם זה לא באבסטרקט של המאמר, כנראה שזה לא היה מובהק )). כמה משפחות בנות 4 ילדים יש בדנמרק? מחיפוש ראשוני שערכתי עולה כי מדובר בפחות מ-10%מהמשפחות. בואו נניח שזה 10%. אז עכשיו אנחנו מדברים על 70 אלף משפחות בנות 4 ילדים. ההסתברות ששלושת הילדים הראשונים הם בנים היא בעךך 0.013. נעגל את זה ל-0.02. זה מותיר לנו 1400 משפחות בנות ארבעה ילדים שבהן שלושת הילדים הראשונים הם בנים. 51.2% מקרב הילדים הצעירים היו "צריכים" להיות בנים, בפועל היו 52.4% – הפרש של 1.2%. 1.2% מ-1400 זה , 16.8, בואו נעגל ל-17, וזאת בתקופת זמן של 35 שנה, כלומר כל שנה נולדו 0.48 יותר בנים ממה שהיה "צריך" להיות. מי חושב שזה משמעותי?

דוגמה רביעית: חברת אינטרנט עושה AB testing, בה היא בודקת את השפעתו של פיצ'ר חדש במוצר שלה על ההסתברות שלקוח המשתמש במוצר יקנה את גירסת ה-PRO, בתשלום. מסתבר כי אחוז המשלמים יגדל מ-24.6% ל-24.8%, והתוצאה מובהקת (( כדי לזהות הבדל כזה כמובהק, יש צורך בגודל מדגם של כ-728000 נבדקים, אבל נעזוב את זה כרגע )). האם זה משמעותי? (( נתקלתי בחברה שמעדכנת גירסת תכנה כאשר ביצועי הגירסה החדשה גבוהים נומינלית ב-0.2% מביצועי הגירסה הישנה, על סמך מדגם בגודל 1000, כמובן בלי בדיקת מובהקות )) ובכן, אם נניח שהתשלום לגירסת הפרו הוא 5$ ויש 100000 משתמשים, הרי שמדובר בתוספת הכנסות של 100$. שווה? אם לעומת זאת יש מיליון משתמשים והתשלום הוא 50$, מדובר בתוספת הכנסה של 10000 דולר. 30 מיליון משתמשים ותשלום של 500$ יביאו את תוספת ההכנסות ל-3 מיליון דולר, וזה בהחלט משמעותי. תגידו: אם כבר השקענו את הכסף בפיתוח, אז ניקח את מה שיצא. יש בזה משהו. אבל אני מקווה שעושים קודם כל הערכה של עלויות הפיתוח ושל ההכנסות הצפויות מהפיצ'ר החדש. (( אפשר למשל לערוך סקר משתמשים, או לכנס focus group ))

נחזור לרגע לגודל המדגם הדרוש, כ-728 אלף נבדקים. אולי ענקית כמו גוגל יכולה להרשות לעצמה מדגם כזה. אני מניח שחברות קטנות יותר צריכות להסתפק בגודל מדגם קטן יותר. הן עומדות לכן בפני הברירה הבאה: אפשרות אחת היא לערוך מבחן סטטיסטי ואז רוב הסיכויים הם שאפקט כזה (ואפילו אפקט גדול יותר) לא יזוהה כמובהק. הן כמובן יכולות לשחק בסוגי הטעות, ולאפשר טעות מסוג ראשון (false positive) גבוהה יותר כדי להשיג עוצמה גבוהה יותר. אפשרות אחרת היא לוותר מראש על בדיקת המובהקות, ולסמוך ידיהם על האפקט הנומינלי. יש לכך תומכים, הבולט בהם הוא הסטטיסטיקאי אנדרו גלמן מאוניברסיטת קולומביה. (( אני מתכוון לסקור את הגישה של גלמן ואת הגישה הנגדית, שמוביל ג'ון יואנידיס ברשימה קרובה ))

מסקנות: לפני שרצים לחקור, צריך להעריך מראש איזה תוצאה תיחשב למשמעותית, ולחשוב מה דרוש לעשות כדי לבדוק האם התוצאה אכן מתקיימת. יש להעריך מראש מה ההסתברות לכל אחת משתי הטעויות האפשריות, שכן ההסתברויות האלה קיימות וחיוביות גם אם לא משתמשים במבחנים סטטיסטיים.

נשלח: 11 בנובמבר, 2017. נושאים: הממ... מעניין..., מדע, מה אומרת הסטטיסטיקה, סטטיסטיקה רעה.
תגובות: 2 | טראקבק

אחד מהם הוא בן

לפני יומיים ערכתי סקר בטוויטר. שאלת הסקר הייתה: במשפחה יש שני ילדים. אחד מהם הוא בן. מה הסיכויים שגם הילד האחר הוא בן? הוצעו 4 תשובות אפשריות: חצי, רבע, שליש, או שאף תשובה אינה נכונה. בסקר השתתפו 205 צייצנים (שבשום אופן אינם מדגם מייצג), ולהלן התוצאות:

לאחר שהעליתי את הסקר נזכרתי כי העליתי בעבר רשימה שהציגה את החידה הזו ובנוסף הציגה ווריאציה קשה יותר של החידה, תחת הכותרת "ילדה ושמה יוספה". אתם מוזמנים לעיין ברשימה שעסקה בפתרון שתי החידות. ברשימה זו אדון שוב בפתרון החידה שהוצגה בסקר והתוצאות מפתיעות. מתברר שיש יותר מתשובה נכונה אחת.

בואו נדון בתשובות.

התשובה הנפוצה ביותר היא חצי. איני יודע מה הוביל 131 איש לענות "חצי", אך מנסיוני אני סבור כי רובם שקלו את השיקול הבא: ילד אחד הוא בן. הילד השני יכול להיות בן או בת, וההסתברות לכך היא 50:50. הבעיה בתשובה הזו: התשובה מתעלמת מהנתון שאומר כי אחד מהילדים הוא בן. לא נאמר האם הילד הראשון הוא בן, או האם הילד השני הוא בן. צריך לקחת את זה בחשבון.

איך ניקח זאת בחשבון? צריך לשים לב כי יש ארבעה סוגי משפחות בנות שני ילדים:

הבכור בן, הצעירה בת
הבכור בן, הצעיר בן
הבכורה בת, הצעיר בן
הבכורה בת, הצעירה בת

לכל אחד מסוגי המשפחות יש הסתברות של 0.5*0.5=0.25 (תחת הנחות מסויימות, שמייד אדון בהן). המשפחה שלנו אינה משפחה עם שתי בנות (כי ידוע לנו שאחד מהילדים הוא בן). זה מותיר אותנו עם 3 סוגי משפחות אפשריות: בן-בן, בן-בת, ובת-בן. מתוכן ישש רק מבנה משפחה אחד עם שני בנים. לכן ההסתברות כי במשפחה יש שני בנים היא 1/3. וזו התשובה הנכונה (או שלא?)

כל זה נכון, בתנאי שמניחים מספר הנחות:

כל ילד הוא בהכרח בן או בת
הסיכוי ללידת בן שווה לסיכוי ללידת בת
אין קשר בין מין הילד הבכור ומין הילד השני.

אפשר לטעון, ובהחלט בצדק כי ההנחות (או חלקן) אינן תקפות. ב-2017 כבר מכירים בעובדה שמגדר אינו הכרח בינארי ((לא מצאתי מקור אמין הסוקר נושא זה. אשמח להפניות)), ולכן הנחה מספר 1 אינה בהכרח נכונה ((היא אולי נכונה כשמדובר בשני ילדים קטנים, אבל הם יכולים להיות גם ילדים גדולים, בני 30 ו-32, למשל)). ידוע כי הנחה מספר 2 אינה נכונה. נולדים יותר בנים מבנות ((קישור לנתוני הלשכה המרכזית לסטטיסטיקה – קובץ pdf)). יש לכך סיבות רבות שלא יידונו כאן. אחת הצייצניות העלתה טענה כי אם במשפחה הילד הבכור הוא בן, אז יש סיכוי גבוה יותר כי הילד השני יהיה בן. ((מצאתי מאמר אחד התומך בטענה הזו, אולם יש לי ביקורת עליו, ולדעתי התוצאה שלו חסרת משמעות. ראו כאן: http://www.sci-princess.info/archives/2055 ))

אם מקבלים את הביקורת על תקפות ההנחות (או חלק מהביקורת) אז התשובה 1/3 אינה בהכרח נכונה, ואז התשובה ש-"אף תשובה אינה התשובה הנכונה" היא התשובה הנכונה, ותשובה זו קבילה בעיניי.

מכאן הדברים מתחילים להסתבך.

הנה טוויסט בעלילה: התשובה 1/2 יכולה להיות נכונה! אפנה אתכם לניתוח המפורט של ד"ר גדי אלכסנדרוביץ, או שאולי תעדיפו את ההסבר בויקיפדיה. ההסבר בקצרה: לא ידוע לנו איך נבחר הבן עליו נאמר לנו כי הוא בן. אם יש בן אחד במשפחה – ברור מיהו הבן עליו נמסרה האינפורמציה. אם זו משפחה עם שני בנים – אז יכול להיות שהבן עליו דיברו הוא הבכור, ויכול להיות כי הבן עליו דיברו הוא הבן הצעיר. בהנחה (שוב הנחה!) שבמקרה של שני בנים הבן עליו דיברה החידה נבחר באופן מקרי ואחיד (כלומר בהסתברות 1/2) מבין שני הבנים, החישוב ההסתברותי (שלא אפרט כאן) מראה כי ההסתברות שבמשפחה יש שני בנים היא 1/2.

אבל רגע: אם לוקחים בחשבון את אופן בחירת הבן שמדברים עליו (למרות שלא נאמר על כך דבר בניסוח החידה), למה שלא ניקח בחשבון משהו אחר שלא נזכר בחידה, נניח אם הילד שעליו מדובר נולד ביום שלישי או לא נולד ביום שלישי? תשאלו מה זה משנה. ובכן, זה משנה. הראיתי כבר כי אינפורמציה נוספת משנה את התמונה ((ילדה ושמה יוספה, זוכרים?)) אסביר. ההסבר טכני, ומי שלא מעוניין יכול לדלג על הדיון והנוסחאות..

ובכן יש לנו משפחה בה שני ילדים, ידוע לנו כי אחד הילדים הוא בן, אבל לא ידוע לנו אם נולד ביום שלישי, או שלא. מכאן שיש 9 סוגי משפחות, אך כעת לכל סוג משפחה יש הסתברות שונה. אם נסמן את ההסתברות לכך שהבן נולד ביום שלישי באות היוונית ϵ (מסיבות שיובררו בהמשך). לדוגמא, ההסתברות שילד הוא בן וגם שהוא נולד ביום שלשי היא 0.5ε, כי אין תלות בין מין הילד והיום בו הוא נולד.תשעת סוגי המשפחות וההסתברויות שלהם הן ((תחת שלוש ההנחות שצויינו למעלה, והנחה נוספת האומרת כן אין קשר בין מין הילוד ליום בשבוע בו נולד)):

אז מה?

נחבר את ההסתברויות של סוגי המשפחות עם שני בנים שלפחות אחד מהם נולד ביום שלישי (מספר 1, 2, ו-4 ברשימה), ואחר כך נחבר את ההסתברויות של כל המשפחות שבהן יש לפחות בן אחד שנולד ביום שלישי (מספר 1, 2, 3, 4, ו-7 ברשימה) ונקבל, נחלק את ההסתברות הראשונה בהסתברות השנייה ונקבל כי ההסתברות שבמשפחה יש שני בנים אם ידוע שאחד מהם הוא בן שנולד ביום שלישי היא:

אם נציב במקום ϵ שביעית, נקבל כי ההסתברות היא 13/27. ((זוהי, אגב, התשובה לחידה שפירסמתי כאן, ללא פיתרון))

באופן דומה, נוכל לחשב כי ההסתברות שבמשפחה יש שני בנים אם ידוע שאחד מהם הוא בן אבל אף בן לא נולד ביום שלישי היא:

בעזרת נוסחת ההסתברות השלמה נוכל לצרף את שתי ההסתברויות יחד ולמצוא את ההסתברות שבמשפחה יש שני בנים. הנוסחה משקללת את שתי ההסתברויות שחישבנו בהסתברויות התנאי: ההסתברות שלפחות אחד מהילדים הוא בן שנולד ביום שלישי (סכום ההסתברויות של מספרי 1, 2, 3, 4, ו-7 ברשימה) וההסתברות המשלימה – של המאורע שאומר כי אין המשפחה ילד שנולד ביום שלישי.

על ידי סיכום ההסתברויות 1, 2, 3, 4, ו-7 נקבל כי ההסתברות שלפחות אחד מהילדים הוא בן שנולד ביום שלישי היא

ומכאן נקבל (על ידי הפחתת ההסתברות הזו מ-1) כי הסתברות המאורע המשלים (אין במשפחה בן שנולד ביום שלישי) היא

כעת נוכל לשקלל את ההסתברויות ולקבל כי ההסתברות שבמשפחה יש שני בנים היא

עד כאן הנוסחאות.

נציב בנוסחה האחרונה שקיבלנו שביעית במקום ϵ ונקבל כי ההסתברות שבמשפחה יש שני בנים היא בערך 0.457. זה אומר שגם במקרה הזה תשובה ד בסקר היא התשובה הנכונה.

אבל למה לעצור כאן? לא ידועים על הילד עוד פרטים. למשל, לא ידוע לנו אם הילד נולד בין ה-1 בינואר ובין הארבעה בספטמבר, או שלא. אם נחליף את המאורע הזה במאורע "נולד ביום שלישי" נקבל כי ϵ הוא 248/365 או בקירוב 0.682. נציב 0.682 בנוסחה ונקבל כי ההסתברות שבמשפחה יש שני בנים היא 0.2501, כלומר גם תשובה ב נכונה!

מבולבלים? גם אני. ((יכול להיות שיש לי טעות, ואם כן, אשמח אם מי מכם יגלה אותה ויספר לי מהי)) .

המסקנה שלי מכל הסיפור הזה היא שאסור לעשות שטויות. כשניצבת מולכם בעיה שכוללת נתונים מסויימים, עליכם להתמקד בנתונים של הבעיה, לבחון היטב את ההנחות, ולוודא כי מספר ההנחות שמניחים הוא קטן ככל האפשר.

נשלח: 29 באוקטובר, 2017. נושאים: הממ... מעניין..., מה אומרת הסטטיסטיקה.
תגובות: 4 | טראקבק

כמה הערות על AB testing

בהרבה הצעות עבודה למשרות בתחום הטכנולוגיה (בעיקר למשרות Data Scientist, אך לא רק) נדרש ידע ו/או נסיון ב-"AB testing".

מה זה AB testing? עיון קצר בויקיפדיה (הסבר נרחב באנגלית או הסבר מצומצם יותר בעברית) עולה כי זו שיטה להערכת ההשפעה של שינוי מסויים שיתבצע, למשל בדף אינטרנט (שאלות כמו האם הוספת תמונה לדף תגדיל את מספר הקליקים, וכדומה), כאשר A ו-B הם המצב שלפני השינוי, והמצב שאחריו. לפי ויקיפדיה (האנגלית),הגישה הזו החלה להתפשט בעולם הטכנולוגיה לפני כשבע שנים. כן מצויין שם, בצדק, כי זו בעצם גישה לתכנון ניסויים שגוסט (ראו גם כאן) פיתח עוד ב-1908.

למרות שזו התקדמות מתודולוגית משמעותית בחברות הטכנולוגיה, אני חושב שזו גישה נאיבית, בייחוד לאור ההתקדמות הרבה שחלה בתחום מאז 1908. הבעיה העיקרית במתודולוגיה הזו שהיא מיושמת בשיטת one factor at a time דבר שמתעלם מיחסי גומלין (אינטראקציות) בין מספר משתנים. על בעיה זו עמד פישר כבר בשנות העשרים של המאה הקודמת ואף הציע פתרון ראשוני (ניתוח שונות דו כיווני: two-way ANOVA) וכמובן יש פתרונות מתקדמים יותר שהציעו ממשיכי דרכו.

בעיות נוספות יכולות לצוץ בתכנון הניסוי עצמו: איך נקבע גודל המדגם? ((מישהו שלח לי לינק לסרטון הרצאה ביוטיוב בו המרצה נותן חסם לגודל המדגם הדרוש לאמידת התוחלת באוכלוסיה בעזרת אי שוויון גאוס-מרקוב, דבר שלומדים בשנה א סטטיסטיקה. את גודל המדגם הדרוש אפשר לחשב במדוייק – גם את זה לומדים בשנה א.)) איך בוחרים את המדגם כך שלא יהיו בו הטיות? ((דוגמאות מפורסמות – הבחירות של 1936 ו-1948 בארצות הברית)) איך מנתחים את התוצאות, כלומר האם משתמשים בשיטה הסטטיסטית המתאימה, אם בכלל? ((למשל, משתמשים במבחן סטטיסטי שמניח שקבוצת הניסוי וקבוצת הביקורת בלתי תלויות, למרות שבפועל הן תלויות זו בזו)) האם יש מודעות לטעויות האפשריות ולהסתברויות שבהן הן יקרו? ואם יש מודעות, מה עושים כדי לשלוט בגדלי ההסתברויות האלה? האם יש הבחנה בין אפקט מובהק לאפקט משמעותי? ((בפסקה האחרונה של רשימה זו יש דיון בנושא בהקשר של ניסויים קליניים))

אני מצטער לומר כי ביקרתי לא מזמן בחברה טכנולוגית גדולה ומצליחה, שם הוצגו לפני מספר טבלאות של "ניתוח נתונים", ואני זיהיתי שם את כל הכשלים שמניתי זה עתה. ((עוד יותר עצובה העובדה כי בצוות היו שני סטטיסטיקאים, אחד מהם בעל תואר שני))

אפשר לומר: "מה אתה רוצה, עובדה שהם מצליחים גם ככה", אבל האמת היא שהם הצליחו למרות הבעייתיות במתודולוגיה שלהם, בייחוד כאשר לב האלגוריתם שלהם מבוסס על הסתברות וסטטיסטיקה.

אורן צור ניסח את זה יפה בטוויטר: "נדמה לי שהטענה היא שזה זול ומיידי ורואים תוצאות גם אם אין מודל "טוב".או שאי אפשר לשפר או להצביע על טעויות. הגישה היא "למה לי להשקיע בזה". לפעמים זה עובד".

גם רפאל כהן כתב לי בטוויטר: "כשאני מגיע לתחום מסוים אני מניח שהמומחה יודע משהו (domain knowledge) ושהניתוח שלי אמור לעזור לו. לקחתי מעצב לאתר, אני לא אעשה AB על כל פיקסל ואני צריך להחליט על הניסוחים, מיקום של כפתורים (עדיף שההרשמה לtrial תהיה למעלה או למטה?) וכו'. ואין לי מיליארד משתמשים ביום. גם אם יש לי אלפי משתמשים ביום אני עדיין ארצה לא לבזבז אותם על קונפיגורציות גרועות. בהרצאה לעיל סמולה הראה איך לחסום את מספר המשתמשים שצריך אבל אחד הדברים שצריך ללמוד מזה הוא שהניתוח הסטטיסטי הנאיבי היה מביא אותו לכך שצריך 80 אלף כניסות בשביל כל ניסוי, הוא מראה ש 13 מספיקים 13 אלף כמובן. אז מי שהסתפק בפחות בגלל תחושת בטן סביר להניח שהגיע לתוצאות סבירות קודם, יצר מספיק הכנסות לחברה שלו ולא פשט רגל.". זוהי הבינוניות בהתגלמותה. למה לחשוב ולתכנן, שואל כהן, אם אפשר להשתמש בגישה נאיבית ולקבל משהו? אז מה אם אפשר לעשות יותר טוב?

לפני מספר שנים כתבתי כאן על עתיד הסטטיסטיקה בתעשיה. הדוגמאות לסטטיסטי-פוביה שהבאתי שם היו מנסיוני בתעשייה הפרמצבטית. אחזור על עיקרי הדברים כאן:

סופר המדע הבדיוני ה. ג'. וולס כתב כי "Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write."

בכל הנוגע לתעשייה הפרמצבטית, העתיד אותו חזה וולס כבר כאן. הסטטיסטיקה מהווה נדבך מרכזי בכל תהליכי המחקר, הפיתוח, והייצור של התעשיה. איש אינו מעלה על דעתו לצאת לניסוי קליני ללא ליווי סטטיסטי צמוד, ובשנים האחרונות גוברת הדרישה לתמיכה סטטיסטית גם בשלבי פיתוח מוקדמים יותר, וגם בתהליכי הייצור.

אני מקווה שהמודעות לערך המוסף שמביאה הסטטיסטיקה עמה תחלחל גם לתעשייה הטכנולוגית, ככל שמתרחב השימוש בסטטיסטיקה כך גדלה הנחיצות של יכולת חשיבה סטטיסטית מצד השותפים לתהליך, והסתפקות במישהו "שיודע קצת יותר סטטיסטיקה מהמתכנת הממוצע" (כפי שהגדיר זאת אורן צור) מבטאת בינוניות ונאיביות במקרה הטוב.

נשלח: 3 באוקטובר, 2017. נושאים: מה אומרת הסטטיסטיקה.
תגובות: 2 | טראקבק

איך סופרים את המתים

בתחילת אוגוסט 2014 השתתפתי בכנס האיגוד האמריקני לסטטיסטיקה בבוסטון, שם נכחתי בשני מושבים שעסקו בנושא של אמידת מספר הנפגעים/הרוגים בסכסוכים אלימים. רשימה זו מבוססת על ההרצאות ששמעתי.

בערך של ויקיפדיה על הסכסוך/מלחמת אזרחים בקולומביה מצויין כי נהרגו בסכסוך (נכון לעד מתי?) 4286 חיילים ושוטרים, וכן 13197 מבין חברי שני הארגונים הנאבקים בכוחות הממשלה. איך הם הגיעו למספרים האלה? וברמת דיוק כל כך גבוהה? מספר ההרוגים הכללי בסכסוך, על פי המקורות שויקיפדיה מצטטת, הוא הרבה יותר ערטילאי: בין 50 ל-200 אלף. האם ניתן להגיע למספר מדוייק יותר?

נתוני מספר ההרוגים בסכסוך בקולומביה כפי שהם מוצגים בויקיפדיה

שאלות דומות עולות בכל סכסוך. עד כמה מדוייקים מספרי ההרוגים המתפרסמים בדבר מלחמת האזרחים בסוריה? או בעירק? כמה אזרחים נהרגו בסכסוך האחרון בעזה? מדובר בבעיה סטטיסטית לא פשוטה. אנסה להסביר בקצרה ובפשטות את הבעיה ואת הגישות להתמודדות איתה.

מתברר שבל סכסוך אלים יש אנשים וארגונים העוסקים בתיעוד מקרי המוות (כמו ד"ר אשרף אל-קודרה בעזה). במקרה של הסכסוך בקולומביה, ד"ר שירה מיטשל מאוניברסיטת הארווארד הציגה נתונים שנאספו על ידי שישה ארגונים שונים, שלושה מהם ממשלתיים, לאורך תקופות זמן משתנות. בסוריה, לפי ד"ר מגאן פרייס מה-Human Rights Data Analysis Group, יש כחמישה ארגונים האוספים את נתוני ההרוגים, ואילו ד"ר דניאל מנריק-ואלייר מאוניברסיטת אינדיאנה אמד את מספר ההרוגים במלחמת האזרחים בקוסובו על סמך דיווחים של ארבעה ארגונים שונים. בכל מקרה, הדיווחים הם רשימות של שמות ההרוגים, לעיתים בתוספת מידע נוסף אודות ההרוגים (למשל גיל, מין, מקום מגורים) או נסיבות מותה (כמו לדוגמה הפצצה או הוצאה להורג).

נתוני ארבע רשימות הרוגים מממלחמת האזרחים בקוסובו, כפי שהוצגו על ידי דניאל מנריק-ואלייר בכנס JSM2014

בפני הסטטיסטיקאים המנסים לאמוד את סך ההרוגים הכללי בסכסוך עומדות שתי בעיות. הבעיה הראשונה היא לזהות אנשים שמותם מתועד יותר מפעם אחת. ייתכן כי מותו של אדם מסויים מופיע בשתי רשימות (או יותר) שהכינו ארגונים שונים, או אפילו מופיע פעמיים (או יותר) באותה רשימה. בשלב הראשון יש לעבור על כל הרשומות שבכל הרשימות, ולהשוות כל זוג רשומות כדי לקבוע האם מדובר באותו אדם או בשני אנשים שונים. האם יוסי לוי ויוסף לוי הם אותו אדם? מה בקשר לשני שמות פחות דומים אך יותר נדירים, לגביהם מקום המוות, זמנו ונסיבותיו זהות? צריך לבדוק כל מקרה (למעשה כל זוג מקרים) לגופו. זה לוקח זמן. אם בסך כל הרשימות יש 1000 רשומות של מקרי מוות, יש לנו כמעט חצי מיליון זוגות שצריך להשוות. כאשר מדובר ב-100,000 רשומות (וזה לא מספר דמיוני, בסוריה מדובר עד כה על כ-170 אלף הרוגים, ואם מדובר ב-5 רשימות אזי מספר הרשומות יכול להגיע בקלות לחצי מיליון), יש כבר 50 מיליון זוגות של רשומות שצריך להשוות. אין שום סיכוי לבצע את העבודה הזו באופן ידני, ויש להסתמך על עזרת המחשב והסטטיסטיקה. הרעיון הוא לבדוק מספר מצומצם של זוגות רשומות ובאופן ידני (כמה אלפים בדרך כלל) ולסווג אותן כמתארות אותו אדם או שני אנשים שונים. בעזרת הסיווג הידני והנתונים הנלווים לכל שם בונים מודל סטטיסטי שמחשב לכל זוג רשומות את ההסתברות כי הן מתארות בעצם את אותו האדם. בעזרת הפרמטרים של המודל הסטטיסטי אפשר לתכנת כעת אלגוריתם שישווה באופן אוטומטי את כל הזוגות ויקבע לכל אחד מהם האם מדובר באותו אדם (אם ההסתברות המחושבת גבוהה מסף מסויים) או לא. תהליך זה נקרא למידה סטטיסטית. (( 1. אנשים מתחום מדעי המחשב מעדיפים לכנות תחום זה בשם "למידה ממוכנת".))

לאחר שמסתיים תהליך ההשוואה וזיהוי הרשומות הכפולות, אנו נותרים למעשה עם נתונים מזוקקים, האומרים לנו כמה הרוגים נספרו רק ברשימה הראשונה, כמה ברשימה הראשונה והשניה, כמה ברשימה הראשונה והשלישית, וכך הלאה, עד מספר ההרוגים ששמם הופיע בכל הרשימות. מנתונים אלה אנחנו יכולים לקבל הערכת רצפה של מספר ההרוגים – זהו סך כל מספר הרשומות השונות בכל הרשימות. וכאן מופיעה הבעיה הסטטיסטית השניה: איך נדע מהו מספר האנשים שנהרגו אך שמם לא הופיע אף לא ברשימה אחת? סביר להניח כי יש גם כאלה. השיטה הסטטיסטית להתמודדות עם הבעיה הזו ידועה בשם "תפוש ותפוש שוב" ("capture – recapture") ואנסה לתאר אותה בפשטות בפסקאות הבאות.

נניח שאנחנו רוצים לדעת כמה דגים יש באגם מסויים. אפשר לאמוד מספרם בצורה הבאה: תופסים מספר מסויים של דגים, נניח 1000, מסמנים כל אחד מהם בנקודה אדומה, ומחזירים אותם לאגם. כעת באגם יש X דגים, 1000 מתוכם מסומנים. ממתינים זמן מה כדי שהדגים המסומנים יתפזרו ברחבי האגם ויתערבבו עם חבריהם, ואז תופסים שוב 1000 דגים, ובודקים כמה מתוכם מסומנים בנקודה אדומה. אם 50 מתוך האלף מסומנים, מסיקים כי פרופורציית הדגים המסומנים באגם היא 5%, ומכיוון שידוע לנו כי יש באגם 1000 דגים מסומנים המהווים 5% מכלל הדגים באגם, ולכן אמדן של סך כל מספר הדגים באגם הוא 20,000.

מקרה ספירת המתים דומה. הדג המסומן בנקודה אדומה הוא המשל, ההרוג במלחמה הוא הנמשל. אבל יש כאן כמה בעיות. ראשית, במקרה של ספירת ההרוגים, בניגוד לספירת הדגים, אנחנו לא באמת יודעים כמה דגים מסומנים יש באגם. שנית, מה קורה אם מי שביצע את התפיסה השניה של הדגים היה רשלן, ודיווח אמנם כי תפס 50 דגים המסומנים בנקודה אדומה, אך שכח לספור ולכן לא דיווח כמה דגים תפס בסך הכל, מסומנים ולא מסומנים? לא נוכל לבצע את התרגיל הפשוט שביצענו קודם. נוכל כמובן לשלוח אותו לבצע שוב את המשימה, בתקווה שיבצע אותה טוב יותר, אך במקרה של ספירת ההרוגים, אין דרך מעשית לדגום קבוצה של אנשים ולבדוק מי מהם נהרג במלחמה ומי לא. הנתונים הטובים ביותר שנוכל לקבל הן הרשימות, כאשר חלק מהאנשים מופיעים ביותר מרשימה אחת.

הבעיה השלישית היא הקשה ביותר: בסיפור של הדגים, המתנו בין התפיסה הראשונה והשניה, כדי שהדגים יתערבבו בינם לבין עצמם ותיווצר אי תלות סטטיסטית בין המדגם הראשון למדגם השני. אין שום סיבה להניח כי אי תלות כזו קיימת בין רשימות ההרוגים השונות, אדרבא. כאן דרושה עזרתו של הסטטיסטיקאי, שיבנה מודל (או מספר מודלים) למבנה התלות בין הרשימות השונות. ייתכן מאוד כי מודלים שונים יתנו תוצאות שונות, ולסטטיסטיקה יש גם כלים להשוואה בין מודלים ובחירה במודל "הטוב ביותר" לפי קריטריון כזה או אחר.

אז בפעם הבאה שאתם רואים הערכות שונות למספר ההרוגים בסכסוך מסויים (ובעצם הערכות שונות לספירה כמותית של פרטים או פריטים כלשהם), התייחסו למספרים בספקנות. שאלו אולי לגבי השיטות הסטטיסטיות שבהן נעשה שימוש. התעקשו על קבלת מדד למידת אי הודאות שבאמדן (סטיית תקן, רווח סמך וכדומה). ואל תכעסו אם אתם נתקלים בשני אמדנים שונים. מדובר בבעיה סטטיסטית קשה, וגישות שונות לפתרונה יביאו ככל הנראה לתוצאות שונות.

מקורות (הרצאות בכנס JSM, בוסטון, אוגוסט 2014):

* Global Impact: Statistical Analyses of Conflict Data in Syria, Guatemala, and Colombia — Shira Mitchell, Harvard ; Al Ozonoff, Harvard ; Kristian Lum, Virginia Tech ; Alan M. Zaslavsky, Harvard ; Brent Coull, Harvard School of Public Health

* Estimating Undocumented Deaths During the Syrian Conflict — Patrick Ball, Human Rights Data Analysis Group ; Anita Gohdes, Human Rights Data Analysis Group ; Megan Price, Human Rights Data Analysis Group

* Record Linkage and Capture-Recapture in the the Analysis of Genocide in Guatemala — Patrick Ball, Human Rights Data Analysis Group

* Large-Scale Clustering Approaches for Identifying Unique Human Rights Violations — Samuel Ventura, Carnegie Mellon

* Bayesian Multiple-Recapture Estimation of Casualties in Armed Conflicts Using Nonparametric Mixtures — Daniel Manrique-Vallier, Indiana University

נשלח: 12 באוגוסט, 2014. נושאים: מה אומרת הסטטיסטיקה, על סדר היום.
תגובות: 3 | טראקבק

עוני, פיתוח כלכלי וסטטיסטיקה על כוס שמפניה

רשימה זו היא החמישית והאחרונה בסדרת הרשימות הסוקרות את גיליון פברואר של כתב העת Significance, המוקדש לנושאי העוני והפיתוח הכלכלי. עורך המגזין, ג'וליאן צ'אמפקין, כותב במדור הויזואליזציה על אפקט כוס השמפניה. (( 1. Champkin, J. (2014), The champagne glass effect. Significance, 11: 39–41. doi: 10.1111/j.1740-9713.2014.00726.x ))

כולכם בודאי שמעתם על כלל ה-80/20. 20% האנשים העשירים בעולם מחזיקים בידיהם 80% מעושר העולם, המשאבים, הכל. ל-20% העניים ביותר יש, ובכן, כמעט שום דבר. איך יוצגו נתונים אלו בצורה שהמסר יועבר?

אינפוגרפיקה זו הופיעה לראשונה בדו"ח הפיתוח האנושי של האו"ם משנת 1992. מאז שוחזרה פעמים רבות, מכיוון שהיא ברורה מאוד, אינטואיטיבית מאוד. היא מספרת סיפור, וזה מה שחשוב. היא מציגה נתונים, אבל הם לא העיקר כאן. המסר הוא בצורה.

נתוני חלוקת ההכנסות בעולם בשנת 2008

אולי אנחנו לא מבינים בכלכלה, כותב צ'אמפקין, אבל אנחנו יודעים מהי שמפניה. זהו המשקה ששותים העשירים. זהו סמל הצריכה הראוותנית, ההדוניזם, הכסף המבוזבז שעדיף היה להשקיע אותו ב-… כל דבר אחר, בעצם. אם תנסו להציג את נתוני חלוקת העושר בעזרת כוס בירה, המסר לא יעבוד.

האם גרף כוס השמפניה מטעה? בפירוש לא. אין כאן כל עיוות של הנתונים. הגרף לא גורם לצופה לחשוב שחלקו של החמישון העליון גדול יותר או קטן יותר בצורה משמעותית מהחלק האמיתי, וכך גם לגבי החמישונים האחרים.

האם הגרף מניפולטיבי? צ'אמפקין חושב שכן. נכון, הוא מנגן על התת מודע של הצופים. לפרסומאים מותר לעשות את זה. גם לסטטיסטיקאים של האו"ם. יש להם מסר להעביר בדבר עוצמתו של אי השוויון בעולמנו, והמסר עובר. אני מסכים איתו.

רשימות נוספות בסדרה:

נשלח: 8 במרץ, 2014. נושאים: ויזואליזציה, כלכלה וחברה, מה אומרת הסטטיסטיקה, על סדר היום.
תגובות: 1 | טראקבק

עוני, פיתוח כלכלי וסטטיסטיקה: האם סיוע בינלאומי הוא בזבוז כסף?

רשימה זו היא הרביעית בסדרת הרשימות הסוקרות את גיליון פברואר של כתב העת Significance, המוקדש לנושאי העוני והפיתוח הכלכלי. היא סוקרת מאמר דיעה מאת אואן בארדר, סטטיסטיקאי בכיר במרכז לפיתוח גלובלי.

ההתנגדויות לסיוע בינלאומי למדינות מתפתחות אינן חדשות. "סיוע בינלאומי הוא מנגנון הממסה אנשים עניים במדינות עשירות לצורך מימון אורח החיים של אנשים עשירים במדינות עניות" – כתב הכלכלן הבריטי פטר באואר (( 1. שזכה בתואר לורד מידי ראש ממשלת בריטניה מרגרט תאצ'ר, ובפרס מילטון פרידמן בשנת 2002)) ב-1976. 33 שנים לאחר מכן כתבה הכלכלנית ילידת זמביה דאמביסה מויו בספרה (אותו הקדישה לפטר באואר) כי הסיוע הבינלאומי למדינות אפריקה טיפח תלות כלכלית של מדינות אלה בסיוע, עודד שחיתות והנציח את העוני.

אואן בארדר מציע דרך אחרת לבחון את הנושא (( 2. Barder, O. (2014), Is aid a waste of money?. Significance, 11: 31–32. doi: 10.1111/j.1740-9713.2014.00723.x )). לפי נתוני ארגון OECD, מדינות הארגון העבירו כסיוע למדינות המתפתחות סכום כולל של כ-2.6 טריליון דולר, שהם כ-4.7 טריליון דולר במונחי 2013. מה קנה כל הסכום העצום הזה?

הבה נניח לרגע כי ההישג היחיד שהושג בזכות כספים אלה הוא מיגור והכחדת נגיף האבעבועות השחורות. להזכירכם, זוהי אחת המחלות הקטלניות ביותר בהיסטוריה האנושים, שגרמה ליותר מקרי מוות מאשר כל המלחמות גם יחד. המקרה האחרון של הדבקות במחלה היה בשנת 1977, בסומליה. כמה חיים ניצלו עקב הכחדת הנגיף? קשה לדעת, ההערכות נעות בין 60 ל-120 מליון איש (( 3. Henderson, D. A. et al. (1988) Smallpox and its Eradication, Vol. 6. Geneva: World Health Organization. )) הבה נהיה שמרנים ונחלק 4.7 טריליון ב-60 מיליון. נקבל כי עלות הצלת 60 מליון איש ממוות ממחלת האבעבועות השחורות היא קצת יותר מ-78 אלף דולר לאדם. האם זה הרבה? מעט? מה עלות חייו של אדם בעולם השלישי? בבריטניה מקובל להניח כי הוצאה של 160 אלף דולר (או פחות) להצלת חיים נחשבת ליעילה (( 4. McCabe, C., Claxton, K. and Culyer, A. J. (2008) The NICE cost-effectiveness threshold: what it is and what that means. Pharmacoeconomics, 26(9), 733–744.)). בארה"ב הסף המקובל גבוה יותר.

כמובן שלא כל 4.7 טריליוני הדולרים הוצאו על הכחדת נגיף האבעבועות השחורות. עלות מבצע החיסון העולמי הייתה 1.5 מיליארד דולר "בלבד". גם שיעורי התמותה ממחלות זיהומיות, מלריה, חצבת, ומחלות נוספות ירדו, והצילו חיים של 10 מליון איש כל שנה (בערך פי שש מ-1.7 מקרי מוות מאבעבועות שחורות שנמנעו בכל שנה מאז 1978). חלק מהכסף הושקע גם בפיתוח חקלאי, שבודאי הציל עוד כמה עשרות או מאות מליונים ממוות ברעב, חלק הושקע בחינוך, ובמטרות ראויות נוספות.

אכן היו מקרים בהם תכניות סיוע נכשלו, ואף ייתכן כי ניתן היה למנוע חלק מהכישלונות על ידי ניהול טוב יותר. בודאי היו גם כשלונות בלתי ניתנים למניעה. סיוע למדינות מתפתחות, כותב בארדר, הוא סוג של כרטיס הגרלה, אבל הפרס הגדול הוא עצום, ולכן סך המאזן של ההשתתפות בהגרלה זו הינו חיובי, והתועלת עולה עשרות ומאות מונים על הנזק.

רשימות נוספות בסדרה:

נשלח: 2 במרץ, 2014. נושאים: כלכלה וחברה, מה אומרת הסטטיסטיקה, על סדר היום.
תגובות: 3 | טראקבק

עוני, פיתוח כלכלי וסטטיסטיקה: על הקשר בין התאבדויות איכרים בהודו וגידולים מהונדסים גנטית

רשימה זו היא השלישית בסדרת הרשימות הסוקרות את גיליון פברואר של כתב העת Significance, המוקדש לנושאי העוני והפיתוח הכלכלי. היא עוסקת במאמר בדבר הטענה כי יש קשר בין התאבדויות איכרים בהודו וגידולים מהונדסים גנטית (( 1. Plewis, I. (2014), Indian farmer suicides: Is GM cotton to blame?. Significance, 11: 14–18. doi: 10.1111/j.1740-9713.2014.00719.x))

גידולים מהונדסים גנטית נמצאים במוקדם של ויכוחים רבים. בקהילה המדעית יש קונצנזוס לגבי התועלת בגידולים כאלה, אם כי ברור שאין בהם פתרון לכל הבעיות בחקלאות בעולם השלישי. מנגד, יש פעילות רבה של התנגדות לגידולים כאלה, ואין להקל ראש גם בנימוקיהם, בודאי ללא בדיקה רצינית של הנתונים אותם הם מביאים. מטבע הדברים, רוב הנימוקים בעד ונגד מתבססים על נתונים סטטיסטיים, מה שמחייב הערכה ביקורתית של הנתונים, השיטות הסטטיסטיות לניתוחם, והפרשנות לממצאים.

בשנת 2008 העלה יורש העצר הבריטי, הנסיך צ'רלס, טענה חמורה כנגד הגידולים המהונדסים גנטית, כאשר התייחס לתופעה של התאבדות איכרים בהודו, וטען כי לפחות חלק מהמקרים נובע מגידולים מהונדסים גנטית שנכשלו והובילו להתרוששות כלכלית של אותם איכרים (( 2. Daily Mail (2008) The GM genocide: Thousands of Indian farmers are committing suicide after using genetically modified crops. Mail Online, November 3rd. )).

כיצד בודקים את נכונותה של טענה כזו? הדרך הטובה ביותר היא, כמובן, לתכנן ולערוך ניסוי פרוספקטיבי, שידגום שתי קבוצות איכרים, כאלה המשתמשים בגידולים מהונדסים גנטית, וכאלה שלא, ויעקוב אחריהם לאורך זמן (כולל הזמן שלפני המעבר לגידולים מהונדסים גנטית). מחקר כזה מעולם לא נערך. במקום זאת פנה איאן פלויס, פרופסור לסטטיסטיקה חברתית באוניברסיטת מנצ'סטר, לנתונים קיימים ממקורות רשמיים שונים. סוכנות נתוני הפשיעה הלאומית של הודו (NCRB) אוספת ומפרסמת נתונים על התאבדויות החל מ-1996, בחתכי מדינה, משלח יד ומגדר. בנתונים עלול להיות דיווח חסר ממספר סיבות, כגון חשש מתביעה פלילית (התאבדות היא עבירה פלילית בהודו), ואי דיווח נשים כחקלאיות (כיוון שהשטח החקלאי רשום על שם גבר). כאשר צורפו יחד נתוני ה-NCRB ונתונים שפורסמו בכתב העת המדעי Lancet ב-2012, ניתן היה לקבל אמדנים אמינים למספר האיכרים המתאבדים בכל אחת מ-9 מדינות הודו המגדלות ביחד יותר מ-90% מהכותנה בהודו, שבהן התמקד המחקר הנוכחי.

אין די במספר האיכרים המתאבדים. יש לדעת גם מהו מספר האיכרים הכולל, כדי לדעת מהו שיעור המתאבדים. גם מספר האיכרים משתנה משנה לשנה. יותר קשה לאמוד מספרים אלה. יש שני מקורות רשמיים למספר האיכרים. סקר האוכלוסין נערך מדי 10 שנים, ונערך לאחרונה ב-2011. ישנו גם סקר חקלאי, הנערך מדי חמש שנים. הנתונים בשני הסקרים אינם מושלמים, ופרופ' פלויס מתאר כיצד גזר מהם אמדנים למספר האיכרים בכל מדינה בכל שנה, מוסיף את האזהרות המתבקשות, ומציין את הבעיות הפוטנציאליות באמדניו ואת המחקר הנוסף הדרוש.

הממצא הראשון אולי מפתיע מעט: שיעורי ההתאבדות בקרב איכרים גברים בהודו נמוך מעט משיעורי ההתאבדות בקרב שאר האוכלוסיה. בקרב נשים העוסקות בחקלאות, לעומת זאת, נראה כי שיעורי ההתאבדות גבוהים יותר בהשוואה לנשים שלא עוסקות בחקלאות.

האם שיעורי ההתאבדות בקרב האיכרים משתנים לאורך זמן? התשובה היא חיובית. בקרב הגברים יש עליה מכ-25 ל-100000 ב-1996 לכ-35 ל-100000 ב-2005, ואח"כ יש ירידה עד לשיעור של כ-29 ל-100000 ב-2011. בקרב הנשים יש ירידה מתמדת, מכ-63 ל-100000 (!) ב-1996 לכ-29 ל-100000 ב-2011. למעשה, החל מ-2009 אין הבדל בשיעורי ההתאבדות בין גברים לנשים. הנתונים אינם תומכים בטענה כי שיעורי ההתאבדות עלו לאחר הכנסת גידולים מהונדסים גנטית לשימוש.

כל זאת ברמה הארצית. ברמה המדינתית, התמונה אינה אחידה, ובמדינות שונות שיעורי ההתאבדות מתנהגים באופן לאורך זמן. האם יש גורם נוסף שלא נלקח בחשבון?

מהנתונים ניתן לקבוע כי רק במדינת פאנג'ב אכן עלו שיעורי ההתאבדות בקרב האיכרים מאז שנת 2002. במדינת מהרשטרה, לעומת זאת, נצפית ירידה תלולה בשיעורי ההתאבדות מאז 2003. שתי מדינות אלה מגדלות כמעט מחצית מהכותנה בהודו (26% ו-20%, בהתאמה) ובשתיהן כ-56% מהכותנה המגודלת הינה מהונדסת גנטית. מאז 2002 הייתה ירידה ביבולים בפאנג'ב ועליה במדינת מהרשטרה. תוצאה זו מתאימה לתיאוריה כי יש מרכיב כלכלי המשפיע על שיעורי ההתאבדות.

המסקנה היא בדרך כלל ניתן לקשר את הנהגת השימוש בגידולים מהונדסים גנטית לירידה בשיעורי ההתאבדות בקרב איכרים בהודו (שגם הם נמוכים יחסית ללא-איכרים בהודו בפרט, ולמדינות העולם בכלל), ולסייג את הדברים בכך שיצויין כי בפאנג'ב נצפתה התנהגות שונה.

רשימות נוספות בסדרה:

נשלח: 27 בפברואר, 2014. נושאים: כלכלה וחברה, מה אומרת הסטטיסטיקה, ספקנות, על סדר היום.
תגובות: 4 | טראקבק