חיפוש באתר

קישורים

RSS סטטיסטיקה ברשת

עמודים

קטגוריות

תגיות

ארכיב עבור תגית מחקרים

חמש דרכים לתקן את הסטטיסטיקה

ב-28.11.2017 הופיע בכתב העת Nature מאמר שנשא את הכותרת הפרובוקטיבית Five ways to fix statistics.

המאמר נכתב לאור "משבר השחזוריות" (reproducibility crisis) בו חשים היום חוקרים מתחומים רבים, כלומר הקושי ההולך וגובר לשחזר תוצאות מחקריות במחקר נוסף בלתי תלוי. יש הטוענים כי אחת הסיבות למשבר הזה הוא שימוש לא נכון בסטטיסטיקה. עורכי Nature פנו לחמישה סטטיסטיקאים מובילים[1] וביקשו מכל אחד מהם להמליץ של שינוי אחד בפרקטיקה הסטטיסטית שיוכל לשפר את המחקר המדעי. באופן לא מפתיע, הייתה הסכמה בין כולם כי הבעיה אינה בסטטיסטיקה עצמה, אלא באופן השימוש בה.

ברשימה זו אסקור את ההצעות שהועלו, ואביע את דעתי בנוגע לדברים שנאמרו.

ג'ף ליק מאוניברסיטת ג'ונס הופקינס טוען כי "יש להתאים את הידע האנושי" (Adjust for human cognition). כדי להשתמש היטב בסטטיסטיקה, אומר ליק, החוקרים צריכים ללמוד אי לנתח נתונים ולפרש אותם, וליישם את השיטות הסטטיסטיות תוך כדי הימנעות מהטיות קוגניטיביות. אם בעבר היה קשה לאסוף נתונים וכמות הנתונים הייתה מועטה, בימינו אין כל בעיה לאסוף כמויות ענקיות של נתונים. שיטות סטטיסטיות לניתוח נתונים בעידן החדש אכן פותחו, אבל רוב החוקרים עדיין משתמשים בשיטות ישנות (outdated), משתמשים באופן לא נכון במבחנים סטטיסטיים, ונכשלים בביאור התוצאות שקיבלו. האופן שבו משתמשים ב-p-values כדי לקבוע האם תוצאה מחקרית היא "מעניינת" הוא רק דוגמא אחת לשימוש לא נכון בסטטיסטיקה.

אולם, אומר ליק, אי אפשר לתלות את כל האשמה בשפע הנתונים ובהכשרה לא מספיקה בסטטיסטיקה. גם הקריאה להפסיק להשתמש ב-p-values ובמדדים נוספים ככלי לקבלת החלטות אינה מעשית. לעיתים קרובות צריך לקבל החלטות, ורצוי שיהיו כלים והנחיות ברורות כדי לעשות זאת.

יש להבין, מוסיף ואומר ליק, כי ניתוח נתונים אינו רק עניין חישובי/אלגוריתמי. יש בו צד התנהגותי. וההיבט ההתנהגותי של ניתוח הנתונים מושפע לרעה מכך שההכשרה הסטטיסטית הבסיסית לחוקרים מתמקדת בשיטת ישנות שלא מתאימות לבעיות איתן אנו מתמודדים כיום.

אז מה לעשות? ליק מציע להתחיל במחקרים התנהגותיים, שיובילו להבנה כיצד אנשים אוספים, מעבדים ומתחים נתונים, כיצד הם מתקשרים את התוצאות, וכיצד הם צורכים נתונים. לאחר שנבין זאת, נוכל לשפר שיטות ההוראה של הסטטיסטיקה לציבור החוקרים ולציבור הרחב.

אני מסכים עם ליק ברוב הדברים שאמר, אולם אני סבור שאין לנו די זמן לחכות עד שכל המחקרים ההתנהגותיים שהוא מציע ייערכו ותוצאותיהם יובנו ויופנמו. אני לא מתנגד לקיום המחקרים האלה. אבל יש לעשות שינוי מהותי בהוראת הסטטיסטיקה ועכשיו.

לאנדרו גלמן מאוניברסיטת קולומביה ובלייקלי מקשיין מאוניברסיטת נורתווסטרן יש עיצה פשוטה ותקיפה: לנטוש את בדיקות המובהקות. קביעת המובהקות הסטטיסטית כקריטריון לפרסום מחקרים מדעיים מובילה לכך שהמחקרים שמתפרסמים מהווים מדגם לא מייצג של הנתונים. יותר מכך, מזהירים השניים, בדיקת המובהקות נתפסת כדרך להכריע בין שתי אפשרויות: או שקיים אפקט או שלא קיים אפקט. באופן מעשי מתקיימת לדבריהם "מכבסת אי ודאות".

השניים מתייחסים גם לויכוח שמתנה כעת שמתנהל כעת בקרב הקהילה הסטטיסטית, ומתייחסים להצעה של ג'ון יואנידס להדק את מבחני המובהקות ולקבוע את הרף למובהקות על 0.005, וזאת מבלי להזכיר אותו בשמו (וכאן המקום להעיר כי למרבה הצער, עורכי נייצ'ר לא שאלו ככל הנראה את יואנידס לדעתו בעניין). הם, כמובן, מתנגדים לדעתו של יואנידס, אך לא מספקים נימוק משכנע. לחיזוק טענתם הם מביאים כדוגמא מחקר בו התוצאות היו מובהקות אך האפקט אינו משמעותי לדעתם.[2]

השניים מסכמים את דעתם באמירה שאין הם רוצים לאסור את ה-p-value, אלא מציעים שהוא יהווה רק ראיה אחת בין ראיות נוספות כגון ידע מוקדם, תכנון הניסוי, איכות הנתונים וכדומה. הם מסכמים ואומרים כי הגיע העת "להשאיר את האלכימיה של החלטות בינאריות כגון יש אפקט/אין אפקט מאחורינו"

אני מתנגד לדעתם של גלמן ומקשיין מכל וכל. אימוץ הצעתם יוביל מייד להגדלה של שיעור התוצאות החיוביות-שגויות (False positive). אני לא מתנגד להצעה לקחת בחשבון את משמעות האפקט הנצפה, תכנון הניסוי, איכות הנתונים ופרמטרים נוספים. להיפך. אולם ביטול הדרישה לתוצאה מובהקת רק יוביל ליצירת מגוון של קריטריונים שרירותיים אחרים. לדוגמא, במאמר הזה, שיש בו הרבה דוגמאות לסטטיסטיקה רעה, החוקרים מחשבים את גודל האפקט בעזרת מדד Hedges’ g, ומחליטים כי אפקט ייחשב כמשמעותי אם האפקט לפי מדד זה גדול מ-1.3. מדוע 1.3? ההסבר לכך קלוש ולא מספק. בכל מקרה, לקריטריון כזה ולדומיו אין בסיס תיאורטי מוצק, בניגוד לתיאוריה של בדיקת ההשערות, המתבססת על הלמה של ניימן ופירסון.

דויד קולקיוהון מיוניברסיטי קולג' בלונדון מציע כי בנוסף ל-p-value ומדדים נוספים, יפורסם גם הסיכון לתוצאה חיובית שגויה (False positive risk או FPR .(FPR, לדבריו, תמיד גדול בערכו מה-p-value. החישוב של FPR הוא בייסיאני במהותו ומתבסס על ההסתברות האפריורית לאפקט אמיתי. על פי חישוביו, אם ההסתברות האפריורית הנ"ל היא 10%, וה-p-value קרוב ל-0.05, אז ה-FPR הוא 76%. עם זאת, הוא מודה שאין דרך לדעת מה היא ההסתברות האפריורית לאפקט אמיתי. פתרון אפשרי: להניח כי ההסתברות האפריורית היא 0.5 ולחשב את ה-FPR המינימלי עבור ה-p-value הנצפה.

אני בהחלט בעד הרעיון לפרסם את ה-FPR, אולם הבעיה היא שאין שום דרך נכונה לחשב אותו. יש כמה בעיות בהצעה של קולקיוהון. ראשית, הוא שוכח שה-p-value פותח כקריטריון לקביעת מובהקות (יותר קל לבדוק אם הוא קטן או גדול מ-5%, מאשר ללכת לחפש בטבלת התפלגות t את הערך הקריטי). אמנם יש אינטרפרטציה לערכו המספרי של ה-p-value, אך אין להסיק ממנו כי המובהקות היא מושג רציף, כפי שלמעשה עולה מדבריו. לאמירה כי ה-FPR גדול תמיד בערכו מה-p-value אין משמעות, זו השוואת תפוחים לתפוזים. אמירה בעלת משמעות תהיה אם קולקיוהון יוכל להשוות בין ה-False Positive Risk ובין ה-False Positive Rate. ההצעה להניח כי ההסתברות האפריורית לאפקט אמיתי היא 50% תמוהה בעיני. זהו פתרון של "חצי קפה חצי תה", ולדעתי ההנחה לא מציאותית. אני סבור כי חוקרים לא ישקיעו את משאביהם במחקר אם הם לא סבורים בביטחון גבוה כי המחקר יוביל לתוצאה משמעותית, זאת מכיוון שכל הצעת מחקר[3] , (רשמית או לא)  לוקחת בחשבון את הידע הקודם שנצבר אודות נושא המחקר, ואת התיאוריה המצדיקה את קיום המחקר הבא. לכן, ההסתברות האפריורית לאפקט אמיתי גבוהה בהרבה מ-50%, ולדעתי היא בדרך כלל לפחות 80%, אם לא יותר.

למישל ב. נויטן מאוניברסיטת טילבורג בהולנד יש הצעה פשוטה: לפרסם את התכניות לניתוח סטטיסטי (analysis plans). גם שאלות מחקריות פשוטות לכאורה (כגון האם תרופה א עדיפה על תרופה ב) יכולות להוביל לשפע אפשרויות של ניתוחים סטטיסטיים. בתוך השפע הזה, אומרת נויטן, סביר להניח שיש שיטת ניתוח שתוביל לתוצאה מובהקת[4] תכנון מראש ופתיחות, אומרת נויטן, יוכלו לעזור לחוקרים להמנע מתוצאות חיוביות שגויות. נויטן מציע כי החוקרים יכינו מראש תכניות ניתוח סטטיסטי, ואף יפרסמו אותן. השלב הבא יהיה פירסום של כל הנתונים שנאספו, של התוצאות, ואף תכניות מחשב (למשל קוד R). כך כל אחד יוכל לשפוט בעצמו את איכות הניתוח הסטטיסטי, ואת התוצאות שהתקבלו.

בעולם מושלם זו הצעה נהדרת, לדעתי. אני מסכים לחלוטין עם הקביעה שיש לתכנן מראש את שיטות הניתוח הסטטיסטי, וגם עם ההצעה לפרסם גם את הנתונים המחקריים לא רק את התוצאות. למעשה, השיטה הזו היא הסטנדרט בתעשייה הפרמצבטית. כאשר נערך ניסוי קליני, השיטות הסטטיסטיות לפיהן ינותחו הנתונים שבניסוי מצויינות כבר בפרוטוקול הניסוי, ונקבעות לפני שהניסוי בכלל התחיל. במקרים רבים השיטות הסטטיסטיות מוגשות לעיון ולאישור של הרשות הרגולטורית (בדרך כלל ה-FDA). ובסיום הניסוי, כל הנתונים שנאספו מוגשים לרשות הרגולטורית, שם לרוב מנתחים אותם באופן עצמאי. עם זאת, אני יש לי ספק לגבי רמת ההיענות להצעות של נויטן בקרב ציבור החוקרים.

סטיבן נ. גודמן מאוניברסיטת סטנפורד אומר כי יש "לשנות מבפנים". הבעיה היא לא בסטטיסטיקה, אומר גודמן, אלא באופן היישום שלה במחקר המדעי[5] . הציפיות ממרצים לסטטיסטיקה הן כי הם ילמדו את הגישות הסטנדרטיות המקובלות על כתבי עת ועל עמיתים, ואיש לא מתעניין בבעיות האמיתיות, כמו למשל בהבדלים שבין מובהקות למשמעות. רוב החוקרים מעוניינים רק בידע המינימלי שיאפשר להם להפעיל את התוכנות הסטטיסטיות, כך שיוכלו לפרסם מאמרים במהירות.

גודמן מביא לדוגמא מחקר על חיזוי נטיה להתאבדות שפורסם בחודש האחרון. גודל המדגם היה 17 איש בכל קבוצה. ההצדקה למספר הזה? כותבי המאמר הסבירו כי במאמר אחר, שעסק באנשים על הקשת האוטיסטית, השתמשו באותו גודל מדגם. התרבות המחקרית גוברת על הכללים. ובכל ענף או תת-ענף מדעי יש תרבות אחרת.

מכיוון שכך, אין פתרונות קסם. מי שצריכים להיענות לאתגרים האלה הם קרנות המחקר, כתבי העת, ובעיקר מובילי הדיעה בכל ענף מדעי. ברגע שיתחיל תהליך כזה הוא יחזק את עצמו. מדענים ישתמשו בשיטות סטטיסטיות שבהן משתמשים במאמרים אחרים שכבר התפרסמו. שופטי המאמרים (peer reviewers) ידרשו מהכותבים מה ששופטים אחרים דרשו מהם.

אנחנו בשלים לרפורמה, אומר גודמן. משבר השחזוריות ממחיש לנו את העלות שנובעת מחוסר תשומת לב לתכנון ולניתוחים סטטיסטיים נאותים. חוקרים צעירים משוועים לשינוי. על מובילי הדיעה להיענות להם. לסטטיסטיקאים יש תפקיד חשוב בתהליך, אך הוא משני. השינוי צריך לבוא מבפנים – מתוך הקהילות המדעיות.

ואני מסכים עם כל מילה של גודמן.


הערות
  1. למעשה שישה []
  2. כן, יש הרבה מחקרים כאלה []
  3. כמעט []
  4. למעשה נויטן אומרת במילים יפות כי "אם תענה את הנתונים מספיק זמן הם יודו לבסוף" []
  5. לא מפתיע, נכון? []

סטטיסטיקה רעה, דוגמא מספר 34287

רק לפני כשבועיים כתבתי כאן שיש להקפיד על כך שהתוצאות של ניתוחים סטטיסטיים צריכות להיות לא רק מובהקות, אלא גם משמעותיות. הדוגמאות שנתתי שם היו מלאכותיות. למרבה הצער, יש גם דוגמאות אמיתיות לכך, והרבה. מייד אציג דוגמא כזו.

לפני כשבוע קראתי מאמר שכותרתו Methods to increase reproducibility in differential gene expression via meta-analysis  שהתפרסם בכתב העת Nucleic Acids Research בראשית 2017. לדעתי זה מאמר מאוד בעייתי מבחינת השימוש בשיטות סטטיסטיות והאינטרפרטציה של התוצאות שהתקבלו. יותר מכך, לדעתי אין במאמר ערך מוסף מדעי וראוי היה שלא יתפרסם כלל. אבל אני בוחר להתרכז רק בפרט אחד מתוך המאמר, למרות שיש בו די חומר לכמה רשימות.

בגדול, המאמר מנסה להשוות בין שיטות שונות לביצוע מטה-אנליזה, וכמו כן הכותבים מנסים לזהות גורמים המשפיעים על איכות המטה אנליזה. כדי להבין את מה שאכתוב כאן, מספיק לדעת שמטה-אנליזה היא דרך סטטיסטית  לצרף כמה מחקרים ביחד, כדי להגיע למסקנה כללית המאגדת בתוכה את המסקנות של המחקרים שנכללים באנליזה.[1]

בשלב מסויים הכותבים התייחסו לקבוצה של 14 מחקרים, וניסו ללמוד איך מספר המחקרים הנכללים במטה-אנליזה (שמסומן באות K) וגודל המדגם הכולל (סך מספר התצפיות בכל המחקרים הנכללים) המסומן באות N, משפיעים על רמת הדיוק (accuracy) של המטה-אנליזה.

לשם כך הם ביצעו את התרגיל הבא: הם בחרו תת קבוצה של 14 מחקרים (נניח מחקרים מספר 1, 2, 5, 7 ו-13) על פי קריטריונים שקבעו מראש, ביצעו מטה-אנליזה שתאגד את התוצאות של חמשת המחקרים, חישבו את רמת הדיוק, ורשמו את מספר המדגמים K, את גודל המדגם הכללי N, ואת רמת הדיוק שהתקבלה. אח"כ בחרו תת קבוצה אחרת של המחקרים (נניח מחקרים מספר 3, 6, 8, 9, 11, ו-14), ביצעו עוד מטה-אנליזה שאיגדה את התוצאות של ששת המחקרים האלה, ורשמו שוב את K, N, ואת רמת הדיוק. הם חזרו על התרגיל הזה בערך 7000 פעמים, על כל התת קבוצות האפשריות[2] .

כעת, כשהיו ידיהם נתונים על K, N, ורמת הדיוק של כל אחת מ-7000 המטה-אנליזות שביצעו, הם הריצו מודל רגרסיה שבו K ו-N הם המשתנים המסבירים, ורמת הדיוק היא המשתנה המוסבר.

הם ביצעו את כל הפרוצדורה ל-3 קבוצות של מחקרים שעסקו בשלוש מחלות שונות.

תוצאות הרגרסיה סוכמו בטבלה נאה. אני מביא כאן רק חלק מהטבלה, המתייחס למחקרים שעסקו בסרטן הריאה[3] :

בעיה ראשונה: רמת הדיוק היא מספר בין 0 ל-1, ולכן אחת ההנחות הבסיסיות של מודל הרגרסיה אינה מתקיימת. זה לא אומר, אגב, שההנחות האחרות כן מתקיימות. הם לא טרחו לדווח האם בדקו את ההנחות, ואם בדקו, הם לא דיווחו לאיזה מסקנה הגיעו.

התוצאות שמוצגות בטבלה הזו, וגם בשתי הטבלאות הנוספות מאוד משמחות לכאורה. כל ה-p-values "מאוד" מובהקים: הם קטנים מ-0.0000000000000002!. הטבלה הוצגה במאמר, הכותבים ציינו כי כל הערכים מובהקים ועברו הלאה.

בואו ננסה להבין מה אומרות התוצאות.

נסתכל תחילה בערכו (Estimate) של החותך (או האיבר החופשי של המודל) – ה- Intercept. ערכו הוא 0.564. זה הערך שינבא המודל אם N שווה ל-0 וגם K שווה ל-0. אם N ו-K שווים שניהם ל-0, פירוש הדבר שכלל לא נערכה מטה-אנליזה. כלומר, לפי המודל, אפשר להגיע לרמת דיוק של 56.4% בלי נתונים כלל. אולי אני חוטא קצת באקסטרפולציה, אבל לפי המוסבר במאמר נכללו באנליזה גם N-ים ו-K-ים קטנים מאוד, כך שלחותך בהחלט יש משמעות.

נעבור כעת למקדם של K. ערכו 0.0449. המשמעות שלו: אם נגדיל את K ב-1, רמת הדיוק תגדל ב-4.5% בערך. זה נשמע סביר.

מה קורה עם המקדם של N? ערכו הוא -0.000222. שימו לב שהמקדם שלילי, כלומר, אם גודל המדגם יגדל, רמת הדיוק תקטן. לא יודע מה קורה אצלכם, אבל זה הרגע בו אמורים להישרף לכם הפיוזים. בסך הכל היו בחקרי סרטן הריאה כ-1300 תצפיות. לפי המודל, התצפיות האלה הורידו את רמת הדיוק שלה המטה-אנליזה ב-29%.

מה קרה כאן? זה מה שקורה כשמשתמשים בשיטה הסטטיסטית הלא נכונה בלי להקדיש לכך מחשבה ובלי לבדוק אם ההנחות שבבסיס השיטה מתקיימות. אחת ההנחות של מודל הרגרסיה הלינארית היא שלמשתנה המוסבר יש התפלגות נורמלית, לפחות בקירוב. זה בבירור לא מתקיים כאן – רמת הדיוק נעה בין 0 ל-1. הנחה נוספת שצריכה להתקיים היא שיש קשר לינארי בין המשתנה המוסבר והמשתנים המסבירים. שימו לב כי בתחתית הטבלה מופיע מקדם המתאם המשוקלל של הרגרסיה (Adjusted R-square). ערכו הוא 0.34, לכל הדעות ערך נמוך המבטא קשר לינארי מאוד רופף בין המשתנים. יש עוד שתי הנחות שצריכות להתקיים, אם כי בשלב הזה כבר לא משנה אם הן התקיימו או לא.

והמסקנה הרגילה: אין להשתמש בשיטות סטטיסטיות אם לא מבינים היטב את הרעיון העומד מאחוריהן.


הערות
  1. למעשה יש הרבה שיטות סטטיסטיות למטה-אנליזה. השיטה הספציפית בה השתמשו כותבי המאמר לא רלוונטית לדיון. []
  2. התרגיל הזה הוא הכללה של שיטה סטטיסטית הידועה בשם JackKnife []
  3. Lung adenocarcinoma   []

האם כל תוצאה מובהקת היא משמעותית (ולהיפך)?

בכל מחקר כמותי בו נערך ניתוח סטטיסטי של הנתונים, מגיע הרגע הנכסף בו מחושב ה-P-value הנכסף. האם הוא קטן מ-0.05? שואל החוקר את עצמו בהתרגשות. אם כן – הידד! אפשר לפרסם את המאמר, או לרוץ ל-FDA להגיש לאישור תרופה חדשה, או להכניס מוצר חדש ל-production.

אבל, לפני שרצים, יש שאלה נוספת שצריך לשאול: האם התוצאה משמעותית?

נניח שערכנו ניסוי בו השתתפו 1000 איש, מחציתם נשים ומחציתם גברים. ערכנו לכל אחד ואחת מנבדקים מבחן IQ. התברר כי ה-IQ הממוצע של הנשים הוא 100, בעוד שה-IQ הממוצע של הגברים הוא 99. התוצאה מובהקת, עם פי-ואליו של 0.0016. [1] . לפני שתרוצו לפרסם מאמר סנסציוני בכתב העת המדעי החביב עליכם[2] ראוי שתעצרו ותשאלו את עצמכם: אז מה? ההבדל הוא כל כך קטן, האם יש לו משמעות? אם אתם חושבים שלהבדל יש משמעות, עליכם לנמק זאת.

בואו ניקח דוגמה קצת יותר מציאותית. מדען בילה ימים ולילות במעבדה, ופיתח תרופה חדשה לטיפול בטרשת נפוצה  התקפית[3]. התרופה מקטינה את תדירות ההתקפים ב-10%. הוא רושם פטנט, ומנסה למכור את התרופה לחברת תרופות. הסטטיסטיקאי של חברת התרופות יכול בקלות לתכנן ניסוי קליני, שיזהה את האפקט של התרופה בעוצמה של 90%[4] או אפילו 95% או 99%. האם החברה תקנה את התרופה ותפתח אותה? לא ולא. יש כבר תרופות לטיפול בטרשת נפוצה התקפית שמקטינות את תדירות ההתקפים ב-30, 40, ואפילו ב-50%. במצב זה, לתרופה עם אפקט של 10% אין משמעות, לא קלינית ולא מסחרית.

דוגמה שלישית: למשפחה נולד בשעה טובה בן בכור. האם הסיכוי כי הילד השני במשפחה זו יהיה (אם וכאשר יוולד) גם הוא בן, גדל? הנה מאמר שטוען שייתכן שכן. עיקרי הדברים: בדנמרק נאספו נתונים לגבי סדר הלידה ויחס המינים של כ-1.4 מיליון ילדים, בכ-700 אלף משפחות, במשך תקופה של כ-35 שנה. 51.2% מהבכורים היו בנים. בקרב המשפחות שבהן היו 3 בנים, והיה הבן ילד רביעי, 52.4% מקרב הילדים הרביעיים היו בנים. ההבדל מובהק, כמובן (p=0.009). בואו נתעלם מ-cherry picking אפשרי[5]. כמה משפחות בנות 4 ילדים יש בדנמרק? מחיפוש ראשוני שערכתי עולה כי מדובר בפחות מ-10%מהמשפחות. בואו נניח שזה 10%. אז עכשיו אנחנו מדברים על 70 אלף משפחות בנות 4 ילדים. ההסתברות ששלושת הילדים הראשונים הם בנים היא בעךך 0.013. נעגל את זה ל-0.02. זה מותיר לנו 1400 משפחות בנות ארבעה ילדים שבהן שלושת הילדים הראשונים הם בנים. 51.2% מקרב הילדים הצעירים היו "צריכים" להיות בנים, בפועל היו 52.4% – הפרש של 1.2%.  1.2% מ-1400 זה , 16.8, בואו נעגל ל-17, וזאת בתקופת זמן של 35 שנה, כלומר כל שנה נולדו 0.48 יותר בנים ממה שהיה "צריך" להיות. מי חושב שזה משמעותי?

דוגמה רביעית: חברת אינטרנט עושה AB testing, בה היא בודקת את השפעתו של פיצ'ר חדש במוצר שלה על ההסתברות שלקוח המשתמש במוצר יקנה את גירסת ה-PRO, בתשלום. מסתבר כי אחוז המשלמים יגדל מ-24.6% ל-24.8%, והתוצאה מובהקת [6]. האם זה משמעותי?[7] ובכן, אם נניח שהתשלום לגירסת הפרו הוא 5$ ויש 100000 משתמשים, הרי שמדובר בתוספת הכנסות של 100$. שווה? אם לעומת זאת יש מיליון משתמשים והתשלום הוא 50$, מדובר בתוספת הכנסה של 10000 דולר. 30 מיליון משתמשים ותשלום של 500$ יביאו את תוספת ההכנסות ל-3 מיליון דולר, וזה בהחלט משמעותי. תגידו: אם כבר השקענו את הכסף בפיתוח, אז ניקח את מה שיצא. יש בזה משהו. אבל אני מקווה שעושים קודם כל הערכה של עלויות הפיתוח ושל ההכנסות הצפויות מהפיצ'ר החדש.[8]

נחזור לרגע לגודל המדגם הדרוש, כ-728 אלף נבדקים. אולי ענקית כמו גוגל יכולה להרשות לעצמה מדגם כזה. אני מניח שחברות קטנות יותר צריכות להסתפק בגודל מדגם קטן יותר. הן עומדות לכן בפני הברירה הבאה: אפשרות אחת היא לערוך מבחן סטטיסטי ואז רוב הסיכויים הם שאפקט כזה (ואפילו אפקט גדול יותר) לא יזוהה כמובהק. הן כמובן יכולות לשחק בסוגי הטעות, ולאפשר טעות מסוג ראשון (false positive) גבוהה יותר כדי להשיג עוצמה גבוהה יותר. אפשרות אחרת היא לוותר מראש על בדיקת המובהקות, ולסמוך ידיהם על האפקט הנומינלי. יש לכך תומכים, הבולט בהם הוא הסטטיסטיקאי אנדרו גלמן מאוניברסיטת קולומביה.[9]

מסקנות: לפני שרצים לחקור, צריך להעריך מראש איזה תוצאה תיחשב למשמעותית, ולחשוב מה דרוש לעשות כדי לבדוק האם התוצאה אכן מתקיימת. יש להעריך מראש מה ההסתברות לכל אחת משתי הטעויות האפשריות, שכן ההסתברויות האלה קיימות וחיוביות גם אם לא משתמשים במבחנים סטטיסטיים.


הערות
  1. בהסטיית התקן של כל קבוצה היא 5.  תבדקו בעצמכם  []
  2. למשל Nature או סיינטיפיק טמקא []
  3.  Relapsing Remitting Multiple Sclerosis  []
  4. כלומר ההסתברות לתוצאת False Negative  תהיה 10% []
  5. מה קרה במשפחות בנות שני ילדים? ומשפחות בנות 3 ילדים? למה זה לא מדווח? אם זה לא באבסטרקט של המאמר, כנראה שזה לא היה מובהק []
  6. כדי לזהות הבדל כזה כמובהק, יש צורך בגודל מדגם של כ-728000 נבדקים, אבל נעזוב את זה כרגע []
  7. נתקלתי בחברה שמעדכנת גירסת תכנה כאשר ביצועי הגירסה החדשה גבוהים נומינלית ב-0.2% מביצועי הגירסה הישנה, על סמך מדגם בגודל 1000, כמובן בלי בדיקת מובהקות []
  8. אפשר למשל לערוך סקר משתמשים, או לכנס focus group []
  9. אני מתכוון לסקור את הגישה של גלמן ואת הגישה הנגדית, שמוביל ג'ון יואנידיס ברשימה קרובה []

נפלאות המחקר – שיעור באחוזונים

הנה מחקר נפלא שתוצאותיו פורסמו ב-Scientific Ynet (ותודה לעריסטו מפורום מתמטיקה בתפוז), שקבע כי "למעלה משליש מהילדים בארץ – בעודף משקל":

נמצא כי בממוצע לאורך שבע שנות המחקר 29 אחוז מבני השש היו בעלי עודף משקל (משקלם היה גבוה מהאחוזון ה-85, כלומר גבוה מ-85 אחוז מבני גילם). מחציתם אף הוגדרו כסובלים מהשמנה (שקלו יותר מ-95 אחוז מבני גילם).

ואני לתומי חשבתי כי רק ל-15% מהאוכלוסיה משקך הגבוה מהאחוזון ה-85, ורק ל-5% משקל הגבוה מהאחוזון ה-95. נו, מה אני כבר יודע?

מחקר האוצר – תשובות לתגובות

 

לרשימתי  על מחקר האוצר התקבלו שתי תגובות. להלן תגובתי לתגובות אלה.
להזכירכם, טענתי כי מחקר האוצר, הטוען כי העלאת שכר המינימום תביא להגברת האבטלה הוא בעייתי, וזאת ממספר סיבות:
1) המדד העיקרי עליו מסתמך האוצר, היחס בין שכר המינימום לשכר הממוצע, משקף דווקא את התנודות בשכר הממוצע ולא את השינויים בשכר המינימום, המתעדכן רק אחת לשנה או שנתיים. עליה ביחס זה נובעת בדרך כלל מירידה בשכר הממוצע, ולא מעליה בשכר המינימום.
2) מחקר האוצר הוכיח כי קיימת קורלציה בין יחס שכר המינימום והשכר הממוצע לבין שיעור האבטלה, אך הקורלציה עצמה אינה מעידה על סיבתיות, וייתכן בהחלט כי השינוי ביחס השר נגרם על ידי השינוי בשיעור האבטלה, ולא להיפך כפי שהאוצר טוען.
3) עורכי המחקר בחרו להתמקד בתקופת זמן קצרה יחסית לתקופת הזמן בה נהוג שכר המינימום, למרות שהנתונים ברשותם.
4) לאורך כל המחקר מוצגים נתונים בצורה מסולפת ומעוותת, כדי לנסות ולהדגיש את דעתם של עורכי המחקר, ונוצר בי הרושם כי דעתם נקבעה מראש.

כתב ליאור: "ניראה שאתה עושה סאלטות באוויר כדי לספר לנו מדוע המסמך בעייתי"

ובכן, מה לעשות, והמסמך באמת בעייתי, ואני משוכנע כי לו הוגש מסמך זה לפרסום בכתב עת מדעי, היה המאמר נדחה על הסף על ידי העורכים, ולו רק בגלל המניפולציות שנעשו בהצגת הנתונים, והסקירה הבלתי מאוזנת של העבודות הקודמות שנערכו בנושא זה.

כמו כן כתב מרק ק. כי הצגת בעייתיות אין בה כדי להפריך את הטענה.

ובכן, חובת ההוכחה מוטלת על בעל הטענה. אני לא מתיימר להפריך את טענת האוצר. אני טוען כי טענת האוצר אינה תקפה מלכתחילה, כיוון שלא הוכחה כלל – הוכחה שגויה אינה נחשבת להוכחה.
בהחלט ייתכן כי טענת האוצר נכונה, והעלאת שכר המינימום תגרום לנזקים. אולם, ייתכן גם כי האוצר טועה. האוצר לא הוכיח את טענתו. נקודה. ולכן טענת האוצר נותרת בגדר השערה בלבד.

ממשיך מרק וכותב: "בהחלט יתכן שהמתאם הזה מקרי או שהמדגם לא מספיק גדול". כבר הסברתי את ההבדל בין מתאם לסיבתיות, ולא אחזור על כך שוב. ולגבי ה"מדגם", כפי שהסברתי, לא נעשה כאן מדגם. נלקחו נתונים חלקיים – הנתונים הנוחים לאוצר. שכר מינימום נהוג בישראל מראשית שנות ה-70 של המאה ה-20. האוצר בחר להתעלם מנתונים של 20 שנה, בהם לא עלתה האבטלה למרות הנהגת שכר המינימום ועלייה בגובהו של שכר זה. מרק תומך בטענת האוצר כיוון שזהו "הטיעון הרציונלי היחיד בשטח". אבל הטיעון של האוצר אינו רציונלי, מה לעשות.
 

 

פורסם לראשונה באתר "רשימות" בתאריך 2 בדצמבר 2004 שם התקבלו 7 תגובות

רוני ה.  [אתר]  בתאריך 12/2/2004 7:16:13 PM

אני לא חושב שצריך לבוא בטענות אל האוצר

מחלקת המחקר באוצר היא זעירה, והיא חוקרת מה שהשר הממונה מבקש לחקור. הבעיה בישראל היא שאין מכון מחקר אובייקטיבי שיזום מחקרים כלכליים. חוץ מהאוניברסיטאות, המחקר הכלכלי בארץ מרוכז רובו ככולו בבנק ישראל, וזאת שגיאה כי נושאי המחקר שלהם מוגבלים (בעיקר למדיניות מוניטרית) וגם הם לא תמיד אובייקטיבים.

ליאור  בתאריך 12/3/2004 2:00:31 AM

ללא נושא

יוסי, כתבתי שזאת זכותך להצביע על כשלים במחקר, כמו כן הסכמתי איתך לגבי אחד מהם. עדיין אשמח לשמוע מה האלטרנטיבות שאתה מציע לגישת האוצר.

ד"ר בר ביצוע  בתאריך 12/3/2004 10:20:50 AM

ללא נושא

הבעיה היחידה עם כל זה היא שחובת ההוכחה צריכה להיות מוטלת על אלו התומכים בהחלת והגדלת שכר המינימום ולא על אלו המתנגדים לו.
כזכור, שכר המינימום הוא סוג של התערבות ממשלתית שנועדה להשיג תוצאות מסויימות. גישה רציונלית לדבר מחייבת את *המצדדים* בחוק לבסס את טענותיהם:
א. מהן התוצאות אותן אמור להשיג החוק
ב. כיצד יאפשר החוק את השגתם
ג. האם ישנן תופעות לוואי, ואם כן, האם השפעתן איננה חמורה יותר מאותן תוצאות חיוביות שביקשנו להשיג

דומני שגם מצדדי החוק הנלהבים ביותר מבינים שיש תופעות לוואי והדבר ניכר בעצם ההצעה שהרי איש איננו מציע להעלות את שכר המינימום לאלפיים דולר, או חמישים אלף. (ומדוע לא בעצם?).
בתחום התוצאות החיוביות מעניין לציין את הנתון שמובא במחקר על אחוז הנמוך של עניים בקרב מקבלי שכר המינימום (פחות מחמישית). בניגוד למצגת השווא של ההסתדרות, שכר המינימום איננו בעיה של עניים משום שרוב העניים אינם עובדים.

מרק ק.  בתאריך 12/3/2004 12:18:45 PM

ללא נושא

1. מצטער, אבל הכרתי את הפילוסופיה המדעי ת מלמדת אותי שיש בהחלט תחומים שבהם מסתפקים בהוכחות אמפיריות גם בלי לקבל תשובה לש אלה למה. לדוגמא חוקי ניוטון. היום אנחנו יודעים שהחוקים הקשורים במהירות וגרביטציה היו מוטעים, אבל במשך יותר ממאה שנים השימוש בחוקים האלו היה מספיק טוב למרות שלא הוכחו (או שההוכחות היו מוטעות). ההוכחה האמפירית לקשר בין שכר המינימום לאבטלה היא ה"חוק" היחידי שעומד בפנינו היום (מאחר שההסתדרות לא טורחת להציג מחקרים סותרים) והטענה שצריך להראות הוכחה תיאורטית לנכונות התוצאות לטעמי היא מוזרה, שקולה לסירוב של פיזיקאי להכיר בכך שמשקל הפרוטון הוא פי ~1800 ממשקל האלקטרון עד שלא יסבירו לו למה.

2. המחקר מציג בנספח (עמודים 21 והילך) שיש מתאם בין העלאתו היחסית של שכר המינימום לבין גידול באבטלה ברבעון שלאחריו, כלומר לםי המחקר יש סיבתיות. אני לא סטטיסטיקאי לכן אין לי מושג אם החישובים תקפים אבל כמו שהעיר עוזי ו. בתגובה לפוסט הקודם בכל מקרה חסרים למשוואה הרבה נתונים על גורמים אחרים שיכולים להשפיע על מצב האבטלה. האם זה הופך את המחקר ללא תקף? יתכן אבל מישהוא צריך לנמק למה ועד עכשיו לא שמעתי על אחד כזה. (כלומר יתכן באופן תיאורטי שהגורמים שעוזי מצביע עליהם אין להם שום השפעה)

3. כמו שכותב דר בר ביצוע, על ההסתדרות להציג את המחקרים שלה שמצדיקים את ההעלאה ומראים שבעיקבותיה המשק יצמח. כל הדיון פה מסתמך על נכונות טענות ההסתדרות, אבל איפה ההוכחה? (ונא להכניס את כל הגורמים שהזכיר עוזי לתוך ההוכחה). מה הטעם לתזז את כל המשק פעם בשנה למשך 4 שנים אם בכלל אין תועלת במהלך?

4. השאלה הבסיסית והדבר הבסיסי ביותר שמפריע לי במסע הפרסום של ההסתדרות הוא המטרה. מה המטרה של הגדלת הצמיחה? האם היא הקטנת האבטלה, או הקטנת העוני, או הקטנת רמת האי שיוויון במשק או ….. . להבנתי יתכן בהחלט שאותו גידול בצריכה שיבוא יגרום להגדלת הכנסותיהם של העשירים המופלגים בעלי החברות ולא ישנה במאום את מצבם של הילדים העניים (וכמעט בטוח שירע מאחר שכמו שכתבתי בפוסט הקודם העלאת מיסים או אינפלציה יהיו תוצאות די ברורות של הגדלת שכר המינימום בגלל ריבוי עובדי שכר המינימום במגזר הציכורי) האם גם אז תתמוך בהגדלת שכר המינימום?

5. בהמשך לארבע. יתכן שהמחקר אכן שגוי וההסתדרות צודקת בטענתה. אבל יתכן שיש כלים יותר יעילים להגיע לאותה מטרה, כמו הורדות מיסים (או הגדלת נקודות זיכוי) או מימון ציבורי לפרויקטי תשתיות עתירי עבודה כמו סלילת מסילות רכבת. אבל כשאין מטרה, פרט להיבחרותו של פרץ לראשות העבודה, אין דרך להציע אלטרנטיבות רלבנטיות.

אבי  [אתר]  בתאריך 12/3/2004 3:06:32 PM

ללא נושא

לגישות כלכליות אחרות ולהוכחות שהעלאת שכר לא גורמת לאינפלציה באתר
http://bnarchives.yorku.ca/archive/00000059

רוני ה.  [אתר]  בתאריך 12/3/2004 3:28:09 PM

תגובה קצרה לעצם הענין

אני לא חושב שיכולה להיות מחלוקת ששכר מינימום מגדיל את האבטלה ומצמצם את התעסוקה. כל מי שלמד מקרו א' יכול לצייר את הגרף של ביקוש והיצע לעבודה ומה עושה קביעת שכר מינימום. לדעתי אין שום דרך בעולם לטעון ששכר מינימום מגביר את התעסוקה.

בנוסף לזה, שכר מינימום מעוות את תמונת התעסוקה במשק, מפני שכשיש שכר מינימום, אנשים לא בוחרים נכון את העיסוק שלהם. כאשר יש מצב שבו הרבה מקומות עבודה מציעים את שכר המינימום, אנשים יבחרו בעבודה על פי שיקולי נוחות, כלומר בעבודות הקלות פיסית והקרובות לבית ולא באלו שהמשק צריך.

אני חושב שהטענות בזכות שכר מינימום הן שתיים. האחת – ברוב ארצות העולם יש שכר מינימום וברמות מסויימות אפשר לחיות עם זה. השניה – השגת קיום מינימלי בכבוד. אבל מעבר לזה, אני חושב שהטענות על הגדלת הצמיחה הן דמגוגיה.

יוסי לוי  בתאריך 12/6/2004 10:44:09 AM

המשך הדיון ברשימה חדשה

תגובותי לתגובות אלה – בלינק הבא:
http://www.notes.co.il/joseph/8793.asp