חיפוש באתר

קישורים

עמודים

קטגוריות

מה יקרה אם יורידו את אחוז החסימה?

מהו אחוז החסימה?

בבחירות לכנסת נהוג "אחוז חסימה". רשימה ששיעור הקולות שהיא קיבלה מתוך סך הקולות הכשרים נמוך מאחוז החסימה לא משתתפת בחלוקת המנדטים בכנסת.

לאחוז החסימה יש היסטוריה ארוכה. בבחירות לאסיפה המכוננת שהייתה לכנסת הראשונה אחוז החסימה לא נקבע במפורש, אם כי אחוז החסימה בפועל היה 1/121 כלומר כ-0.83%. החל מהכנסת השנייה ועד הכנסת ה-12 היה נהוג אחוז חסימה של 1%, למרות שבמשך השנים נעשו ניסיונות שלא צלחו להגדילן. בסופו של דבר הועלה אחוז החסימה במשך השנים ל-1.5%, לאחר מכן ל-2%, ולבסוף ל-3.25%.

למה רוצים לשנות את אחוז החסימה?

לפני כשבוע הודיע ראש הממשלה נתניהו כי  הוא יוזם הורדה של אחוז החסימה בחצי אחוז, במטרה לעזור למפלגות הבינוניות והיותר קטנות להיכנס לכנסת. יש הטוענים כי היוזמה באה בעקבות סקרים שבהן שתי מפלגות המשתתפות כעת בקואליציה (ש"ס וישראל ביתנו) עלולות לא לעבור את אחוז החסימה בבחירות הבאות.

בנוסף, יש הטוענים כי אילו אחוז החסימה בבחירות לכנסת ה-20 שנערכו ב-2015 היה 2%, אזי מפלגת הימין של אלי ישי, שקיבלה 2.97% מהקולות, הייתה נכנסת לכנסת עם 3 מנדטים, דבר שהיה מחזק את גוש הימין. כך, גוש הימין שמונה היום 67 מנדטים (כולל המנדט של אורלי לוי שפרשה מסיעת ישראל ביתנו, אך אני עדיין סופר אותה כימין), היה עשוי למנות 70 מנדטים, אילו התווספו לו 3 המנדטים האבודים של אלי ישי.

האם הורדת אחוז החסימה תחזיר לימין את שלושת המנדטים האבודים?

הקוראים הוותיקים של הבלוג הזה יודעים שהטענה הזו לא מדוייקת. כפי שההצבעה האסטרטגית או היעדרה בבחירות של שנת 2009 לא גרמו לגוש המרכז שמאל לאבד 3 מנדטים עקב 88000 קולות שניתנו למפלגות "מרכז שמאל" שלא עברו את אחוז החסימה, כך 125158 הקולות האבודים שקיבלה מפלגתו של אלי ישי לא גרמו לגוש הימין לאבד 3 מנדטים.

ההסבר הוא פשוט: לו מפלגתו של אלי ישי הייתה עוברת את אחוז החסימה, היו נדרשים יותר קולות עבור כל מנדט. בבחירות האחרונות, המפלגות שעברו את אחוז החסימה צברו בסך הכל 4021367 קולות. חלקו מספר זה ל-120, ותקבלו כי יש צורך ב-33511 קולות כדי לקבל מנדט אחד. הליכוד קיבל 985408 קולות, ואם נחלק מספר זה ב-33511 נקבל 29 מנדטים.[1]

אם מפלגתו של אלי ישי הייתה עוברת את אחוז החסימה, סך הקולות היה 4146525 קולות, ולכן עבור כל מנדט יש צורך ב-34554 קולות, ואז 985408 הקולות של הליכוד היו מספיקים ל-28 מנדטים בלבד.

מה באמת היה קורה אם אחוז החסימה היה יותר נמוך?

אפשר כמובן לערוך את חישובי המנדטים עבור כל המפלגות, ועבור מגוון של אחוזי חסימה אפשריים: 3.25%, 2%, 1%, וגם האחוז החדש המוצע על ידי ראש הממשלה – 2.75%. מעניין גם לראות מה היה קורה אילו לא היה קיים אחוז חסימה, כלומר אחוז החסימה היה 0%. זה לא אומר שכל רשימה שהתמודדה בבחירות הייתה זוכה לייצוג בכנסת. כדי לקבל מנדט צריך 30 ומשהו אלפי קולות, כך שמפלגת ברית עולם שקיבלה בבחירות האחרונות 761 קולות לא הייתה מקבלת ייצוג בכנסת גם אילולא היה קיים אחוז חסימה.

לשמחתכם, שלפתי את תוצאות הבחירות (קישור לקובץ הנתונים) ערכתי את החישובים, כולל התחשבות בהסכמי העודפים ובפרטי חוק בדר-עופר (קישור לתכנית R). הנה התוצאות:

מנדטים על פי אחוזי חסימה שונים
מפלגה קולות אחוז מהקולות 3.25% 2.75% 2% 1% 0%
ליכוד 985408 23.4 30 29 29 29 29
מחנ"ץ 786313 18. 3 24 23 23 23 23
הרשימה המשותפת 446583 10.6 13 13 13 13 13
יש עתיד 371602 8.8 11 11 11 10 10
כולנו 315360 7.5 10 9 9 9 9
הבית היהודי 283910 6.7 8 8 8 8 8
ש"ס 241613 5.7 7 7 7 7 7
ישראל ביתנו 214906 5.1 6 6 6 6 6
יהדות התורה 210143 5.0 6 6 6 6 6
מרץ 165529 3.9 5 5 5 5 5
אלי ישי 125158 3.0 0 3 3 3 3
עלה ירוק 47180 1.1 0 0 0 1 1
גוש הימין 67 68 68 68 68

איזה מסקנות אפשר להסיק כאן?

המסקנה הלא מפתיעה היא שאחוז חסימה נמוך מיטיב עם המפלגות הקטנות, וזה בא כמובן על חשבון הגדולות. לו אלי ישי היה נכנס לכנסת עם שלושה מנדטים, הם היו נלקחים מהליכוד, מהמחנ"ץ, וממפלגת כולנו. אורן חזן לא היה נכנס לכנסת[2], וגם לא אייל בן ראובן ומירב בן ארי. גוש הימין אכן היה מתחזק, אבל לא בשלושה מנדטים אלא במנדט אחד בלבד. אילו אחוז החסימה היה נמוך דיו כדי לאפשר לעלה ירוק להיכנס לכנסת עם מנדט אחד, המנדט שלהם היה נלקח מיש עתיד. מיקי לוי היה נשאר בחוץ.

המסקנה השנייה, המעניינת לא פחות, היא שההשפעה של אחוז החסימה על הרכב הכנסת, ועל אותה ה-"משילות" שיש כאלה הנכספים אליה כל כך, היא שולית. ההבדל בין אחוז חסימה של 3.25% לאחוז חסימה נמוך יותר הוא שינוי של מנדט אחד לטובת גוש הימין, אבל בתמורה יש עוד מפלגה שצריך לנהל איתה משא ומתן קואליציוני

מה יקרה אם אחוז החסימה דווקא יועלה?

מה המניעים הפוליטיים של נתניהו לפעול להורדת אחוז החסימה? אין לדעת בוודאות. מבחינה רציונלית, כראש המפלגה הגדולה ביותר, הוא צריך לפעול דווקא להעלאת אחוז החסימה. מה היה קורה אילו אחוז החסימה היה 5% ולא 3.25%? כאן צריך לבדוק שני תרחישים.

התרחיש הלא סביר הוא לבדוק איך המנדטים היו מתחלקים על סמך התוצאות שהיו ואחוז החסימה המוגדל. בתרחיש כזה יהדות התורה ומרץ לא היו נכנסות לכנסת, בכנסת היו 8 מפלגות במקום 10, ולגוש הימין היו 67 מנדטים, בדיוק כמו שיש לו עכשיו.

התרחיש הסביר הוא תרחיש איחוד המפלגות. כשם ששלוש מבין המפלגות הערביות התאחדו והיו לרשימה המשותפת, כך היו נוצרים מן הסתם איחודים נוספים. לצורך התרגיל הנחתי את התרחיש הבא של רשימות משותפות הנוצרות על פי הסכמי העודפים שהיו בבחירות האחרונות לכנסת:[3]

  1. הליכוד + הבית היהודי
  2. המחנ"ץ + מרץ
  3. כולנו + ישראל ביתנו
  4. ש"ס + יהדות התורה

חישוב המנדטים מניב "הפתעה גדולה": בכנסת יהיו אמנם 6 מפלגות במקום 1, אבל לרשימות של כל המפלגות המרכיבות את הקואליציה הנוכחית, כלומר לגוש הימין, יהיו 67 מנדטים. שוב, בדיוק כמו עכשיו.

אם לעומת זאת, אלי ישי ומצביעיו היו מצטרפים בתרחיש הזה לרשימה המשותפת של ש"ס ויהדות התורה, השפעת הקולות האלה גדולה מעט יותר. במקרה כזה, גוש הימין ימנה 69 מנדטים.

משחקי אחוז החסימה לא יגרמו שינוי מהותי

מכל התרגילים האלה ניתן להסיק כי תרגילי אחוז החסימה לא ישנו באופן משמעותי את המפה הפוליטית. בהנחה שלא תהיה תזוזה משמעותית של הציבור ימינה או שמאלה[4] – מה שהיה הוא מה שיהיה.

דיעה אישית

אני חצוי בדעתי בעניין אחוז החסימה. שינוי אחוז החסימה הוא שינוי בחוק יסוד הכנסת, כלומר שינוי חוקתי. אני סבור ששינוי חוקתי לפי צרכים פוליטיים הוא פסול. מהנימוק הזה התנגדתי להעלאת אחוז החסימה מ-2% ל-3.25% לפני מספר שנים, ועכשיו אני מתנגד ליוזמה להוריד אותו לרמה יותר נמוכה של 2.75% כפי שמציע ראש הממשלה. ומי שחושב שהשינוי המוצע לא נובע ממניעים פוליטיים אלא ממניעים אחרים, יואיל נא להסביר לי מה מיוחד כל כך ב-2.75%.

מצד שני, אני חושב שמצב בו 125 אלף איש לא זוכים לייצוג בכנסת הוא בלתי נסבל, וגם לא מצב שבו 47 אלף איש לא זוכים לייצוג בכנסת. בישראל יש קרוב ל-6 מיליון בעלי זכות בחירה. נחלק מספר זה ל-120 ונקבל 50 אלף. בבחירות האחרונות הצביעו כ-4.2 מיליון איש. חלוקת מספר זה ב-120 תיתן 35 אלף. אני מתנגד בתוקף לעמדות מפלגתו של אלי ישי ומפלגת עלה ירוק, כמו שאני מתנגד לא פחות בתוקף לעמדות של עוד מפלגות[5] . אבל למפלגות האלה יש תומכים, וכל עוד הן אינן נפסלות לפי תיקון מספר 9 לחוק יסוד הכנסת, הן ראויות לייצוג[6].

ההצעה שלי היא לכן לבטל את אחוז החסימה, או לקבוע רף נמוך מאוד של אחוז אחד לכל היותר, ולשריין את הסעיף הזה בחוק היסוד. זה יאפשר ייצוג נכון יותר של ציבור הבוחרים.

אני דוחה מכל וכל את כל טענות ה-"משילות" למיניהן שבוודאי יעלו. אמנם באחוז חסימה בגובה 5% רק כ-6 רשימות יקבלו ייצוג בכנסת, אבל זה לא אומר שיהיו רק 6 מפלגות. מי ימנע מהרשימה המשותפת של ש"ס ויהדות התורה למשל מלהתפצל לשתי מפלגות מיד לאחר הבחירות? גם ללא פיצול, אפשר לראות כבר היום איך רשימות משותפות מתנהלות. למפלגת בל"ד, שהיא חלק מהרשימה המשותפת, יש סדר יום משלה, שלא תואם את סדרי היום של חד"ש ושל רע"ם-תע"ל[7]. אפשר לראות את זה גם במפלגת הבית היהודי, שהיא רשימה משותפת למפלגות המפד"ל[8] ותקומה, ובמידה פחותה גם במחנ"ץ, שהוא רשימה משותפת למפלגת העבודה ולתנועה של ציפי לבני. גם יהדות התורה היא תוצר של אינטרסים ומאבקי כוח בפוליטיקה החרדית, ולא מפלגה אורגנית. ראש הממשלה יצטרך להמשיך ולהתמודד עם כל אותן בעיות שיש לו היום. הוא בקושי מצליח להסתדר עם אורן חזן, ומפלגות גדולות יביאו לכנסת עוד אורן חזנים.[9]

נכון שלפעמים היתוך של כמה מפלגות מצליח בצורה כזו או אחרת. כך למשל היה תהליך מתמשך שעברו המפלגות הסוציאליסטיות של פעם, שהתמזגו לבסוף והיו למפלגת העבודה, וההיתוך של שלוש המפלגות שמהן הורכבה מרץ. לפעמים מפלגה אחת בולעת את השותפות שלה, כמו שהמפלגה הליברלית, המרכז החופשי והרשימה הממלכתית[10] נבלעו בתוך תנועת החירות תחת השם "ליכוד". יש עוד דוגמאות. הנקודה היא שתהליכים כאלה לוקחים זמן, והם נובעים כמעט תמיד מהסכמות פוליטיות, ולא מאילוצים מלאכותיים של אחוז חסימה.

 

 

 

 


הערות
  1. הליכוד קיבל מנדט נוסף בזכות עודפי הקולות על פי חוק בדר-עופר. []
  2. לפחות לא מייד []
  3. אפשר כמובן להציג תרחישים אחרים. האם אלי ישי היה מתעקש לרוץ ברשימה עצמאית? ואם לא, האם היה פשוט מוותר או שמצטרף לרשימה אחרת? אתם מוזמנים לבדוק בעצמכם. []
  4. הנחה סבירה מאוד לדעתי []
  5. רובן, למעשה, כמו כמעט כל אחד []
  6. שוב, אפשר להתווכח האם יש לפסול מפלגה או לא לפסול אותה על פי חוק יסוד הכנסת. שתי המפלגות האלה לא נפסלו מלהשתתף בבחירות האחרונות []
  7. שגם היא שידוך של שתי מפלגות []
  8. זוכרים אותה? []
  9. ואעיר שעם כל הסלידה שיש לי מהאיש, מהתנהגותו ובעיקר מדעותיו, אני מעריך את העובדה שהוא מציג לעיתים את עמדותיו העצמאיות, ולא אומר הן על כל מה שמוכתב מלמעלה. []
  10. זוכרים אותן? []

איך לגרום לילדים לאכול יותר ירקות

נתחיל מהסוף: אני לא יודע איך לגרום לילדים לאכול ירקות. לפחות עם הילדים שלי, ההצלחה היא מועטה. אבל לשני חוקרים מאוניברסיטת קולורדו היה רעיון: נגיש להם את הירקות בצלחות עם ציורים של ירקות. כדי לבדוק האם הרעיון עובד הם ערכו ניסוי שתוצאותיו פורסמו בכתב העת היוקרתי JAMA Pediatrics. מכיוון שהתוצאות פורסמו אתם יכולים לנחש כי התוצאה של הניסוי הייתה חיובית. אבל, האם הם באמת הוכיחו כי הרעיון שלהם עובד? לדעתי לא, וזו תוצאה ישירה של התכנון הלקוי של הניסוי.

תכנון הניסוי ותוצאותיו

נבחרו 18 כיתות גן ובית ספר (ילדים בגיל 3-8) באחד מפרוורי דנוור. בתחילה הוצעו לילדים פירות וירקות כאשר סופקו להם צלחות לבנות. בכל כיתה הונחו קערת פירות וקערת ירקות, וכל ילד לקח לעצמו פירות וירקות, ואכל מהם כרצונו. המשקלים של הירקות והפירות נרשמו לפני שהוגשו לילדים, ולאר שהילדים סיימו את ארוחתם החוקרים שקלו את הפירות והירקות שנותרו. ההפרש בין המשקלים (לפני הארוחה ואחריה) חולק במספר הילדים, וכך התקבלה הכמות הממוצעת של פירות וירקות שכל ילד אכל. נעשו גם חישובים לפירות לחוד ולירקות לחוד. החוקרים חזרו על המדידות האלה שלוש פעמים בכל כיתה.

לאחר זמן מה חזרו על המדידות באותו אופן, כאשר הפעם סופקו לילדים צלחות שעליהן ציורים של ירקות ופירות. התוצאה: חלה עליה ממוצעת של 13.82 גרם בצריכת הירקות, ותוצאה זו מובהקת סטטיסטית. באחוזים, כמו ביידיש, זה נשמע הרבה יותר טוב: זו עליה של כמעט 47%.

אז מה הבעיה? יש מספר בעיות.

בעיה ראשונה – דיוק יתר

אתחיל במה שהוא לכאורה לא בעיה, אבל מהווה אות אזהרה: דיוק יתר. כאשר מתפרסמות תוצאות מדוייקות במיוחד, צריך להתחיל לדאוג. בעברית יש בעיה עם הבעיה הזו: יש רק מילה אחת לתיאור דיוק. באנגלית יש שתיים: precision ו-accuracy. הבדל הוא מהותי. precision מתייחס לרמת הדיוק המדווחת של המדידות. accuracy מתייחס למרחק בין הערך הנמדד והערך האמיתי, הבלתי נצפה, ונמדד בדרך כלל על ידי סטיית תקן או רווח סמך.  התוצאות מדווחות ברמה של שתי ספרות אחרי הנקודה: הן מאוד  precise. אני לא אומר שזה לא חשוב, אבל מהניסיון שלי, כשמגזימים צריך לבדוק בצורה יותר יסודית מה קורה. דיוק של שתי ספרות אחרי הנקודה העשרונית כשמדובר בגרמים נראה לי מוגזם. אתם כמובן יכולים לחשוב אחרת, אבל זה אות האזהרה שגרם לי לקרוא את המאמר עד סופו ולחשוב על מה שתואר בו .

בעיה שניה – על מי הניסוי נערך?

הבעיה השנייה היא הרבה יותר מהותית: הבחירה של יחידת הניסוי, מה שמכונה ה-experimental unit או unit of observation. יחידות הניסוי כאן הן הכיתות. התצפיות נעשו ברמת הכיתה. החוקרים מדדו כמה ירקות ופירות נאכלו ברמת הכיתה, לא ברמת הילד. הם אמנם חישבו ממוצע לילד, אבל אני מניח שכולם יודעים שהממוצע לבדו הוא מדד בעייתי: הוא מתעלם מהשונות בין הילדים. לפני ההתערבות הניסויית, כל ילד אכל בממוצע כ-30 גרם ירקות בארוחה, אבל אני לא חושב שיהיה מי שיחלוק על האמירה כי כל ילד אכל כמות שונה של ירקות. מהי סטיית התקן? אנחנו לא יודעים, והחוקרים לא יודעים, וזה מהותי, כי השונות שבין הילדים משפיעה על המסקנה הסופית. מכיוון שהחוקרים התעלמו (ולא משנה מה הסיבה) מהשונות בין הילדים, הם הניחו למעשה כי השונות היא נמוכה מאוד, למעשה אפס. אם השונות הזו הייתה נלקחת בחשבון המסקנות של הניסוי היו אחרות: רווחי הסמך בוודאי היו שונים, ויותר רחבים מרווחי הסמך שחישבו החוקרים.

עוד סוג של שונות שלא נלקח בחשבון היא השונות בתוך ילדים. אסביר: גם אם צפינו בילד אחד וראינו כי בממוצע הוא אוכל 30 גרם ירקות בכל ארוחה, בארוחות שונות הוא אוכל כמות שונה של ירקות. ושוב נשאלת השאלה: מה סטיית התקן? גם לסטיית תקן זו יש השפעה על המסקנה הסופית של הניסוי. כמובן, לכל ילד יש סטיית תקן שונה, וגם את השונות הזאת צריך לקחת בחשבון.

סוג שלישי של שונות שלא נלקח בחשבון הוא השונות שבין ילדים בגילאים שונים: סביר להניח שילד בן 8 יגיב בצורה שונה לצלחת מצויירת מאשר ילד בן 3. בוודאי ילד בן 8 יאכל יותר ירקות מאשר ילד בן 3. החוקרים התעלמו גם מהשונות הזו.

אני סבור כי החוקרים לא נתנו דעתם על כל השונויות האלה. המילים variation, adjust או covariate לא מופיעות במאמר. מכיוון שהחוקרים התעלמו מהשונויות רווחי הסמך שלהם צרים מדי ולא משקפים את ההבדלים האמיתיים בין הילדים ובין סוגי הצלחות.

ולבסוף, למרות שהיחידה הניסויית הייתה הכיתה, התוצאות דווחו כאילו המדידות נעשו ברמת הילד. זו לדעתי עדות נוספת לכך שהחוקקים לא היו מודעים לשונויות שבין ובתוך הילדים. לדידם, כיתה וילד הם היינו הך.

בעיה שלישית – מה עם הביקורת?

בניסוי הזה אין קבוצת ביקורת. לכאורה אין בעיה: על פי תכנון הניסוי, כל כיתה מהווה את קבוצת הביקורת של עצמה. הרי הילדים קיבלו את הירקות גם בצלחות לבנות וגם בצלחות עם ציורי ירקות ופירות. אבל לדעתי זה לא מספיק.

יש המון סוגים של צלחות לילדים, עם ציורים של בוב הבנאי, דמויות דיסני, מפרץ ההרפתקאות, תומס הקטר, והרשימה עוד ארוכה. האם יכול להיות שהשינוי שנצפה הוא בגלל עצם הציורים עצמם ולא בגלל שמדובר בציורים של ירקות ופירות? אולי ילד שארוחתו מוגשת בצלחת עם ציורים של גיבור העל החביב עליו יאכל גם הוא יותר ירקות? זו שאלה שצריכה להישאל, והניסוי שנערך לא עונה על השאלה הזו. קבוצת ביקורת יכולה לענות על השאלות הלאה. לדעתי דרושות בניסוי כזה שתי קבוצות ביקורת. באחת מהן הילדים מקבלים בתחילה צלחות לבנות, ולאחר מכן צלחות של תומס הקטר, דיסני או גיבורי על, בהתאם לגילם. בקבוצת הביקורת השנייה יהיו ילדים שבתחילה יקבלו צלחות מצויירות "רגילות"[1] ולאחר מכן צלחות עם ציורים של ירקות ופירות.

בעיה רביעית – מה המשמעות של כל זה?

קודם כל, מתברר כי נצפה שינוי מובהק סטטיסטית לגבי צריכת הירקות, אך לא נצפה שינוי מובהק סטטיסטית לגבי הפירות. החוקרים התייחסו לכך במשפט קצר: הסבר אפשרי, הם אמרו, הוא ceiling effect. באופן פורמלי הם צודקים. ceiling effect הוא מונח סטטיסטי, וזה מה שקרה כאן. לשאלה החשובה באמת הם לא ענו: מדוע נגרם האפקט הזה?

והשאלה הכי חשובה: האם השינוי המובהק הוא גם משמעותי? מה המשמעות של הבדל של 14 גרם (סליחה, 13.82 גרם?) החוקרים לא התייחסו לשאלה הזו. אני אתן לכם קצת חומר למחשבה. הלכתי לסופרמרקט ושקלתי שם מלפפון אחד ועגבנייה אחת (כן, זה מדגם קטן, אני יודע). משקלו של המלפפון היה 126 גרם, ומשקל העגבנייה היה 124 גרם[2]. זאת אומרת, כל ילד אכל בממוצע עוד חצי ביס של עגבנייה או מלפפון. יכול להיות שזה אכן משמעותי מבחינה בריאותית ו/או תזונתית. החוקרים לא התייחסו לשאלה הזאת וגם לא העורכים של כתב העת.

סיכום

יכול להיות שצלחות עם ציורי ירקות ופירות גורמות לילדים לאכול יותר ירקות ופירות. זו אכן השערה מעניינת. המחקר שתואר כאן לא נותן תשובה לשאלה הזו. האופן שבו הוא תוכנן ובוצע כלל לא מאפשר לקבל אפילו תשובה חלקית לשאלה הזו, וזאת ככל הנראה בשל העדר חשיבה סטטיסטית בסיסית.


הערות
  1. שוב: דיסני, תומס הקטר וכדומה []
  2. למרבה הצער, למאזניים של שופרסל יש דיוק/precision מוגבל []

נסיכת המדעים בפייסבוק

ברצוני להזמין אתכם לעקוב אחרי הדף של נסיכת המדעים בפייסבוק.

לעיתים קרובות אני נתקל בידיעה או קישור מעניין שמשיקים באופן כלשהו לסטטיסטיקה, אבל לא מצדיקים כתיבת רשימה כאן. במקרים האלה אני מפרסם פוסט קצר בדף הפייסבוק של נסיכת המדעים. כמו כן יש קבוצה המקושרת לדף בשם "מדברים על סטטיסטיקה" בה אתם מוזמנים להעלות נושאים משלכם לדיון.

אם אתם בפייסבוק, חפשו שם את נסיכת המדעים.

 

גרפים בעייתיים במחקר פערים דיגיטליים

בתאריך 17.8.2018 הופיעה במוסף של העיתון כלכליסט כתבה על מחקר שעסק בפערים הדיגיטליים בישראל. בכתבה הוצגו מספר גרפים שהם עיבודים של גרפים שהופיעו בדו"ח המחקר המקורי (קישור לקובץ pdf). ברשימה זו אתייחס לגרפים בלבד ולא לממצאי המחקר עצמו. מטעמי נוחות אציג את הגרפים שפורסמו בכתבה עם הפניה לגרפים המקוריים בדו"ח המחקר.

הגרף הראשון מתאר את ההבדלים בצריכת התוכן בהתאם להבדל בהכנסה[1].

ציר ה-Y בגרף מציין את אינדקס ריכוזיות התוכן[2]. בציר X מופיעות כל מיני קטגוריות: זכויות חברתיות, הימורים, רשתות חברתיות, יוטיוב, שירותים, ספורט ועוד. אלה הן למעשה קטגוריות של משתנה המתאר סוגי תוכן. זהו משתנה בסולם מדידה קטגוריאלי/שמי. אין סדר בין הקטגוריות. למרות זאת, עורכי הגרף סידרו את הקטגוריות בסדר מסויים, וכך הגרף יותר אשליה של סדר. די ברור כי הסדר של הקטגוריות נקבע על פי ההפרשים בין האינדקסים לשתי קבוצות האוכלוסייה – מהגבוה ביותר לנמוך ביותר – ראו הסבר מפורט יותר בתגובות[3] . המטה של יוצרי הגרף הייתה להראות כי לבעלי שכר ממוצע ומטה יש ריכוזיות תוכן גבוהה יותר בקטגוריות מסויימות בעוד שלבעלי שכר גבוה יש ריכוזיות תוכן בקטגוריות אחרות. עד כאן זה בסדר, אבל מה המשמעות של זה? מה אנחנו יכולים ללמוד מהגרף? העורך של הכתבה נתן פרשנות אפשרית: "העשירים מחפשים דירה, העניים מחפשים זוגיות", אבל אני מקווה שברור לכולם שזו פרשנות פשטנית, שלא לומר דמגוגית. מה המשותף לכל הקטגוריות שבהן נמוך יותר כשמדובר בבעלי שכר גבוה? אני לא רואה שום דבר משותף בין יוטיוב וחיפוש עבודה. ברור לחלוטין שהסדר בין הקטגוריות נקבע על פי הפערים בין שתי שכבות ההכנסה. לראיה: בגרפים דומים אחרים בדו"ח הסדר בין הקטגוריות הוא ששונה, אבל התמונה נשארת דומה: קו אחד עולה מימין לשמאל, השני יורד.

מה המשמעות של קו עולה לאורך הקטגוריות? ככל שקטגוריית הגלישה היא יותר "משהו" כך האינדקס גבוה יותר. אבל מהו המשהו הזה? לא ברור.

בעיה שניה בגרף: ציר ה-X מציין קטגוריות בדידות, אבל הקווים הם רציפים. המשמעות בעייתית. לדוגמה: האינדקס עבור זכויות חברתיות לבעלי שכר גבוה הוא 0.25, ובקטגוריית ההיכרויות הוא בסביבות 0.4. הקו הרציף בים 0.25 ל-0.4 עובר דרך 0.33[4]. מה מציין האינדקס של 0.33? אם הקו רציף, אז האינדקס הזה צריך להתייחס לאיזשהו ערך בציר-X שנמצא בין הזכויות החברתיות וההיכרויות. אבל אין קטגוריה כזו.

הדרך העדיפה להצגת נתונים כאלה היא על ידי דיאגרמת עמודות. ניתן גם לקבץ קטגוריות דומות יחד ולהציג את האינדקס לכל אחת מהקבוצות בקטגוריה המאוחדת. כך, למשל, אפשר אולי לאחד קטגוריות כמו יוטיוב, בידור, תוכן למבוגרים והימורים לקטגוריית על של "פעילות פנאי". [5] , ואילו קטגוריות כמו פיננסים, נדל"ן וחיפשו עבודה יכולות להיות מאוחדות אולי לקטגוריית כלכלה. כך אפשר להציג גרף עמודות, שבו בציר ה-X יוצגו הקטגוריות המקובצות לפי סדר קבוע (למשל סדר אלפביתי), וערכי האינדקס עבור שתי קבוצות ההכנסה יוצגו זה לצד זה, לדוגמה:[6]

 

לגרף השני שהוצג בכתבה יש בעיה דומה[7] :

כאן אמנם הקטגוריות לא מוצגות כמשתנה רציף כמו בגרף הקודם, אך הסדר ביניהן עדיין נקבע על פי הפערים (המקרה זה בין גברים ונשים).[8] הפרשנות שנתן העורך לנתונים שוב פשטנית, אבל זו לא הנקודה. האם ניתן למצוא מכנה משותף בין הקטגוריות שבהן צריכת התוכן של נשים גבוהה יותר מזו של גברים, למשל בריאות ועסקים ותעשייה? אולי כן, אני לא רואה איך. בדו"ח לא ניתן הסבר.

שוב, הדרך הנכונה להציג את הנתונים היא על ידי גרף דומה לה שהראיתי למעלה, עמודות המוצגות זו לצד זו, ללא הנחת סדר בין הקטגוריות.

אני רוצה להודות לידידי גיל גרינגרוז שהפנה את תשומת ליבי לכתבה.

פניתי לפרופסור רפאלי וביקשתי את התייחסותו. אשמח לפרסם אותה כאשר תתקבל.


הערות
  1. הגרף המקורי הוא גרף מספר 10 בדו"ח, עמוד 59. יש בדו"ח עוד גרפים דומים []
  2. אין לי מושג מה זה אומר וכיצד האינדקס מחושב []
  3. למי שלא השתכנע מומלץ לעיין בגרפים הדומים שמופיעים בדו"ח המקורי []
  4. זה בערך הממוצע של 0.25 ו-0.4 []
  5. אל תיתפסו לדוגמה, זו רק דוגמה ואפשר לעשות את זה אחרת []
  6. אפשר כאמור להציג את כל הקטגוריות המקוריות, אך כך ייווצר גרף עמוס יותר ויותר קשה להבנה []
  7. הגרף המקורי הוא גרף מספר 4 בדו"ח, עמוד 46 []
  8. זה קורה גם בגרפים דומים אחרים בדו"ח []

ניתוח השפעה של אירוע על נתונים לאורך זמן – Interrupted Time Series

בפוסט קודם ניתחתי מה קרה לשיעורי תאונות הדרכים בישראל בתקופת כהונתו של ישראל כץ כשר התחבורה.

כדי לענות על שאלות גון אלה – מה קורה לתופעה כזו או אחרת לאורך זמן – מומלץ להשתמש בשיטות סטטיסטיות לניתוח סדרות עיתיות (Time Series). סדרה עיתית היא סדרה של נתונים שנאספים לאורך זמן: שבועות, חודשים ואפילו שנים. ניתן גם לבדוק  את השפעתו של שינוי מסויים שחל במהלך הזמן (המהווה הפרעה למגמת הסדרה), כמו שינוי קיצוני במזג האוויר, כניסת מתחרה חדש לשוק, או מינוי של שר, בעזרת טכניקה הנקראת "ניתוח סדרות עיתיות מופרעות", או באנגלית Interrupted Time Series או פשוט ITS.

ברשימה זו אסביר את הרעיונות המרכזיים של שיטת ה-ITS שבעזרתה ניתחתי את נתוני תאונות הדרכים בישראל.

דוגמה: החזרי הוצאות עבור רכישת תרופות אנטי פסיכוטיות למבוטחי מדיקייד במערב וירג'יניה

תכנית מדיקייד היא תכנית ביטוח ממשלתית לבעלי הכנסות נמוכות בארצות הברית, ובין היתר משתתפת בהוצאות לרכישת תרופות של המבוטחים. בתחילת שנות ה-2000, כאשר נכנסו לשוק תרופות אנטי פסיכוטיות מהדור השני, שהן גם יקרות יותר, חלה עלייה משמעותית בהחזרי התשלומים עבור התרופות האנטי פסיכוטיות, כיוון שכ-50% מהמרשמים היו לתרופות מהדור השני. רשויות המדינה אינן יכולות, כמובן, לאסור על הרופאים לרשום לחולים תרופות מסויימות. במדינת מערב וירג'יניה החליטו להתחכם ולהוסיף ביורוקרטיה. החל מאפריל 2003, רופא במדינה שרצה לרשום לחולה שמבוטח במדיקייד תרופת דור שני, היה צריך למלא טופס. הנה גרף המראה את אחוז המרשמים של תרופות דור שני מתוך סך המרשמים לתרופות אנטי פסיכוטיות לאורך זמן, כאשר הקו האנכי המקווקו מסמן את המועד בו הונהגה חובת מילוי הטופס:[1]

ברור לחלוטין שמשהו קרה, אבל הסטטיסטיקה יכולה לתת לנו מבט יותר מעמיק.

הרעיון הוא מאוד פשוט – נעביר שני קווי רגרסיה: קו אחד יותאם לנתונים שלפני השינוי, וקו אחר לנתונים לאחריו[2]. הנה הגרף עם קווי הרגרסיה:

כעת ניתן לראות כמה דברים. ראשית, אחרי ההתלהבות הראשונית נראית מגמה של ירידה, אמנם איטית מאוד, באחוז המרשמים לתרופות דור שני. כמובן שיש לבדוק האם ירידה זו היא מובהקת סטטיסטית (היא לא) ולקבוע האם היא משמעותית (כנראה שלא, אחרת לא היה צריך להפעיל את מדיניות הטופסולוגיה).

שנית, אנו רואים מין ירידת מדרגה קטנה בין הרבעון האחרון שלפני הנהגת המדיניות החדשה והרבעון הראשון לאחר הנהגתה. שוב, ניתן וצריך לבדוק האם זוהי ירידה מובהקת (היא כן) ומשמעותית (לא ברור).

שלישית, ברור לחלוטין שהנהגת המדיניות הביאה לירידה משמעותית ומובהקת באחוז המרשמים לתרופות דור שני.

הקו הירוק מראה את ה-counterfactual, תרחיש ה-"מה היה קורה אילו" לא הונהגה מדיניות מילוי הטפסים. את הצלחת המדיניות מודדים על ידי ההבדל (המוחלט או היחסי) בין מה שקרה בפועל ובין ה-counterfactual.

המודל הסטטיסטי

הדבר הראשון שיש לשים אליו לב הוא שבניגוד למודל רגרסיה רגיל, הנתונים כאן אינם בלתי תלויים אחד בשני. בנתונים של סדרות עיתיות יש בדרך כלל קשר סטטיסטי בין הנתון של נקודת זמן מסויימת והנתון של נקודת הזמן הבאה, ואולי אפילו לנתונים של נקודות זמן רחוקות יותר.התופעה הזאת נקראת אוטוקורלציה. לכן, לפני שמריצים מודלים של רגרסיה, צריך לחקור את הקשרים בין הנתונים לאורך זמן. ברשותכם לא אכנס לפרטים, אך אציין כי קשרים אלה נלקחים בחשבון בהמשך הניתוח.

כמון כן, ציינתי קודם שמעבירים שני קווי רגרסיה, אך אומדים אותם במודל אחד, בן ארבעה פרמטרים: הפרמטר הראשון הוא הגובה בו מתחילה סדרת הנתונים ("החותך"). הפרמטר השני הוא השיפוע, כלומר המגמה, של הנתונים לפני נקודת השינוי. הפרמטר השלישי הוא הקפיצה או הפער בין הנקודה אליה הגיעה הסדרה ממש לפני השינוי ובין הנקודה הראשונה אחרי השינוי. הפרמטר האחרון הוא הרבה פחות אינטואיטיבי: זהו ההפרש בין המגמה של הנתונים לפני השינוי והמגמה שלאחר השינוי. השרטוט הבא מנסה להבהיר את המשמעות של ארבעת הפרמטרים[3]

לאחר שאומדים את הפרמטרים של המודל אפשר לבדוק בעזרת שיטות סטנדרטיות האם השינויים הם מובהקים, וכן להעריך האם הם גם משמעותיים.


הערות
  1. מקור:  Law , Ross-Degnan and Soumerai SB, Effect of prior authorization of second-generation antipsychotic agents on pharmacy utilization and reimbursements, Psychiatr Serv. 2008 May;59(5):540-6.   []
  2. היישום קצת פחות פשוט, ומייד אפרט למי שמעוניין []
  3. השרטוט נלקח מהשקפים של הקורס Policy Analysis using Interrupted Time Series שזמין ברשת באתר edX []