קישורים

ניווט

נושאים

ארכיב עבור 'הממ… מעניין…'

boxplot – האהבה שהכזיבה

אהבה שנמשכת שנים רבות עד שלפתע מתגלה משהו שלא שמתם לב אליו קודם. מכירים? הנה סיפור אישי: הכרתי אותה כאשר הייתי בשנה ב באוניברסיטה, וזו הייתה אהבה ממבט ראשון: ה-boxplot, או כפי שהיא נקראת בעברית, דיאגרמת הקופסה. כל כך נאה, כל כך אלגנטית, כל כך אינטליגנטית.

הקופסה הירוקה מציגה את החציון ואת שני הרבעונים – התחתון והעליון: . ה-“שפמים” מראים את הנתון המינימלי והנתון המקסימלי, או, כמו בדוגמה הזו, את הגבול שמעליו תצפיות נחשבות לחריגות.

בדוגמה הספציפית הזו, המציגה את הגילאים של חלק מנוסעי הטיטניק, הגיל המינימלי הוא קצת יותר מאפס (תינוק בן 5 חודשים). הרבעון התחתון הוא בערך 20, החציון הוא בערך 28 והרבעון העליון הוא בערך 38. המשמעות היא כי רבע מהנוסעים הם בגילאי 0 עד עד 20, רבע בגילאי 20 עד 28, רבע בגילאי 28 עד 38, והשאר בגילאי 38 ומעלה. כמו כן ניתן לראות כי הגילאים של נוסעים שגילם גבוה מ-65 נחשבים כגילאים חריגים ביחס לגילאים שאר הנוסעים.

בפוסט שפירסם בבלוג הוויזואליזציה נייטינגייל, ניק דספרטס (Nick Desbarats) מסביר למה הוא הפסיק להשתמש ב-boxplot, והוא צודק.

ראשית, דספרטס מספר כי מניסיונו, רוב האנשים בסדנאות שהוא מעביר מתקשים להבין את ה-boxplot, בוודאי בהשוואה לסוגים אחרים של וויזואליזציה. גם כאשר אנשים מבינים את העקרונות של הדיאגרמה, הם עדיין נזקקים ל-“התעמלות קוגניטיבית”, כדבריו, כדי לפרש נכונה את האינפורמציה המוצגת, ונוטים לפרשנות לא נכונה, שוב בהשוואה לאלטרנטיבות ויזואליזציה אחרות. וכאן אני יכול להעיד גם על ניסיוני מהעבר המאוד לא רחוק: בבחינה בקורס המבוא לסטטיסטיקה שלימדתי לא מזמן, היו שתי שאלות על דיאגרמת קופסה שחשבתי כי הן “שאלות מתנה”. למרבה הצער, שיעור הטעויות בשאלות האלה היה גבוה בהשוואה לשאלות אחרות.

דספרטס מביא 3 נימוקים נגד השימוש ב-boxplot, ואסקור אותם כאן בקצרה. הנימוק הראשון הוא של-boxplot אין הגיון וויזואלי. לקופסה יש שטח/נפח בניגוד לשפמים, ולכן היא נתפשת כמייצגת יותר נתונים. אולם, כל חלק של ה-boxplot (שני חצאי קופסה ושני שפמים) מייצג בדיוק את אותה כמות נתונים – כל אחד מהם מייצג רבע מכלל הנתונים (פרט לחריגים). שנית, שני חלקי הקופסה נתפשים ויזואלית כחלק אחד, כלומר ההתרשמות היא כי הנתונים מתחלקים לשלוש קבוצות ולא לארבע. שלישית, אנשים נוטים לקשר אורך עם כמות, ושוב, ה-boxplot מתעלם מכך (בדוגמה שלי, השפם הימני ארוך יותר מאורך הקופסה, בעוד שהוא מייצג חצי מכמות הנותנים שמייצגת הקופסה).

הנימוק השני הוא כי ה-boxplot דורש מהקהל להבין מושגים אבסטרקטיים יחסית, חציון ורבעונים, כאשר לא נדרש צורך אמיתי בכך. בדרך כלל, אם לא מדובר בקהל של סטטיסטיקאים המיומנים בקריאת boxplots, יש צורך להסביר את מבנה ה-boxplot ואת המושגים שהיא מייצגת לפני שדנים במשמעות של הנתונים עצמם. ואין צורך בכך כי יש אלטרנטיבות טובות יותר להצגת נתונים בהם החציון ושאר האחוזונים נתפשים באופן אינטואיטיבי.

הנימוק השלישי, אולי החשוב ביותר, הוא הטענה כי לעיתים קרובות ה-boxplot מציג את ההתפלגות של הנתונים באופן לא נכון, ואף ייתכן כי הboxplots של שתי התפלגויות שונות לגמרי יהיו זהות. בפוסט יש מספר דוגמאות לכך.

אז זהו. אני כנראה אפסיק להשתמש ב-boxplot אלא אם אחשוב שזה ממש הכרחי. למי שמלמד מבוא לסטטיסטיקה, אני ממליץ להפסיק ללמד את ה- boxplot, אם אתם עושים זאת.

  • התוכן של הפוסט הזה הופיע לראשונה בניוזלטר של נסיכת המדעים. הרשמו ותקבלו עדכון חודשי על כל מה שקורה עכשיו בסטטיסטיקה: http://www.sci-princess.info/updates

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

סטטיסטיקה בבית המשפט – הקלטת מפגש הזום

אשה חפה מפשע הורשעה ברצח, רוצחת מורשעת זוכתה בערעור, אדם הורשע ברצח ללא ראיות הקושרות אותו ישירות למעשה – הכל בגלל טעויות בסטטיסטיקה.

נושא מפגש הזום האחרון של נסיכת המדעים היה “מעבר לספק סביר – סטטיסטיקה בבית המשפט”. ניתן לצפות בהקלטת המפגש בערוץ היוטיוב של נסיכת המדעים. השקפים של המצגת זמינים בעמוד המצגות.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

ממתינים לתוצאות הסופיות

אני מניח שכולכם יודעים מה קורה/קרה בבחירות בארה”ב בשנת 2020.  תהליך ספירת הקולות נמשך על פני מספר ימים, וכל מה שאפשר לעשות זה לעקוב אחרי התהליך: מי מוביל הספירה באיזו מדינה ובכמה. דוגמה אקראית מבוקר כתיבת שורות אלה: הכותרת של כלכליסט היא “הדרמה בארה”ב: כמעט שוויון בפנסילבניה ובג’ורג’יה, טראמפ מצמצם הפער באריזונה“.

יש נקודה חשובה שמשום מה מתעלמים ממנה: ההצבעה הסתיימה, ותוצאות הבחירות כבר נקבעו. רק שאנחנו עדיין לא יודעים מי ניצח כי לא סיימו לספור את כל הקולות. (( איזה קולות סופרים? זו שאלה אחרת שחורגת מתחומי העניין של הבלוג הזה)).

כל הדרמה הזו הזכירה לי בעיה ישנה  מסוף המאה ה-19, שנקראת פשוט “בעיית הבחירות” (The ballot problem). הניסוח מאוד פשוט. שני מועמדים מתחרים בבחירות. אם מוציאים את פתקי ההצבעה מהקלפי זה אחד זה באופן אקראי, מה הסיכוי כי המועמד שקיבל את רוב הקולות יוביל לאורך כל מהלך הספירה?

הקישור שהופיע בפיסקה הקודמת יוביל אתכם לעמוד בויקיפדיה שבו תוכלו לקרוא על ההיסטוריה של הבעיה הזו, ועל כל מיני דרכים שנמצאו כדי לפתור אותה. אפשר למשל לנסות לרשום/לספור את כל המהלכים האפשריים של ספירת הקולות, ואת כל המהלכים האפשריים שבהם המנצח מוביל לאורך כל הספירה. אפשר להשתמש באינדוקציה מתמטית. הפתרון המקורי השתמש בנוסחת נסיגה. אני רוצה להציג כאן פתרון אחר  שמבוסס על הפתרון של המתמטיקאי הצרפתי Désiré André.

סיפורנו מתחיל בעיירה ציורית במרכז אילינוי, שם מתגוררים כמה אלפי אנשים, ויש בה רק קלפי אחת. הם בוחרים באחד משני המתמודדים לנשיאות, בואו נקרא להם ג’ו ודונלד. כל קשר לפוליטיקה מקרי לחלוטין. בחרתי בשם ג’ו מכיוון שכאשר התגוררתי בארה”ב האמריקאים הכירו אותי בשם ג’ו, ובשם דונלד כי בין היתר יש לי אוסף מפואר של כ-150 ברווזים.

נניח שג’ו קיבל A קולות, ודונלד קיבל B קולות, ובאופן מסתורי אנחנו יודעים את הערכים המספריים של A ו-B לפני שהתחילה ספירת הקולות, ואנחנו גם יודעים כי A גדול מ-B, כלומר ג’ו ניצח. מה הסיכויים שג’ו יוביל לאורך כל תהליך ספירת הקולות?

יש מספר תרחישים אפשריים. נתחיל במקרה הכי קל: הפתק הראשון שהוצא מהקלפי הוא של דונלד. דונלד מוביל, ולכן ג’ו לא מוביל לאורך כל הספירה. הסיכוי לתרחיש הזה הוא B/(A+B).

עכשיו בואו נשים לב כי מכיוון שג’ו ניצח, אם דונלד מוביל בשלב מסויים, אז בנקודת זמן כלשהי לאחר מכן ייווצר שיוויון קולות, כי ג’ו קיבל יותר קולות. הנה דוגמה לתרחיש אפשרי שבו זה קורה:

מספר הקולות
שנספרו
למי ניתן הקולהיתרון של ג’ו
1דונלד1-
2דונלד2-
3דונלד3-
4ג’ו2-
5דונלד3-
6דונלד4-
7ג’ו3-
8ג’ו2-
9ג’ו1-
10ג’ו0

מה שקורה אחר כך לא ממש משנה. כל תרחיש שבו הקול הראשון הוא קול לדונלד מגיע בנקודה כלשהי לשוויון בספירה, וההסתברות לתרחיש הזה היא כאמור B/(A+B) . אפשר לתאר את התרחיש הזה בגרף הבא:

מה קורה אם הקול הראשון שנספר ניתן לג’ו? כאן ג’ו מוביל בתחילת הספירה, ולאר מכן יש שתי אפשרויות: או שג’ו ימשיך להוביל לאורך כל הספירה, או שבשלב מסויים ייווצר שיוויון בקולות.

בואו נוסיף לגרף שלנו תרחיש אפשרי שבו ג’ו מתחיל להוביל, אבל לאחר מכן הספירה מגיעה לשוויון:

אני לא בחרתי את התרחיש הזה באופן מקרי! התרחיש השני (הכחול) הוא השיקוף של התרחיש הראשון (האדום). למעשה, לכל אחד מהתרחישים שבהם דונלד מוביל בתחילת הספירה (לאחר שהקול הראשון נספר), יש תרחיש מקביל שבו ג’ו מקבל את הקול הראשון שנספר והספירה מגיעה לשוויון. גם ההיפך נכון: לכל אחד מהתרחישים שבהם ג’ו מוביל בתחילת הספירה (לאחר שהקול הראשון נספר) והספירה מגיעה בשלב כלשהו לשוויון, יש תרחיש מקביל שבו דונלד מקבל את הקול הראשון שנספר ואז הספירה חייבת להגיע לשוויון.

לכן ההסתברויות לשני סוגי התרחישים – תרחיש שבו דונלד מוביל בתחילת הספירה, ותרחיש שבו ג’ו מוביל בתחילת הספירה אך אינו מוביל לאורך כל הספירה – שוות, וכל אחת מהן שווה ל- B/(A+B). אם נחבר אותן נקבל את ההסתברות לתרחיש שבו ג’ו אינו מוביל לאורך כל הספירה, והסתברות זו שווה ל- 2B/(A+B).

מכאן קל לחשב כי ההסתברות שג’ו יוביל לאורך כל הספירה שווה ל-1 פחות ההסתברות שהוא לא יוביל לאורך כל הספירה, כלומר ל- (A+B)/(A-B).

שימו לב כי התוצאה היא בעצם ההפרש בין מספרי הקולות שניתנו למועמדים חלקי סך כל הקולות. מעניין, אבל לא בהכרח אינטואיטיבי.

אתם מוזמנים להמשיך להחזיק אצבעות למען המועמד המועדף שלכם.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

על תבונה, רגישות ודברים אחרים – הקלטת מפגש הזום

הלכתם לקופת החולים וביצעתם בדיקה כלשהי. אמרו לכם שהדיוק של הבדיקה הוא 90%. מה זה אומר בעצם? איזה שאלות אתם צריכים לשאול את הרופא (או לברר עם ד”ר גוגל?) ואם אתם מחפשים בגוגל – מה בדיוק צריך לחפש?

אתמול ערכתי את מפגש הזום שני של נסיכת המדעים שעסק באבחנות רפואיות ובאופנים בהן ניתן להעריך את איכותן ואת המשמעות של התוצאות שהתקבלו.

הקלטת המפגש זמינה לצפיה בלינק https://www.youtube.com/watch?v=08F96yeDUzI

מקווה שתיהנו

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו

למה אין 180 חברי כנסת?

הנה שאלה שמישהו שאל בקבוצת “שאלה קטנה” בפייסבוק:

וגם ציוץ מטוויטר: ((כן, מישהו חסם אותי))

.

מה המשמעות של גודל הכנסת/פרלמנט

בפייסבוק מישהו ענה לשאלה בדבר מספר חברי הכנסת כי יש 120 חברי כנסת בגלל שזה היה מספר החברים בסנהדרין שפעל בימי בית שני, וזה נשמע לי הגיוני, למרות שלא מצאתי סימוכין לכך לא בויקיפדיה ולא באתר הכנסת. אבל זה לא עונה לחלק השני של השאלה. מאז קום המדינה האוכלוסייה גדלה בהרבה: מ-650 אלף בעת הכרזת המדינה לבערך מ-9 מיליון. יותר מפי 10. זה כמעט פי 14. אז אולי 120 חברי כנסת באמת לא מספיקים?

מצד שני, ראיתי גם טענות בעבר (( אין לי הפניות. אני מסתמך על זכרוני. )) לפיהן החזקה של 120 חברי כנסת זה בזבוז כסף עצום וצריך להקטין את מספר חברי הכנסת ל-70. אז כמה חברי כנסת באמת צריך? ומהן ההשלכות הפוליטיות הנגזרות מבחירה כזו או אחרת? (( אני נמנע בכוונה מדיון בהשלכות הכספיות במסגרת הפוסט. מי שמעוניין מוזמן לדון בכך בתגובות. ))

אני זוכר שדובי קננגיסר התייחס פעם לנושא בבלוג המצויין והלא פעיל שלו, אבל לא הצלחתי למצוא את הקישור. ההסבר שלו, וסלחו על אי הדיוקים, הוא שמדובר בעניין של ייצוג. בעת הקמת המדינה, כל חבר כנסת ייצג בערך 5400 אזרחים (( החישוב: 650000/120 )). כיום כל חבר כנסת מייצג 75000 אזרחים. אם היינו רוצים לשמור על אותה רמת ייצוג שהייתה בכנסת הראשונה ב-1949, היינו צריכים כמעט 1700 חברי כנסת. זה כמובן לא סביר.

דבר שני שצריך להתייחס אליו הוא הכח הפוליטי של כל חבר כנסת. כשיש 120 חברי כנסת, הכח הפוליטי של חבר כנסת בודד הוא 1/120, כלומר 0.83% מסך הכח הפוליטי. בכנסת של 180 חברים, הכם הפוליטי של כל חבר כנסת קטן יותר: 0.55%, ובכנסת של 70 חברים, הכח הפוליטי של חבר כנסת בודד גבוה באופן משמעותי: 1.4%. יש לכך השלכות כמובן: בכנסת קטנה של 70 חברים, אם חבר כנסת מחליט למשל לעזוב את מפלגתו ולחבור למפלגה אחרת, יש לכך הרבה יותר משמעות פוליטית בהשוואה לכנסת גדולה עם 180 חברים.

מכאן שלפרלמנט גדול יש שני יתרונות: הוא מאפשר ייצוג יותר טוב של תתי אוכלוסיות, בייחוד אם יש אחוז חסימה לא גבוה מדי או בחירות איזוריות. (( או שתיהן, כמו שנהוג למשל בגרמניה ))  נכון, זה כנראה יעלה יותר כסף, אבל אפשר לתמחר את זה, לפחות באופן עקרוני. מסיבה זו אני תומך בהגדלת מספר חברי הכנסת באופן משמעותי.

.

מה קורה בעולם?

עשיתי מחקר קטן. בדקתי מה קורה במדינות מערביות ודמוקרטיות שדומות לישראל מבחינת גודל האוכלוסייה. מדובר בכמה מדינות באירופה, כמה מדינות בארצות הברית, ובשלוש רפובליקות ברפובליקה הפדרלית של גרמניה. ברוב המדינות האלה יש שני בתים לפרלמנט ((כגון סנאט ובית הנבחרים במדינות ארצות הברית)), ובמקרים האלה לקחתי את נתוני הבית התחתון. הנתונים נמצאים כאן. גדלי האוכלוסייה מעוגלים פחות או יותר.

לכל מדינה חישבתי את כוחו הפוליטי של כל חבר פרלמנט כאחוז מסך מספר החברים בפרלמנט, ואת מספר התושבים המיוצגים על ידי כל חבר פרלמנט (בממוצע) על ידי חלוקת גודל האוכלוסייה במספר חברי הפרלמנט. נתונים אלה מוצגים בגרף הבא. חילקתי את המדינות לשלוש קבוצות על פי גודל האוכלוסייה, וצבעתי את הנקודות בהתאם. הנקודה של ישראל צבועה בכחול. (קוד R ליצירת הגרף נמצא כאן).

.

כצפוי אין הפתעות. גם הייצוגיות של האוכלוסייה וגם הכח הפוליטי של כל חבר פרלמנט תלויים במספר חברי הפרלמנט, ולכן הם הולכים ביחד. מקדם המתאם הוא 0.914.

מה שמעניין זו העובדה שהמתאם בין הכח הפוליטי ורמת הייצוגיות לא מושפע מגודל המדינה.  כאשר מחשבים את מקדמי המתאם לכל קבוצת מדינות בנפרד, כל השלושה גבוהים מ-0.97.

עובדה מעניינת נוספת היא שארבע המדינות בהן הייצוגיות נמוכה (כל חבר פרלמנט מייצג יותר ממאה אלף תושבים) או שהכח הפוליטי של כל חבר פרלמנט הוא לפחות אחוז אחד, הן מדינות בארצות הברית. שלוש המדינות בהן הייצוגיות גבוה והכח הפוליטי של כל חבר פרלמנט הוא פחות מחצי אחוז הן מדינות אירופאיות. אתם מוזמנים לדון במשמעות והסיבות של התוצאות האלה.

.

מה יכול לקרות בישראל

בדקתי שני תרחישים: תרחיש בו מספר חברי הכנסת מוגדל ל-180 או מוקטן ל-70. רמת הייצוגיות והכח הפוליטי של כל חבר כנסת במצב הנוכחי ובשני התרחישים מוצגים בטבלה הבאה:

מספר חברי כנסתכח פוליטירמת ייצוגיות
701.43%128500
1200.83%75000
1800.56%50000

.

חישבתי את מספר חברי הכנסת שהיו לכל סיעה בשתי הכנסות האחרונות בשני התרחישים (ללא שינויים בגובה אחוז החסימה) בשני התרחישים האלה, וכן את המפה הפוליטית בחלוקה לגושים. (( הותרתי את ישראל ביתנו מחוץ לגוש הימין ואת הרשימה המשותפת מחוץ לגוש המרכז/שמאל, למרות שמקומן אמור להיות בשני הגושים האלה, בהתאמה))

הנה, למשל, מפת הכנסת ה-22 אילו היו בה רק 70 חברים או 180 חברים: (( קוד R לחישובי המנדטים ))

מפלגה/גודל הכנסת12018070
כחול לבן334819
ליכוד324719
הרשימה המשותפת13197
שס9146
יהדות התורה8135
העבודה7114
המחנה הדמוקרטי7114
ישראל ביתנו693
ימינה583

.

אבל מה שמשנה זה כמובן הגוש. הנה מפת הגושים בכנסת ה-22: (( הותרתי את ישראל ביתנו מחוץ לגוש הימין ואת הרשימה המשותפת מחוץ לגוש המרכז/שמאל, למרות שמקומן אמור להיות בשני הגושים האלה, בהתאמה))

גוש/ גודל הכנסת12018070
ימין548233
מרכז477027
הרשימה המשותפת13197
ישראל ביתנו693

.

וזו מפת הגושים בכנסת ה-23: ((כן, אני יודע שגוש המרכז בכנסת הזו זה לא מה שהיה פעם))

גוש/ גודל הכנסת12018070
ימין588834
מרכז405923
הרשימה המשותפת15239
ישראל ביתנו7104

.

ושאלת השאלות: כמה מנדטים חסרים לגוש הימין כדי להשיג רוב בכנסת? התשובה בטבלה:

גודל הכנסתהרוב הדרושהכנסת ה-22הכנסת ה-23
1206173
1809193
703632

.

באופן לא מפתיע, בכנסת גדולה יותר חסרים לגוש הימין יותר קולות כדי להשיג רוב בכנסת. זה נכון גם עבור גוש המרכז כמובן. בכנסת ה-22 חסרו לגוש הזה 14 מנדטים כדי להשיג רוב, ואילו היו בכנסת 180 חברים היו חסרים לגוש זה 21 מנדטים.

כאשר תוצאות הבחירות צמודות ההבדל עשוי להיות משמעותי. אילו היו בכנסת הזו רק 70 חברי כנסת, אז גוש הימין היה צריך “להעביר” אליו רק 2 חברי כנסת מחוץ לגוש במקום שלושה. (( בסוף הם הצליחו להעביר כמעט 20, אבל זה סיפור אחר. )) לעומת זאת, אם היו בכנסת 180 חברים, המצב היה זהה מבחינת מספר הקולות החסרים לגוש הימין כדי להשיג רוב.

לקריאה נוספת בנושאים הקשורים לנושא רשימה זו