ארכיב עבור תגית עיוות נתונים
בכמה 30 יותר גדול מ-29?
נשלח: 23 בדצמבר, 2011. נושאים: אותי זה מצחיק.
תגובות: 3
| טראקבק
ישראל היום – הגרף שלא ייאמן
כשראיתי את הסריקה של הגרף הזה שמישהו העלה לפייסבוק, לא האמנתי שזה אמיתי. אז גלשתי לאתר של העיתון הנפוץ "ישראל היום" ומצאתי את זה במהדורה המודפסת של יום שישי, 25 בנובמבר 2011. החבר'ה מישראל היום עשו סקר, בנושא הגרעין האירני. שאלו שאלה, 41.3% ענו כן, 48.6% ענו לא. מחנות הכן והלא שווים בערך, אם כי יש הבדל סטטיסטי מובהק לטובת עוני ה-"לא". אבל הגרף מראה כי מספר המשיבם "כן" גדול פי 3 ממספר המשיבים "לא".
אני לא יודע מה האינטרס של העיתון להציג כאילו הרוב השיבו "כן", ועוד רוב כל כך גדול. לעיתון יש אג'נדה פוליטית, זה ברור, וזה בסדר. אבל אני מתקשה להאמין שעורכי העיתון סבורים שקהל הקוראים שלהם כה טיפש. אני מקווה שביום ראשון תצא התנצלות כלשהי ותסביר שזו הייתה טעות של הגרפיקאי, או הש.ג. או מי שזה לא יהיה. באמת.
![]() |
הערה: זהו צילום מסך מאתר ישראל היום. גודל התמונה שונה כדי שיתאים לתבנית הבלוג. כמו כן, העתקתי את הלוגו של העיתון והתאריך מפינת העמוד בו הופיע הגרף והדבקתי אותו מעל הגרף.
נשלח: 25 בנובמבר, 2011. נושאים: על סדר היום.
תגובות: 5
| טראקבק
ספקנים בפאב – ערב הרצאות מיוחד לכבוד יום הסטטיסטיקה הבינלאומי
|
"ספקנים בפאב" הם מפגשים המיועדים לכל מי שמתעניין במדע, היסטוריה, פילוסופיה ובחינה רציונלית של המציאות. המפגשים מתקיימים בפאבים או במקומות אחרים שמאפשרים אווירה חברית ובלתי פורמלית, וכוללים בדרך כלל הרצאה ודיון. "ספקנים בפאב" נערך לראשונה בלונדון בשנת 1999, וכיום קיימות עשרות קבוצות ברחבי העולם. במסגרת הקהילה הספקנית בישראל קיימות ארבע קבוצות של ספקנים בפאב, בחיפה, תל-אביב, באר שבע וירושלים. ב-20 באוקטובר צויין ברחבי העולם יום הסטטיסטיקה הבינלאומי. לציון(מאוחר) של האירוע ייערך בתאריך 14.11.2011 ערב הרצאות מיוחד במסגרת "ספקנים בפאב" בתל-אביב בשיתוף פעולה עם האיגוד הישראלי לסטטיסטיקה (ששת קוראיי יודעים בודאי על הקשרים ההדוקים שיש לי גם עם הקהילה הספקנית וגם עם איגוד הסטטיסטיקה). הערב יכלול חמש הרצאות קצרות (15 דקות כל אחת) שיסקרו את נושא הסטטיסטיקה מכיוונים שונים. האירוע יתקיים בתאריך 14.11.2011 בפאב "גורדו", בחוף גורדון בטיילת תל אביב. ההתכנסות היא בשעה 8 בערב, וההרצאות יחלו בשעה 8.30. דמי הכניסה הם 10 ש"ח, ומיועדים לכיסוי הוצאות הפקת האירוע. |
![]() |
|
|
המרצים, (באופן מפתיע, לא כולם סטטיסטיקאים) וכותרות ההרצאות הם:
אני מניח כי מי שקרא עד כאן כבר הבין שגם אני נמנה עם המרצים אשמח לראותם! |
||
נשלח: 7 בנובמבר, 2011. נושאים: האנשים שמאחורי הסטטיסטיקה, הממ... מעניין..., מה אומרת הסטטיסטיקה.
תגובות: אין
| טראקבק
עוגה? לא, תודה.
שלא תבינו אותי לא נכון. אני אוהב עוגות, מאוד. עוגות של שוקולד, גבינה, פירות, אבל לא עוגות של נתונים.
הבעיה היא שדיאגרמות עוגה (pie charts) מאוד פופולריות. לעיתים נדמה כי מצגת או דו"ח ללא דיאגרמת עוגה אחת לפחות הינם פגומים. נדמה כי כל טיעוני הנגד אינם תקפים כאשר מוצגת דיאגרמת עוגה.
![]() |
ובכל זאת, אני טוען כי דיאגרמת עוגה, למרות ההיסטוריה הארוכה והמכובדת שלה, אינה דרך טובה להציג נתונים.
הרעיון מאחורי דיאגרמת עוגה הוא להראות כיצד אוכלוסיה מסויימת מתפלגת למרכיביה. נניח כי אנו מתעניינים באהדת האוכלוסיה לקבוצות כדורגל, ומתברר כי במדגם של 90 איש 40 אוהדים את קבוצת הפועל תל-אביב, 30 אוהדים את מכבי חיפה, והשאר (20) אוהדים את מכבי תל-אביב. ניתן להציג מידע זה כעוגה, שמחולקת לשלוש פרוסות/גזרות, כשגודלה היחסי של כל פרוסה שווה לשכיחות היחסית המתאימה. אוהדי הפועל יקבלו פרוסה בגודל ארבע תשיעיות העוגה, אוהדי מכבי חיפה יקבלו שליש, ואוהדי מכבי תל-אביב יקבלו את מה שנשאר – שתי תשיעיות.
התוצאה תיראה כך:
![]() |
יפה, נכון?
שימו לב כי השכיחות היחסית מבוטאת בדיאגרמה על ידי שלושה מאפיינים גאומטריים: שטח הפרוסה, שהוא המאפיין העיקרי הנתפס על ידי העין, אורך הקשת של הפרוסה, וגודל הזוית של הגיזרה.
וכאן הבעיה הגדולה של דיאגרמות העוגה. העין האנושית, או יותר נכון, המוח האנושי, אינם תופסים כראוי גדלים כאלה. התבוננו בחלק הירוק והחלק האדום. זוית הגזרה האדומה היא 160 מעלות וזוית הגזרה הצהובה הירוקה היא 120 מעלות. האם אתם רואים הבדל בין שתי הזוויות? המצב נעשה מסובך יותר אם יש יותר משלושה ערכים. הנה למשל הדוגמא הבאה, הלקוחה מדף הערך על דיאגרמות עוגה בויקיפדיה:
![]() |
שלוש העוגות נראות מאוד דומות, אבל אם תבחנו אותן בעיון, תראו שיש ביניהן הבדלים. הפרוסה השחורה גדולה יותר בעוגה A, למשל. אבל באיזה עוגה הפרוסה הירוקה גדולה יותר? האם הפרוסה הכחולה שווה בגודלה לפרוסה האדומה? מהי הפרוסה הגדולה ביותר בעוגה B?
אפשר כמובן לשבת ולפענח אט אט את כל ההבדלים. אבל האם לא עדיף להשתמש בתצוגה ברורה יותר? (לחצו על הלינק כדי לראות תצוגה ברורה יותר של נתונים אלה).
תכנת אקסל ודומותיה מציעות עוד שכלולים לדיאגרמת העוגה – העוגה התלת מימדית פופולרית מאוד. הנה תצוגת נתוני האוהדים בעוגה תלת מימדית:
![]() |
הפרוסה הצהובה נראית לפתע קטנה יותר, כיוון שהעין תופסת את הדפנות הקדמיות של הפרוסות האחרות כחלק משטחן. הנה דוגמא קיצונית יותר, שמצאתי באינטרנט (לא זוכר היכן):
![]() |
החלק הכהה בדיאגרמה הימנית זהה בגודלו לחלק הכהה בדיאגרמה השמאלית, אבל הוא נראה הרבה יותר גדול.
הנה דוגמא נוספת, הפעם אמיתית, שממחישה את הבעייתיות.
![]() |
דיאגרמה זו מציגה את הסיבות להפסקת הפיתוח של תרופות פוטנציאליות בבריטניה. פיתוחן של 40% מהמולקולות הופסק עקב בעיות פרמקוקינטיות, ופיתוחן של 29% מהמולקולות הופסק עקב חוסר יעילות טיפולית. נראה כאילו לשתי הסיבות יש משקל דומה, ואלי אפילו משקל הפרמקוקינטיקה קטן יותר. זאת כיוון שהפרוסה הצהובה נמצאת בקדמת התמונה ולכן נראית גדולה יותר.
עד כמה ההטעיה חמורה? ניתן למדוד את השטח בתמונה שתופסת כל פרוסה על ידי ספירת פיקסלים (עשיתי זאת בעזרת תכנית קטנה שכתב עבורי ידידי שי אלקין). מתברר כי השטח הצהוב תופס כ-50% משטח הדיאגרמה, השטח האדום תופש 32% בלבד מהשטח הכולל של הדיאגרמה. המסר שהעבירה הדיאגרמה שונה לחלוטין מזה שמעבירים הנתונים המספריים. למרה הצער, דיאגרמה זו הוצגה בפתיחת הרצאה על חשיבות המחקר הפרמקוקינטי.
למרות שדיאגרמת העוגה מאוד משכנעת, הרי שברוב המקרים אינה מצליחה להציג את הנתונים בצורה ראויה, בדרך כלל מקשה על תפיסת מהירה של משמעותם, ולעיתים אף עלולה להעביר מסר שגוי. קיימות דרכים טובות יותר להציג נתונים באופן גרפי. העדיפו אותן על פני העוגה. עוגה – רק בבית קפה!
נשלח: 25 ביוני, 2011. נושאים: כללי.
תגובות: 24
| טראקבק
איך לשקר בעזרת סטטיסטיקה – פוסט הרצאה
ראשית, ברצוני להודות לכל מי שטרח והגיע להרצאה שנתתי בחיפה בתחילת השבוע. מקווה שכולם נהנו. אני מאוד נהניתי.
ציינתי כי חלק ניכר מהדוגמאות שסקרתי בהרצאה כבר הופיעו כאן בבלוג בעבר. להלן מראי מקום לנושאים שסקרתי.
- על ספרו של דארל האף, How to lie with statistics כתבתי כאן לא מזמן.
- על ספרו של צארלס זייף, Proofiness, יש לי רשימה בתכנון. בינתיים קחו לינק לגוגל בוקס.
- והנה גם לינק לספר The numbers game, ולפודקסט More or Less שממנו צמח הספר.
- על נתונים מופרכים/מופרחים/מומצאים/בלתי ניתנים לוידוא: מירב ארלוזורוב והנתונים שהביאה על שכר המורים, והמסע שלי בחיפוש אחר הנתונים הנכונים; דיון בשאלה הרת הגורל כמה מכוניות יש לסטודנטים; אלה רק שלוש דוגמאות שהבאתי במשך שש וחצי השנים בהן אני כותב את הבלוג.
- לינק לרשימה על סקר הבחירות שחזה את נצחונו של לנדון על רוזוולט ב-1936.
- על הזינוק של מעריב בסקר TGI קראו בבלוג העולם ב-64 משבצות.
- על המנהל והפועלים, ועל שלי יחימוביץ שנפלה בפח הזה
- גם על רגרסיה לממוצע אני מקווה לכתוב יום רשימה, בינתיים תסתפקו במה שלויקיפדיה יש מה להגיד בנושא
- כתבתי רבות על גרפים גמישים: שטרסלר, משרד האוצר, הצגה בעייתית של נתוני הוצאה על בריאות בכלכליסט, ויש עוד
- את הדוגמא על השוואת תפוחים ותפוזים לקחתי מהבלוג "אקלקטיקה אהובתי" שכותב אבנר קשטן.
- על הבעייתיות באקסטרפולציה כתבתי כאשר הצגתי את שיטת הריבועים הפחותים
- דיון על עקומת לאפר – התיאוריה והמציאות
- הרשימה על מתאם וסיבתיות הייתה הרשימה הראשונה שכתבתי בנסיכת המדעים, ביוני 2004. על המתאם בין צבע המכוניות והסיכון לתאונות דרכים כתבתי לפני כשנתיים.
- הרשימה מחקר האוצר על "שכר המינימום ונזקיו" – קריאה ביקורתית היא אחת הרשימות שאני הכי גאה בהן. היא גררה שלוש רשימות המשך בהן התנהל דיון עם קוראיי בנושא.
- על מה שנראה כאפליית נשים בקבלה לאוניברסיטת ברקלי כתבתי ברשימה על האפקט הידוע בסטטיסטיקה בשם"פרדוקס סימפסון".
- פול התמנון – פלא על טבעי או קוריוז סטטיסטי? זה לא שונה ממה שקרה בלוטו הבולגרי. גם לא מפתיע.
- תאורה לא מגבירה סיכון לסרטן – קראו בבלוג של טל גלילי מדוע.
- את ההרצאה סיימתי בציטוט של פלורנס נייטינגייל – שהייתה סטטיסטיקאית דגולה.
נשלח: 27 בינואר, 2011. נושאים: מה אומרת הסטטיסטיקה.
תגובות: 3
| טראקבק











