• חיפוש באתר

    קישורים

    עמודים

    RSS סטטיסטיקה ברשת

    תגים

    ארכיב עבור תגית עיוות נתונים

    בכמה 30 יותר גדול מ-29?

    נפלא, פשוט נפלא. ותודה לרון קנת שהעביר לי את זה.

     

    לחצו על התמונה לצפיה בגודל מלא.

    ישראל היום – הגרף שלא ייאמן

    כשראיתי את הסריקה של הגרף הזה שמישהו העלה לפייסבוק, לא האמנתי שזה אמיתי. אז גלשתי לאתר של העיתון הנפוץ "ישראל היום" ומצאתי את זה במהדורה המודפסת של יום שישי, 25 בנובמבר 2011. החבר'ה מישראל היום עשו סקר, בנושא הגרעין האירני. שאלו שאלה, 41.3% ענו כן, 48.6% ענו לא. מחנות הכן והלא שווים בערך, אם כי יש הבדל סטטיסטי מובהק לטובת עוני ה-"לא". אבל הגרף מראה כי מספר המשיבם "כן" גדול פי 3 ממספר המשיבים "לא".

    אני לא יודע מה האינטרס של העיתון להציג כאילו הרוב השיבו "כן", ועוד רוב כל כך גדול. לעיתון יש אג'נדה פוליטית, זה ברור, וזה בסדר. אבל אני מתקשה להאמין שעורכי העיתון סבורים שקהל הקוראים שלהם כה טיפש. אני מקווה שביום ראשון תצא התנצלות כלשהי ותסביר שזו הייתה טעות של הגרפיקאי, או הש.ג. או מי שזה לא יהיה. באמת.

    הערה: זהו צילום מסך מאתר ישראל היום. גודל התמונה שונה כדי שיתאים לתבנית הבלוג. כמו כן, העתקתי את הלוגו של העיתון והתאריך מפינת העמוד בו הופיע הגרף והדבקתי אותו מעל הגרף.

    ספקנים בפאב – ערב הרצאות מיוחד לכבוד יום הסטטיסטיקה הבינלאומי

    "ספקנים בפאב" הם מפגשים המיועדים לכל מי שמתעניין במדע, היסטוריה, פילוסופיה ובחינה רציונלית של המציאות. המפגשים מתקיימים בפאבים או במקומות אחרים שמאפשרים אווירה חברית ובלתי פורמלית, וכוללים בדרך כלל הרצאה  ודיון. "ספקנים בפאב" נערך לראשונה בלונדון בשנת 1999, וכיום קיימות עשרות קבוצות ברחבי העולם. במסגרת הקהילה הספקנית בישראל קיימות ארבע קבוצות של ספקנים בפאב, בחיפה, תל-אביב, באר שבע וירושלים.

    ב-20 באוקטובר צויין ברחבי העולם יום הסטטיסטיקה הבינלאומי. לציון(מאוחר) של האירוע ייערך בתאריך 14.11.2011 ערב הרצאות מיוחד במסגרת "ספקנים בפאב" בתל-אביב בשיתוף פעולה עם האיגוד הישראלי לסטטיסטיקה (ששת קוראיי יודעים בודאי על הקשרים ההדוקים שיש לי גם עם הקהילה הספקנית וגם עם איגוד הסטטיסטיקה).

    הערב יכלול חמש הרצאות קצרות (15 דקות כל אחת) שיסקרו את נושא הסטטיסטיקה מכיוונים שונים.

    האירוע יתקיים בתאריך 14.11.2011 בפאב "גורדו", בחוף גורדון בטיילת תל אביב. ההתכנסות היא בשעה 8 בערב, וההרצאות יחלו בשעה 8.30. דמי הכניסה הם 10 ש"ח, ומיועדים לכיסוי הוצאות הפקת האירוע.

     

    המרצים, (באופן מפתיע, לא כולם סטטיסטיקאים) וכותרות ההרצאות הם:

    • טל גלילי – כיצד חוקרים עכברים שחוקרים את סביבתם
    • יוסי לוי – כדור הכסף
    • דובי קננגיסר – מחשב, מחשב שעל הקיר
    • רון קנת – 42
    • אבנר שחר קשתן - שקרים יפים

    אני מניח כי מי שקרא עד כאן כבר הבין שגם אני נמנה עם המרצים :-)

    אשמח לראותם!

    עוגה? לא, תודה.

    שלא תבינו אותי לא נכון. אני אוהב עוגות, מאוד. עוגות של שוקולד, גבינה, פירות, אבל לא עוגות של נתונים.
    הבעיה היא שדיאגרמות עוגה (pie charts) מאוד פופולריות. לעיתים נדמה כי מצגת או דו"ח ללא דיאגרמת עוגה אחת לפחות הינם פגומים. נדמה כי כל טיעוני הנגד אינם תקפים כאשר מוצגת דיאגרמת עוגה.

    ובכל זאת, אני טוען כי דיאגרמת עוגה, למרות ההיסטוריה הארוכה והמכובדת שלה, אינה דרך טובה להציג נתונים.
    הרעיון מאחורי דיאגרמת עוגה הוא להראות כיצד אוכלוסיה מסויימת מתפלגת למרכיביה. נניח כי אנו מתעניינים באהדת האוכלוסיה לקבוצות כדורגל, ומתברר כי במדגם של 90 איש 40 אוהדים את קבוצת הפועל תל-אביב, 30 אוהדים את מכבי חיפה, והשאר (20) אוהדים את מכבי תל-אביב. ניתן להציג מידע זה כעוגה, שמחולקת לשלוש פרוסות/גזרות, כשגודלה היחסי של כל פרוסה שווה לשכיחות היחסית המתאימה. אוהדי הפועל יקבלו פרוסה בגודל ארבע תשיעיות העוגה, אוהדי מכבי חיפה יקבלו שליש, ואוהדי מכבי תל-אביב יקבלו את מה שנשאר – שתי תשיעיות.
    התוצאה תיראה כך:

    יפה, נכון?
    שימו לב כי השכיחות היחסית מבוטאת בדיאגרמה על ידי שלושה מאפיינים גאומטריים: שטח הפרוסה, שהוא המאפיין העיקרי הנתפס על ידי העין, אורך הקשת של הפרוסה, וגודל הזוית של הגיזרה.
    וכאן הבעיה הגדולה של דיאגרמות העוגה. העין האנושית, או יותר נכון, המוח האנושי, אינם תופסים כראוי גדלים כאלה. התבוננו בחלק הירוק והחלק האדום. זוית הגזרה האדומה היא 160 מעלות וזוית הגזרה הצהובה הירוקה היא 120 מעלות. האם אתם רואים הבדל בין שתי הזוויות? המצב נעשה מסובך יותר אם יש יותר משלושה ערכים. הנה למשל הדוגמא הבאה, הלקוחה מדף הערך על דיאגרמות עוגה בויקיפדיה:

    שלוש העוגות נראות מאוד דומות, אבל אם תבחנו אותן בעיון, תראו שיש ביניהן הבדלים. הפרוסה השחורה גדולה יותר בעוגה A, למשל. אבל באיזה עוגה הפרוסה הירוקה גדולה יותר? האם הפרוסה הכחולה שווה בגודלה לפרוסה האדומה? מהי הפרוסה הגדולה ביותר בעוגה B?
    אפשר כמובן לשבת ולפענח אט אט את כל ההבדלים. אבל האם לא עדיף להשתמש בתצוגה ברורה יותר? (לחצו על הלינק כדי לראות תצוגה ברורה יותר של נתונים אלה).

    תכנת אקסל ודומותיה מציעות עוד שכלולים לדיאגרמת העוגה – העוגה התלת מימדית פופולרית מאוד. הנה תצוגת נתוני האוהדים בעוגה תלת מימדית:

    הפרוסה הצהובה נראית לפתע קטנה יותר, כיוון שהעין תופסת את הדפנות הקדמיות של הפרוסות האחרות כחלק משטחן. הנה דוגמא קיצונית יותר, שמצאתי באינטרנט (לא זוכר היכן):

    החלק הכהה בדיאגרמה הימנית זהה בגודלו לחלק הכהה בדיאגרמה השמאלית, אבל הוא נראה הרבה יותר גדול.
    הנה דוגמא נוספת, הפעם אמיתית, שממחישה את הבעייתיות.

    דיאגרמה זו מציגה את הסיבות להפסקת הפיתוח של תרופות פוטנציאליות בבריטניה. פיתוחן של 40% מהמולקולות הופסק עקב בעיות פרמקוקינטיות, ופיתוחן של 29% מהמולקולות הופסק עקב חוסר יעילות טיפולית. נראה כאילו לשתי הסיבות יש משקל דומה, ואלי אפילו משקל הפרמקוקינטיקה קטן יותר. זאת כיוון שהפרוסה הצהובה נמצאת בקדמת התמונה ולכן נראית גדולה יותר.
    עד כמה ההטעיה חמורה? ניתן למדוד את השטח בתמונה שתופסת כל פרוסה על ידי ספירת פיקסלים (עשיתי זאת בעזרת תכנית קטנה שכתב עבורי ידידי שי אלקין). מתברר כי השטח הצהוב תופס כ-50% משטח הדיאגרמה, השטח האדום תופש 32% בלבד מהשטח הכולל של הדיאגרמה. המסר שהעבירה הדיאגרמה שונה לחלוטין מזה שמעבירים הנתונים המספריים. למרה הצער, דיאגרמה זו הוצגה בפתיחת הרצאה על חשיבות המחקר הפרמקוקינטי.

    למרות שדיאגרמת העוגה מאוד משכנעת, הרי שברוב המקרים אינה מצליחה להציג את הנתונים בצורה ראויה, בדרך כלל מקשה על תפיסת מהירה של משמעותם, ולעיתים אף עלולה להעביר מסר שגוי. קיימות דרכים טובות יותר להציג נתונים באופן גרפי. העדיפו אותן על פני העוגה. עוגה – רק בבית קפה!

    איך לשקר בעזרת סטטיסטיקה – פוסט הרצאה

    ראשית, ברצוני להודות לכל מי שטרח והגיע להרצאה שנתתי בחיפה בתחילת השבוע. מקווה שכולם נהנו. אני מאוד נהניתי.

    ציינתי כי חלק ניכר מהדוגמאות שסקרתי בהרצאה כבר הופיעו כאן בבלוג בעבר. להלן מראי מקום לנושאים שסקרתי.