ארכיב עבור 'מה אומרת הסטטיסטיקה'

שיטות עיקריות לניתוח לוחות שכיחות – מצגת ההרצאה

ביום חמישי האחרון, 5.1.2012, נערך יום עיון משותף שארגנו הלשכה המרכזית לסטטיסטיקה והאיגוד הישראלי לסטטיסטיקה. מסגרת זו נתתי הרצאה שסקרה שיטות עיקריות לניתוח לוחות שכיחות. בין הנושאים שנסקרו: זיהוי מבנה קשר בין משתנים על ידי שימוש ביחסי הסתברויות וניתוח שאריות, מדדי קשר, ומודלים לוג-לינאריים.למעוניינים, מצגת ההרצאה ניתנת לצפיה והורדה – לחצו על הלינק.

סטטיסטיקאים בפאב

ב-20 באוקטובר צויין ברחבי העולם יום הסטטיסטיקה הבינלאומי. לציון (מאוחר) של האירוע נערך בתאריך 14.11.2011 ערב הרצאות מיוחד במסגרת "ספקנים בפאב" בתל-אביב.

ספקנים בפאב הם מפגשים (בדרך כלל חודשיים) המיועדים לכל מי שמתעניין במדע, היסטוריה, פילוסופיה ובחינה רציונלית של המציאות. בדרך כלל הם מתקיימים בפאבים או במקומות אחרים שמאפשרים אווירה חברית ובלתי פורמלית, וכוללים בדרך כלל הרצאה (או "תוכנית אומנותית" אחרת) ודיון. "ספקנים בפאב" נערך לראשונה בלונדון בשנת 1999, וכיום קיימות עשרות קבוצות ברחבי העולם. במסגרת הקהילה הספקנית בישראל קיימות ארבע קבוצות של ספקנים בפאב, בחיפה, תל-אביב, באר שבע וירושלים.

הערב, שאורגן בשיתוף פעולה בין האיגוד הישראלי לסטטיסטיקה ובין קבוצת הספקנים הישראלית (כמה נוח שאני פעיל בשני הארגונים האלה. זה תרם מאוד לשיתוף הפעולה…) כלל חמש הרצאות קצרות (15 דקות כל אחת) שסקרו את נושא הסטטיסטיקה מכיוונים שונים. למרות מזג האויר הסוער בערב האירוע, הגיעו אליו קרוב ל-100 איש, ואולם האירועים של פאב "גורדו" בתל-אביב היה מלא מפה לפה. חלק מהנוכחים נאלצו לשבת על הרצפה מחוסר מקום. חלק מהמאחרים לאירוע פשוט לא הצליחו להכנס לאולם הצפוף.

טל גלילי, דוקטורנט לסטטיסטיקה באוניברסיטת תל אביב, אוהב קוד פתוח ומידע חופשי, ובלוגר ב"מדריך לטרמפיסט בסטטיסטיקה", סיפר כיצד חוקרים עכברים שחוקרים את סביבתם: יום אחד עכבר קם בבוקר, מחליט שהוא סקרן, ומתחיל ללכת. לאן הוא הולך? מתי הוא חוזר? כמה הוא מטייל? האם הוא מתרגש? ולמה זה בכלל מעניין אותנו (כחוקרים) לדעת?

הרצאתו של דובי קננגיסר, דוקטורנט למדע המדינה באוניברסיטת טורונטוו ובעל הבלוג "לא שומעים!", נשאה את הכותרת "מחשב, מחשב שעל הקיר". דובי דן בשאלה האם סקרי הבחירות מעוותים את תוצאות הבחירות או שמא אין להם שום השפעה בכלל. אפשרות נוספת שהציג היא כי בעצם סקרי הבחירות עוזרים לנו לגלות מה באמת אנחנו רוצים להצביע.

דובי קננגיסר

הרצאתו של פרופ' רון קנת, נשיא האיגוד, נשאה את הכותרת המסקרנת ורבת המשמעות "42". רון הראה כיצד הוספת הקשר משנה את המשמעות של מספר כמו 42, ותוך כדי כך ערך לקהל היכרות עם כלים סטטיסטיים ומושגים כגון היסטוגרמה, תרשים פיזור, התפלגות נורמלית, הערכת יכולת תהליך, תרשים בקרה ו-InfoQ.

רון קנת

עבדכם הנאמן דיבר על כדור הכסף (Moneyball), ספר וסרט המספרים את סיפורה של קבוצת הבייסבול המקצוענית דלת התקציב מאוקלנד, שהצליחה בעזרת שימוש בניתוחים סטטיסטיים להציב על המגרש קבוצה תחרותית, שהצליחה להתמודד מול קבוצות עתירות תקציב כמו הניו-יורק יאנקיז, ולהיות מועמדת רצינית לאליפות.

יוסי לוי

אבנר שחר קשתן דיבר על שקרים יפים, וסקר אינפוגרפיקות מטעות בתקשורת. אבנר הוא, מתכנת, עיתונאי וסטודנט לתואר שני בתוכנית למדע, טכנולוגיה וחברה באוניברסיטת בר אילן. בנוסף לכךהוא כותב שני בלוגים: "אקלקטיקה אהובתי" ו-"שקרים יפים".

אבנר שחר קשתן

מעניין לציין כי רק שלושה מבין חמשת המרצים הם סטטיסטיקאים בהכשרתם.

הערב הוכיח כי יש בקהל הרחב רצון אמיתי להכיר את עולם הסטטיסטיקה, וניתן להגיע לקהל זה אם יוצאים ממגדל השן, ומציגים את הפן היפה של הסטטיסטיקה ויישומיה.

תודה לליאורה לוי עבור הצילומים מהערב.

ספקנים בפאב – ערב הרצאות מיוחד לכבוד יום הסטטיסטיקה הבינלאומי

"ספקנים בפאב" הם מפגשים המיועדים לכל מי שמתעניין במדע, היסטוריה, פילוסופיה ובחינה רציונלית של המציאות. המפגשים מתקיימים בפאבים או במקומות אחרים שמאפשרים אווירה חברית ובלתי פורמלית, וכוללים בדרך כלל הרצאה  ודיון. "ספקנים בפאב" נערך לראשונה בלונדון בשנת 1999, וכיום קיימות עשרות קבוצות ברחבי העולם. במסגרת הקהילה הספקנית בישראל קיימות ארבע קבוצות של ספקנים בפאב, בחיפה, תל-אביב, באר שבע וירושלים.

ב-20 באוקטובר צויין ברחבי העולם יום הסטטיסטיקה הבינלאומי. לציון(מאוחר) של האירוע ייערך בתאריך 14.11.2011 ערב הרצאות מיוחד במסגרת "ספקנים בפאב" בתל-אביב בשיתוף פעולה עם האיגוד הישראלי לסטטיסטיקה (ששת קוראיי יודעים בודאי על הקשרים ההדוקים שיש לי גם עם הקהילה הספקנית וגם עם איגוד הסטטיסטיקה).

הערב יכלול חמש הרצאות קצרות (15 דקות כל אחת) שיסקרו את נושא הסטטיסטיקה מכיוונים שונים.

האירוע יתקיים בתאריך 14.11.2011 בפאב "גורדו", בחוף גורדון בטיילת תל אביב. ההתכנסות היא בשעה 8 בערב, וההרצאות יחלו בשעה 8.30. דמי הכניסה הם 10 ש"ח, ומיועדים לכיסוי הוצאות הפקת האירוע.

 

המרצים, (באופן מפתיע, לא כולם סטטיסטיקאים) וכותרות ההרצאות הם:

  • טל גלילי – כיצד חוקרים עכברים שחוקרים את סביבתם
  • יוסי לוי – כדור הכסף
  • דובי קננגיסר – מחשב, מחשב שעל הקיר
  • רון קנת – 42
  • אבנר שחר קשתן – שקרים יפים

אני מניח כי מי שקרא עד כאן כבר הבין שגם אני נמנה עם המרצים 🙂

אשמח לראותם!

איך לשקר בעזרת סטטיסטיקה – פוסט הרצאה

ראשית, ברצוני להודות לכל מי שטרח והגיע להרצאה שנתתי בחיפה בתחילת השבוע. מקווה שכולם נהנו. אני מאוד נהניתי.

ציינתי כי חלק ניכר מהדוגמאות שסקרתי בהרצאה כבר הופיעו כאן בבלוג בעבר. להלן מראי מקום לנושאים שסקרתי.

פיס 123: תוחלת הזכיה וסיכויי הזכיה בתביעה

תקציר הפרקים הקודמים: ארגון אמון הציבור מגלה טעות בסיכויי הזכיה שפורסמו באתר מפעל הפיס. מפעל הפיס מתקן את הטעות. אחד המהמרים, שהוא גם ד"ר למתמטיקה, תובע את מפעל הפיס בסכום של 3.2 מליון שקלים + 5 מליון שקלים כפיצוי על עגמת הנפש.

ובכן, לאחר שאומתו סיכויי הזכיה במשחק פיס 123 המפורסמים כעת באתר מפעל הפיס, ניתן לגשת לחישוב תוחלת הזכיה והערכת סיכויי התביעה הייצוגית.

כאשר ידועים סיכויי הזכיה וגובה הפרסים וההפסדים, החישוב הוא פשוט: מכפילים כל זכיה/הפסד בהסתברות שלה, ומסכמים.

למשל, הסיכוי לזכות בפרס הראשון במשחק המשולב הוא 1 ל-1000, או 0.001. מי שמהמר על שקל יקבל כפרס 100 שקלים, ולכן סך הרווח שלו הוא 99 שקלים. מכפילים 99 ב-0.001 ומקבלים 0.099. כל עושים לגבי שאר הפרסים, כמפורט בטבלה, ולבסוף יש לסכם את כל המכפלות.(נתוני יחס הזכיה ומכפיל הזכיה לפרסים 1 עד 4 שבטבלה נלקחו מאתר מפעל הפיס):

פרס יחס זכיה הסתברות זכיה מכפיל פרס רווח/הפסד מחובר לתוחלת
ראשון 1:1000 0.00100 100 99 0.0990
שני 1:241.5 0.00414 25 24 0.0994
שלישי 1:37 0.02703 5 4 0.1081
רביעי 1:4.11 0.24331 1 0 0.0000
אין זכיה 1.38 0.72452 0 1- 0.7245-
סך הכל 0.4180-

השורה התחתומה אומרת כי על כל שקל הימור, מפעל הפיס מרוויח (והמהמרים מפסידים) 41.8 אגורות, ובמלים אחרות, מפעל הפיס לוקח לקופתו 41.8% מכספי ההימורים ומחלק למהמרים 58.2% מהכספים כפרסים. אל תסמכו עלי. אנא בדקו את חישוביי.

לאחר שצלחנו את החלק הטכני המשעמם הזה, הבה נעבור לניתוח סיכויי הזכיה של הד"ר למתמטיקה בתביעה הייצוגית שלו.

התובעים, כך פורסם, הציגו שתי טענות:

הטענה הראשונה היא כי מפעל הפיס הציג באתר האינטרנט שלה שסיכויי הזכיה בפרס השני הם 1:200, אולם לפי חישוביהם, הסיכוי לזכות בפרס השני הוא למעשה 1:500. את הטענה הזו אפשר לבדוק. אני חושב שכולם כבר מסכימים על כך שסיכויי הזכיה בפרס השני הם לא 1 ל-200 וגם לא 1 ל-500, אלא 1 ל-240 (בערך).

הטענה השניה היא כי לפי מפעל הפיס, תוחלת ההגרלה 123 משולב אמורה להיות בשיעור של 60.34%, כלומר 60.34% מכספי ההימור מחולקים כפרסים, אולם בפועל, כך נטען בתביעה, תוחלת ההגרלה הינה בשיעור של 58.2% בלבד (כפי שהראה החישוב שערכתי למעלה).

קודם כל, לא ברור לי איך חישוב הסתברות שגוי הוביל לחישוב תוחלת נכון. ייתכן כי חישוב ההסתברות היה נכון (בכל זאת ד"ר למתמטיקה) אולם לכתב התביעה, או להודעה לעיתונות, או לכתבה השתרבב מספר שגוי.

התובעים הנכבדים צריכים, אני מניח, להוכיח כי הפרסום השגוי נעשה בזדון ומתוך כוונה להטעות את המשקיעים המהמרים התמימים. האם יצליחו התובעים להוכיח זאת? איני יודע.

אבל הטיעון העיקרי שלי, ואני מקווה שגם של ההגנה, הוא: אז מה? ונניח שפורסם מספר שגוי, והתוחלת אכן נמוכה ממה שפורסם. האם בפועל הייתה התוחלת שונה? כללי המשחק היו נתונים, ובהנתן הכללים נקבעת התוחלת. הנזק היחיד שעלול להגרם בפועל הוא הנזק למהמר שנכנס לאתר ואמר לעצמו: "וואו, תוחלת של 60.3%! אני הולך על זה! זו לא סתם הגרלה מעפנה שנותנת רק 58.2%!". כמה מהמרים כאלה היו? על כמה כסף הם הימרו? אחרי שנדע את הנתון הזה, נוכל להעריך את הזנק שנגרם להם: 2.1% מסך הסכום שעליו הם הימרו. ההימור שלי הוא כי סך הסכום הזה הוא אפס, או כמעט אפס.

אז מה סיכויי הזכיה? לא רעים בכלל. השופטים, אנשים טובים ומקצועיים אמנם, אבל רובם לא מבין בסטטיסטיקה, פשוט כי ההכשרה שניתנת לתלמידי הפקולטה למשפטים בתחום הזה מזערית. לשקר בעזרת סטטיסטיקה אפשר גם אפשר, וייתכן מאוד שיימצא שופט שישתכנע מהטיעונים.

אני אמשיך לעקוב.

סיכויי הזכיה בפיס 123

עוד לא נרגענו מההמולה סביב האירוע ה-"נדיר" בו התקבלו בהגרלת הלוטו אותם המספרים שהתקבלו באחת ההגרלות הקודמות, והנה הופיעה לה "שערוריה" חדשה סביב הגרלות מפעל הפיס. הפארסה הנוכחית הגיע לשלב בו מהמר המציג את עצמו כדוקטור למתמטיקה הגיש תביעה יייצוגית נגד מפעל הפיס.

אבל בל נקדים מוקדם למאוחר. הנה השתלשלות העניינים, כפי שהצלחתי לעקוב אחריה בשבוע האחרון:

  • ארגון הצרכנים העצמאי/פרטי "אמון הציבור" טען כי מפעל הפיס הציג מצג שווא מתמשך בפרסום שלו בעניין סיכויי הזכייה במשחק "3 2 1 משולב". לפי תלונת צרכן לארגון – סיכויי הזכייה בפרסי המשחק נמוכים מאלו המפורסמים באתר הפיס. (ידיעות על כך ראיתי בווינט ובדה-מרקר). כמו כן נטען כי תוחלת  הזכיה שפורסמה באתר נמוכה מתוחלת הזכיה בפועל.
  • לפי הידיעות, הסטטיסטיקאי של מפעל הפיס (לא נמסר מי האיש) אישר כי חלה טעות בפרסום, ובשלב כלשהו מפעל הפיס תיקן את הפרסום באתר. לדעת ארגון אמון הציבור, משך הזמן שעבר עד תיקון הנתונים היה ארוך מדי.
  • בינתיים, צרכן זריז, המעיד על עצמו כי הוא מהמר במשחק המדובר בסכום של מאות שקלים לחודש, הגיש תביעה ייצוגית נגד מפעל הפיס בסך של 3.2 מליון שקלים. התובע גם העיד על עצמו כי הוא דוקטור למתמטיקה (לא נמסר שמו של האיש).

התייחסתי לכל העניין בגיחוך מה. בטוויטר הזהרתי את אותו מהמר/מתמטיקאי/תובע כי שייזהר, האוניברסיטה עלולה לתבוע ממנו להחזיר את הדוקטורט.

בואו ננסה להבין מה קורה כאן.

מדובר בהימור המכונה "פיס 123". המפעל מגריל מספר בן 3 ספרות, החל מ-000 ועד 999. יש 1000 מספרים כאלה. המהמר מנסה לנחש את המספר.

ההימור הפשוט ביותר הוא מסוג "הכל או כלום". אם ניחשת בדיוק את המספר שהוגרל – זכית. יש כאמור 1000 מספרים אפשריים שעשויים לעלות בגורל, ולכן סיכוי הזכיה הוא 1 ל-1000. במקרה של זכיה, הזוכה מקבל סכום הגדול פי 600 מסכום ההימור (באתר מפעל הפיס מכונה סכום ההימור בביטוי הציני "סכום ההשקעה").

תוחלת הזכיה שלילית כמובן: בטווח הארוך המהמר מפסיד ומפעל הפיס מרוויח. אפשר להסביר זאת באופן הבא: מהמר "מתוחכם", יהמר סכום של שקל אחד כל אחת מ-1000 התוצאות האפשריות (ב"השקעה" של 1000 שקלים), יפסיד את כספו ב-999 מהימוריו, ובהימור ה-1000 יקבל 600 שקלים. בסופו של יום, אותו מהמר הפסיד בסך הכל 400 שקלים.

כאמור, המהומה התקשורתית והמשפטית מתחוללת סביב משחק מעט יותר מסובך. ב"משחק המשולב", ניתן, בין היתר,  לזכות בפרס גם אם המספר עליו מהמרים אינו זהה למספר שעלה בגורל, בתנאי שההימור היה על אותן הספרות של המספר שעלה בגורל, בסדר שונה. לדוגמא, מי שיהמר על המספר 123 יוכל לזכות בפרס גם אם עלה בגורל המספר 321 או 213, וכולי. מי שהימר על 747 יזכה גם אם יעלו בגורל 477 או 774, אבל מי שיהמר על 666 יזכה רק אם יעלה בגורל המספר 666. מה הסיכוי לזכות בהימור כזה? באתר מפעל הפיס כתוב (נכון להיום) כי הסיכוי הוא 1 ל-241.5. איך מחשבים את הסיכוי?

אפשר להתחיל לחשב (עמית גל  עשה את זה בבלוג שלו). אני בחרתי בגישה אחרת, גישת מונטה קרלו, שאדגים כאן מייד. זאת לבקשת הקורא עמית (האם זהו עמית גל?) באחת התגובות לרשימה על פריז ובעיית המחט של בופון.

כל אחד יכול לעשות את זה בבית. צריך פשוט לשחק את המשחק מספר רב של פעמים. אפשר לקחת קוביה מיוחדת עם 10 צדדים (לשחקני מבוכים ודרקונים יש קוביות כאלה), או לשים בתוך כובע 10 כפתורים זהים, שעל כל אחד מהם רשומה אחת הספרות 0 עד 9. מטילים את הקוביה (או מוציאים כפתור מהכובע ומחזירים אותו) 3 פעמים – זוהי הדמיה של הגרלת המספר של מפעל הפיס. אח"כ בוחרים באותו אופן את המספר עליו מהמרים. כעת אפשר לבדוק אם "זכינו". חוזרים על התהליך מספר רב של פעמים, ובודקים באיזה אחוז מהפעמים אכן זכינו. חוק המספרים הגדולים מבטיח כי אחוז הזכיות בניסוי שלנו יהיה קרוב מאוד להסתברות האמיתית. משפט הגבול המרכזי מבטיח כי ההפרש בין אחוז הזכיות בניסוי ובין ההסתברות האמיתית יהיה בסדר גודל של אחד חלקי שורש מספר הניסויים. למשל, אם רוצים דיוק של אחוז אחד, צריך לחזור על הניסוי 10000 פעם.

זה כמובן עלול להיות מאוד מייגע. ניתן כמובן, לכתוב תכנית מחשב שתבצע את התרגיל הזה. כתבתי אחת כזו (בשפת SAS, לחצו כאן לצפיה בקוד), וערכתי את הניסוי מליון פעם (למחשב המקרטע שלי לקח כמעט 10 שניות לבצע את כל החישובים). התוצאות בטבלה:

סוג המספר שנבחר על ידי מפעל הפיס מספר התוצאות מספר הזכיות הסתברות הזכיה יחס זכיה מקורב
3 ספרות זהות (למשל 666) 9902 6 0.000605938 1:1650
2 ספרות זהות (למשל 747) 269580 774 0.002871133 1:348
3 ספרות שונות (למשל 123) 720518 4314 0.0059873590 1:167
סך הכל 1000000 5094 0.0050940000 1:196

השורה התחתונה אומרת כי הסתברות לנחש את שלוש הספרות שנבחרו בסדר כלשהו היא 0.005094, שזה בערך 1 ל-196. החישוב של עמית גל הגיע לתוצאה של 1 ל-194.  בגדול, הפרסום המקורי של מפעל הפיס, לפיו סיכויי הזכיה הם 1 ל-200, היה נכון בקירוב. הפרסום הנוכחי מתאר סיכויי זכיה נמוכים יותר, ולדעתי הוא שגוי. עם זאת, גם עמית וגם אני לא לקחנו בחשבון כי מי שזוכה בפרס הראשון כבר לא זוכה בפרס השני (תודה לעמית על שהעיר את עיני על כך בתגובתו). המאורע "המהמר ניחש אתשלוש הספרות שנבחרו בסדר כלשהו" מכיל בתוכו את המאורע "המהמר ניחש את שלוש הספרות שנבחרו בסדר הנכון".  לכן, צריך להחסיר מההסתברות שקיבלנו, 0.005094, את ההסתברות לניחוש כל שלוש הספרות בסדר הנכון, 0.001, ולכן נקבל כי ההסתברות לזכיה בפרס השני, שהיא הסתברות המאורע "המהמר ניחש את שלוש הספרות שנבחרו, אך לא בסדר הנכון", היא 0.004094 בקירוב, כלומר בערך 1 ל-244, ערך קרוב למדי לערך המופיע באתר מפעל הפיס (1 ל-241.5).

מהי תוחלת הזכיה במשחק כזה? מי שיהמר על שקל, ירוויח 24 שקלים בהסתברות 0.005 בערך, ויפסיד שקל בהסתברות 0.995.  זה נותן תוחלת הפסד של 0.875 שקלים. במלים אחרות – מפעל הפיס משאיר בידיו  87.5% מכספי ההימורים במשחק הזה. ובכן, בחישוב התוחלת יש לקחת בחשבון את כל הפרסים והסתברויות הזכיה בהם. על כך אכתוב בקרוב רשימה נוספת.

איך לשקר בעזרת סטטיסטיקה

ב-1954 יצא לאור ספרון בן 142 עמודים לא גדולים, עם הרבה ציורים, שהפך לרב מכר עולמי. למעשה, זהו ספר הסטטיסטיקה הנמכר ביותר בכל הזמנים. כותרתו: How to lie with Statistics"".

מחבר הספר, דארל האף, לא היה כלל סטטיסטיקאי. הוא היה עיתונאי בהכשרתו, ובשיא הקריירה העיתונאית שלו היה עורך המגזין "Better Homes and Gardens". עם זאת, חוסר ההשכלה הסטטיסטית של האף לא מנעה מהספר להפוך לטקסט קלאסי. כאשר סטטיסטיקאי אומר לכם על תרגיל הטעיה סטטיסטי כלשהו כי זה "תרגיל מהספר", הוא מתכוון לספר הזה.

את הספר הזה פגשתי לראשונה כאשר הייתי סטודנט צעיר לסטטיסטיקה בירושלים. העותק שבספריה היה ישן וצהבהב. כבר אז היה מדובר בטקסט בן 30 ומשהו שנים. אולם אז, וגם היום, הטקסט רלוונטי. קראתי אותו בהנאה רבה, ושילבתי דוגמאות שלקחתי ממנו בקורסים שלימדתי במשך השנים. ספר זה גם מהווה עד היום השראה לבלוג שאני כותב. למעשה, אני יכול לומר כי לספר זה הייתה השפעה רבה להתפתחותי כסטטיסטיקאי וכספקן, ובזכותו, בין היתר, פיתחתי את המיומנות לקרוא טקסטים בצורה ביקורתית ולנסות לגלות אם ואיך מנסים לעבוד עלי. כמובן, למי שקרא את הספר הזה זה הרבה יותר קל.

למרות ההתקדמות הרבה בתחום הסטטיסטיקה בשנים שעברו מאז יציאתו לאור, תחום ההונאה בעזרת סטטיסטיקה לא התפתח באותו קצב. רוב ההונאות נעשות בעזרת אותן טכניקות המתוארות בספר.

להלן סקירה קצרה מאוד של תכני הספר, או טכניקות עבודה בעיניים שתוארו בו: מדגמים מוטים, מדדים תיאוריים לא מתאימים (זוכרים את המנהל והפועלים?), הסתרה של פרטים משמעותיים (למשל: התוצאה מתבססת על סקר שנערך בקרב 12 איש)  הבלטה של תוצאות חסרות משמעות, עיוות של גרפים, אינטרפרטציה לא נכונה או מטעה של התוצאות, וכמובן, הסקת סיבתיות בעקבות מתאם.

בעזרת שילוב כל השיטות הללו מתקבלת "סטטיסטיפולציה", והאף דן בשאלה המתבקשת" האם סטטיסטיפולציה היא תוצאה של הטעיה מכוונת או פשוט תוצאה של חוסר ידע והבנה? לדעת האף, ברוב המקרים סטטיסטיפולציות הינן מכוונות, ומטרתן להטעות ביודעין.

הפרק האחרון בספר מסביר כיצד ניתן לנסות ולהתמודד עם הסטטיסטיפולציות האלה, ודן בנושאים המכוסים היום בכל קורס או ספר העוסק בחשיבה ביקורתית. ניתן לסכם את הגישה של האף בחמש שאלות שכל אחד חייב לשאול כאשר מוצג בפניו מידע כלשהו:

  • מי אמר את זה?
  • איך הוא יודע?
  • מה חסר?
  • האם מישהו שינה את הנושא?
  • האם כל זה הגיוני?

בעקבות הצלחת הספר כתב האף עוד שישה ספרים שעוסקים במה שמכונה היום "אוריינות כמותית" ("quantitative literacy"), הידוע שבהם הוא "How to take a chance", אך הם הצליחו פחות מאחיהם הגדול.

כשאר מלאו 50 שנה ליציאת How to lie with Statistics לאור, הקדיש לו כתב העת Statistical Science גליון מיוחד. במאמר הסוקר את הספר ומחברו (קישור לקובץ pdf), מפרט ג'יי מייקל סטיל מאוניברסיטת פנסילבניה את הסיבות להצלחתו רבת השנים.

הסיבה הראשית להצלחה היא הכותרת הפרובוקטיבית שלו. סטטיסטיקאים לא ממש אוהבים אותה, אבל מה לעשות, אנשים משקרים בעזרת סטטיסטיקה על בסיס קבוע (אם כי יש גם טכניקות אחרות להפצת שקרים, כמו שימוש בעברית או אנגלית, למשל). אילו היה הספר נקרא "מבוא לסטטיסטיקה" (והוא אכן מבוא לסטטיסטיקה), כמה עותקים היו נמכרים?

האיורים שבספר (וכמובן המאייר, אירווינג גייס) השביחו אותו מאוד. הקלישאה "תמונה אחת שווה אלף מלים" מוצדקת מתמיד על ידי הספר הזה. גם מי שלא אוהב לקרוא יוכל להבין בכף את המסרים שבספר, פשוט על ידי הסתכלות בתמונות.

הסגנון הקליל והרענן שבו כתוב הספר בודאי לא הזיק. היום, ספרי הדרכה כמו "Idiot guide to…" ו-"ABC for Dummies" נפוצים למדי, אך ב-1954 זה היה חידוש כביר. האף הוכיח כי ניתן לכתוב על נושא רציני ומאתגר כסטטיסטיקה בשפה שווה לכל נפש.

אבל למרות הכותרת, האיורים והשפה הקלילה, הספר לא היה שורד זמן כה רב כטקסט קלאסי אלמלא התוכן המצוין שהוא מכיל (שכבר סקרתי למעלה). אני מאמין שבשנת 2054 הספר הזה עדיין יהיה ראוי לגליון מיוחד של Statistical Science, לציון 100 שנה ליציאתו לאור.

על אנדרו ארנברג ועבודת הדוקטורט שלי

לפני מספר ימים הופיעה בפיד החדשות של האגודה המלכותית לסטטיסטיקה הודעה כי אנדרו ארנברג הלך לעולמו, בגיל 94. מי? אתם בודאי שואלים, אולם האיש ועבודתו מוכרים לי היטב, ובילדותי קראתי רבות בספרו הקלאסי על קניות חוזרות ובמאמרים שפרסם על הנושא.

ארנברג נולד בגרמניה בשנת 1926 למשפחה מרובת פרופסורים. ב-1938 נמלטה המשפחה מגרמניה לאנגליה. ארנברג למד סטטיסטיקה באוניברסיטת קיימברידג'. במקביל לפיתוח קריירה אקדמית כמרצה לסטטיסטיקה וחוקר, עסק בייעוץ לחברות בתחום המחקר השיווקי, ותוך כדי כך פיתח מתודולוגיות לניתוח נתונים שיווקיים, ולמעשה ייסד את התחום הידוע כיום כ-Marketing Science. היישום של המודלים שפיתח התפשט גם לתחומים אחרים, בעיקר במדעי החברה. ב-1970 נתמנה ליושב ראש המחלקה לשיווק של הלונדון ביזנס סקול. הוא נחשב לאחד מחלוצי המחקר הכמותי במדעי החברה.

אני התעניינתי בעיקר בעבודתו של ארנברג בתחום התנהגות הצרכנים, ובעיקר במודלים שלו לניתוח דפוסים של קניות חוזרות והערכת נאמנות הצרכנים. הסיבה להתעניינותי: רציתי לכתוב עבודת דוקטורט על הנושא.

Andrew Ehrenberg

אנדרו ארנברג (1926- 2010)

אתאר בקצרה את הבעיה. אנו מתבוננים בשוק למוצר מסויים, נניח קפה נמס מיובש בהקפאה. בשוק קיימים כמה מותגים של קפה כזה, אולי 5 או 6. אם ניקח מדגם של צרכנים, ונבדוק איזה מותגי קפה נמס הם קנו בשתי קניות רצופות, נוכל להציג אותם בטבלה דו מימדית בגודל 5×5 (למשל). לדוגמא, נגלה כי X צרכנים קנו קפה של חברת גלית בשתי קניות רצופות, Y צרכנים קנו קפה של חברת אסתר צ'ויס בשתי קניות רצופות, Z צרכנים קנו קפה גלית, ובפעם הבאה קנו קפה אסתר צ'ויס, וכולי.

כדי לנתח נתונים כאלה ולהסיק מהן מסקנות (רצוי שימושיות), יש צורך לבנות מודל הסתברותי שיתאר את הקניות של הצרכנים, ומעל המודל הזה לבנות מודל סטטיסטי. התחום הכללי של ניתוח נתונים מהסוג הזה ידוע בשם "ניתוח לוחות שכיחות".

אבן הפינה בתיאוריה של ארנברג היה "מודל דיריכלה". המודל מיישם למעשה את ההתפלגות הקרויה של שם המתמטיקאי הגרמני  דיריכלה (שהיא גירסה רב מימדית של התפלגות ביתא) לנתוני הקניות של הצרכנים. המודל הזה כלל פרמטר לכל מותג ופרמטר נוסף, כללי. כלומר, אם מדובר בשוק בו מתחרים 5 מותגי קפה, למודל יש 6 פרמטרים. לפרמטרים של המותגים יש אינטרפרטציה ברורה – הם מייצגים את נתחי השוק של כל אחד מהמותגים, או במלים אחרות, את ההסתברויות שצרכן יקנה את כל אחד מהמותגים. האינטרפרטציה של הפרמטר הנוסף, הכללי, פחות ברורה. מבחינה סטטיסטית, הוא מדד להטרוגניות של אוכלוסיית הצרכנים, כלומר, הוא מודד עד כמה ההסתברויות לקניית כל מותג שונות בין צרכן לצרכן. האינטרפרטציה השיווקית הייתה קצת פחות ברורה. האם הוא מייצג את מידת הנאמנות שמפגינים הצרכנים למותגים השונים ("אני שותה רק קפה גלית!")? התשובה, על פי התובנות שהגעתי אליהן מאוחר יותר, היא פרסית משהו: כן ולא. בכל מקרה, קהילת חוקרי השיווק באמצע שנות התשעים של המאה הקודמת האמינה כי נאמנות היא ביטוי לנתח שוק. ככל שלמותג יש נתח שוק גדול יותר, האמינו, כך הקונים שלו נאמנים אליו יותר.

כדי לקבל דוקטורט היה עליי להציג גישה אחרת שתביא לתובנות חדשות ולחידושים מתודולוגיים. גם אני רציתי לבנות מודל עם N+1 פרמטרים: פרמטר אחד לכל מותג, ופרמטר נוסף התלוי באוכלוסיה.

ההנחה היסודית שהנחתי היא שהחלטת קניה של צרכן מבוססת על גורמים התלויים במותגים עצמם (כגון טעם הקפה, מחירו, וכדומה) ועל גורמים התלויים בצרכן (כאן חשבתי בעיקר על נטייה לשמרנות/נאמנות מול נטייה לחדשנות/גיוון).

רציתי לבנות מודל בו כל תכונות המותג ימוצו בפרמטר אחד, שמאוחר יותר כיניתי אותו בשם ה-"אטרקטיביות של המותג". הפרמטר הנוסף היה אמור לבטא את מידת הנאמנות/נטיה לקניה חוזרת של אוכלוסיית הצרכנים הנחקרת.

השלב הבא היה להגדיר תכונות מתמטיות שמודל כזה צריך לקיים. למשל, דרשתי שככל שערכו של פרמטר הנאמנות גדול יותר, אז ההסתברות לקניה חוזרת של אותו מותג (ולא משנה איזה מותג) תגדל. במלים מתמטיות, ההסתברות לקניה חוזרת צריכה להיות פונקציה מונוטונית עולה של פרמטר האוכלוסיה. דוגמא לתכונה נוספת שדרשתי: אם למותג אחד אטרקטיביות גבוהה ולשני אטרקטיביות נמוכה, אז ההסתברות שקונים יעברו מהמותג עם האטרקטיביות הנמוכה לזה עם האטרקטיביות הגבוהה תגדל.

כעת יכלתי להציג משפחת מודלים אפשרית שתקיים את כל התכונות הנאות שדרשתי. המחיר ששילמתי תמורת קיום כל התכונות היה מודל פחות חסכוני. המודל שלי כלל 3N+1 פרמטרים לעומת N+1  פרמטרים במודל דיריכלה. הפרמטרים הנוספים היו "פרמטרי סרק", אם כי ניתן היה לתת להם אינטרפרטציה של שיקוף נתחי השוק של המותגים. ראוי לציין כי משפחת המודלים שהצגתי הייתה מבוססת על מודל RC שפותח על ידי ליאו גודמן, מחלוצי המחקר של שיטות הניתוח ללוחות שכיחות, וכמובן הסתייעתי רבות במורי ורבי, צבי גילולה, שהיה המדריך שלי לעבודת הדוקטורט.

המחיר ששילמתי הינו כדאי. אם המודל נכון/מתאים, מנהלי השיווק של המותגים יקבלו לידיהם מידע רב ערך. הם יוכלו להסיק מיהם המתחרים שלהם בשוק (אותם מותגים עם אטרקטיביות דומה למותג שהם מנהלים), ולנקוט פעולות כדי להעלות את האטרקטיביות שלהם ביחס למתחריהם. המידע על נאמנות הצרכנים יוכל להנחות אותם במידת האגרסיביות שעליהם לנקוט (באוכלוסיה נאמנה צריך להתאמץ קשות כדי לגנוב לקוח מהמתחרה, ואולי זה אפילו בלתי אפשרי. אבל אם מצליחים, הלקוח החדש נשאר אצלך). יש כאן שינוי קונספטואלי. חברות רבות משקיעות משאבים רבים במה שהן מכנות "בניית נאמנות צרכנים". על פי התיאוריה שלי, אין חיה כזו. הפעילויות ל-"הגברת הנאמנות" שמבצעות החברות הן למעשה פעילויות המגדילות את האטרקטיביות של המותג שלהן לעומת המותגים המתחרים.

בנוסף, פיתחתי מדדים כמותיים למושג של נאמנות צרכנים, וכעת ניתן היה "לשים" את אוכלוסיית הצרכנים על רצף שהתחיל בנאמנות (loyalty), ועבר דרך מצב ביניים של non-loyalty עד למצב הקיצוני של חוסר נאמנות (disloyalty), בו צרכנים מעדיפים במודע לקנות בכל פעם מותג אחר.

כאשר יישמתי את המדדים האלה למודל הדיריכלה של ארנברג, הופתעתי לגלות שהמודל לא מאפשר מצבים של disloyalty ואפילו לא non-loyalty, אלא מצבי נאמנות בלבד. זה לא אומר שמודל דיריכלה לא נכון. הוא שימושי במקרים בהן קיימת נאמנות צרכנים. ההצלחה האמפירית שלו מעידה לדעתי על כך שברוב השווקים אכן קיימת נאמנות צרכנים, כלומר, צרכנים בדרך כלל נוטים לחזור ולקנות את אותו המותג אליו הם רגילים.

על הדרך פיתחתי שיטת אמידה חדשה לפרמטרים (שילוב של ML ו-IPR), שהייתה ישימה גם למודל דיריכלה. שיטה זו אפשרה גם הסקה סטטיסטית על הפרמטרים של המודל (בדיקת השערות בניית רווחי סמך), בניגוד למתודולוגיה של ארנברג שהייתה תיאורית בעיקרה. כמו כן הראיתי איך אפשר להשתמש במודל כדי לנתח נתוני קניה שנאספו במשך זמן ארוך יותר, ולחזות בעזרתם את התנהגות הצרכנים בעתיד.

עבודת הדוקטורט שלי הוגשה ב-1996 ואושרה סופית כשנה לאחר מכן. על סמך העבודה קיבלתי משרת פרופסור אורח בבית הספר לניהול Kellogg של אוניברסיטת נורתווסטרן. עם זאת, התגובות בקהילת המחקר השיווקי היו פחות נלהבות מהתגובות בקרב הסטטיסטיקאים. לאחר סיום המינוי שלי בנורתווסטרן עבדתי שנה בחברה שעסקה במחקר שיווקי בתעשיית שירותי הבריאות, ואח"כ עזבתי את התחום ופניתי לתחום של ניסויים קליניים וביוסטטיסטיקה.

מקבץ 5

ושוב, אוסף לינקים בנושאי הבלוג שהצטברו מאז המקבץ הקודם.

  • המקבץ הקודם הסתיים בלינק לפוסט בבלוג "עבודה שחורה", שהודיע על העובדה הלא מפתיעה כי התפלגות השכר בישראל מוטה, או יותר נכון, אינה סימטרית. האמת, זה קצת כמו להודיע שכלב נשך אדם. זה המצב בכל התפלגויות השכר בכל מקום, וזאת כיוון שהשכר מוגבל מלמטה (על ידי שכר המינימום, או על ידי האפס) אך אינו מוגבל מלמעלה, ותיאורטית (וגם מעשית) יש קבוצה קטנה של מקבלי שכר גבוה במיוחד שיוצרים "זנב" להתפלגות. כל זה לא מעניין במיוחד את שלומית יהב, יועצת כלכלית לעת מצוא. היא פירסמה בווינט כתבה בה הוכיחה באותות ובמופתים כי משפחה שבה שני בני הזוג מרוויחים את השכר הממוצע במשק יכולה "לחיות טוב" בארצנו. אתם יודעים מה, היא גם צודקת. כי השכר הממוצע המשק גבוה מאוד, ומי ששכרו שווה לשכר הממוצע ניצב בגאון בעשירון השלישי, כלומר, 70% מהאוכלוסיה מרוויחים פחות מהשכר הממוצע. הבעיה היא שמספר המשפחות בהן שני בני הזוג עובדים ומרוויחים את השכר הממוצע במשק זניח. אם אחד מבני הזוג מרוויח את השכר הממוצע, יש סיכוי יותר גדול כי השני מרוויח פחות מכך. כן, גם אם לוקחים בחשבון שיש תלות בין השכר של שני בני הזוג, וזאת כיוון שהשכר הממוצע למשפחה הוא פחות מפעמיים השכר הממוצע במשק. דובי קננגיסר כתב היטב על הכשלים של גברת יהב, והעריך כי התחשיב שלה נכון לגבי לא יותר מ- 10% ממשקי הבית בישראל. השורה התחתונה: אם אתה בעשירון העליון, אתה באמת יכול לחיות טוב בארץ הזו.
  • ראיון עם פרופסור אילון לינדנשטראוס, שזכה במדליית פילדס, הפרס היוקרתי ביותר במתמטיקה.
  • אין שידור טלוויזיה של משחק כדורסל, בייסבול או פוטבול (אמריקני) שאינו מלווה בשפע של נתונים סטטיסטיים אודות המתרחש במשחק. יותר מכך: ניתוחים סטטיסטיים מהווים היום חלק מתהליך קבלת ההחלטות בכל ארגון ספורט בענפים האלה. ומה קורה בכדורגל? לא הרבה. הניו יורק טיימס מנסה לברר מדוע. חלק מהסיבות: האוהדים לא מעוניינים. הקבוצות לא מתעניינות. קשה יותר להשיג נתונים סטטיסטיים על משחקי כדורגל, בין היתר בגלל האופי השונה של המשחק.
  • לא רק לענף הכדורגל יש בעיות עם הסטטיסטיקה. גם לרופאים (שוב, ידיעה מהסוג של "כלב נשך אדם"). אתר ABC מדווח על מחקר שפורסם לאחרונה לפיו רוב הרופאים אינם מבינים נתונים סטטיסטיים אודות תופעות לוואי אפשריות של תרופות. עורכי המחקר מאשימים, איך לא, את חברות התרופות. האפשרות שרופאים ילמדו קצת סטטיסטיקה לא עולה בדעתם.
  • בגליון ספטמבר של Amstat News, המגזין החודשי של האיגוד האמריקני לסטטיסטיקה – ראיון עם שלושה בלוגרים סטטיסטיקאים: אנדרו גלמן, נתן יאו וקייזר פאנג.
  • ובגליון אוגוסט מובאים הזוכים בתחרות הפוסטרים השנתית של האיגוד האמריקני לסטטיסטיקה – הנערכת בקרב תלמידי בתי הספר בארה"ב. מה שמראה שלא צריך להיות רופא, או סטטיסטיקאי, כדי "לעשות" סטטיסטיקה טובה. צריך רק לרצות. הנה טעימה: הזוכה במקום הראשון בקרב תלמידים מכיתות א עד ג:

כמה מצלמות אבטחה יש בבריטניה?

הנושא ישן (כפי שהתברר לי). הגעתי אליו משני כיוונים שונים. במגזין כלכליסט מהשבוע שעבר הובא ראיון עם נביא זעם בשם ג'ון קמפנר, שדן ב-"עיסקה הפופולרית בעולם", לדבריו, "במסגרתה אנחנו מוכרים את כל החירויות שלנו רק כדי לשמור על החופש להרוויח". דבריו של קמפנר אכן מעוררים מחשבה, וראויים לדיון נפרד, אבל אני רוצה להטפל רק לדוגמא אחת שהובאה בכתבה (כנראה על ידי הכתב אורי פסןבסקי, ולא על ידי קמפנר עצמו). בבריטניה, נטען, יש כ-5 מליון מצלמות אבטחה, מצלמה אחת לכל 12 תושבים. האח הגדול כבר כאן.

הידיעה הזו אינה חדשה. כבר ביולי 2008 דיווח יוסי גורביץ בכלכליסט כי "4.2 מיליון מצלמות במעגל סגור מותקנות בבריטניה, מצלמה על כל 14 תושבים". עברו שנתיים, נוספו עוד 800,000 מצלמות. נשמע הגיוני.

לנושא הזה הגעתי גם מכיוון אחר לגמרי. בכנס בואנקובר בו הייתי בשבוע שעבר חילקה הוצאת וויילי חוברות ישנות של המגזין Significance , שמוציאה לאור האגודה המלכותית לסטטיסטיקה (החל מהחודש, בשיתוף עם האיגוד האמריקני לסטטיסטיקה, וכך נעשיתי למנוי על המגזין). בחוברת של דצמבר 2009 הובאה כתבתה של אליס טרלטון  מערוץ 4 של ה-BBC, שכותרתה: "כמה מצלמות אבטחה?". הכתבה זכתה בפרס למצויינות סטטיסטית בעיתונות המוענק על ידי האגודה המלכותית לסטטיסטיקה. הלינק האחרון מוביל לכתבה באתר של ערוץ 4. אני אתאר מייד את עיקר הממצאים.

ובכן, איך הגיעו למספר של 4.2 מליון מצלמות אבטחה?

הכל התחיל במאמר שפרסמו ביוני 2002 שני חוקרים (קישור לקובץ pdf), מייקל מקהייל מאוניברסיטת האל וקלייב נוריס מאוניברסיטת שפילד. כל מה שצריך זה לקרוא את המאמר, וזה בדיוק מה שעשתה טרלטון. החוקרים סקרו שני רחובות מרכזיים בלונדון: Putney High Street (פוטני) ו-Upper Richmond Road (ריצמונד). הם דגמו 211 בתי עסק בשני הרחובות, ומצאו כי ב-41% מהם מותקנות מצלמות אבטחה, ובממוצע יש בכל מערכת 4.1 מצלמות. בלונדון יש כרבע מליון בתי עסק. הכפלה של 3 מספרים נתנה תוצאה של כ-422 אלף מצלמות. למספר זה הוסיפו החוקרים את הערכתם למספר המצלמות הנמצאות באזורים ציבוריים : רחובות, תחבורה ציבורית, בתי חולים וכו'. הם העריכו את מספרן של מצלמות אלה (והשתמשו בפירוש במילה "guesstimate" – שילוב של אמדן וניחוש) בכ-80 אלף, וכך הגיעו למספר כולל של כחצי מליון מצלמות בלונדון. ומכיוון שבלונדון יש כ-7 מליון תושבים, המסקנה היא שיש בלונדון מצלמת אבטחה אחת לכל 14 תושבים. ואם זה בלונדון, זה גם בכל בריטניה, לא?

אז זהו, שלא.

קודם כל, יש לשים לב לשונות בין שני הרחובות שנסקרו. ברחוב פוטני נמצאו מצלמות ב-49% מבתי העסק, בריצמונד ב-34% בלבד. ייתכן כי רחוב ריצמונד הוא המייצג את המצב בלונדון, ואז נופלת הערכת מספר המצלמות בלונדון ב-30%, ל-350 אלף מצלמות בלבד. מצד שני, ייתכן כי דווקא רחוב פוטני הוא המייצג, ואז ההערכה של מצלמה ל-14 תושבים היא הערכת חסר. מה שיותר סביר הוא ששני הרחובות האלה גם יחד אינם מהווים מדגם מייצג מספיק. קל לברר, וטרלטון עשתה זאת, כי תמהיל העסקים בשני הרחובות האלה שונה מהותית מתמהיל העסקים הכללי בלונדון. ה"מדגם" לא ממש מייצג. מה ששני החוקרים קיבלו הוא לכל היותר הערכה של מספר המצלמות בשני הרחובות שסקרו (בהנחה שמדגם בתי העסק שלקחו ברחובות האלה היה מייצג). האקסטרפולציה שעשו משם אל לונדון, ואח"כ אל כל הממלכה המאוחדת, לא ממש ולידית.

טרלטון מצאה דרך אחרת להעריך את מספר מצלמות האבטחה בבריטניה. היא פנתה אל קבוצת משתמשי מצלמות האבטחה בבריטניה. הם הודו שהם לא יודעים את המספר המדויק, אך העריכו (שוב guesstimate) כי מספרן הוא לא יותר ממליון ורבע בכל בריטניה.