ארכיב עבור 'מה אומרת הסטטיסטיקה'
כמה מצלמות אבטחה יש בבריטניה?
הנושא ישן (כפי שהתברר לי). הגעתי אליו משני כיוונים שונים. במגזין כלכליסט מהשבוע שעבר הובא ראיון עם נביא זעם בשם ג'ון קמפנר, שדן ב-"עיסקה הפופולרית בעולם", לדבריו, "במסגרתה אנחנו מוכרים את כל החירויות שלנו רק כדי לשמור על החופש להרוויח". דבריו של קמפנר אכן מעוררים מחשבה, וראויים לדיון נפרד, אבל אני רוצה להטפל רק לדוגמא אחת שהובאה בכתבה (כנראה על ידי הכתב אורי פסןבסקי, ולא על ידי קמפנר עצמו). בבריטניה, נטען, יש כ-5 מליון מצלמות אבטחה, מצלמה אחת לכל 12 תושבים. האח הגדול כבר כאן.
הידיעה הזו אינה חדשה. כבר ביולי 2008 דיווח יוסי גורביץ בכלכליסט כי "4.2 מיליון מצלמות במעגל סגור מותקנות בבריטניה, מצלמה על כל 14 תושבים". עברו שנתיים, נוספו עוד 800,000 מצלמות. נשמע הגיוני.
לנושא הזה הגעתי גם מכיוון אחר לגמרי. בכנס בואנקובר בו הייתי בשבוע שעבר חילקה הוצאת וויילי חוברות ישנות של המגזין Significance , שמוציאה לאור האגודה המלכותית לסטטיסטיקה (החל מהחודש, בשיתוף עם האיגוד האמריקני לסטטיסטיקה, וכך נעשיתי למנוי על המגזין). בחוברת של דצמבר 2009 הובאה כתבתה של אליס טרלטון מערוץ 4 של ה-BBC, שכותרתה: "כמה מצלמות אבטחה?". הכתבה זכתה בפרס למצויינות סטטיסטית בעיתונות המוענק על ידי האגודה המלכותית לסטטיסטיקה. הלינק האחרון מוביל לכתבה באתר של ערוץ 4. אני אתאר מייד את עיקר הממצאים.
ובכן, איך הגיעו למספר של 4.2 מליון מצלמות אבטחה?
הכל התחיל במאמר שפרסמו ביוני 2002 שני חוקרים (קישור לקובץ pdf), מייקל מקהייל מאוניברסיטת האל וקלייב נוריס מאוניברסיטת שפילד. כל מה שצריך זה לקרוא את המאמר, וזה בדיוק מה שעשתה טרלטון. החוקרים סקרו שני רחובות מרכזיים בלונדון: Putney High Street (פוטני) ו-Upper Richmond Road (ריצמונד). הם דגמו 211 בתי עסק בשני הרחובות, ומצאו כי ב-41% מהם מותקנות מצלמות אבטחה, ובממוצע יש בכל מערכת 4.1 מצלמות. בלונדון יש כרבע מליון בתי עסק. הכפלה של 3 מספרים נתנה תוצאה של כ-422 אלף מצלמות. למספר זה הוסיפו החוקרים את הערכתם למספר המצלמות הנמצאות באזורים ציבוריים : רחובות, תחבורה ציבורית, בתי חולים וכו'. הם העריכו את מספרן של מצלמות אלה (והשתמשו בפירוש במילה "guesstimate" – שילוב של אמדן וניחוש) בכ-80 אלף, וכך הגיעו למספר כולל של כחצי מליון מצלמות בלונדון. ומכיוון שבלונדון יש כ-7 מליון תושבים, המסקנה היא שיש בלונדון מצלמת אבטחה אחת לכל 14 תושבים. ואם זה בלונדון, זה גם בכל בריטניה, לא?
אז זהו, שלא.
קודם כל, יש לשים לב לשונות בין שני הרחובות שנסקרו. ברחוב פוטני נמצאו מצלמות ב-49% מבתי העסק, בריצמונד ב-34% בלבד. ייתכן כי רחוב ריצמונד הוא המייצג את המצב בלונדון, ואז נופלת הערכת מספר המצלמות בלונדון ב-30%, ל-350 אלף מצלמות בלבד. מצד שני, ייתכן כי דווקא רחוב פוטני הוא המייצג, ואז ההערכה של מצלמה ל-14 תושבים היא הערכת חסר. מה שיותר סביר הוא ששני הרחובות האלה גם יחד אינם מהווים מדגם מייצג מספיק. קל לברר, וטרלטון עשתה זאת, כי תמהיל העסקים בשני הרחובות האלה שונה מהותית מתמהיל העסקים הכללי בלונדון. ה"מדגם" לא ממש מייצג. מה ששני החוקרים קיבלו הוא לכל היותר הערכה של מספר המצלמות בשני הרחובות שסקרו (בהנחה שמדגם בתי העסק שלקחו ברחובות האלה היה מייצג). האקסטרפולציה שעשו משם אל לונדון, ואח"כ אל כל הממלכה המאוחדת, לא ממש ולידית.
טרלטון מצאה דרך אחרת להעריך את מספר מצלמות האבטחה בבריטניה. היא פנתה אל קבוצת משתמשי מצלמות האבטחה בבריטניה. הם הודו שהם לא יודעים את המספר המדויק, אך העריכו (שוב guesstimate) כי מספרן הוא לא יותר ממליון ורבע בכל בריטניה.
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 10 באוגוסט, 2010. נושאים: הממ... מעניין..., מה אומרת הסטטיסטיקה.
תגובות: 1
| טראקבק
ואנקובר – סיכום הכנס
הכנס נגמר היום (כאן עדיין יום חמישי), ורגע לפני הטיסה חזרה לארץ, הנה סיכום של הצד המקצועי של הכנס.
יום ראשון
היום הזה היה אמור להיות מוקדש כולו לקורס בכריית נתונים (data mining). הקורס היה מאכזב מאוד. שלושת המרצים עברו על השקפים שהכינו במהירות הבזק, אבל גרוע מכך – לא ממש תרמו לידע שלי. הם הקדישו זמן רב להסברים מדוע הנושא חשוב (אני יודע שזה חשוב, אחרת לא הייתי נרשם לקורס הזה), הרבה באזוורדס עפו באוויר, והוקדש המון המון זמן לרגרסיה לוגיסטית. רגרסיה לוגיסטית! זה קורס לסטטיסטיקאים מקצועיים, כמעט כולם בעלי תואר שני לפחות, אם לא שלישי. ציפיתי למשהו יותר מתוחכם. רגרסיה לוגיסטית אני יודע מהבית. לפני היציאה להפסקת צהריים הודיע המרצה הראשי כי סקירת החומר של הקורס הסתיימה, ושאר זמן הקורס (אחרי ההפסקה) יוקדש להדגמה של תוכנות שונות, "בעיקר SAS". ויתרתי על ההמשך. הייתי צריך לדרוש את כספי בחזרה.
מעז יצא מתוק. אחרי הצהריים הלכתי לשמוע מושב הרצאות בנושא אמידת משך חיי המדף (כלומר תאריכי התפוגה) של תרופות, תחום שאני עוסק בו רבות. המושב התחיל בסקירה של השיטה הנוכחית לקביעת תאריך התפוגה המוכתבת על הרשויות הרגולטריות, והבעייתיות שבשיטה זו. הבעיה העיקרית היא שהשיטה הנוכחית נותנת אמדן חסר של משך חיי המדף, ובמלים אחרות – חלק גדול מהתרופות עדיין טובות לשימוש זמן רב (בחלק מהמקרים שנים רבות) אחרי שעבר תאריך התפוגה הרשמי שלהם. זה אולי טוב לרשויות, אבל רע לכל השאר: לחברות התרופות, לצרכנים באופן ישיר, ולמי שמממן את העלויות של השלכת תרופות טובות לפח: חברות ביטוח, קופות חולים, ממשלות – וחלק נכבד מהעלויות האלה שוב מתגלגלות לצרכנים. בהמשך הוצגו דרכים בהם מנסים להתמודד עם הבעיה (שיחות בין חברות התרופות לרגולטורים), ושיטות סטטיסטיות חדשניות להערכת תאריכי התפוגה.
משם המשכתי למושב שעסק בתכנון ניסויים קליניים שלב I, המיועדים לזיהוי המינון המקסימלי האפשרי של תרופה חדשה (מה שנקרא בז'רגון MTD, ראשי תיבות של Maximal Tolerated Dose). היה מעניין למדי, זה תחום שאני לא ממש עוסק בו ולכן גם לא מתמצא.
יום שני
את היום הזה התחלתי בהרצאת סקירה שנשאה את הכותרת היומרנית "כיוונים עתידיים בניתוח נתוני גנום". ההרצאה הייתה מאכזבת. שני מרצים עם מבטאים נוראיים (אוסטרלי וסיני), שנתנו מצד אחד סקירה בסיסית ביותר של מבנה הגנום והדנ"א, התעכבו רבות על פרטים טכניים הקשורים לטכניקות של sequencing, ולא ממש פירטו מהם הכיוונים העתידיים. אה. הם אמרו שהמטרה היא לזהות גנים הקשורים למחלות.
המושב השני של אותו יום היה מושב לזכרו של הסטטיסטיקאי ג'ק גוּד (Good), שנפטר לפני מספר חודשים בגיל 91. שמעתי את שמו פעם, אולם לא הכרתי את עבודתו. הלכתי לשם בעיקר בגלל שאחד הדוברים היה סטיב פיינברג, שאת ספריו על ניתוח נתונים קטגוריים קראתי בשקיקה בצעירותי. מהר מאוד הבנתי למה לא הכרתי את פועלו של גוּד. הוא היה סטטיסטיקאי בייסיאני, ולא סתם סטטיסטיקאי בייסיאני, אלא אחד המייסדים של האסכולה, ולדידו אין סטטיסטיקה אחרת מלבד הבייסיאנית. שלושה מהמרצים היו חברים של גוּד (גוּד היה גם מדריך הדוקטורט של אחד מהם), והם סיפרו אודות עבודתו וחייו. הופתעתי, למשל, לגלות כי גוּד היה עבד בצוותא עם אלן טיורינג ביחידת פענוח הצפנים בבלצ'לי פארק במהלך מלחמת העולם השניה. ההרצאות היו מרתקות. אני בהחלט מתכוון לנסות להכיר עוד את האיש ופועלו, ואולי גם לקרוא את אחד מספריו.
אחר הצהריים הייתי במושב שעסק בתכנון וניתוח של ניסויי bioassay. ההרצאות היו טכניות מאוד, אבל בהחלט לא משעממות (זהו עוד תחום שאני עוסק בו, אז אני קצת משוחד).
יום שלישי
כל היום הזה הוקדש לקורס על שיטות לניתוח ניסויי Genome-Wide Association, הידועים בשמם המקוצר GWAS. הקורס היה מצויין. ההסברים על הרקע הביולוגי היו בהירים ולא-טכניים. המרצים הסבירו היטב את כל השיטות הסטטיסטיות הבסיסיות (שאני מכיר חלקית), ודנו בהרחבה במגוון שיטות לניתוח נתונים קטגוריים (שהן הלחם והחמאה של הקורס). גירדתי את החלודה מהידע שלי בתחום והופתעתי לגלות שאני עדיין זוכר לא רע את העקרונות (הדוקטורט שלי עסק בניתוח נתונים קטגוריים, ופעם שלטתי היטב ברזי המודלים הלוג-לינאריים). התחום גם התפתח מאז שסיימתי את הדוקטורט (לפני כמעט 15 שנה), ושמחתי לראות חלק מההתפתחויות בתחום – כולל גישות בייסיאניות. אני לא מגדיר את עצמי כסטטיסטיקאי בייסיאני, אבל בהחלט מוכן לנסות את השיטות האלה, מה גם שהמרצה שהציג את השיטת האלה נתן הצדקות טובות לשימוש בהן.
יום רביעי
המושב הראשון בו הייתי היה מושב לזכרו של אריק להמן, שנפטר לפני 11 חדשים, בגיל 92. אלמנתו של להמן, ג'ולי שפר, סטטיסטיקאית בזכות עצמה, סקרה את תרומותיו של בעלה לתחום ההשוואות המרובות, והראתה כיצד עבודותיו משנות החמישים של המאה הקודמת, שנדחקו מאוחר יותר לשוליים עם התקדמות המחקר בתחום, חזרו ונעשו רלוונטיות בשנים האחרונות לאור התקדמויות נוספות במחקר (בייחוד עלייתה של שיטת ה-FDR). פיטר ביקל, תלמידו של להמן ואחר כך עמיתו באוניברסיטת ברקלי, סקר את עבודתו לאורך השנים. את המושב נעל פרסי דיאקוניס, בהרצאה נפלאה על חשיבותו של המחקר בתיאוריה הסטטיסטית.
בחלק השני של הבוקר נכחתי במושב טכני אך חשוב שעסק בשיטת לניטור ניסויים קליניים.
את אחר הצהריים ביליתי באופן לא צפוי לחלוטין: הלכתי למושב שעסק בשיטות בייסיאניות לפיתוח פרמצבטי ומחקרים קליניים. ללא ספק, המושב לזכרו של גוּד והשיטות הבייסיאניות לניתוח נתונים קטגוריים אליהן נחשפתי ביום שלישי השפיעו עלי. היה מעניין.
יום חמישי
היום האחרון של הכנס – בו היו שני מושבים בלבד (הכנס ננעל בצהריים). המושב בראשון עסק בעוד תחום בו אני עוסק רבות – חישוב והערכה מחדש של גדלי מדגם (כתבתי על כך לפני כשנה). המושב השני של הבוקר עסק ב-GWAS, ובו הוצגו כמה מחקרים חדשים בתחום.
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 6 באוגוסט, 2010. נושאים: האנשים שמאחורי הסטטיסטיקה, מה אומרת הסטטיסטיקה.
תגובות: 4
| טראקבק
מקבץ (2) – מוקדש לפול התמנון
מקבץ השבוע מוקדש לפול התמנון.
מי שלא יודע, פול התמנון חי לו בגן חיות אי שם במזרחה של גרמניה, ובמקביל לעיסוקים השגרתיים של גן החיות פיתח לו קריירה של אוראקל החוזה את תוצאות משחקיה של נבחרת גרמניה במונדיאל. לפני שעה קלה השלים פול מונדיאל מוצלח יחסית, בו ניבא ללא טעות את תוצאות כל שבעת המשחקים של נבחרת גרמניה. מוצלח "יחסית", כתבתי, כיוון שעתידו עדיין לוט בערפל, לאור הניבוי של הפסד גרמניה לספרד בחצי הגמר.
עוד לפני המשחק הגורלי (לעתידו של פול) מול ספרד ביקש ממני במייל גדי איידלהייט להתייחס לנושא בבלוג. הסתפקתי בטוויט, בו כתבתי כי יש סיכוי די גבוה שמתישהו איפהשהו תמנון או חיה אחרת תצליח לנחש סדרה של תוצאות משחקים. על הגירפה שלא הצליחה לנחש אף תוצאה, לעומת זאת, אף אחד לא מדווח. וזה בסך הכל תמצות של 140 תווים לרשימה שכתבתי בעקבות האירוע "יוצא הדופן" שאירע בלוטו הבולגרי.
הנה עוד כמה התייחסויות של פול השבוע ברשת:
דויד שפיגלהלטר מהבלוג understanding uncertainty נטען טיעון דומה לשלי, לפיו יש כאן הטיית פרסום, ומשום מה כל היצורים הימיים החוזים כי צפון קוריאה תזכה בגביע סובלים מהתעלמות התקשורת.
וילאים בריגס מדווח על מני, התוכי מסינגפור, שחזה נכונה את כל ארבע הנבחרות שהגיעו לחצי הגמר. אבל גם בריגס קובל על התעלמות התקשורת מבני הבולדוג וסמי הסנאי שהתחזיות שלהם היו קצת פחות מוצלחות. בריגס גם חישב ומצא כי אם יש 200 חיות המנסות לנחש תוצאות של שבעה משחקים, וכל אחת מהן מנחשת את התוצאה הנכונה של כל משחק בהסתברות של 50%, הרי יש הסתברות של 93% כי אחת מהן תצליח לנחש שבע תוצאות נכונות.
ולסיום, הנה עוד מתחרים לפול התמנון: שני מתמטיקאים מאוניברסיטת לונדון פיתחו מודל המשתמש בתורת הגרפים כדי לחזות את נצחונה של ספרד על הולנד בגמר, מחר. כיוון שלפני שבוע דיווחתי כאן על מתמטיקאי סקוטי שחוזה את נצחונה של הולנד, אני מעז להעלות כאן תחזית שבודאי תתגשם: מישהו מהחוזים האלה יטעה.
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 11 ביולי, 2010. נושאים: הממ... מעניין..., מה אומרת הסטטיסטיקה, ספורט.
תגובות: 5
| טראקבק
מקבץ
מי שעוקב אחרי הבלוג הזה בטח כבר שם לב שלאחרונה אין לי כח לכתוב פוסטים מושקעים, עקב עייפות החומר והרוח. זה לא אומר שהבלוג הולך למות, ואני בהחלט מקווה לחזור ולכתוב בהרחבה על נושאים שברומו של הבלוג.
זה לא אומר שנעלמתי לחלוטין. מי שעוקב אחרי בטוויטר רואה את הגיגיי ולינקים שונים שאני מפרסם. מאחר ואני יודע כי כאן בבלוג יש יותר קוראים מאשר עוקבים בטוויטר, הנה מקבץ לינקים שפרסמתי בזמן האחרון, שעוסקים בעיקר בשלושה נושאים: סטטיסטיקה, כדורגל (לכבוד המונדיאל), וסטטיסטיקה וכדורגל.
נתחיל בסטטיסטיקה.
- בעיר סן-דייגו בקליפורניה ניתן לאסוף חתימות של 15% מבעלי זכות הבחירה ובכך לכפות העלאת נושא להצבעה במעין "משאל עם" עירוני. הצעה שעוסקת בהפרטת שירותים עירוניים זכתה לתמיכה של כ-135000 חתימות, כ-40000 יותר מהדרוש. האם הנושא יועלה להצבעה? לא. בדיקה מדגמית ל כ-4000 מהחתימות גילתה כ-30 חתימות כפולות. המסקנה המפתיעה את מי שלא מבין סטטיסטיקה: נאספו למעשה רק כ-74000 חתימות כשרות ההצעה נפלה.
- ג'ף סלואן, עורך במגזין compositesworld כותב "המלצה נדירה על ספר שיצא לאחרונה אודות אירועים נדירים שבקושי עונים על ציפיותינו" (באנגלית זה הרבה יותר טוב). הספר המדובר הוא "הברבור השחור" מאת נסים טאלב. אני קורא כרגע את הספר, ומתלהב פחות. מקוווה לכתוב על התרשמותי.
- מי רוצה להיות ביוסטטיסטיקאי? מאמר במגזין של האיגוד האמריקני לסטטיסטיקה.
- אנדרו גלמן מאוניברסיטת קולומביה סוקר כמה מהמאמרים הקלאסיים של הסטטיסטיקה.
- עוד מאמר על אשליית זיכויי הזכיה בלוטו, הפעם בוואנקובר סאן.
- מאמר על חייו ופועלו של ואלודי וייבול, האיש שהתפלגות וויבול קרויה על שמו, במלאות 123 להולדתו, וזאת באתר המוקדש להתפלגות וייבול ויישומיה.
- והנה מאמר על חייו ופועלו של סיר פרנסיס גאלטון, שהיה, בין היתר, אחד מחלוצי הסטטיסטיקה המודרנית.
- מאמר בדיילי מייל של זמביה מסביר מדוע נתונים סטטיסטיים חיוניים לפיתוח המדינה.
- בנמל התעופה של וושינגטון הדלתות האוטומטיות נסגרות ומכות שוב ושוב במזוודות של הנוסעים. הנזק המצטבר על הדלתות הוא בצורת הפעמון המפורסם של ההתפלגות הנורמלית.
ונעבור לכדורגל.
- מתי שתי הקבוצות המשחקות רוצות להבקיע שער עצמי? הסיפור מתואר בבלוג הכלכלי "marginal revolution", ולמאותגרי אנגלית הוא מתורגם לעברית בבלוג של שמוליק.
- 10 השערים המוזרים ביותר. מעניין לראות את הבדלי התרבויות בין הולנד (איפופה, לצורך העניין) וברזיל (או דרום אמריקה). בשער השני ברשימה, שחקן הולנדי מבקיע שער בטעות (הוא התכוון לבעוט את הכדור החוצה כדי לאפשר טיפול בשחקן פצוע של הקבוצה היריבה, אך הכדור נחת ברשת). כשהמשחק מתחדש, הקבוצה שהבקיעה נותנת ליריבה להבקיע שער משלה כדי להחזיר את המצב לקדמותו. בשער מספר שלוש, לעומת זאת, במשחק שנערך בברזיל, כדור שנבעט לשער יוצא החוצה, אך מישהו שעומד ליד השער לוקח את הכדור ומשליך אותו לתוך הרשת. השופט פספס את כל המהלך וראה רק כדור ברשת, וממהר לשרוק שער. שחקני הקבוצה שזכתה בשער מן ההפקר מרימים ידיים בשמחה. אף אחד לא מעלה בדעתו לגשת לשופט ולהגיד לו "שמע, זה לא באמת גול". אז מי שחשב שההצגה של ריוואלדו ב-2002 שגרמה להרחקת שחקן יריב על לא עוול בכפו, או השער שהבקיעה ברזיל במונדיאל הזה תוך שימוש ביד של אחד משחקניה הם סתם מקרים, שיחשוב שוב. זו תרבות. זה בא מלמטה.
ואסיים, כמובטח, בסטטיסטיקה וכדורגל: מאמר שהופיע בעיתון סקוטי מתאר מודל סטטיסטי המנבא כי הולנד תזכה במונדיאל הקרוב. המאמר הופיע לפני הנצחון של הולנד על ברזיל. טוב, לנסים טאלב בטח יש מה להגיד על הניבוי הזה (וגם לי), אבל כרגע הסיכויים של הולנד הרבה יותר גדולים מאלה של ברזיל, וגם זה משהו.
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 3 ביולי, 2010. נושאים: הממ... מעניין..., מה אומרת הסטטיסטיקה, ספורט.
תגובות: 4
| טראקבק
המבנה הגנטי של העם היהודי
מאמר שפורסם בכתב העת Nature לפני ארבעה ימים, מתאר מחקר של המבנה הגנטי של העם היהודי.
במסגרת המחקר נבדקו רצפי DNA מ-14 קהילות יהודיות ברחבי העולם, וכן מ-69 קהילות לא יהודיות באיזורים בהם נמצאות אותן קהילות יהודיות. הגנום של היהודים והלא יהודים נותחו ניתוח סטטיסטי.
להלן מסקנות עיקריות מהמחקר:
- נראה שיש שתי קבוצות עיקריות של יהודים: האחת כוללת את האשכנזים, הספרדים, ויוצאי מרוקו. השניה כוללת את יוצאי עירק והסביבה.
- יהודי אתיופיה, כמו גם יהודי תימן וקהילות מהודו ("בני ישראל" וקהילת קוצ'ין) שונים יותר גנטית מהקבוצות היהודיות העיקריות.
- למרות ההבדלים בין שתי הקבוצות היהודיות הגדולות העיקריות, הדמיון בינן גדול יותר מהדמיון של כל קבוצה לאוכולוסיה הלא יהודית בסביבתן.
נראה כי תוצאות המחקר מפריכות את רוב טענות התיאוריה של שלמה זנד (שהציג בספרו "מתי ואיך הומצא העם היהודי?"), לפיה יהודי התפוצות הם מקומיים שהתגיירו במשך הדורות, וכי דוברי היידיש במזרח אירופה הם למעשה עם נפרד שמוצאו מהכוזרים.
לקריאה נוספת בנושאים הקשורים לנושא רשימה זו
נשלח: 13 ביוני, 2010. נושאים: מדע, מה אומרת הסטטיסטיקה.
תגובות: 4
| טראקבק