חיפוש באתר

קישורים

עמודים

קטגוריות

ארכיב עבור 'על סדר היום'

איך לא לתפוס רוצח בעזרת התאמת DNA

לקראת סוף אפריל 2018 דווח כי משטרת סקרמנטו בקליפורניה עצרה אדם החשוד כי הוא ה-Golden State Killer, רוצח סידרתי שפעל באיזור בשנות ה-70 וה-80 של המאה העשרים. החשוד זוהה בעקבות התאמה של דגימות DNA שנלקחו בזמן חקירות מעשי הרצח ונתוני DNA שפורסמו באתר של אחת החברות המציעות לקהל הרחב ניתוח בסיסי של ה-DNA שלהם. כיצד מתבצעת ההתאמה ומה המשמעות של התוצאות? מכיוון שלא נמסרו נתונים לגבי תהליך הזיהוי במקרה זה, אסביר את הנושא בעזרת מקרה אחר, בעזרתו אדגים את תפקידה של הסטטיסטיקה בתהליך.

רצח דיאנה סילבסטר

דיאנה סילבסטר, אחות במקצועה, נרצחה בדירתה בסן פרנציסקו מספר ימים לפני חג המולד ב-1972, לאחר שנאנסה באכזריות. אישה ששהתה בדירה אחרת בבניין שמעה צעקות, ולאחר המתנה של כעשרים דקות החליטה לצאת מדירתה ולבדוק מה קורה. היא ראתה כי דלת דירתה של סילבסטר פתוחה, ואדם שעמד בפתח הדירה. לשאלתה ענה לה כי "אנחנו עושים אהבה", ולאחר מכן הלך לדרכו. האישה נכנסה לדירה ושם מצאה את גופתה העירומה של סילבסטר. המשטרה הוזעקה, האישה מסרה את עדותה כולל תיאורו של האדם שראתה. מגופתה של דיאנה נלקחו דגימות זרע, בין היתר. לאחר מספר ימים עצרה המשטרה אדם חסר בית שתיאורו התאים לתיאור שמסרה העדה כחשוד ברצח. המשטרה לא הצליחה למצוא ראיות מספיקות נגד החשוד והוא שוחרר. חשוד זה, אגב, הורשע באונס מספר חודשים לאחר מכן. נבדקו עוד כעשרים חשודים נוספים, אך לא בוצעו מעצרים נוספים. תיק הרצח, ובתוכו דגימות הזרע, נגנז והועבר לארכיון.

בשנת 2003, לאחר שפותחה טכנולוגיה לניתוח והתאמה של דגימות DNA, בדקה משטרת סן פרנציסקו האם יש התאמות בין דגימות DNA שנאספו ונשמרו במקרי רצח לא פטורים ובין דגימות DNA במאגר של עברייני מין שהורשעו במדינת קליפורניה. אמנם ה-DNA שנאסף מגופתה של סילבסטר לא נשמר היטב, ומתוך 13 האללים המשמשים לזיהוי (פרטים בהמשך) ניתן היה לקבל אינפורמציה רק על 5.5 אללים, עם זאת, נמצא במאגר אדם עם DNA התואם את אותם 5.5 אללים. אדם זה, ג'ון פאקט, נעצר כחשוד ברצח, הועמד לדין והורשע.

איך מבצעים התאמת DNA?

ההסבר שאתן מאוד פשטני ולא מדוייק, אך הוא מספיק לצורך הדיון בבעיה הסטטיסטית. DNA הוא מולקולה, שרשרת של חלבונים, הנמצאת בכל תא בגוף. כל התכונות הביולוגיות של האדם נקבעות על ידו. ה-DNA מתחלק ליחידות שנקראות אללים. יותר מ-99.9% מה-DNA זהה אצל כל בני האדם. השונות בין בני אדם (נניח צבע עיניים) נקבעת על ידי שאר ה-DNA. למרות הזהות של99.9% מה-DNA בין כל בני אדם, אין למעשה שני אנשים עם DNA זהה לחלוטין, אלא אם הם תאומים זהים.

מבחינה משפטית ופלילית, זיהוי של אדם נקבע על ידי 13 אללים ספציפיים. כדי לבדוק האם שתי דגימות DNA נלקחו מאותו אדם, משווים את 13 האללים בין שתי הדגימות. אם אין התאמה אפילו באלל אחד מבין השלושה עשר – מדובר בשני אנשים שונים. מצד שני, אם הדגימות נלקחו משני אנשים שונים – הסיכוי כי תהיה התאמה מלאה בין כל 13 האללים נמוך מאוד. עד כמה נמוך? יש כל מיני הערכות לכך. לפי ה-FBI, ההסתברות לכך היא בערך 1 ל-13 מיליארד.

ההשוואה מתבצעת על ידי השוואת שני גרפים המתקבלים מעיבוד דגימת ה-DNA במכשיר ייחודי. הגרף דומה לגרף המתקבל מדגימת א.ק.ג. 13 האללים המדוברים מתבטאים בגרף כ-"פיקים". ההשוואה נעשית בדרך כלל "לפי העין" על ידי מומחים בתחום.[1] לדוגמא אני מביא כאן גרפים של שתי דגימות DNA ממשפט אחר[2] מה דעתכם? האם יש זהות בין שתי הדגימות?

 

 

 

 

 

המומחים המטעם התביעה באותו משפט אמרו שכן. הטענה נדחתה על ידי השופט שטעה טעות סטטיסטית שאינה קשורה לניתוח ה-DNA עצמו.

אציין גם הקביעה שזיהוי אדם מתבסס של 13 האללים האלה מתבססת על הנחות ביולוגיות/גנטיות וכן על הנחות סטטיסטיות. לא אכנס כאן לדיון מפורט בעניין משתי סיבות: ראשית, אני לא ממש מתמצא בנושא, ושנית, במקרה של הנחות אחרות היה נקבע קריטריון זיהוי אחר, אבל הבעיה הסטטיסטית של הרשעה על ידי זיהוי DNA נשארת אותה בעיה.

משפט הרצח

במקרה הרצח של סילבסטר הייתה כאמור רק התאמה חלקית, בגלל תהליך ההתפרקות של דגימת הזרע במשך 30 השנים בהן הוא נשמר בארכיון. התובע במשפט ציין שההסתברות כי תהיה התאמה כזו בין שתי דגימות DNA שנלקחו משני בני אדם שונים נאמדה כ-1 ל-1.1 מיליון, ואני מניח כי נתון זה נכון. השופט החליט כי במשפט לא יובאו מומחים שידונו בפרשנות של ההסתברות שהתובע ציין להתאמת ה-DNA ובהשלכות הנובעות מכך, ובפרט לא הוצגו עדויות של סטטיסטיקאים מטעם ההגנה, וכפי שנראה מייד, היה להם מה לומר. כמו כן, הוא החליט כי לא המושבעים לא יקבלו מידע על הדרך בה אותר החשוד. הם הונחו לשקלל את הנתון על הסתברות ההתאמה עם עדויות "רגילות". עדת הראיה שראתה ככל הנראה את הרוצח כבר מתה. בפני המושבעים הוצגו, פרט לנתון של 1 ל-1.1 מיליון, תיאור של שלושת מקרי האונס בהם הורשע פאקט בעבר ותמונה ישנה של הנאשם משנות השבעים בה הוא נראה דומה לתיאור של הרוצח שמסרה העדה. במהלך הדיונים ביקשו המושבעים מהשופט כי יימסר להם עוד מידע לגבי האופן שבו הגיעו אל החשוד בעזרת דגימת ה-DNA, אך השופט סירב למסור אינפורמציה זו. הנאשם, כאמור, הורשע ברצח.

ניתוח סטטיסטי

הניתוח שאתאר כאן מתייחס רק לראיית ה-DNA, ואינו לוקח בחשבון ראיות אחרות. כדי לקבוע אשמה יש לשקלל, כפי שטען השופט בצדק, את הראיה הזו עם הראיות האחרות שהוצגו במשפט. אם זאת, אני טוען כי האופן בו הוצגה ראיית ה-DNA למושבעים היה מטעה, והשופט שגה בכך שלא הרשה לצדדים להציג את טיעוניהם, ולכן גרם לכך שהמושבעים יפרשו את הנתון הזה באופן שגוי.

טיעוני התביעה

המסר של התביעה בעניין התאמת ה-DNA היה פשוט: הסיכוי שתהיה התאמה בין שתי הדגימות הוא 1 ל-1.1 מיליון. לכן השתמע מדברי התובע כי הסיכוי שפאקט אינו הרוצח הוא 1 ל-1.1 מיליון. זה לא נכון. זוהי ההסתברות כי אם נבחר שני בני אדם באופן מקרי תהיה ביניהם התאמה באותם 5 וחצי אללים ספציפיים. זה נכון גם כאשר נשווה את ה-DNA שלי ל-DNA שלך.

ההסתברות שהתביעה צריכה להציג היא הסתברות מותנית: ההסתברות שהנאשם הוא הרוצח כאשר ידוע לנו כי קיימת התאמת DNA. זה נראה פשוט, אבל צריך להיזהר: בהחלט ייתכן כי הנאשם אינו הרוצח גם אם קיימת התאמת DNA. ייתכן כי יש אדם נוסף שקיימת בינו ובין דגימת ה-DNA התאמה, ואולי אפילו יותר מאחד, ואם כך, ייתכן כי האדם הנוסף הזה הוא הרוצח. וזה מה שההגנה התכוונה לטעון.

טיעוני ההגנה (שלא הוצגו למושבעים)

למעשה היו להגנה שני טיעונים עיקריים. ראשית הם טענו כי יש עדויות אמפיריות וחישוביות לכך שהתאמת DNA חלקית נפוצה למדי. הם הסתמכו על מחקר שנערך באריזונה. חוקרת בשם קתרין טרויר בדקה כ-65,000 דגימות DNA. היא מצאה 122 זוגות של דגימות בהם הייתה התאמה ב-9 אללים, ו-20 זוגות בהם הייתה התאמה של 10 אללים. ההסתברויות להתאמות כאלה הרבה יותר קטנות מ-1.1 מיליון. סביר להניח כי במדגם כזה יימצאו אפילו יותר זוגות תואמים ב-5.5 אללים.

קל לחשב את ההסתברות הזו. זוהי למעשה בעיית ימי ההולדת. הקוראים הוותיקים שלי יודעים כי אם בחדר אחד מתאספים 23 איש, ההסתברות כי יהיה בחדר זוג אנשים שחולקים יום הולדת משותף גדולה מ-50%. בבעיית התאמת ה-DNA, מוחלף יום ההולדת בפרופיל ה-DNA. בבעיית ימי ההולדת ההסתברות ששני בני אדם יחלקו יום הולדת היא 1 ל-365. כל מה שצריך זה להחליף את ההסתברות להתאמת ימי הולדת בהסתברות להתאמת DNA ולערוך את החשבון.  ההסתברות היא כמעט 1. למעשה, ההסתברות כה קרובה ל-1 עד כדי כך שתכנת R בה השתמשתי לחישוב נתנה את התוצאה 1, מכיוון שרמת הדיוק המקסימלית שלה היא רק כ-300 ספרות לאחר הנקודה העשרונית. ה-DNA שנלקח מזירת הרצח נבדק מול מאגר DNA שהכיל כ-338000 דגימות של עברייני מין מורשעים, גברים לבנים, שהיו מבוגרים מספיק כדי לבצע את הרצח בשנת 1972. אפשר לומר בביטחון כמעט מוחלט שיש ביניהם שני אנשים שה-DNA שלהם תואם ב-5.5 אללים. אז לכאורה אפשר לומר שסביר מאוד כי תימצא התאמה בין ה-DNA של פאקט ובין הדגימה שנלקחה מזירת הרצח. אבל רק לכאורה, כי גם האמירה הזו אינה נכונה. אנחנו חישבנו את ההסתברות כי יימצא זוג אנשים כלשהו שביניהם יש התאמת DNA. השאלה הנכונה היא מה ההסתברות כי במאגר יימצא אדם שה-DNA שלו תואם ל-DNA שנלקח מזירת הרצח.

גם בשאלה הזו דנתי בפוסט על בעיית ימי ההולדת[3], וההגנה ביקשה להציג את ההסתברות הזו בפני המושבעים. הטיעון שלהם השתמש באנלוגיה של הגרלה (כגון הגרלת מפעל הפיס). האנלוגיה לכרטיס הגרלה היא אדם כלשהו, וה-DNA מזירת הפשע הוא המספר הזוכה. אם אתה קונה כרטיס אחד להגרלה שבה יש 1.1 מיליון כרטיסים, הסיכוי כי תזכה הוא 1 ל-1.1 מיליון. אם אתה קונה שני כרטיסים, הסיכוי שלך לזכות הוא 2 ל-1.1 מיליון, וכן הלאה. המשטרה בדקה מאגר של 338000 דגימות. הם קנו 338000 כרטיסים. הסיכוי שלהם לזכות הוא לכן 338000 ל-1.1 מיליון, שזה בערך 0.31. ההגנה טענה לכן כי הסיכוי שיימצא במאגר מישהו שה-DNA שלו מתאים לדגימה הוא בערך 1 מתוך 3. פאקט החזיק למזלו (הרע) בכרטיס הזוכה. לכן, גם אם זכה, אין למהר להסיק כי הוא הרוצח. ייתכן והיו מוצאים מישהו אחר. הסיכוי שימצאו מישהו הוא 30%.  יותר מכך: במטרופולין סן פרנציסקו גרים מעל 3 מיליון איש, כמחציתם גברים. גם אם ניקח בחשבון רק את הגברים הלבנים שהינם די מבוגרים כדי לבצע את הרצח 30 שנה קודם לכן, חייב להיות שם מישהו עם DNA תואם לדגימה[4]. אבל גם החישוב הזה לא מדוייק.

החישוב האחרון מניח כי לכל אדם במאגר יש DNA שונה מזה של כל האחרים. שוב, ההנחה הזו לא נכונה. למעשה ראינו כי ההסתברות שיש במאגר שני אנשים עם DNA תואם ב-5.5 אללים היא כמעט ודאית.

כמו כן, ייתכן כי יש במאגר 2, 3 או אפילו יותר אנשים עם DNA תואם לדגימה. זו לא בעיית מפעל הפיס. זו בעיית לוטו. ה-DNA של כל אדם הוא המספרים שבחר. בהגרלת לוטו ייתכן מאוד כי שני אנשים ייבחרו את אותם המספרים, ופעמים רבות הפרס הראשון מתחלק בין מספר זוכים. אותנו מעניינת ההסתברות כי יהיה לפחות זוכה אחד.

אפשר לחשוב על הבעיה גם באופן הבא: יש לכם מטבע שהסיכוי שלו ליפול על עץ הוא 1 ל-1.1 מיליון. אתם מטילים אותו 338000 פעמים. מה הסיכוי כי המטבע ייפול פעם אחת על עץ? מה הסיכוי כי הוא ייפול על עץ יותר מפעם אחת? מה הסיכוי כי הוא לא ייפול על עץ אפילו פעם אחת (כלומר 338000 פעמים תקבלו פלי)? אפשר לחשב את הסיכויים האלה על ידי שימוש בהתפלגות פואסון, או בניסוח יותר מדוייק, הקירוב הפואסוני להתפלגות הבינומית, כאשר הפרמטר של ההתפלגות הוא 0.31. כאשר עורכים את החישוב מקבלים כי ההסתברות שהמטבע ייפול על עץ בדיוק פעם אחת, כלומר יש בדיוק אדם אחד במאגר אשר ה-DNA שלו מתאים לדגימה מזירת הפשע, היא 0.226. ההסתברות כי במאגר לא יימצא אפילו אדם אחד עם DNA תואם היא 0.736, וההסתברות כי יש במאגר לפחות אדם אחד עם DNA תואם לדגימה מזירת הפשע היא לכן רק 0.265 ולא 0.31 כפי שההגנה רצתה לטעון. יותר קרוב ל-1 מתוך 4 מאשר ל-1 מתוך 3, אך עדיין הסתברות גבוהה למדי.

המשמעות של התוצאה הזו כי יש הסתברות של מעל 25% כי הנאשם זכאי בהינתן ההתאמה בין ה-DNA שלו ובין ה-DNA שנלקח מזירת הפשע, ולא 1 ל-1.1 מיליון, כמו שהתובע רצה שהמושבעים יחשבו. לדעתי החישוב הזה מספיק כדי לעורר ספק סביר.

גישה בייסיאנית

יש עוד דרך להסתכל על הבעיה. אני לא חסיד של הגישה הזו, אבל אציג אותה בכל זאת. הבעתי בהרחבה את דעתי על הגישה הזו בפוסט שעסק במה שכונתה "מכונת האמת המוחלטת".

הדיון עד כה נערך תחת ההנחה שהנאשם זכאי, כפי שמקובל במערכות משפט במדינות דמוקרטיות. ראינו כי תחת ההנחה הזו ההסתברות כי הנאשם אשם היא כ-74%. אבל, מה הסתברות שתהיה התאמת DNA תחת ההנחה שהנאשם אשם? התשובה לשאלה הזו היא כמובן 100%, כלומר 1.

כזכור, אנחנו מתעניינים בהסתברות כי הנאשם אשם בהינתן התאמת ה-DNA. כאן המקום לקרוא לדגל את נוסחת בייס:

 

 

 

 

 

 

ולאחר שעשינו את כל התרגיל הזה, כל מה שצריך זה להציב בנוסחה את ההסתברות שהנאשם אשם ואת ההסתברות המשלימה שהנאשם זכאי, ולהחליט האם התוצאה מעלה ספק סביר.

הנה הבעיה שלי: אם הנאשם אשם, ההסתברות שהוא אשם, לדעתי לפחות, שווה ל-1, ואז אם נציב את זה בנוסחה נקבל 1. ואם הנאשם זכאי, אז לדעתי ההסתברות שהוא אשם היא אפס, ואם נציב את זה בנוסחה נקבל אפס. זה לא ממש עוזר.

כאן יבוא הסטטיסטיקאי הבייסיאני ויאמר לכם כי ההסתברות שהנאשם אשם היא הסתברות סובייקטיבית, והיא למעשה ביטוי לרמת האמונה האפריורית שלנו כי הנאשם אשם (או זכאי). כאמור, אני לא מקבל את הטיעון הזה. לדעתי עלינו להניח כי הנאשם זכאי עד שתוכח אשמתו. במילים אחרות, אני אומר לסטטיסטיקאי הבייסיאני כי עליו להאמין מראש כי ההסתברות שהנאשם אשם היא אפס, ומכאן אני ממשיך את הטיעון ואומר כי כל התרגיל הזה חסר משמעות.

אבל יש מי שחושבים אחרת. יבוא מישהו ויגיד: "אני לא יודע אם הוא זכאי או אשם, ולכן אציב בנוסחה את הערך 0.5 להסתברות כי הנאשם אשם". החישוב ייתן לכן כי ההסתברות שהנאשם אשם בהינתן התאמת ה-DNA היא בערך 57.5%. אבל יכול לבוא מישהו אחר ולומר כי הנאשם ביצע בעברו שלושה מעשי אונס הדומים לאונס שבוצע בנרצחת סילבסטר, ולכן הוא מאמין כי ההסתברות שהנאשם אשם היא 0.75 (למה? ככה). עכשיו החישוב ייתן תוצאה של 80%. ספק סביר? אני לא יודע אבל מניח שכן.  ברור שככל שנאמין יותר באשמת הנאשם, כך נקבל כי ההסתברות שהוא אשם בהינתן התאמת ה-DNA גבוהה יותר. במילים אחרות: אם מאמינים שהנאשם אשם מסיקים כי הוא אשם.

במקום אחר ברשת נתקלתי בטיעון בייסיאני אחר, שטוען כי יש לקחת בחשבון את ההסתברות כי הרוצח נמצא בכלל בתוך המאגר של 338000 הדגימות. אם ההסתברות כי הרוצח נמצא בתוך המאגר שווה לאפס, אז ברור כי הנאשם זכאי. אם ההסתברות הזו שווה ל-1, אז הנאשם אשם (בהנחה שאין עוד אדם במאגר שה-DNA שלו תואם לדגימה מזירת הרצח). מה קורה אם ההסתברות הזו נמצאת איפשהו בין אפס לאחד?

אם נסמן את ההסתברות הזאת ב-x, ונזכור כי ההסתברות שהנאשם אשם אם הרוצח לא נמצא במאגר היא בערך 0.27, נקבל בעזרת נוסחת בייס כי ההסתברות שהנאשם אשם היא:

 

 

ואנחנו שוב עומדים בפני השאלה: מהי ההסתברות כי הרוצח נמצא במאגר? במילים אחרות: מה ההסתברות כי הרוצח הוא מישהו שהורשע בעבירת מין נוספת/אחרת בקליפורניה ונלקחה ממנו דגימת DNA? עד כמה הידיעה כי ה-DNA של החשוד שנעצר זמן קצר לאחר הרצח ושוחרר לא נצא במאגר (כי הוא מת לפני שהחלו באיסוף דגימות DNA מעבריינים מורשעים)[5] תשפיע על ההערכה שלכם ל-x?

כמו קודם – הניתוח הזה לא מוביל אותנו לשום מקום, כי אין לנו שום דרך אמינה לאמוד את x.

סיכום

זיהוי רוצחים או פושעים אחרים על ידי השוואת דגימות DNA שנלקחו מזירת הפשע למאגרי DNA הוא בעייתי, וטמן בחובו בעיות סטטיסטיות לא פשוטות, וזאת בנוסף לבעיות משפטיות ואחרות.

לקריאה נוספת

 


הערות
  1. אני מניח כי במשך הזמן פותחו שיטות יותר אובייקטיביות להשוואה או שלפחות נעשה מאמץ לפתח שיטות כאלה. []
  2. הגרפים נלקחו מהספר Math on Trial. ראו הפניות לקריאה נוספת בסוף הפוסט. []
  3. זוכרים מה קרה לג'וני קארסון? []
  4. או באופן יותר מדוייק: ההסתברות כי יש שם אדם כזה גבוהה []
  5. איש לא העלה בדעתו להוציא את הגופה מהקבר ולקחת ממנה דגימת DNA []

איך נדע האם המכוניות האוטונומיות בטיחותיות

התאונה הקטלנית של אובר

העולם גועש בימים האחרונים בעקבות תאונת הדרכים הקטלנית בה היה מעורב רכב אוטונומי של חברת אובר. התאונה הציתה ויכוחים שונים והעלתה נושאים ישנים לדיון מחודש. מתנהל למשל ויכוח בשאלה מי אשם בתאונה. התשובה, כמובן, תלויה במי שעונה לשאלה (אני לא מביע את דעתי בנושא הזה, ומבקש מכל מי שרוצה להביע את דעתו, שלא יעשה את זה בתגובות לפוסט הזה. זה לא המקום). הרשת התמלאה בשמועות על כך שנושא בטיחות המכוניות האוטונומיות אינו בעדיפות עליונה אצל חברת אובר. כמו כן ניצתו מחדש דיונים בתחום האתיקה שאמורה להדריך (אולי) את מתכנני המכוניות האוטונומיות. כך למשל, דפנה מאור, במאמר בעיתון דה-מרקר, שואלת שאלות חשובות במאמר עם הכותרת הפרובוקטיבית "האם תסכימו להידרס על ידי רובוט?" אמיתי זיו ענה לה שאם יידרס, אז הוא מעדיף להידרס על ידי מכונית אוטונומית (לא ברור לי למה זה משנה לו). אתם מוזמנים לקרוא את המאמרים האלה ומאמרים אחרים ולנהל דיונים ביניכם (אם כי, אני שוב מבקש להימנע מלנהל את הדיון הזה כאן בבלוג).

עוד כתבה מעניינת בדה-מרקר נשאה את הכותרת "אחת החולשות העיקריות של מכוניות אוטונומיות היא זיהוי הולכי רגל". הכותרת היא ציטוט של דברים שאמר אחד המרואיינים בכתבה, דני עצמון (שהינו בעל חברה המפתחת סימולטורים שנועדו לאמן ולשפר את היכולת של מערכות אוטונומיות ברכבים).

עצמון אמר דברים מעניינים נוספים. אני מצטט:

מכון ראנד האמריקאי ביצע בדיקה סטטיסטית שבאמצעותה קבע "רף נהיגה אנושי". "הם לקחו את על ההרוגים בתאונות בארה"ב ב-2015 וחילקו במספר המיילים שנסעו – וגילו שיש 1.1 הרוגים על כל 100 מיליון מיילים של נסיעה. זה הוגדר הרף האנושי – הביצועים של האדם די טובים… המכון חישב ומצא שכדי שמערכות אוטונומיות יגיעו לאותם ביצועים כמו של בני אדם בביטחון של 95%, עליהן לנסוע 11 מיליארד מייל. "בשנה שעברה כל החברות שעוסקות בתחום הזה בארה"ב נסעו ביחד בערך 4 מיליון מייל.

אז בואו נדבר על הסטטיסטיקה.

הסטטיסטיקה של תאונות הדרכים

אני חושב שכולכם תסכימו שככל שנוסעים יותר, יש יותר אינפורמציה על הסיכון לתאונות. אני למשל, לא הייתי מעורב באף תאונת דרכים עם נפגעים בשנתיים האחרונות. מצד שני, אני בקושי נוהג שתי נסיעות קצרות בעיר בכל שבוע[1] שמסתכמות אולי ב-15 קילומטר, שהם קצת פחות מ-800 קילומטר בשנה. ככל שנוסעים יותר, הסיכון להיות מעורב בתאונת דרכים גדל. נכון שהסיכון שונה מנהג לנהג, יש נהגים יותר זהירים ויש כאלה שפחות, אבל העיקרון ברור. לכן יש הגיון בחישוב של מכון ראנד שלוקח את מספר ההרוגים ביחס לכמות הנסועה. מייד אסביר את העקרונות של החישוב, ואציג כמה חישובים משל עצמי.

לפני שאתחיל בחישובים, אציג כמה נתונים שפירסמה הלשכה המרכזית לסטטיסטיקה. בשנת 2015 היו בישראל 12122 תאונות עם נפגעים, מתוכן 292 תאונות קטלניות, 1558 תאונות עם פצועים קשה, ו-10272 תאונות עם נפגעים בדרגת פציעה בינונית או קלה. בתאונות האלה נהרגו 322 איש, 1796 איש נפצעו קשה, ו-20046 איש נפצעו בינוני או קל. ומכאן שהיו תאונות קטלניות בהן היה יותר מהרוג אחד, והוא הדין לגבי הנפגעים האחרים. לכן אתייחס בהמשך למספר התאונות ולא למספר הנפגעים.

האם המספרים האלה גבוהים או נמוכים? תלוי איך מסתכלים על הנתונים. אל תטעו. לדעתי כל תאונה היא טרגדיה. עם זאת, לפעמים צריך להסתכל על המספרים עצמם, וזאת כדי שיהיה אפשר לקבל החלטות מושכלות. כמו שדני עצמון הסביר, צריך להסתכל גם על הנסועה – שהיא סך כל הנסיעות שנסעו כלי הרכב במדינה.[2]. לפי נתוני הלשכה המרכזית לסטטיסטיקה, הנסועה בישראל בשנת 2015 הייתה 54,820 מיליון ק"מ, כלומר כמעט 55 מיליארד ק"מ. מכאן אפשר לחשב כי על כל מיליון ק"מ של נסועה היו בשנת 2015 היו בישראל 0.00533 תאונות קטלניות. זה נראה כמו מספר יותר קטן, אבל זה רק עניין של קנה מידה. באותו אופן ניתן לחשב כי בישראל היו 0.02842 תאונות דרכים עם פצועים קשה (אך ללא הרוגים) לכל מיליון ק"מ, ו-0.18737 תאונות שבהן היו פצועים בינוני או קל (אך לא פצועים קשה ולא הרוגים). בסך הכל היו בישראל 0.22295 תאונות עם נפגעים לכל מיליון ק"מ של נסועה.

הסטטיסטיקאים מכנים את המספרים המתארים את מספר התאונות למיליון ק"מ בשם "קצב התאונות" (או rate באנגלית). זה מדד כללי המתאר את מספר האירועים ליחידת מדידה (בדרך כלל זמן, אך כפי שראיתם, יש גם יחידות מדידה אחרות). דוגמא נוספת[3] לנתונים כאלה יכולה להיות המספר הממוצע של גידולים ממאירים חדשים המתגלים במשך חודש. לפני נתוני הלמ"ס, בשנת 2013 היו בישראל בסך הכל 13546 גברים אצלם התגלו גידולים ממאירים חדשים. זה אומר שקצב הופעת הגידולים החדשים היה בקירוב 1128.8 בחודש.

איך להעריך את רמת הבטיחות של המכוניות האוטונומיות?

עכשיו, כאשר הבנו את הנתונים האלה ומשמעותם, אנחנו יודעים איך להעריך את הבטיחות של המכוניות האוטונומיות. צריך לחשב מהו קצב התאונות שלהן, ולהשוות אותו לקצב של המכוניות ה-"רגילות".

כאן אנחנו נתקלים בבעיה הראשונה: אין נתונים. אנחנו יודעים כי הנסועה הנוכחית של המכוניות האוטונומיות היא בערך 4 מיליון מייל, אבל לא יודעים כמה תאונות היו. לכן אנחנו גם לא יודעים האם מספר ההרוגים עד כה (1) הוא גבוה או לא. מה שאנחנו כן יכולים להגיד במידה רבה של בטחון הוא שגודל המדגם קטן מדי. לפי גודל המדגם הנוכחי האומדן שלנו לקצב התאונות הקטלניות של המכוניות האוטונומיות הוא 0.15385 למיליון ק"מ, כמעט פי 29 מהנתון המקביל של ישראל בשנת 2015. עם זאת, יש לסייג את הדברים ולומר כי האומדן הזה מאוד לא מדוייק, שוב, בגלל גודל המדגם הקטן.  רווח הסמך לקצב, ברמת סמך של 95%, הוא 0.0053 עד 0.5535. זה אומר שייתכן מאוד שקצב התאונות הקטלניות של המכוניות האוטונומיות דומה לקצב של ישראל. שוב, ככל שיצטברו יותר נתונים, האומדן יהיה מדוייק יותר, ובהחלט יכול להיות שב-4 מיליון המייל הבאים לא תהיה אף תאונה קטלנית, ואז אומדן הקצב יקטן ב-50%.

רבים טוענים כי המכוניות האוטונומיות הינן בטוחות יותר ממכוניות רגילות, ואני נוטה להסכים איתם באופן חלקי (אם כי, כמו תמיד, אלוהים מצוי בפרטים הקטנים – ראו שוב את מאמרה של דפנה מאור). אך טענות צריך לגבות בנתונים, וכאמור, אין לנו מספיק נתונים. לכן השאלה שצריך לשאול היא: כמה נתונים צריך כדי שנוכל לומר משהו אינטליגנטי ומגובה בנתונים על הבטיחות של המכוניות האוטונומיות?

כפי שכבר הבנתם, הסטטיסטיקאים של מכון ראנד כבר ערכו חישוב כזה. אני מודה שאני לא כל כך מבין את הנתון של 11 מיליארד מייל שדני עצמון ציטט, ואני מניח שחלק מהדברים "אבדו בתרגום". בכל מקרה, אני מתכוון להציג כאן את העיקרון שלפיו עורכים את החישובים, ולהציג את התוצאות של החישובים שלי.

מודל להתרחשות תאונות דרכים

קוראיי הוותיקים כבר יודעים: כדי לבצע את החישובים הסטטיסטיים יש צורך במודל הסתברותי. להזכירכם, מודל הוא תיאור של המציאות, שייתכן שאינו מדוייק לגמרי, אבל הוא מספיק טוב כדי לתת תשובה אמינה לשאלה שלנו. כל מודל מתבסס על הנחות. הנחות שונות יובילו למודלים שונים ולתשובות שונות.

המודל שאציג לקצב תאונות הדרכים מתבסס על הנחה יחידה: הפיזור של התאונות לאורך השנה הוא אחיד. במילים אחרות, אין תקופות בשנה שיותר מועדות לתאונות מאשר תקופות אחרות. אפשר כמובן להניח הנחות אחרות, שיגדירו מודלים יותר מסובכים. אני אגביל את עצמי למודל הפשוט, כיוון שהמטרה העיקרית שלי היא להסביר את העקרונות הסטטיסטיים. עם זאת, אני לא חושב שמודל מסובך יותר ייתן תוצאות שונות באופן משמעותי, וזאת לאור הניסיון שצברתי במשך השנים בניתוח נתונים דומים.

מההנחה שלי אפשר, עם קצת מתמטיקה, להסיק כי מספר התאונות בשנה הוא משתנה מקרי פואסוני. שוב קוראיי הוותיקים אולי זוכרים שהמודל הזה וההתפלגות הנובעת ממנו הוזכרו כבר בבלוג. זה המודל בו השתמשו הבריטים כדי לבדוק מה הייתה רמת הדיוק של הטילים שהמטירו עליהם הגרמנים בזמן הבליץ על לונדון. למשתנה מקרי שהתפלגותו היא התפלגות פואסון יש פרמטר אחד בלבד – פרמטר הקצב. בישראל של 2015 קצב התאונות הקטלניות היה כזכור 0.00533 למיליון קילומטר. השאלה המעניינת היא: כמה מיליוני ק"מ צריכות המכוניות האוטונומיות לנסוע כדי לנוכל לומר על סמך הנתונים כי קצב התאונות שלהם נמוך מקצב התאונות הקטלניות של ישראל באופן משמעותי?  עם קצת מתמטיקה לא מסובכת במיוחד אפשר לפתח נוסחה שנותנת את התשובה. הנה היא, לא להיבהל, תיכף אסביר הכל, ומי שלא מעוניין בהסברים יכול לדלג הלאה, אל המספרים שחישבתי.

חישוב גודל המדגם בהתפלגות פואסון

 

 

 

 

ההסברים: למבדה-אפס (האות שדומה לאות העברית גימל) מייצגת את קצב הבסיס שאליו אנחנו  רוצים להשוות את הקצב מהמדגם. בדוגמא שלנו קצב הבסיס הוא הקצב של תאונות הדרכים הקטלניות בישראל, כלומר 0.00533 תאונות למיליון קילומטר. האות דלתא (שדומה לאות למד בעברית) מייצגת את ההבדל המשמעותי בין קצב התאונות במדגם (כלומר קצב התאונות של המכוניות האוטונומיות) ובין קצב הבסיס. לדוגמא, אם אנחנו חושבים שהבדל משמעותי יהיה ירידה של 10% בקצב התאונות, הרי שאנו מצפים שקצב התאונות של המכוניות האוטונומיות יהיה 0.004797 (90% מ-0.00533), ולכן ההפרש דלתא שווה ל–.000533. שימו לב שההפרש הוא שלילי. אלפא וביתא הן רמת המובהקות והעוצמה, אני אשתמש בערכים של 5% -90% בהתאמה, והאות Z מסמלת ערכים של ההתפלגות הנורמלית, והם שווים ל-1.645 עבור רמת המובהקות ו- -1.282עבור העוצמה. התוצאה שמתקבלת על ידי החישוב, n, היא גודל המדגם הדרוש, שהוא במקרה שלנו, מספר מיליוני הקילומטרים שהמכוניות האוטונומיות צריכות לנסוע.

מה גודל המדגם הדרוש להערכת הבטיחות?

אם נציב את כל המספרים בנוסחה נקבל כי כדי שנוכל לזהות ירידה מובהקת של 10% בקצב התאונות הקטלניות, נצטרך לראות מה קורה אחרי שהמכוניות האוטונומיות ייסעו 9215 מיליון ק"מ, שהם בערך 6 מיליארד מייל. זה אמנם מספר קטן יותר מהמספר שצוטט בכתבה[4], אבל זה עדיין מספר מטורף. (אני נותן כאן קישור לקובץ אקסל שבעזרתו ביצעתי את החישובים. אתם מוזמנים לבדוק עוד תרחישים).

אחת הסיבות שקיבלנו מספר כל כך מטורף היא שהגדרנו ירידה מאוד קטנה כמשמעותית – רק 10%. יש הטוענים כי כשהמכוניות האוטונומיות ייכנסו לשימוש מסחרי קצב התאונות (או מספר התאונות, שזה בעצם אותו דבר), ירד בצורה הרבה יותר משמעותית. אם זה נכון, גודל המדגם יהיה הרבה יותר קטן. על פי אותה הנוסחה, כדי לזהות באופן מובהק ירידה של 50% בקצב תאונות הדרכים הקטלניות, יש צורך בגודל מדגם של כ-471 מיליון מייל, וכדי לזהות ירידה משמעותית של 90% במספר תאונות הדרכים הקטלניות באופן מובהק יש צורך בגודל מדגם של קצת פחות מ-220 מיליון מייל.

החדשות הטובות הן שכדי לזהות ירידה מובהקת של 90% בקצב הכולל של תאונות דרכים עם נפגעים יש צורך בגודל מדגם של קצת יותר מ-5 מיליון מייל, ואנחנו כמעט שם. מצד שני, יש המון חברות שעורכות המון ניסויים, ולא סביר שיוקם מאגר נתונים בו יקובצו הנתונים של כל החברות, שהרי כל חברה רוצה לשמור את הנתונים שלה בסוד מהמתחרות. אז אנחנו לא באמת מתקרבים ליעד של 5 מיליון מייל.

עוד חדשות טובות: הנסועה השנתית בארצות הברית היא קצת יותר מ-3 טריליון מייל, כלומר 3000 מיליארד מייל (או 3 מיליון מיליוני מייל), כך שאם באורח פלא כל המכוניות בארצות הברית יהפכו להיות אוטונומיות, נדע את כל התשובות תוך יום בערך. זה לא יקרה כמובן. אפשר להמשיך ללהטט בחישובים שייקחו בחשבון את קצב חדירת המכוניות האוטונומיות לשימוש, אבל אני אעצור כאן.

מתי נדע האם המכוניות האוטונומיות בטיחותיות?

המסקנה שלי היא שייתכן שנדע יחסית בקרוב (אם תהיה התערבות רגולטורית) האם המעבר למכוניות אוטונומיות יביא לירידה מאוד גדולה (90%) במספר תאונות הדרכים עם נפגעים. אם הירידה קטנה יותר, נצטרך לחכות זמן רב יותר. בקשר לתאונות דרכים יותר חמורות, כאלה עם פצועים קשה או תאונות קטלניות, יעבור עוד המון זמן עד שנדע משהו. מה שיקרה בפועל הוא שמכוניות אוטונומיות ייכנסו לשימוש בלי שיהיה לנו מושג ירוק על רמת הבטיחות שלהן.


הערות
  1. פעם אחת לקניות, ופעם אחת כדי להסיע את הילד לחוג []
  2. לדוגמא, אם 10 מכוניות נסעו מתל אביב לחיפה, מרחק של 100 ק"מ, אז הנסועה הכוללת שלהן הייתה 10×100 כלומר 1000 ק"מ []
  3. תסלחו על על הדוגמאות המדכאות []
  4. אני לא יודע מה היו ההנחות שלהם ומה הם חישבו בדיוק []

קרן נויבך לא מגיבה לביקורת

בעצם, היא הגיבה. גם התעלמות זה סוג של תגובה.

תזכורת: בתאריך 20.2.2018 אירחה קרן נויבך בתכנית שלה ברשת ב אדם בשם גדי. האייטם הפך במהירות מסיפור אישי (שאכן נגע ללב) להתקפה חסרת רסן על כל מדע הפסיכיאטריה. אמנם יש לי בעיה עם ההתקפה הזו, אבל אני מכיר בזכותו של גדי להביע את דעתו הקונטרוברסלית. הבעיה שלי הייתה עם מגישת התכנית, קרן נויבך, שגישתה הייתה חד צדדית לחלוטין, נמנעה שהבעת שמץ של ביקורתיות, ואמרה דברים חמורים (כגון השימוש במילה "גמילה" בהקשר של תרופות פסיכיאטריות, פעמיים).

לאחר שתיארה את האייטם בטוויטר, פניתי אליה בשאלה לגבי האייטם, ונעניתי כי מאחר ולא האזנתי לתכנית לא ראוי כי אמתח עליה ביקורת. קיבלתי את ההערה הזו, האזנתי לתכנית, המתנתי שלושה ימים כדי לעכל את מה ששמעתי (וגם להרגע), וכתבתי את תגובתי המנומקת כאן בבלוג. דרך טוויטר העברתי לנויבך קישור לפוסט שפירסמתי. לא האמנתי שאקבל תגובה, אם כי תיקנתי את האמירה הזו באמירה כי אני מקווה שתתקבל תגובה. בעידוד חברים בטוויטר גם כתבתי מייל לתיבת הדואל של התכנית, וביקשתי התייחסות.

ואכן קיבלתי התייחסות. נויבך התעלמה מכל הפניות שלי אליה דרך טוויטר, ולבסוף השתיקה אותי (mute). גם העורך של התכנית, דדי מרקוביץ, התעלם מהפניות שלי אליו בטוויטר. לפניה שלי במייל קיבלתי לפני יומיים תגובה בלתי עניינית (מייד אביא אותה), שלא התייחסה לטענה על חוסר האובייקטיביות של נויבך, לא לחוסר הביקורתיות שלה, ולא לשימוש השערורייתי שלה במילה "גמילה" בהקשר של טיפול תרופתי. התגובה הייתה חתומה על ידי "צוות התכנית". ביקשתי הבהרה האם קרן נויבך עומדת מאחורי התגובה. נכון למועד כתיבת שורות אלה, לא קיבלתי תשובה לשאלת ההבהרה הזו. מכאן לא נותר לי אלא להסיק כי נויבך אינה עומדת מאחורי התגובה הזו ואינה מוכנה להגיב לביקורת אפילו לא בצורה אנמית.

עם זאת ניכר שיפור מסויים. לתכנית הוזמן ד"ר ירדן לוינסקי, שמתח ביקורת מתונה על הספר "אנטומיה של מגיפה" בבלוג שלו. עם זאת, נויבך לא הייתה מעוניינת לדון בספר שכה המליצה עליו באייטם הקודם. היא גם קטעה את דבריו של ד"ר לוינסקי שבע פעמים במהלך הראיון. כמובן שהפעם היה באייטם "איזון" בדמות ד"ר טוני שחר שמנהל דף פייסבוק ששולל מכל וכל את הטיפולים התרופתיים. היא גם השתמשה בצורה יותר מתונה במילה גמילה, ואמרה הפעם כי זה במרכאות כפולות.

הנה התגובה שקיבלתי במייל

 


ד"ר לוי שלום, קודם כל תודה רבה על התגובה המפורטת ועל האכפתיות וההשקעה. מערכת סדר יום מטפלת באופן מתמשך בנושאים שונים הנוגעים לבריאות הנפש בישראל ובעולם ובתוך זאת גם בסוגיית התרופות הפסיכיאטריות. סוגייה סביבה מתנהל דיון ער ע"י פסיכיאטרים וגורמי מקצוע נוספים מזה מספר שנים. בין השאר קיימנו שיחה בנושא עם פרופ חיים בלמקר ועם דליה וירצברג רופא, שיחה עם "גדי" שסיפר את הסיפור האישי שלו ושל בנו ואתמול דיון נוסף עם ד"ר ירדן לוינסקי וד"ר טוני שחר. בשיחות אלו באו לידי ביטוי עמדות שונות ומגוונות, תוך ניסיון ומאמץ לייצר דיון מורכב. יתכן שלתפיסתך, לא הצלחנו בכך בחלק מן המקרים. אנחנו מבטיחים להמשיך להתאמץ לעשות זאת. זה תפקידנו. אנחנו מודים לך על הערותייך. בברכה, צוות סדר יום


 

אני אתן לצוות התכנית להינות מהספק ואומר כי התגובה הזו מעידה על חוסר הבנת הנקרא. הביקורת שלי לא הייתה על הדברים שנאמרו על ידי "גדי" בראיון[1], אלא על התנהלותה הבלתי מקצועית בעליל של נויבך. התגובה מתעלמת מכך לחלוטין. כמו שאמרתי בהתחלה: גם טמינת הראש בחול זה סוג של תגובה.


הערות
  1. ולא שאין לי ביקורת []

דמוקרטיה או שוק?

מירב ארלוזורוב ירדה מהפסים

רק לפני כמה ימים התבדחתי בטוויטר והצעתי להפריט את הכנסת ולפתוח את שוק החקיקה לתחרות, והנה באה מירב ארלוזורוב ומוכיחה שכל בדיחה, הזויה ככל ששתהיה, על ליברטיאנים היא רק תיאור למה שהם באמת חושבים. כשל שוק בדמוקרטיה, היא כותבת. ירדת לגמרי מהפסים, מירב. תגשי לרופא.

כשל שוק דמוקרטי

 

 

קודם כל, לקחתי צילום מסך, לפני שבדה-מרקר יבינו עד כמה הדברים האלה מחפירים ויעלימו אותם.

ועכשיו התייחסות רצינית.

האמת על הדמוקרטיה ועל חוק ההסדרים

קודם כל: דמוקרטיה זה לא שוק. דמוקרטיה זה ערך. אפשר להתווכח אם זו השיטה השלטונית שמתאימה לנו או לא (לי זה נשמע קצת הזוי, אבל אני יודע שיש הרבה אנשים שחושבים אחרת). בינתיים אנחנו דמוקרטיה, או לפחות קרובים לזה.

בדמוקרטיה אמורה להיות הפרדת רשויות, וזה כולל בין היתר הפרדה בין הרשות המחוקקת – הכנסת, והרשות המבצעת – הממשלה. אנחנו קצת חלשים בזה, זה נכון[1]. אבל חוק ההסדרים הוא חוק בלתי דמוקרטי במיוחד. האם אתם מכירים מדינה דמוקרטית אחרת שיש בה חוק כזה?

אומר כאן דברים חריפים: חוק ההסדרים הוא פוטש של הרשות המבצעת נגד הרשות המחוקקת, שמתקיים, למרבה הצער, תוך כדי שיתוף פעולה של חברי הכנסת מהקואליציה. החוק הזה מנוסח על ידי פקידים, שתפקידם ליישם מדיניות ולא לקבוע מדיניות. החוק הזה מבטל החלטות שהתקבלו בכנסת ועל הממשלה ליישם.

בפועל, הממשלה לא מאפשרת קיום דיון רציני בחוק ובמשמעויות שלו. וכל הפארסה האנטי דמוקרטית הזאת מתקיימת בגלל שהממשלה לא מוכנה לקבל החלטות אמיתיות ולקבוע סדרי עדיפויות.

ניקח למשל את חוק חינוך חובה חינם, שביצועו נדחה כל שנה במסגרת חוק ההסדרים. הממשלה יכולה להחליט שהחוק הזה לא מספיק חשוב, או שהוא חשוב אבל לצערנו מצבנו הכלכלי (שמעולם לא היה טוב יותר!) אינו מאפשר את קיום החוק. אז שיקום שר האוצר, או ראש הממשלה, ורצוי שניהם, ויגידו את זה. אבל זה לא פופוליסטי, ולכן הם מעדיפים לטאטא את זה מתחת לשטיח של חוק ההסדרים.

הכשל העיקרי: חוסר מנהיגות

ואם מדברים על כשלים בדמוקרטיה שלנו, אז הנה הכשל העיקרי: אין לנו היום מנהיגים שבאמת רוצים להנהיג ולקבל החלטות אמיצות, כמו למשל, להטיל מס על טבק לגילגול, וזו רק דוגמה קטנה. וזה מתבטא בהרבה מקומות אחרים.הנה דוגמה הרבה יותר חמורה: קיצוץ רוחבי בתקציב, דבר שהפך להיות מאוד פופולרי בשנים האחרונות. צריך כסף למשהו? "האדם הרציונלי" שהכלכלנים כל כך אוהבים, אמור להחליט על מה הוא מוותר בתמורה לכך שישתמש בכסף למטרה שהוא חושב לראויה. הממשלה, לפי האנלוגיה הזו, צריכה להגדיר סדרי עדיפויות ולקבל החלטות. אבל שוב, זה לא פופוליסטי. עדיף לקצץ קיצוץ רוחבי, ולעזאזל אם הקיצוץ הזה יפגע גם בדברים שנראים חשובים בעיני רוב האזרחים, כמו למשל מערכת הבריאות.

מה שחסר לנו זה לא חוק הסדרים וקיצוצים רוחביים. חסרה לנו מנהיגות. ואת זה אי אפשר להשיג בחוק ההסדרים.


הערות
  1. דוגמה אחת קטנה: החלטות בנושא חקיקה, כלומר החלטות איזה חוק יחוקק ואיזה לא, מתבצעות בועדת השרים לענייני חקיקה ולא בכנסת. הכנסת, או יותר נכון הקואליציה, היא רק חותמת גומי להחלטות שמתקבלות בממשלה []

הערות על חישוב מדד השכירות של הלשכה המרכזית לסטטיסטיקה

ביום שני השבוע, 29.1.208, התפרסמה בגלובס כתבה שדיווחה על טעות מהותית בחישוב מדד השכירות של הלשכה המרכזית לסטטיסטיקה, עליה דיווחה המייעצת שהקימה הממשלה לבחינת מדדי המחירים בשוק הנדל"ן.

הפעם אתחיל מהסיכום

  • הועדה התייחסה בצורה עניינית לנושא אמידת שכר הדירה. אין המלצה לתקן את המדדים לאחור, ואין המלצה לשנות את מתודולוגיית הדגימה. 
  • בניגוד למה שנאמר בכתבה, הועדה לא מתחה ביקורת על המתודולוגיה של הלמ"ס, אלא המליצה על שיפור בעניין ממוקד יחיד במתודולוגיה.
  • הפער שדווח בכתבה אינו בין נתוני הועדה ונתוני הלמ"ס, אלא בין נתוני הלמ"ס ונתונים של ד"ר רז-דרור, שאיני מזלזל בכישוריו.עם זאת, לא ברור מהי המתודולוגיה בה ד"ר רז-דרור השתמש כדי לאמוד את גובה שכר הדירה. כמו כן, נתוניו ככל הנראה פחות מדוייקים עקב מדגם קטן יחסית.
  • הפער בין הנתונים של הלמ"ס והנתונים של ד"ר רז-דרור נמוך ממה שדווח בכתבה. הפער שעלול לנבוע בין ערכו של מדד המחירים לצרכן כפי שדווח ובין ערכו התיאורטי, בהנחה שהנתונים של רז-דרור נכונים ומדוייקים, הוא זניח ולא מדווח בכתבה.
  • הקביעה של דרור מרמור כי הטעות של הלמ"ס היא "חלמאית" הינה לחלוטין חסרת בסיס. הפרשנות של מעמירם ברקת על "תיבת הפנדורה" שתיפתח מבוססת על המידע המטעה בכתבה של דרור מרמור, ויש להתייחס אליה בהתאם. ההתנפלות של סטלה קורין-ליבר על המועצה הציבורית לסטטיסטיקה (שאני מכיר אישית את רוב החברים בה) מתבססת אף היא על הקביעות הלא מדוייקות של מרמור, ואינה מביאה שום טענה עניינית. איתן כבל מיהר לגזור קופון פוליטי (לפחות הוא סייג את דבריו והתנה אותם בכך שמרמור צודק בדברים שכתב – הוא לא).

מה בדיוק קרה?

הנה ציטוטים מהכתבה:

"מדד שכר הדירה של הלמ"ס, המהווה 5.7% ממדד המחירים לצרכן (האינפלציה), כלל במשך השנים טעות מובנית וכמעט חלמאית, שהטתה בפועל את המחירים בשוק השכירות באחוזים ניכרים כלפי מטה. תיקון הטעות לאחור יעלה בדיעבד גם את מדד המחירים לצרכן, וישנה את חישובי האינפלציה בשנים האחרונות… מאז 2008 נוצר פער של כ-25% בין שני סוגי המדידה. לפי החישובים החדשים, מאז 2008 עלה מדד שכר הדירה בכ-65%, לעומת עלייה כוללת של 40% לפי מדד שכר הדירה הישן, תוספת שמגלמת יותר מאחוז אינפלציה בעשור האחרון"

הכתבה ממשיכה:

"לכל מי שמכיר את שוק הדיור ברור כי דווקא חילופי שוכרים מהווים לא פעם הזדמנות להקפצת המחירים – ללא שום ביטוי לכך במדד. לפי הדוח, בדיקה שנערכה בעבר בלמ"ס העלתה ששוכרים שהחליפו דירות שילמו בממוצע 6.6% יותר משוכרים שנשארו בדירותיהם"

הכתב דרור מרמור מביא ציטוטים מדו"ח הועדה המייעצת:

"בשוק המצוי במגמה של עליית מחירים, צפויה הטיה כלפי מטה במדד שכר הדירה, הואיל וחלק מהדיירים עוברים לדירה אחרת בשל דרישה לדמי שכירות גבוהים יותר. ..לחילופין, בשוק המצוי במגמת ירידת מחירים, ההטיה עשויה להתרחש כלפי מעלה, שכן המשכיר עשוי להוריד את שכר הדירה בעת התחלפות דיירים כדי להימנע ממצב שבו הדירה נותרת ריקה"

עוד ממשיך הכתב ומסביר:

"מאז 1999 מדד מחירי הדירות (מכירה) אינו חלק ממדד המחירים לצרכן, ובמקומו מחושב השינוי במחירי שכר הדירה. בלמ"ס מדגישים כי ההטיה המוטעית לא השפיעה על כל מרכיב הדיור בשכירות, התופס נתח משמעותי של כ-24% בתוך מדד המחירים לצרכן, אלא רק על אותם 5% מהמדד שבוצעו באמצעות החישוב המוטה (החישוב המשלים מתבסס על מחירים ממוצעים)"

לכתבה עצמה נלוו גם טורי פרשנות ותגובות שעסקו באפוקליפסה של טעות החישוב שדווחה. עמירם ברקת כותב על העדכון שפותח תיבת פנדורה. סטלה קורין ליבר כותבת על המחדל של מדד הלמ"ס: בכירים שבבכירים לא עשו את עבודתם. ח"כ איתן כבל הכריז כי לחשיפה על טעות הלמ"ס יש השפעה דרמטית, וקרא לכנס את כל גורמי המקצוע בתחום הדיור כדי להבין את חישוב הנתונים השגוי של הלמ"ס.

בכתבה של גלובס הובאה תגובתו של דורון סייג, מרכז הוועדה מטעם הלמ"ס:

"הלמ"ס החלה בבדיקות לאמידה מדויקת וטובה יותר של ההטיה. לדברי סייג, "הפער שנמצא על ידי רז דרור, בשיעור של 25%, לא חושב על ידי הלמ"ס ואנחנו מבצעים כעת בדיקה טובה יותר. כרגע מדובר בבדיקה ראשונית, אבל לנו נראה שהפער שיימצא בסוף בין המדד שהוצג למדד החדש יהיה נמוך יותר".

ב-Ynet, מובאת תגובה נרחבת יותר מטעם הלמ"ס[1]:

"(אנשי המקצוע) מודעים לאי הדיוק בחישוב של מדד שכר הדירה הנכלל במדד המחירים לצרכן, והסבירו זאת בקשיי איסוף נתונים אודות שוכרים חדשים, אך עם זאת טענו כי מדובר בהשפעה מינורית: מבדיקות שונות שביצענו עולה שהשפעת שכר הדירה של שוכרים חדשים על מדד המחירים לצרכן זניחה. מסקנה זאת מוסברת בין השאר בכך שמדובר על 5.7% ממדד המחירים לצרכן וקבוצת השוכרים החדשים מהווה על סמך בדיקות ראשוניות שערכנו לא יותר מאשר 20% מתוך אוכלוסיית השוכרים"

כמו כן הסבירו כי בניגוד לנטען בפרסומים השונים, הודיעו על בדיקת הנתונים לאחור ולא על תיקונם לאחור.

עם זאת, בלמ"ס לא פסלו כי יוחלט לתקן את המדד בהמשך ואמרו: "עם סיום תוצאות הבדיקות וטיוב הנתונים לגבי שוכרים חדשים, ובהתייעצות עם הוועדה הציבורית המייעצת בנושאי בינוי, דיור ונדל"ן נחליט על המשך הטיפול".

Ynet מיידעים את קוראיהם גם על תגובת בנק ישראל, שם טוענים כי ההשפעה אינה משמעותית:

"בנק ישראל עומד בקשר רציף עם גורמי המקצוע בלמ"ס. בדיקות ראשוניות שנערכו בבנק ישראל מראות שהשפעת ההבדל במדידה על האינפלציה במדד המחירים לצרכן קטנה, ובוודאי שלא הייתה מביאה לשינוי במדיניות המוניטרית".

בואו נעשה סדר במספרים

בואו נדבר על הפער בין שתי ההערכות. לפי הלמ"ס, שכר הדירה עלה בין 2008 ל-2015 ב-40%, ולפי חישובי הועדה המייעצת  שהם לצעשה חישוביו של ד"ר רז-דרור, העלייה הייתה בגובה 65%.

במילים אחרות, אם שכר הדירה לדירה ממוצעת ב-2008 היה 1000 ₪, הרי שלפי הלמ"ס שכר הדירה ב-2015 היה 1400 ₪ ולפי הועדה הוא היה 1650 ₪. מה הפער? ההפרש בין 1650 ב-1400 הוא 250. נחלק את ההפרש הזה ב-1400 ונכפיל ב-100[2] ונקבל כי התוצאה היא קצת פחות מ-18%, ולא 25%. הפער פחות גדול ממה שנאמר בכתבה,

נמשיך. מדובר בפער הכולל שנפתח לאורך 8 שנים. מהו הפער הממוצע בשנה? זה חישוב קצת יותר טריקי: הפער הממוצע הוא השורש השמיני של 1.18. החישוב מראה כי הפער הממוצע בשנה הוא קצת פחות מ-1.8% בשנה[3]. כמו כן, חישוב דומה יראה כי לפי אומדני הועדה, העלייה הממוצעת בשכר הדירה לאורך 8 השנים האלה הוא כ-6.5%, ופי הלמ"ס העלייה הממוצעת בשנה היא כ-4.3%.

מה ההשפעה של זה על המדד? לפי מחשבון מדד המחירים של הלמ"ס, מ-2008 עד 2015 עלה מדד המחירים לצרכן בקצת יותר מ-16%. זו עליה ממוצעת של 1.7% בשנה כלומר, אם מחיר סל המצרכים שלפיהם מחושב המדד היה 1000 ₪ בתחילת שנה ממוצעת, מחירו בסוף השנה היה 1017 ₪.

שכר הדירה מהווה 5.7% מסל המצרכים[4]. נעגל את זה ל-6%. פירוש הדבר הוא שאם ערך סל המצרכים היה בתחילת השנה 1000 ₪, שכר הדירה היה 60 ₪, וערכו של שאר הסל היה 940 ₪.

לפי הלמ"ס, שכר הדירה עלה במשך השנה בכ-3.8%, ולכן בסוף השנה הוא היה כ-62 ₪. מכאן שערכו של שאר הסל בסוף השנה היה 955 ₪.

לפי הועדה המייעצת, שכר הדירה בשנה ממוצעת עלה ב-6.5%. נעגל את זה ל-7%. כלומר אם עלות הסל בתחילת השנה הייתה 1000 ₪, הרי ששכר הדירה היה, כפי שחישבנו, שכר הדירה בתחילת השנה היה, כפי שחישבנו, 60 ₪. אם הוא עלה ב-7% במשך השנה, הרי שבסופה הוא היה כ-64 ₪. שווי שאר המצרכים בסוף השנה היה 955 ₪, ולכן השווי הכולל של הסל היה 1019 ₪. אם הועדה צודקת, האינפלציה השנתית הממוצעת הייתה 1.9%, ולא 1.7%.

אני לא כלכלן, ולכן לא יודע עד כמה ההבדל הזה משמעותי. התחושה שלי היא שלא מדובר בקטסטרופה.

איך אומדים את העלייה בשכר הדירה?

אקדים ואומר כי אני לא מתמחה בדגימה. הידע שלי בתחום מוגבל למה שלמדתי בלימודי התואר הראשון, פלוס קצת ידע נוסף שרכשתי בעזרת לימוד עצמי.

אבל הנה תיאור בסיסי של התהליך. כדי לדגום, צריך להגדיר קודם כל את מסגרת הדגימה, שהיא בעצם האוכלוסייה שבה אנו מתעניינים. במקרה שלנו, אנחנו רוצים לאמוד את שכר הדירה הממוצע, ולכן יש לנו שתי מסגרות דגימה אפשריות.

אפשרות אחת היא לערוך רשימה של כל הדירות המושכרות, ואז ניקח מדגם של דירות מושכרות ונברר מה שכר הדירה עבור כל דירה שנכללת במדגם.

אפשרות שניה היא לערוך רשימה של כל משקי הבית ששוכרים דירות, לקחת מדגם מתוך משקי הבית האלה, ולברר מה שכר הדירה שהם משלמים.

יש שתי דרכים עיקריות לביצוע המדגמים. ניתן לבצע מדגם בחתך רוחבי (cross sectional), כלומר לקחת כל חודש מדגם חדש, או באופן אורכי (longitudinal), כלומר לקחת מדגם ולעקוב אחריו לאורך זמן.

לכל שיטה יש יתרונות וחסרונות, שלא אפרט כאן[5].

אני מציע שכעת תפסיקו את הקריאה לדקה או שתיים, ותחשבו מה אתם הייתם עושים אם הייתם מתבקשים לבצע את המדגם: האם הייתם דוגמים דירות או שוכרים? האם הייתם לוקחים כל חודש מדגם חדש, או שהייתם לוקחים מדגם ועוקבים אחריו לאורך זמן? אולי תחשבו על דרך אחרת?

מסתבר שהדברים לא כל כך פשוטים. קשה מאוד, אולי בלתי אפשרי, לערוך רשימה של כל הדירות המושכרות. קשה מאוד, אולי בלתי אפשרי, לערוך רשימה של כל משקי הבית המתגוררים בדירות שכורות. בלמ"ס בחרו בדרך ביניים. למעוניינים, הנה לינק למסמך המתאר את מתודולוגיית חישוב סעיף הדיור במדד המחירים לצרכן (קישור לקובץ pdf). אפשר להתווכח על מתודולוגיית הדגימה, אך רצוי מאוד להבין את הנושא לפני שמחווים דיעה.

מה אומר דו"ח הועדה המייעצת?

אמנם בגלובס לא טרחו לתת הפניה אל הדו"ח אבל חיפוש מהיר בגוגל מצא אותו (קישור לקובץ pdf).

כדאי קודם כל לעיין בעמוד 2 בו תמצאו את רשימת חברי הועדה. בוועדה יש 35 חברים, שהם נציגים ממגוון רחב של מוסדות ממשלתיים ואחרים, כולל בנק ישראל, משרד האוצר, משרד הבינוי והשיכון, המועצה הלאומית לכלכלה, משרד המשפטים, וכן, גם 9 נציגים של הלשכה המרכזית לסטטיסטיקה. גילוי נאות: אני מכיר אישית שלושה חברים בוועדה.

ההתייחסות של הועדה לנושא מדד שכר הדירה נמצאת בעמודים 37-39. הנתון של עליית המחירים ב-65% אינו כתוב במפורש בדו"ח והוא ככל הנראה נגזר מהגרף שבעמוד 37. לדעתי הגרף מראה שינוי הקרוב יותר ל-60% מאשר ל-65%, (ראו הצגה מוגדלת של הגרף בדה-מרקר) אבל בואו נניח לזה. בעיה יותר גדולה בגרף, לדעתי, היא שהוא לא מציג סטייות תקן או רווחי סמך לאומדנים, לא עבור הנתונים של רז-דרור ולא עבור נתוני הלמ"ס.[6]

בשולי הגרף מצויין כי מקור הגרף במסמך של ד"ר עופר רז-דרור מ-2017. לא הצלחתי לאתר את המסמך המקורי. בדה-מרקר מציינים כי המדגם של רז-דרור קטן יחסית, מה שאומר כי סטיית התקן שלו (טעות הדגימה) יותר גדולה. לא הצלחתי למצוא מה הייתה שיטת הדגימה של ד"ר רז-דרור.

המלצות הועדה בנושא הן לשפר את המעקב אחר דירות בשכירות בעת תחלופת שוכר, וכן לפרסם מדדים לשכר-דירה ואת שכר הדירה הממוצע בפילוח לפי מחוזות וערים גדולות. בניגוד למה שדווח בגלובס, אין המלצה לתקן את המדדים לאחור, ואין המלצה לשנות את מתודולוגיית הדגימה.

משפט מסכם אחרון: תמיד כדאי לקרוא בביקורתיות כתבות, דו"חות, כל דבר בעצם. תהיו ספקנים.

 


הערות
  1. לא מצאתי בגלובס []
  2. חישובי אחוזים של בי"ס יסודי []
  3. ידע בחישובי אחוזים של בית ספר יאפשר לכם לבדוק את התוצאה. תתחילו מ-100, תוסיפו לו 1.8%. לתוצאה שקיבלתם תוסיפו שוב 1.8%, וכך הלאה, 8 פעמים []
  4. לפי הנתון בכתבה בגלובס []
  5. בין היתר, כיוון שאני לא מומחה בתחום []
  6. אכתוב על עניין זה בהרחבה בקרוב []