לקראת סוף אפריל 2018 דווח כי משטרת סקרמנטו בקליפורניה עצרה אדם החשוד כי הוא ה-Golden State Killer, רוצח סידרתי שפעל באיזור בשנות ה-70 וה-80 של המאה העשרים. החשוד זוהה בעקבות התאמה של דגימות DNA שנלקחו בזמן חקירות מעשי הרצח ונתוני DNA שפורסמו באתר של אחת החברות המציעות לקהל הרחב ניתוח בסיסי של ה-DNA שלהם. כיצד מתבצעת ההתאמה ומה המשמעות של התוצאות? מכיוון שלא נמסרו נתונים לגבי תהליך הזיהוי במקרה זה, אסביר את הנושא בעזרת מקרה אחר, בעזרתו אדגים את תפקידה של הסטטיסטיקה בתהליך.
רצח דיאנה סילבסטר
דיאנה סילבסטר, אחות במקצועה, נרצחה בדירתה בסן פרנציסקו מספר ימים לפני חג המולד ב-1972, לאחר שנאנסה באכזריות. אישה ששהתה בדירה אחרת בבניין שמעה צעקות, ולאחר המתנה של כעשרים דקות החליטה לצאת מדירתה ולבדוק מה קורה. היא ראתה כי דלת דירתה של סילבסטר פתוחה, ואדם שעמד בפתח הדירה. לשאלתה ענה לה כי “אנחנו עושים אהבה”, ולאחר מכן הלך לדרכו. האישה נכנסה לדירה ושם מצאה את גופתה העירומה של סילבסטר. המשטרה הוזעקה, האישה מסרה את עדותה כולל תיאורו של האדם שראתה. מגופתה של דיאנה נלקחו דגימות זרע, בין היתר. לאחר מספר ימים עצרה המשטרה אדם חסר בית שתיאורו התאים לתיאור שמסרה העדה כחשוד ברצח. המשטרה לא הצליחה למצוא ראיות מספיקות נגד החשוד והוא שוחרר. חשוד זה, אגב, הורשע באונס מספר חודשים לאחר מכן. נבדקו עוד כעשרים חשודים נוספים, אך לא בוצעו מעצרים נוספים. תיק הרצח, ובתוכו דגימות הזרע, נגנז והועבר לארכיון.
בשנת 2003, לאחר שפותחה טכנולוגיה לניתוח והתאמה של דגימות DNA, בדקה משטרת סן פרנציסקו האם יש התאמות בין דגימות DNA שנאספו ונשמרו במקרי רצח לא פטורים ובין דגימות DNA במאגר של עברייני מין שהורשעו במדינת קליפורניה. אמנם ה-DNA שנאסף מגופתה של סילבסטר לא נשמר היטב, ומתוך 13 האללים המשמשים לזיהוי (פרטים בהמשך) ניתן היה לקבל אינפורמציה רק על 5.5 אללים, עם זאת, נמצא במאגר אדם עם DNA התואם את אותם 5.5 אללים. אדם זה, ג’ון פאקט, נעצר כחשוד ברצח, הועמד לדין והורשע.
איך מבצעים התאמת DNA?
ההסבר שאתן מאוד פשטני ולא מדוייק, אך הוא מספיק לצורך הדיון בבעיה הסטטיסטית. DNA הוא מולקולה, שרשרת של חלבונים, הנמצאת בכל תא בגוף. כל התכונות הביולוגיות של האדם נקבעות על ידו. ה-DNA מתחלק ליחידות שנקראות אללים. יותר מ-99.9% מה-DNA זהה אצל כל בני האדם. השונות בין בני אדם (נניח צבע עיניים) נקבעת על ידי שאר ה-DNA. למרות הזהות של99.9% מה-DNA בין כל בני אדם, אין למעשה שני אנשים עם DNA זהה לחלוטין, אלא אם הם תאומים זהים.
מבחינה משפטית ופלילית, זיהוי של אדם נקבע על ידי 13 אללים ספציפיים. כדי לבדוק האם שתי דגימות DNA נלקחו מאותו אדם, משווים את 13 האללים בין שתי הדגימות. אם אין התאמה אפילו באלל אחד מבין השלושה עשר – מדובר בשני אנשים שונים. מצד שני, אם הדגימות נלקחו משני אנשים שונים – הסיכוי כי תהיה התאמה מלאה בין כל 13 האללים נמוך מאוד. עד כמה נמוך? יש כל מיני הערכות לכך. לפי ה-FBI, ההסתברות לכך היא בערך 1 ל-13 מיליארד.
ההשוואה מתבצעת על ידי השוואת שני גרפים המתקבלים מעיבוד דגימת ה-DNA במכשיר ייחודי. הגרף דומה לגרף המתקבל מדגימת א.ק.ג. 13 האללים המדוברים מתבטאים בגרף כ-“פיקים”. ההשוואה נעשית בדרך כלל “לפי העין” על ידי מומחים בתחום. ((אני מניח כי במשך הזמן פותחו שיטות יותר אובייקטיביות להשוואה או שלפחות נעשה מאמץ לפתח שיטות כאלה. )) לדוגמא אני מביא כאן גרפים של שתי דגימות DNA ממשפט אחר (( הגרפים נלקחו מהספר Math on Trial. ראו הפניות לקריאה נוספת בסוף הפוסט. )) מה דעתכם? האם יש זהות בין שתי הדגימות?
המומחים המטעם התביעה באותו משפט אמרו שכן. הטענה נדחתה על ידי השופט שטעה טעות סטטיסטית שאינה קשורה לניתוח ה-DNA עצמו.
אציין גם הקביעה שזיהוי אדם מתבסס של 13 האללים האלה מתבססת על הנחות ביולוגיות/גנטיות וכן על הנחות סטטיסטיות. לא אכנס כאן לדיון מפורט בעניין משתי סיבות: ראשית, אני לא ממש מתמצא בנושא, ושנית, במקרה של הנחות אחרות היה נקבע קריטריון זיהוי אחר, אבל הבעיה הסטטיסטית של הרשעה על ידי זיהוי DNA נשארת אותה בעיה.
משפט הרצח
במקרה הרצח של סילבסטר הייתה כאמור רק התאמה חלקית, בגלל תהליך ההתפרקות של דגימת הזרע במשך 30 השנים בהן הוא נשמר בארכיון. התובע במשפט ציין שההסתברות כי תהיה התאמה כזו בין שתי דגימות DNA שנלקחו משני בני אדם שונים נאמדה כ-1 ל-1.1 מיליון, ואני מניח כי נתון זה נכון. השופט החליט כי במשפט לא יובאו מומחים שידונו בפרשנות של ההסתברות שהתובע ציין להתאמת ה-DNA ובהשלכות הנובעות מכך, ובפרט לא הוצגו עדויות של סטטיסטיקאים מטעם ההגנה, וכפי שנראה מייד, היה להם מה לומר. כמו כן, הוא החליט כי לא המושבעים לא יקבלו מידע על הדרך בה אותר החשוד. הם הונחו לשקלל את הנתון על הסתברות ההתאמה עם עדויות “רגילות”. עדת הראיה שראתה ככל הנראה את הרוצח כבר מתה. בפני המושבעים הוצגו, פרט לנתון של 1 ל-1.1 מיליון, תיאור של שלושת מקרי האונס בהם הורשע פאקט בעבר ותמונה ישנה של הנאשם משנות השבעים בה הוא נראה דומה לתיאור של הרוצח שמסרה העדה. במהלך הדיונים ביקשו המושבעים מהשופט כי יימסר להם עוד מידע לגבי האופן שבו הגיעו אל החשוד בעזרת דגימת ה-DNA, אך השופט סירב למסור אינפורמציה זו. הנאשם, כאמור, הורשע ברצח.
ניתוח סטטיסטי
הניתוח שאתאר כאן מתייחס רק לראיית ה-DNA, ואינו לוקח בחשבון ראיות אחרות. כדי לקבוע אשמה יש לשקלל, כפי שטען השופט בצדק, את הראיה הזו עם הראיות האחרות שהוצגו במשפט. אם זאת, אני טוען כי האופן בו הוצגה ראיית ה-DNA למושבעים היה מטעה, והשופט שגה בכך שלא הרשה לצדדים להציג את טיעוניהם, ולכן גרם לכך שהמושבעים יפרשו את הנתון הזה באופן שגוי.
טיעוני התביעה
המסר של התביעה בעניין התאמת ה-DNA היה פשוט: הסיכוי שתהיה התאמה בין שתי הדגימות הוא 1 ל-1.1 מיליון. לכן השתמע מדברי התובע כי הסיכוי שפאקט אינו הרוצח הוא 1 ל-1.1 מיליון. זה לא נכון. זוהי ההסתברות כי אם נבחר שני בני אדם באופן מקרי תהיה ביניהם התאמה באותם 5 וחצי אללים ספציפיים. זה נכון גם כאשר נשווה את ה-DNA שלי ל-DNA שלך.
ההסתברות שהתביעה צריכה להציג היא הסתברות מותנית: ההסתברות שהנאשם הוא הרוצח כאשר ידוע לנו כי קיימת התאמת DNA. זה נראה פשוט, אבל צריך להיזהר: בהחלט ייתכן כי הנאשם אינו הרוצח גם אם קיימת התאמת DNA. ייתכן כי יש אדם נוסף שקיימת בינו ובין דגימת ה-DNA התאמה, ואולי אפילו יותר מאחד, ואם כך, ייתכן כי האדם הנוסף הזה הוא הרוצח. וזה מה שההגנה התכוונה לטעון.
טיעוני ההגנה (שלא הוצגו למושבעים)
למעשה היו להגנה שני טיעונים עיקריים. ראשית הם טענו כי יש עדויות אמפיריות וחישוביות לכך שהתאמת DNA חלקית נפוצה למדי. הם הסתמכו על מחקר שנערך באריזונה. חוקרת בשם קתרין טרויר בדקה כ-65,000 דגימות DNA. היא מצאה 122 זוגות של דגימות בהם הייתה התאמה ב-9 אללים, ו-20 זוגות בהם הייתה התאמה של 10 אללים. ההסתברויות להתאמות כאלה הרבה יותר קטנות מ-1.1 מיליון. סביר להניח כי במדגם כזה יימצאו אפילו יותר זוגות תואמים ב-5.5 אללים.
קל לחשב את ההסתברות הזו. זוהי למעשה בעיית ימי ההולדת. הקוראים הוותיקים שלי יודעים כי אם בחדר אחד מתאספים 23 איש, ההסתברות כי יהיה בחדר זוג אנשים שחולקים יום הולדת משותף גדולה מ-50%. בבעיית התאמת ה-DNA, מוחלף יום ההולדת בפרופיל ה-DNA. בבעיית ימי ההולדת ההסתברות ששני בני אדם יחלקו יום הולדת היא 1 ל-365. כל מה שצריך זה להחליף את ההסתברות להתאמת ימי הולדת בהסתברות להתאמת DNA ולערוך את החשבון. ההסתברות היא כמעט 1. למעשה, ההסתברות כה קרובה ל-1 עד כדי כך שתכנת R בה השתמשתי לחישוב נתנה את התוצאה 1, מכיוון שרמת הדיוק המקסימלית שלה היא רק כ-300 ספרות לאחר הנקודה העשרונית. ה-DNA שנלקח מזירת הרצח נבדק מול מאגר DNA שהכיל כ-338000 דגימות של עברייני מין מורשעים, גברים לבנים, שהיו מבוגרים מספיק כדי לבצע את הרצח בשנת 1972. אפשר לומר בביטחון כמעט מוחלט שיש ביניהם שני אנשים שה-DNA שלהם תואם ב-5.5 אללים. אז לכאורה אפשר לומר שסביר מאוד כי תימצא התאמה בין ה-DNA של פאקט ובין הדגימה שנלקחה מזירת הרצח. אבל רק לכאורה, כי גם האמירה הזו אינה נכונה. אנחנו חישבנו את ההסתברות כי יימצא זוג אנשים כלשהו שביניהם יש התאמת DNA. השאלה הנכונה היא מה ההסתברות כי במאגר יימצא אדם שה-DNA שלו תואם ל-DNA שנלקח מזירת הרצח.
גם בשאלה הזו דנתי בפוסט על בעיית ימי ההולדת (( זוכרים מה קרה לג’וני קארסון? )), וההגנה ביקשה להציג את ההסתברות הזו בפני המושבעים. הטיעון שלהם השתמש באנלוגיה של הגרלה (כגון הגרלת מפעל הפיס). האנלוגיה לכרטיס הגרלה היא אדם כלשהו, וה-DNA מזירת הפשע הוא המספר הזוכה. אם אתה קונה כרטיס אחד להגרלה שבה יש 1.1 מיליון כרטיסים, הסיכוי כי תזכה הוא 1 ל-1.1 מיליון. אם אתה קונה שני כרטיסים, הסיכוי שלך לזכות הוא 2 ל-1.1 מיליון, וכן הלאה. המשטרה בדקה מאגר של 338000 דגימות. הם קנו 338000 כרטיסים. הסיכוי שלהם לזכות הוא לכן 338000 ל-1.1 מיליון, שזה בערך 0.31. ההגנה טענה לכן כי הסיכוי שיימצא במאגר מישהו שה-DNA שלו מתאים לדגימה הוא בערך 1 מתוך 3. פאקט החזיק למזלו (הרע) בכרטיס הזוכה. לכן, גם אם זכה, אין למהר להסיק כי הוא הרוצח. ייתכן והיו מוצאים מישהו אחר. הסיכוי שימצאו מישהו הוא 30%. יותר מכך: במטרופולין סן פרנציסקו גרים מעל 3 מיליון איש, כמחציתם גברים. גם אם ניקח בחשבון רק את הגברים הלבנים שהינם די מבוגרים כדי לבצע את הרצח 30 שנה קודם לכן, חייב להיות שם מישהו עם DNA תואם לדגימה (( או באופן יותר מדוייק: ההסתברות כי יש שם אדם כזה גבוהה )). אבל גם החישוב הזה לא מדוייק.
החישוב האחרון מניח כי לכל אדם במאגר יש DNA שונה מזה של כל האחרים. שוב, ההנחה הזו לא נכונה. למעשה ראינו כי ההסתברות שיש במאגר שני אנשים עם DNA תואם ב-5.5 אללים היא כמעט ודאית.
כמו כן, ייתכן כי יש במאגר 2, 3 או אפילו יותר אנשים עם DNA תואם לדגימה. זו לא בעיית מפעל הפיס. זו בעיית לוטו. ה-DNA של כל אדם הוא המספרים שבחר. בהגרלת לוטו ייתכן מאוד כי שני אנשים ייבחרו את אותם המספרים, ופעמים רבות הפרס הראשון מתחלק בין מספר זוכים. אותנו מעניינת ההסתברות כי יהיה לפחות זוכה אחד.
אפשר לחשוב על הבעיה גם באופן הבא: יש לכם מטבע שהסיכוי שלו ליפול על עץ הוא 1 ל-1.1 מיליון. אתם מטילים אותו 338000 פעמים. מה הסיכוי כי המטבע ייפול פעם אחת על עץ? מה הסיכוי כי הוא ייפול על עץ יותר מפעם אחת? מה הסיכוי כי הוא לא ייפול על עץ אפילו פעם אחת (כלומר 338000 פעמים תקבלו פלי)? אפשר לחשב את הסיכויים האלה על ידי שימוש בהתפלגות פואסון, או בניסוח יותר מדוייק, הקירוב הפואסוני להתפלגות הבינומית, כאשר הפרמטר של ההתפלגות הוא 0.31. כאשר עורכים את החישוב מקבלים כי ההסתברות שהמטבע ייפול על עץ בדיוק פעם אחת, כלומר יש בדיוק אדם אחד במאגר אשר ה-DNA שלו מתאים לדגימה מזירת הפשע, היא 0.226. ההסתברות כי במאגר לא יימצא אפילו אדם אחד עם DNA תואם היא 0.736, וההסתברות כי יש במאגר לפחות אדם אחד עם DNA תואם לדגימה מזירת הפשע היא לכן רק 0.265 ולא 0.31 כפי שההגנה רצתה לטעון. יותר קרוב ל-1 מתוך 4 מאשר ל-1 מתוך 3, אך עדיין הסתברות גבוהה למדי.
המשמעות של התוצאה הזו כי יש הסתברות של מעל 25% כי הנאשם זכאי בהינתן ההתאמה בין ה-DNA שלו ובין ה-DNA שנלקח מזירת הפשע, ולא 1 ל-1.1 מיליון, כמו שהתובע רצה שהמושבעים יחשבו. לדעתי החישוב הזה מספיק כדי לעורר ספק סביר.
גישה בייסיאנית
יש עוד דרך להסתכל על הבעיה. אני לא חסיד של הגישה הזו, אבל אציג אותה בכל זאת. הבעתי בהרחבה את דעתי על הגישה הזו בפוסט שעסק במה שכונתה “מכונת האמת המוחלטת“.
הדיון עד כה נערך תחת ההנחה שהנאשם זכאי, כפי שמקובל במערכות משפט במדינות דמוקרטיות. ראינו כי תחת ההנחה הזו ההסתברות כי הנאשם אשם היא כ-74%. אבל, מה הסתברות שתהיה התאמת DNA תחת ההנחה שהנאשם אשם? התשובה לשאלה הזו היא כמובן 100%, כלומר 1.
כזכור, אנחנו מתעניינים בהסתברות כי הנאשם אשם בהינתן התאמת ה-DNA. כאן המקום לקרוא לדגל את נוסחת בייס:
ולאחר שעשינו את כל התרגיל הזה, כל מה שצריך זה להציב בנוסחה את ההסתברות שהנאשם אשם ואת ההסתברות המשלימה שהנאשם זכאי, ולהחליט האם התוצאה מעלה ספק סביר.
הנה הבעיה שלי: אם הנאשם אשם, ההסתברות שהוא אשם, לדעתי לפחות, שווה ל-1, ואז אם נציב את זה בנוסחה נקבל 1. ואם הנאשם זכאי, אז לדעתי ההסתברות שהוא אשם היא אפס, ואם נציב את זה בנוסחה נקבל אפס. זה לא ממש עוזר.
כאן יבוא הסטטיסטיקאי הבייסיאני ויאמר לכם כי ההסתברות שהנאשם אשם היא הסתברות סובייקטיבית, והיא למעשה ביטוי לרמת האמונה האפריורית שלנו כי הנאשם אשם (או זכאי). כאמור, אני לא מקבל את הטיעון הזה. לדעתי עלינו להניח כי הנאשם זכאי עד שתוכח אשמתו. במילים אחרות, אני אומר לסטטיסטיקאי הבייסיאני כי עליו להאמין מראש כי ההסתברות שהנאשם אשם היא אפס, ומכאן אני ממשיך את הטיעון ואומר כי כל התרגיל הזה חסר משמעות.
אבל יש מי שחושבים אחרת. יבוא מישהו ויגיד: “אני לא יודע אם הוא זכאי או אשם, ולכן אציב בנוסחה את הערך 0.5 להסתברות כי הנאשם אשם”. החישוב ייתן לכן כי ההסתברות שהנאשם אשם בהינתן התאמת ה-DNA היא בערך 57.5%. אבל יכול לבוא מישהו אחר ולומר כי הנאשם ביצע בעברו שלושה מעשי אונס הדומים לאונס שבוצע בנרצחת סילבסטר, ולכן הוא מאמין כי ההסתברות שהנאשם אשם היא 0.75 (למה? ככה). עכשיו החישוב ייתן תוצאה של 80%. ספק סביר? אני לא יודע אבל מניח שכן. ברור שככל שנאמין יותר באשמת הנאשם, כך נקבל כי ההסתברות שהוא אשם בהינתן התאמת ה-DNA גבוהה יותר. במילים אחרות: אם מאמינים שהנאשם אשם מסיקים כי הוא אשם.
במקום אחר ברשת נתקלתי בטיעון בייסיאני אחר, שטוען כי יש לקחת בחשבון את ההסתברות כי הרוצח נמצא בכלל בתוך המאגר של 338000 הדגימות. אם ההסתברות כי הרוצח נמצא בתוך המאגר שווה לאפס, אז ברור כי הנאשם זכאי. אם ההסתברות הזו שווה ל-1, אז הנאשם אשם (בהנחה שאין עוד אדם במאגר שה-DNA שלו תואם לדגימה מזירת הרצח). מה קורה אם ההסתברות הזו נמצאת איפשהו בין אפס לאחד?
אם נסמן את ההסתברות הזאת ב-x, ונזכור כי ההסתברות שהנאשם אשם אם הרוצח לא נמצא במאגר היא בערך 0.27, נקבל בעזרת נוסחת בייס כי ההסתברות שהנאשם אשם היא:
ואנחנו שוב עומדים בפני השאלה: מהי ההסתברות כי הרוצח נמצא במאגר? במילים אחרות: מה ההסתברות כי הרוצח הוא מישהו שהורשע בעבירת מין נוספת/אחרת בקליפורניה ונלקחה ממנו דגימת DNA? עד כמה הידיעה כי ה-DNA של החשוד שנעצר זמן קצר לאחר הרצח ושוחרר לא נצא במאגר (כי הוא מת לפני שהחלו באיסוף דגימות DNA מעבריינים מורשעים) ((איש לא העלה בדעתו להוציא את הגופה מהקבר ולקחת ממנה דגימת DNA )) תשפיע על ההערכה שלכם ל-x?
כמו קודם – הניתוח הזה לא מוביל אותנו לשום מקום, כי אין לנו שום דרך אמינה לאמוד את x.
סיכום
זיהוי רוצחים או פושעים אחרים על ידי השוואת דגימות DNA שנלקחו מזירת הפשע למאגרי DNA הוא בעייתי, וטמן בחובו בעיות סטטיסטיות לא פשוטות, וזאת בנוסף לבעיות משפטיות ואחרות.
לקריאה נוספת
- Math on Trial: How Numbers Get Used and Abused in the Courtroom – Leila Schneps and Coralie Colmez
- Prosecutor’s fallacy — now with less fallaciousness! – QUOMODOCUMQUE blog
- DNA’s dirty little secret – Michael Bobelian – The Investigative Fund
- “Cold hit” DNA profiling – Possibly wrong blog
- Inside the mind of a juror: the problem with DNA – Laurie Meyers, Monitor Staff June 2007, Vol 38, No. 6
- DNA evidence is not foolproof – Alexandra Ossola, Popular Science, June 25, 2015
- Statisticians not wanted – Devlin’s Angle blog
- The Dark Side of DNA Databases – Erin e. Murphy, The Atlantic, October 8, 2015
- If police find a DNA “match,” that doesn’t mean they have the right suspect – Jordan Ellenberg, Slate, June 5 2013
- It’s a match! – Philip Dawid and Rachel Thomas, Plus Magazine, July 12, 2010
- How DNA evidence creates victims of chance – Linda Geddes, The New Scientist, 18 August 2010
לא ברור לי איך הדגימות שבתמונות דומות אחד לשני. אולי אני לא מסתכל נכון אבל השורה הראשונה דומה בדוחק, אבל שתי השורות האחרות בכלל לא קרובות להיות זהות. מה אני מפספס פה?
האמת היא שאין לי מושג. הדוגמא הזאת היא אמנם בעייתית משהו, מכיוון שאחת הדגימות עברה דגרדציה מהותית, אבל זה לא משנה לדעתי את העיקרון. יש בעיה רצינית באופן שבו מתקבלת ההחלטה אם יש התאמה או אין התאמה. כיום יש טכנולוגיה שמאפשרת זיהוי ברמת הסניפ, אבל אני לא יודע אם משתמשים בה לצרכי זיהוי פלילי. בודאי שלא השתמשו בה במקרה של סלבסטר, וגם לא במקרה של הגולדן סטייט קילר.
מאחר שהאנליזה נערכה בתחילת שנות האלפיים אני מניח שהם ביצעו אנליזת Restriction Fragments Length Polymorphism )RFLP(
באנליזה כזו המידע היחיד שחשוב הוא אורך המקטעים, כלומר המיקום של הפיקים בלבד על ציר הX ואילו הגובה חסר משמעות. אם מסתכלים על זה כך אז הדוגמאות כן נראות תואמות, למרות שאני לא מצליח לקרוא את המספרים על ציר הX.
אגב זה לא נכון לומר שההשוואה נעשית ‘בעין’ מאחר והשיטה נותנת את גדלי הפרגמנטים באופן מדויק (מס’ זוגות נוקלאוטידים) והגרף משמש להמחשה ועל מנת לבדוק שלא השתבש משהו באנליזה. בכל מקרה הביקורת הסטטיסטית נכונה
תודה על ההסברים. כפי שציינתי, ההבנה שלי בנושא מוגבלת, והתבססתי בעיקר על ההסברים שמצאתי באינטרנט.
מקרי רצח לא פתורים
פתור – solved
פטור – dismissed