חיפוש באתר

קישורים

עמודים

קטגוריות

ארכיב עבור 'מדע'

מודלים ואלגוריתמים: מה ההבדל ומה הבעיה

לאחרונה השתתפתי בכמה דיונים בפייסבוק שהגיעו למבוי סתום. ניסיתי להבין למה זה קורה ולבסוף הבנתי: אני דיברתי על מודלים והם דיברו על אלגוריתמים.

לכאורה לא צריכה להיות שום בעיה. מודל זה דבר אחד, אלגוריתם זה דבר אחר. אם תחפשו בגוגל מודל, לא תמצאו שום מקום שיטען כי מודל הוא אלגוריתם. גם ההיפך נכון. אז מה קורה כאן?

כדי להסביר למה אני מתכוון, יש צורך במספר שלבים. תחילה אתן הסבר קצר וכללי (ויש יאמרו: פשטני) מהו מודל ומהו אלגוריתם. אחר כך אסביר ביותר פירוט מהו מודל סטטיסטי, ואיך הוא מתקשר למושג האלגוריתם. לבסוף אסביר מנין נובע הבלבול בין שני המושגים, לפחות בהקשר הסטטיסטי, ואצביע על בעיה העולה מכך.

מהו מודל?

מודל הוא תיאור תיאורטי של תופעה מציאותית. המציאות היא בדרך כלל מורכבת, והמודל מנסה להתרכז בגורמים החשובים שבעזרתם אפשר לתאר את התופעה, לאפיין אותה, ובעיקר לחקור אותה. המודל כמובן אינו תיאור מדוייק לגמרי של המציאות, אבל הוא מספיק טוב כדי לתת תשובה אמינה לשאלות מעניינות. כל מודל מתבסס על הנחות. מודל טוב מסוגל להסביר תצפיות על המציאות ולחזות תצפיות עתידיות. מודל צריך להיות ניתן לפירוש, כלומר אינו קופסה שחורה. מודל טוב הינו חסכוני – כלומר פשוט ככל האפשר. מודל יכול להיות פיזי, למשל חלקיק הטס לו בתוך מאיץ חלקיקים, או עכבר – במדעי החיים או ברפואה. יש מודלים המבוטאים על ידי משוואות מתמטיות.

מהו אלגוריתם?

אלגוריתם הוא סדרה של הוראות לביצוע משימה מסויימת, כך שהמשימה תסתיים במספר סופי של צעדים. מתכון להכנת עוגה הוא אלגוריתם. כאשר למדתם בבית הספר (או ניסיתם ללמוד) חילוק ארוך, למדתם אלגוריתם. לכל אלגוריתם יש קלט. במקרה של הכנת עוגה, אלה החומרים שמשמים להכנתה: קמח, ביצים וכולי. אולם כאשר הדברים על אלגוריתמים מדברים בדרך כלל על אלגוריתמים מתמטיים, והקלט שלהם הוא בדרך כלל מספרים/נתונים. התוצר של האלגוריתם נקרא פלט. פלט יכול להיות למשל מנה של עוגה, או המנה המתקבלת כתוצאה של חילוק ארוך. כמו למודל, גם לאלגוריתמים יש הנחות, ויש גם תכונות, ואני לא אכנס כאן לפירוט מכיוון שידיעותיי בנושא מוגבלות.

מהו מודל סטטיסטי?

מודל סטטיסטי הוא מודל מתמטי הכולל בתוכו אלמנט מקרי. בדרך כלל המודל עוסק במדגם מתוך אוכלוסייה, ומתאר תכונות של האוכלוסייה וקשרים אפשריים ביניהם.

אתן כאן דוגמה למודל סטטיסטי פשוט, מודל הרגרסיה הלינארית. זהו אחד המודלים הפשוטים ביותר בסטטיסטיקה. יהיו נוסחאות, אך לא צריך להיבהל מהן. אלה רק אותיות וסימנים מתמטיים כמו חיבור וכפל. אסביר בדיוק ובפשטות מה זה כל דבר. הנה המודל:

 

מה רואים כאן?

בשורה/נוסחה הראשונה יש אותיות לטיניות גדולות: X ו-Y. אלה הם המשתנים של המודל. המודל מנסה להסביר את הקשר בין המשתנים. X יכול להיות למשל המשקל של אדם, ו-Y יכול להיות הגובה שלו. אפנה את תשומת ליבכם לכך שהמודל מניח כי X ו-Y הם משתנים כמותיים ורציפים, למרות שזה לא כתוב במפורש בנוסחה. X ו-Y יכולים להיות משקל, גובה, גובה המשכורת, דברים כאלה, אבל לא מספר ההתקפים שהיו לחולה במשך שנה, לא מספר נעליים, ובטח לא מספר קו האוטובוס שעובר בשכונה.

נמשיך בהסבר: בנוסחאות יש גם אותיות יווניות קטנות: אלפא, ביתא, וגם סיגמה. אלה הם הפרמטרים של המודל. הם מתארים את הקשר בין המשתנים X ו-Y.

בעולם מושלם, אלפא וביתא לבדם היו מספיקים לתאר את הקשר בין X ל-Y. קח את המשקל של אדם בקילוגרמים (X), תכפיל אותו ב-0.5, תוסיף 136, ותקבל את הגובה שלו בסנטימטרים.[1] קשר כזה בין המשתנים נקרא "קשר לינארי". זוהי ההנחה השניה של המודל: בעולם מושלם, הקשר בין X ל-Y הוא לינארי.

אבל העולם אינו מושלם. בעולם מושלם הייתי צריך להתנשא לגובה של 188 ס"מ, אבל גובהי רק 180. האות e מבטאת את ההבדל בין העולם המושלם והעולם האמיתי – במקרה שלי 8 ס"מ.

אם יש לכם קובץ עם הרבה נתונים של משקל וגובה, יהיו לכם גם הרבה ערכים של e. המודל מניח כי אם תציירו גרף של כל הערכים של e תקבלו צורת פעמון – התפלגות הערכים של e היא נורמלית. ההנחה הזו – השלישית במודל שלנו, מתוארת בשורה השניה על ידי הסימן ~ והאות N. המודל מניח עוד הנחה על הפעמון: המרכז שלו, הממוצע של כל הערכים של e, נמצא ב-0. יהיו ערכים חיוביים של e, יהיו גם ערכים שליליים, והם יקזזו אחד את השני. הפרמטר סיגמה מבטא את צורת הפעמון. אם לסיגמה יש ערך גבוה יחסית, נקבל פעמון נמוך ורחב. זה אומר שיש הרבה ערכים של סיגמה שרחוקים מאפס. יש הרבה טעויות גדולות, לשני הכיוונים. אם לסיגמה יש ערך נמוך, הפעמון הוא גבוה וצר, כלומר רוב הטעויות הן קטנות וקרובות יחסית לאפס. ככל שסיגמה קרוב יותר לאפס, העולם "יותר מושלם". אם סיגמה שווה לאפס – זה אומר שאנחנו באמת בעולם מושלם (לא יקרה).

אציין שיש למודל הזה עוד הנחה אחת, אך היא יותר טכנית במהותה ולא אתאר אותה כאן.

עד כאן תיאור המודל.

נניח עכשיו כי יש לנו קובץ, ובו יש לנו נתונים על גובהם ומשקלם של מדגם של אנשים. אנחנו יכולים לשאול הרבה שאלות מעניינות. למשל: האם המודל של רגרסיה לינארית מתאים לנתונים? האם ההנחות של המודל מתקיימות? האם הקשר בין הגובה למשקל הוא לינארי? ואם לא, עד כמה הקשר קרוב לקשר לינארי? מהם הערכים של אלפא, ביתא וסיגמה? ועד כמה הם שונים באופן מובהק מאפס? ועוד הרבה שאלות אחרות. יש דרכים לקבל תשובות לשאלות האלה, כמובן לא בוודאות מלאה, שהרי מדובר כאן במדגם.

לערכים של אלפא ביתא וסיגמה, למשל, אפשר לקבל אומדנים. מייד יופיעו כאן נוסחאות לחישוב האומדנים לאלפא ולביתא. לא להיבהל, הן ממש לא חשובות לדיון שלנו, אני מציג אותן רק למקרה שמישהו יפקפק בקיומן. תסתכלו להן בעיניים ותעברו הלאה:

למודל. (כשהייתי בשנה ב', כתבתי בעצמי תכנית מחשב כזו, בשפת פורטרן).

 

מה שחשוב כאן זה להבין שהנוסחאות האלה מסבירות איך לקחת את הנתונים, שמסומנים על ידי x ו-y, ולבצע איתם חישובים שיתנו לנו אמדנים לערכים של אלפא וביתא. הנוסחאות האלה מגדירות אלגוריתם. הנתונים הם הקלט, האמדנים הם הפלט. אפשר לכתוב תכנית מחשב שתבצע את החישובים האלה עבורכם, ועוד הרבה חישובים אחרים, שיענו לשאלות אחרות שאפשר לשאול בקשר למודל. (כשהייתי בשנה ב', כתבתי בעצמי תכנית מחשב כזו, בשפת פורטרן).

ככלל, לכל מודל סטטיסטי מתלווים כמה אלגוריתמים, שמגדירים כיצד למצוא את התשובות לשאלות שאפשר לשאול על המודל.

מה בקשר להיפך? האם לכל אלגוריתם יש מודל שעומד בבסיסו (לא בהכרח סטטיסטי)? האמת היא שאני לא בטוח בתשובה. אני מזמין את מי שיודע (או חושב שהוא יודע) לענות לשאלה מעניינת זו.

אז מה הבעיה?

הבעיה הגדולה היא שהאלגוריתם עיוור למודל. הנוסחאות שהצגתי לחישוב האומדנים לאלפא וביתא "לא יודעות" שהן נובעות מהמודל, ולא איכפת להן אם ההנחות של המודל מתקיימות או לא. אתם יכולים, למשל, לקחת קובץ נתונים על שחקני כדורסל, להחליט ש-x הוא מספר הנעליים של שחקן, ו-y הוא מספר החולצה שלו. הנוסחאות יעבדו. תכנית המחשב לא תוציא הודעת שגיאה. פייתון לא יקרוס.

וזה נכון גם לאלגוריתמים אחרים. אתם יכולים גם לחשב את מקדם המתאם בין מספרי הנעליים של השחקנים ומספרי החולצה שלהם. או לחשב לכל שחקן את הממוצע של מספר החולצה ומספר הנעליים. נשמע מופרך? בפורום סטטיסטיקה והסתברות בפייסבוק היו כאלה חשבו שלחשב את מקדם המתאם בין המספר הסידורי של סרט בדטהבייס ובין הרייטינג הממוצע שלו זה בסדר גמור. ובפורום ML הסבירו לי שאין שום בעיה לשקלל את משקלו של אדם עם מנת המשכל שלו (אם רק עושים סקיילינג. אל תשכחו לעשות סקיילינג!). וכשטענתי שאין משמעות לשקלול של משקל הגוף ומנת המשכל, ענה לי סניור דטה סיינטיסט אחד כי "המשמעות אינה חשובה".

נכון שאפשר להריץ את כל האלגוריתמים האלה בלי להבין את המתמטיקה שעומדת בבסיסם. אפשר "לבנות מודל" – זאת אומרת, לבנות איזשהו אלגוריתם קצת יותר מסובך מאבני בניין של אלגוריתמים יותר פשוטים. אפשר לקחת את כל הנתונים ולזרוק אותם ל-xgboost . אני יודע שיש אנשים שעושים את זה, ומה איכפת להם? אם זה יביא לחברה שלהם עוד 30,000 דולר, זה מה שחשוב, ואני לא אומר שזה לא חשוב.

אני חושב שהמשמעות חשובה. אני חושב שאם אתה משתמש במודל, אתה צריך להבין מה הפירוש של המודל, לדעת מה ההנחות שעומדות בבסיסו, וכן, גם לדעת מה המגבלות שלו. ומי שלא מבין, ולא יודע, ולא איכפת לו, הוא מהנדס במקרה הטוב, טכנאי במקרה הפחות טוב, ובשום אופן לא מדען. במה שהוא עושה יש אכן הרבה דטה, אבל מעט מאוד סיינס. וצריך להכיר בזה. וכל אחד צריך לשאול את עצמו מה הוא באמת.


הערות
  1. את הערכים המספריים שנתתי כאן לאלפא וביתא חישבתי על פי קובץ הנתונים body, בו השתמשתי גם ברשימה על ה-PCA []

חמש דרכים לתקן את הסטטיסטיקה

ב-28.11.2017 הופיע בכתב העת Nature מאמר שנשא את הכותרת הפרובוקטיבית Five ways to fix statistics.

המאמר נכתב לאור "משבר השחזוריות" (reproducibility crisis) בו חשים היום חוקרים מתחומים רבים, כלומר הקושי ההולך וגובר לשחזר תוצאות מחקריות במחקר נוסף בלתי תלוי. יש הטוענים כי אחת הסיבות למשבר הזה הוא שימוש לא נכון בסטטיסטיקה. עורכי Nature פנו לחמישה סטטיסטיקאים מובילים[1] וביקשו מכל אחד מהם להמליץ של שינוי אחד בפרקטיקה הסטטיסטית שיוכל לשפר את המחקר המדעי. באופן לא מפתיע, הייתה הסכמה בין כולם כי הבעיה אינה בסטטיסטיקה עצמה, אלא באופן השימוש בה.

ברשימה זו אסקור את ההצעות שהועלו, ואביע את דעתי בנוגע לדברים שנאמרו.

ג'ף ליק מאוניברסיטת ג'ונס הופקינס טוען כי "יש להתאים את הידע האנושי" (Adjust for human cognition). כדי להשתמש היטב בסטטיסטיקה, אומר ליק, החוקרים צריכים ללמוד אי לנתח נתונים ולפרש אותם, וליישם את השיטות הסטטיסטיות תוך כדי הימנעות מהטיות קוגניטיביות. אם בעבר היה קשה לאסוף נתונים וכמות הנתונים הייתה מועטה, בימינו אין כל בעיה לאסוף כמויות ענקיות של נתונים. שיטות סטטיסטיות לניתוח נתונים בעידן החדש אכן פותחו, אבל רוב החוקרים עדיין משתמשים בשיטות ישנות (outdated), משתמשים באופן לא נכון במבחנים סטטיסטיים, ונכשלים בביאור התוצאות שקיבלו. האופן שבו משתמשים ב-p-values כדי לקבוע האם תוצאה מחקרית היא "מעניינת" הוא רק דוגמא אחת לשימוש לא נכון בסטטיסטיקה.

אולם, אומר ליק, אי אפשר לתלות את כל האשמה בשפע הנתונים ובהכשרה לא מספיקה בסטטיסטיקה. גם הקריאה להפסיק להשתמש ב-p-values ובמדדים נוספים ככלי לקבלת החלטות אינה מעשית. לעיתים קרובות צריך לקבל החלטות, ורצוי שיהיו כלים והנחיות ברורות כדי לעשות זאת.

יש להבין, מוסיף ואומר ליק, כי ניתוח נתונים אינו רק עניין חישובי/אלגוריתמי. יש בו צד התנהגותי. וההיבט ההתנהגותי של ניתוח הנתונים מושפע לרעה מכך שההכשרה הסטטיסטית הבסיסית לחוקרים מתמקדת בשיטת ישנות שלא מתאימות לבעיות איתן אנו מתמודדים כיום.

אז מה לעשות? ליק מציע להתחיל במחקרים התנהגותיים, שיובילו להבנה כיצד אנשים אוספים, מעבדים ומתחים נתונים, כיצד הם מתקשרים את התוצאות, וכיצד הם צורכים נתונים. לאחר שנבין זאת, נוכל לשפר שיטות ההוראה של הסטטיסטיקה לציבור החוקרים ולציבור הרחב.

אני מסכים עם ליק ברוב הדברים שאמר, אולם אני סבור שאין לנו די זמן לחכות עד שכל המחקרים ההתנהגותיים שהוא מציע ייערכו ותוצאותיהם יובנו ויופנמו. אני לא מתנגד לקיום המחקרים האלה. אבל יש לעשות שינוי מהותי בהוראת הסטטיסטיקה ועכשיו.

לאנדרו גלמן מאוניברסיטת קולומביה ובלייקלי מקשיין מאוניברסיטת נורתווסטרן יש עיצה פשוטה ותקיפה: לנטוש את בדיקות המובהקות. קביעת המובהקות הסטטיסטית כקריטריון לפרסום מחקרים מדעיים מובילה לכך שהמחקרים שמתפרסמים מהווים מדגם לא מייצג של הנתונים. יותר מכך, מזהירים השניים, בדיקת המובהקות נתפסת כדרך להכריע בין שתי אפשרויות: או שקיים אפקט או שלא קיים אפקט. באופן מעשי מתקיימת לדבריהם "מכבסת אי ודאות".

השניים מתייחסים גם לויכוח שמתנה כעת שמתנהל כעת בקרב הקהילה הסטטיסטית, ומתייחסים להצעה של ג'ון יואנידס להדק את מבחני המובהקות ולקבוע את הרף למובהקות על 0.005, וזאת מבלי להזכיר אותו בשמו (וכאן המקום להעיר כי למרבה הצער, עורכי נייצ'ר לא שאלו ככל הנראה את יואנידס לדעתו בעניין). הם, כמובן, מתנגדים לדעתו של יואנידס, אך לא מספקים נימוק משכנע. לחיזוק טענתם הם מביאים כדוגמא מחקר בו התוצאות היו מובהקות אך האפקט אינו משמעותי לדעתם.[2]

השניים מסכמים את דעתם באמירה שאין הם רוצים לאסור את ה-p-value, אלא מציעים שהוא יהווה רק ראיה אחת בין ראיות נוספות כגון ידע מוקדם, תכנון הניסוי, איכות הנתונים וכדומה. הם מסכמים ואומרים כי הגיע העת "להשאיר את האלכימיה של החלטות בינאריות כגון יש אפקט/אין אפקט מאחורינו"

אני מתנגד לדעתם של גלמן ומקשיין מכל וכל. אימוץ הצעתם יוביל מייד להגדלה של שיעור התוצאות החיוביות-שגויות (False positive). אני לא מתנגד להצעה לקחת בחשבון את משמעות האפקט הנצפה, תכנון הניסוי, איכות הנתונים ופרמטרים נוספים. להיפך. אולם ביטול הדרישה לתוצאה מובהקת רק יוביל ליצירת מגוון של קריטריונים שרירותיים אחרים. לדוגמא, במאמר הזה, שיש בו הרבה דוגמאות לסטטיסטיקה רעה, החוקרים מחשבים את גודל האפקט בעזרת מדד Hedges’ g, ומחליטים כי אפקט ייחשב כמשמעותי אם האפקט לפי מדד זה גדול מ-1.3. מדוע 1.3? ההסבר לכך קלוש ולא מספק. בכל מקרה, לקריטריון כזה ולדומיו אין בסיס תיאורטי מוצק, בניגוד לתיאוריה של בדיקת ההשערות, המתבססת על הלמה של ניימן ופירסון.

דויד קולקיוהון מיוניברסיטי קולג' בלונדון מציע כי בנוסף ל-p-value ומדדים נוספים, יפורסם גם הסיכון לתוצאה חיובית שגויה (False positive risk או FPR .(FPR, לדבריו, תמיד גדול בערכו מה-p-value. החישוב של FPR הוא בייסיאני במהותו ומתבסס על ההסתברות האפריורית לאפקט אמיתי. על פי חישוביו, אם ההסתברות האפריורית הנ"ל היא 10%, וה-p-value קרוב ל-0.05, אז ה-FPR הוא 76%. עם זאת, הוא מודה שאין דרך לדעת מה היא ההסתברות האפריורית לאפקט אמיתי. פתרון אפשרי: להניח כי ההסתברות האפריורית היא 0.5 ולחשב את ה-FPR המינימלי עבור ה-p-value הנצפה.

אני בהחלט בעד הרעיון לפרסם את ה-FPR, אולם הבעיה היא שאין שום דרך נכונה לחשב אותו. יש כמה בעיות בהצעה של קולקיוהון. ראשית, הוא שוכח שה-p-value פותח כקריטריון לקביעת מובהקות (יותר קל לבדוק אם הוא קטן או גדול מ-5%, מאשר ללכת לחפש בטבלת התפלגות t את הערך הקריטי). אמנם יש אינטרפרטציה לערכו המספרי של ה-p-value, אך אין להסיק ממנו כי המובהקות היא מושג רציף, כפי שלמעשה עולה מדבריו. לאמירה כי ה-FPR גדול תמיד בערכו מה-p-value אין משמעות, זו השוואת תפוחים לתפוזים. אמירה בעלת משמעות תהיה אם קולקיוהון יוכל להשוות בין ה-False Positive Risk ובין ה-False Positive Rate. ההצעה להניח כי ההסתברות האפריורית לאפקט אמיתי היא 50% תמוהה בעיני. זהו פתרון של "חצי קפה חצי תה", ולדעתי ההנחה לא מציאותית. אני סבור כי חוקרים לא ישקיעו את משאביהם במחקר אם הם לא סבורים בביטחון גבוה כי המחקר יוביל לתוצאה משמעותית, זאת מכיוון שכל הצעת מחקר[3] , (רשמית או לא)  לוקחת בחשבון את הידע הקודם שנצבר אודות נושא המחקר, ואת התיאוריה המצדיקה את קיום המחקר הבא. לכן, ההסתברות האפריורית לאפקט אמיתי גבוהה בהרבה מ-50%, ולדעתי היא בדרך כלל לפחות 80%, אם לא יותר.

למישל ב. נויטן מאוניברסיטת טילבורג בהולנד יש הצעה פשוטה: לפרסם את התכניות לניתוח סטטיסטי (analysis plans). גם שאלות מחקריות פשוטות לכאורה (כגון האם תרופה א עדיפה על תרופה ב) יכולות להוביל לשפע אפשרויות של ניתוחים סטטיסטיים. בתוך השפע הזה, אומרת נויטן, סביר להניח שיש שיטת ניתוח שתוביל לתוצאה מובהקת[4] תכנון מראש ופתיחות, אומרת נויטן, יוכלו לעזור לחוקרים להמנע מתוצאות חיוביות שגויות. נויטן מציע כי החוקרים יכינו מראש תכניות ניתוח סטטיסטי, ואף יפרסמו אותן. השלב הבא יהיה פירסום של כל הנתונים שנאספו, של התוצאות, ואף תכניות מחשב (למשל קוד R). כך כל אחד יוכל לשפוט בעצמו את איכות הניתוח הסטטיסטי, ואת התוצאות שהתקבלו.

בעולם מושלם זו הצעה נהדרת, לדעתי. אני מסכים לחלוטין עם הקביעה שיש לתכנן מראש את שיטות הניתוח הסטטיסטי, וגם עם ההצעה לפרסם גם את הנתונים המחקריים לא רק את התוצאות. למעשה, השיטה הזו היא הסטנדרט בתעשייה הפרמצבטית. כאשר נערך ניסוי קליני, השיטות הסטטיסטיות לפיהן ינותחו הנתונים שבניסוי מצויינות כבר בפרוטוקול הניסוי, ונקבעות לפני שהניסוי בכלל התחיל. במקרים רבים השיטות הסטטיסטיות מוגשות לעיון ולאישור של הרשות הרגולטורית (בדרך כלל ה-FDA). ובסיום הניסוי, כל הנתונים שנאספו מוגשים לרשות הרגולטורית, שם לרוב מנתחים אותם באופן עצמאי. עם זאת, אני יש לי ספק לגבי רמת ההיענות להצעות של נויטן בקרב ציבור החוקרים.

סטיבן נ. גודמן מאוניברסיטת סטנפורד אומר כי יש "לשנות מבפנים". הבעיה היא לא בסטטיסטיקה, אומר גודמן, אלא באופן היישום שלה במחקר המדעי[5] . הציפיות ממרצים לסטטיסטיקה הן כי הם ילמדו את הגישות הסטנדרטיות המקובלות על כתבי עת ועל עמיתים, ואיש לא מתעניין בבעיות האמיתיות, כמו למשל בהבדלים שבין מובהקות למשמעות. רוב החוקרים מעוניינים רק בידע המינימלי שיאפשר להם להפעיל את התוכנות הסטטיסטיות, כך שיוכלו לפרסם מאמרים במהירות.

גודמן מביא לדוגמא מחקר על חיזוי נטיה להתאבדות שפורסם בחודש האחרון. גודל המדגם היה 17 איש בכל קבוצה. ההצדקה למספר הזה? כותבי המאמר הסבירו כי במאמר אחר, שעסק באנשים על הקשת האוטיסטית, השתמשו באותו גודל מדגם. התרבות המחקרית גוברת על הכללים. ובכל ענף או תת-ענף מדעי יש תרבות אחרת.

מכיוון שכך, אין פתרונות קסם. מי שצריכים להיענות לאתגרים האלה הם קרנות המחקר, כתבי העת, ובעיקר מובילי הדיעה בכל ענף מדעי. ברגע שיתחיל תהליך כזה הוא יחזק את עצמו. מדענים ישתמשו בשיטות סטטיסטיות שבהן משתמשים במאמרים אחרים שכבר התפרסמו. שופטי המאמרים (peer reviewers) ידרשו מהכותבים מה ששופטים אחרים דרשו מהם.

אנחנו בשלים לרפורמה, אומר גודמן. משבר השחזוריות ממחיש לנו את העלות שנובעת מחוסר תשומת לב לתכנון ולניתוחים סטטיסטיים נאותים. חוקרים צעירים משוועים לשינוי. על מובילי הדיעה להיענות להם. לסטטיסטיקאים יש תפקיד חשוב בתהליך, אך הוא משני. השינוי צריך לבוא מבפנים – מתוך הקהילות המדעיות.

ואני מסכים עם כל מילה של גודמן.


הערות
  1. למעשה שישה []
  2. כן, יש הרבה מחקרים כאלה []
  3. כמעט []
  4. למעשה נויטן אומרת במילים יפות כי "אם תענה את הנתונים מספיק זמן הם יודו לבסוף" []
  5. לא מפתיע, נכון? []

האם כל תוצאה מובהקת היא משמעותית (ולהיפך)?

בכל מחקר כמותי בו נערך ניתוח סטטיסטי של הנתונים, מגיע הרגע הנכסף בו מחושב ה-P-value הנכסף. האם הוא קטן מ-0.05? שואל החוקר את עצמו בהתרגשות. אם כן – הידד! אפשר לפרסם את המאמר, או לרוץ ל-FDA להגיש לאישור תרופה חדשה, או להכניס מוצר חדש ל-production.

אבל, לפני שרצים, יש שאלה נוספת שצריך לשאול: האם התוצאה משמעותית?

נניח שערכנו ניסוי בו השתתפו 1000 איש, מחציתם נשים ומחציתם גברים. ערכנו לכל אחד ואחת מנבדקים מבחן IQ. התברר כי ה-IQ הממוצע של הנשים הוא 100, בעוד שה-IQ הממוצע של הגברים הוא 99. התוצאה מובהקת, עם פי-ואליו של 0.0016. [1] . לפני שתרוצו לפרסם מאמר סנסציוני בכתב העת המדעי החביב עליכם[2] ראוי שתעצרו ותשאלו את עצמכם: אז מה? ההבדל הוא כל כך קטן, האם יש לו משמעות? אם אתם חושבים שלהבדל יש משמעות, עליכם לנמק זאת.

בואו ניקח דוגמה קצת יותר מציאותית. מדען בילה ימים ולילות במעבדה, ופיתח תרופה חדשה לטיפול בטרשת נפוצה  התקפית[3]. התרופה מקטינה את תדירות ההתקפים ב-10%. הוא רושם פטנט, ומנסה למכור את התרופה לחברת תרופות. הסטטיסטיקאי של חברת התרופות יכול בקלות לתכנן ניסוי קליני, שיזהה את האפקט של התרופה בעוצמה של 90%[4] או אפילו 95% או 99%. האם החברה תקנה את התרופה ותפתח אותה? לא ולא. יש כבר תרופות לטיפול בטרשת נפוצה התקפית שמקטינות את תדירות ההתקפים ב-30, 40, ואפילו ב-50%. במצב זה, לתרופה עם אפקט של 10% אין משמעות, לא קלינית ולא מסחרית.

דוגמה שלישית: למשפחה נולד בשעה טובה בן בכור. האם הסיכוי כי הילד השני במשפחה זו יהיה (אם וכאשר יוולד) גם הוא בן, גדל? הנה מאמר שטוען שייתכן שכן. עיקרי הדברים: בדנמרק נאספו נתונים לגבי סדר הלידה ויחס המינים של כ-1.4 מיליון ילדים, בכ-700 אלף משפחות, במשך תקופה של כ-35 שנה. 51.2% מהבכורים היו בנים. בקרב המשפחות שבהן היו 3 בנים, והיה הבן ילד רביעי, 52.4% מקרב הילדים הרביעיים היו בנים. ההבדל מובהק, כמובן (p=0.009). בואו נתעלם מ-cherry picking אפשרי[5]. כמה משפחות בנות 4 ילדים יש בדנמרק? מחיפוש ראשוני שערכתי עולה כי מדובר בפחות מ-10%מהמשפחות. בואו נניח שזה 10%. אז עכשיו אנחנו מדברים על 70 אלף משפחות בנות 4 ילדים. ההסתברות ששלושת הילדים הראשונים הם בנים היא בעךך 0.013. נעגל את זה ל-0.02. זה מותיר לנו 1400 משפחות בנות ארבעה ילדים שבהן שלושת הילדים הראשונים הם בנים. 51.2% מקרב הילדים הצעירים היו "צריכים" להיות בנים, בפועל היו 52.4% – הפרש של 1.2%.  1.2% מ-1400 זה , 16.8, בואו נעגל ל-17, וזאת בתקופת זמן של 35 שנה, כלומר כל שנה נולדו 0.48 יותר בנים ממה שהיה "צריך" להיות. מי חושב שזה משמעותי?

דוגמה רביעית: חברת אינטרנט עושה AB testing, בה היא בודקת את השפעתו של פיצ'ר חדש במוצר שלה על ההסתברות שלקוח המשתמש במוצר יקנה את גירסת ה-PRO, בתשלום. מסתבר כי אחוז המשלמים יגדל מ-24.6% ל-24.8%, והתוצאה מובהקת [6]. האם זה משמעותי?[7] ובכן, אם נניח שהתשלום לגירסת הפרו הוא 5$ ויש 100000 משתמשים, הרי שמדובר בתוספת הכנסות של 100$. שווה? אם לעומת זאת יש מיליון משתמשים והתשלום הוא 50$, מדובר בתוספת הכנסה של 10000 דולר. 30 מיליון משתמשים ותשלום של 500$ יביאו את תוספת ההכנסות ל-3 מיליון דולר, וזה בהחלט משמעותי. תגידו: אם כבר השקענו את הכסף בפיתוח, אז ניקח את מה שיצא. יש בזה משהו. אבל אני מקווה שעושים קודם כל הערכה של עלויות הפיתוח ושל ההכנסות הצפויות מהפיצ'ר החדש.[8]

נחזור לרגע לגודל המדגם הדרוש, כ-728 אלף נבדקים. אולי ענקית כמו גוגל יכולה להרשות לעצמה מדגם כזה. אני מניח שחברות קטנות יותר צריכות להסתפק בגודל מדגם קטן יותר. הן עומדות לכן בפני הברירה הבאה: אפשרות אחת היא לערוך מבחן סטטיסטי ואז רוב הסיכויים הם שאפקט כזה (ואפילו אפקט גדול יותר) לא יזוהה כמובהק. הן כמובן יכולות לשחק בסוגי הטעות, ולאפשר טעות מסוג ראשון (false positive) גבוהה יותר כדי להשיג עוצמה גבוהה יותר. אפשרות אחרת היא לוותר מראש על בדיקת המובהקות, ולסמוך ידיהם על האפקט הנומינלי. יש לכך תומכים, הבולט בהם הוא הסטטיסטיקאי אנדרו גלמן מאוניברסיטת קולומביה.[9]

מסקנות: לפני שרצים לחקור, צריך להעריך מראש איזה תוצאה תיחשב למשמעותית, ולחשוב מה דרוש לעשות כדי לבדוק האם התוצאה אכן מתקיימת. יש להעריך מראש מה ההסתברות לכל אחת משתי הטעויות האפשריות, שכן ההסתברויות האלה קיימות וחיוביות גם אם לא משתמשים במבחנים סטטיסטיים.


הערות
  1. בהסטיית התקן של כל קבוצה היא 5.  תבדקו בעצמכם  []
  2. למשל Nature או סיינטיפיק טמקא []
  3.  Relapsing Remitting Multiple Sclerosis  []
  4. כלומר ההסתברות לתוצאת False Negative  תהיה 10% []
  5. מה קרה במשפחות בנות שני ילדים? ומשפחות בנות 3 ילדים? למה זה לא מדווח? אם זה לא באבסטרקט של המאמר, כנראה שזה לא היה מובהק []
  6. כדי לזהות הבדל כזה כמובהק, יש צורך בגודל מדגם של כ-728000 נבדקים, אבל נעזוב את זה כרגע []
  7. נתקלתי בחברה שמעדכנת גירסת תכנה כאשר ביצועי הגירסה החדשה גבוהים נומינלית ב-0.2% מביצועי הגירסה הישנה, על סמך מדגם בגודל 1000, כמובן בלי בדיקת מובהקות []
  8. אפשר למשל לערוך סקר משתמשים, או לכנס focus group []
  9. אני מתכוון לסקור את הגישה של גלמן ואת הגישה הנגדית, שמוביל ג'ון יואנידיס ברשימה קרובה []

מבט להיסטוריה של הניסויים הקליניים

רשימה זו נכתבה בעקבות המפגש האחרון של קבוצת הדיון בהיסטוריה של הסטטיסטיקה שעסקה בניסויים קליניים. אציין כי אני הוא שהעלה את הנושא לדיון, והייתי אחראי לאיסוף והפצת חומר הקריאה למפגש. חלק מהחומרים שנקראו כבר סקרתי בעבר בהרצאה "מהלימון ועד הקופקסון" שנתתי במסגרת "ספקנים בפאב" (ואפשר לצפות בהקלטתה על ידי לחיצה על הקישור). רשימה זו כוללת סקירה היסטורית קצרה של חמשת הניסויים הקליניים שנדונו.לאחר הסקירה ההיסטורית שנתתי נערך דיון מעניין שעסק בהיסטוריה ובפילוסופיה של המדע, ובהשפעות של בייקון ומיל על התפתחות השיטה המדעית והשתקפותם בתהליך התפתחות הניסויים הקליניים. למרבה הצער, לא הצלחתי לארגן את ההערות שרשמתי לעצמי בזמן הדיון לטקסט קוהרנטי שאני יכול לפרסם כאן.

הניסוי הראשון הוא ניסוי הצפדינה של ג'יימס לינד, שנחשב בעיני רבים לנקודת ההתחלה של הרפואה המודרנית. זהו הניסוי הקליני המבוקר המתועד הראשון[1]. לינד ערך ניסוי לבדיקת טיפולים אפשריים למחלת הצפדינה, גורם המוות העיקרי בקרב מלחים עד סוף המאה ה-18.[2]. בניסוי שנערך בהפלגה קצרה יחסית בים התיכון בשנת 1749, חילק לינד את 12 המלחים שחלו בעת ההפלגה לשש קבוצות שוות. כולם שוכנו באותו מקום בספינה וקיבלו תפריט זהה, שנבדל רק בטיפול הניסיוני שניתן להם. הטיפולים היו: שתיית ליטר סיידר ביום, שתיית 25 טיפות חומצה גופרתית 3 פעמים ביום, שתיית שתי כפות חומץ 3 פעמים ביום, שתיית חצי ליטר מי ים ביום, משחה שהוכנה משום, חרדל, צנון ושרף, או  אכילת שני תפוזים ולימון ביום. המטופלים בפירות הדר החלימו כליל, ובמצבם של המטופלים בסיידר חל שיפור קל. ההשוואה בין הקבוצות אפשרה ללינד להעריך את יעילותו של כל טיפול ביחס לאלטרנטיבות הטיפוליות האחרות.

ציון הדרך הבא הוא סדרת הניסויים של וויליאם ווטסון לבחינת טיפולים להפחתת הסיכון במחלת האבעבועות השחורות. כבר במאה ה-11 היה ידוע כי מי שחלה במחלה זו ושרד לא יחלה בה שוב. עקב כך התפתחה פרקטיקה של מעין חיסון למחלה על ידי "הדבקה קלה" של אנשים בריאים במחלה. עם זאת, בין הרופאים היו מחלוקות בדבר אופן ההדבקה האופטימלי ובדבר טיפול נלווה להדבקה. ווטסון ערך סדרה של שלושה ניסויים קליניים בבית החולים לילדים בלונדון בשנת 1767[3]. המתודולוגיה שלו הייתה דומה לזו של לינד: הילדים המשתתפים בכל ניסוי חולקו לקבוצות, ובכל קבוצה בוצעה בנבדקים "הדבקה מבוקרת" על ידי שימוש בשלפוחית משלב מוקדם של המחלה. לכל קבוצה ניתן טיפול נלווה אחר שהיה אמור להפחית את הסיכון בהדבקה. בתכנון הניסויים של ווטסון יש מספר חידושים לעומת הניסוי של לינד. ווטסון דאג כי בכל קבוצת טיפול יהיה מספר שווה של בנים ובנות, כדי למנוע הטיה אפשרית למקרה שהתגובה לטיפול שונה בין המינים. כמו כן, קבוצה אחת בכל ניסוי לא קיבלה טיפול נלווה אלא שימשה כקבוצת ביקורת. והחשוב מכל: ווטסון היה הראשון שהנהיג מדידה כמותית של התוצאות. המדד להצלחת הטיפול היה מספר האבעבועות שהופיעו בכל ילד שהשתתף בניסוי. הוא אף ערך ניתוח סטטיסטי בסיסי ופרסם את ממוצע מספר השלפוחיות לילד בכל קבוצה. מסקנתו של ווטסון הייתה כי הטיפולים המקובלים להפחתת הסיכון, שכללו כספית, צמחים שונים ומיני משלשלים, לא הביאו להקלה בחומרת ההדבקה בהשוואה למודבקים שלא קיבלו טיפול נלווה.

נקודת הציון המשמעותית הבאה היא ניסוי החלב במחוז לאנרקשיר בסקוטלנד בראשית המאה ה-20[4]. מטרת הניסויים היה לבדוק האם הזנה יומית בחלב משפרת את הגדילה של ילדים (וילדות) בהשוואה לילדים שלא שתו חלב על בסיס יומי, וכן לבדוק האם יש הבדל בשיעורי הגדילה בין ילדים שהוזנו בחלב טרי ובין אלה שהוזנו בחלב מפוסטר. הניסוי, שנערך ב-1930 היה רחב היקף וכלל בסך הכל כעשרים אלף ילדים בגילאי 6-12, שלמדו ב-67 בתי ספר. כ-5000 הוזנו בחלב טרי, כ-5000 בחלב מפוסטר, וכ-10000 ילדים שויכו לקבוצת הביקורת. גובהם ומשקלם של הילדים נמדדו בתחילת הניסוי (פברואר 1930) ובסופו (יוני 1930). המסקנה הייתה כי תזונה יומית של חלב משפרת את גדילת הילדים, וכי אין הבדל משמעותי בין חלב טרי לחלב מפוסטר. כמו כן הסיקו החוקרים כי אין השפעה לגיל הילדים על האפקט של קצב הגדילה.

ניסוי זה נכנס לרשימה שלי דוקא בשל הביקורת שהוטחה בו. עם המבקרים נמנו פישר ובארטלט, אולם את הביקורת המקיפה ביותר הטיח "סטודנט", הלא הוא ויליאם סילי גוסט. במאמר שפרסם בכתב העת ביומטריקה[5] קבע למעשה סטודנט כללים שקיומם הכרחי להבטחת התקפות של ניסוי קליני:

  • סטודנט מעיר כי בכל בית ספר בניסוי הוזנו הילדים המטופלים בחלב טרי או בחלב מפוסטר, אך לא הייתה נציגות לשתי הקבוצות יחד באף בית ספר. עקב כך, אין אפשרות להשוות באופן ישיר בין חלב טרי ומפוסטר, עקב הבדלים בין בתי הספר השונים.
  • שיוך התלמידים בניסוי לקבוצת הטיפול (הזנה בחלב או ביקורת) נקבע על ידי המורים בכל כיתה ולא באופן רנדומלי. עקב כך, נוצר מצב בו התלמידים בקבוצת הביקורת היו גדולים יותר במימדי גופם לעומת התלמידים בקבוצות הטיפול.
  • המדידות נערכו בפברואר ויוני. בגדי חורף הינם כבדים יותר מבגדי אביב/קיץ, והבדל המשקל בין הבגדים קיזז את ההבדלים במשקל האמיתי. החוקרים הניחו כי ההבדל במשקל הבגדים יהיה דומה בין הקבוצות, אולם סטודנט טען כי יש ההטיה בחלוקת התלמידים לקבוצות מושפעת ממצבם הכלכלי – תלמידים ממשפחות אמידות הוכללו בדרך כלל בקבוצות הביקורת – הביאה לכך שמשקל בגדי החורף של קבוצת הביקורת יהיה גבוה יותר.

סטודנט הסיק לכן כי התוצאות שהתקבלו לא תומכות בטענה כי אין הבדל בין תזונה בחלב טרי ותזונה בחלב מפוסטר, וגם כי אי אפשר להסיק שאין קשר בין הגיל ובין השינוי בקצב הגדילה. הוא מזכיר גם את הניתוח של פישר וברטלט[6] המראה כי לחלב טרי יתרון על חלב מפוסטר באשר לקצב הגדילה.

סטודנט הביא גם מספר המלצות, ובהן הצעה לערוך את הניסוי באוכלוסיה של תאומים, כאשר אחד התאומים יוזן בחלב והשני ישמש כביקורת (או שאחד מהם יוזן בחלב טרי והשני בחלב מפוסטר לצורך השוואה בין שני סוגי החלב). אני סבור כי תכנון כזה לא מקובל בימינו מבחינה אתית, המלצה יותר מעשית היא לנתח מחדש את הנתונים שנאספו כדי לנסות להתגבר על ההטיה שנוצרה בהקצאה הלא רנדומלית לקבוצות טיפול וביקורת. ההמלצה האוטינטיבית שלו היא לערוך מחדש את הניסוי, תוך כדי הקפדה על רנדומיזציה, לקיחה בחשבון של הטיה עקב משקל הבגדים שלובש כל תלמיד, ותכנון הניסוי כך שבכל בית ספר יהיה ייצוג לשלוש קבוצות הטיפול.

ההמלצה העיקרית של סטודנט, להקפיד על הקצאה רנדומלית של המטופלים לקבוצות, לא התקבלה מייד, שכן רעיון זה נתפש בעיני חלק מהקהילה המדעית כ-"לא אתי". יש לציין כי עקרון הרנדומיזציה רק הוצג על ידי פישר ב-1923, ועדיין לא  הייתה הכרה מספקת בחשיבותו. הניסוי הקליני הראשון עם הקצאה רנדומלית לקבוצת טיפול ולקבוצת ביקורת נערך רק ב-1947, והוא הרביעי ברשימה שלי. מדובר בניסוי לבדיקת היעילות של אנטיביוטיקה מסוג סטרפטומיצין לטיפול בדלקת ריאות[7]. עקב המחסור באנטיביוטיקה, לא הייתה ברירה אלא להחליט על ידי ביצוע "הגרלה" בין החולים מי יקבל טיפול ומי לא, וכך התגבר תכנון הניסוי על המחסום האתי. עם זאת, הניסוי לא היה כפול סמיות (Double Blind), ולא נעשה שימוש בפלסבו כטיפול דמה לקבוצת הביקורת,[8] וזאת למרות שכבר היה תקדים לקיום ניסוי כזה: הניסוי הקליני הראשון שנערך בשיטת הסמיות הכפולה נערך כבר בשנת 1943 לבדיקת היעילות של פניצילין כטיפול להצטננות. החולים המטופלים לא ידעו האם הם שויכו לקבוצת טיפול ואכן טופלו בפניצילין, או שמא שויכו לקבוצת הביקורת וטופלו בפלסבו. גם הרופאים שטיפלו בחולים לא ידעו מהו הטיפול שקיבל כל חולה. תכנון כזה מונע הטיה שעלולה לנבוע מדיעה קדומה של הרופאים לגבי יעילות הטיפול, ולמעשה מכריח אותם לתת חוות דעת אובייקטיבית לגבי המצב הרפואי של החולה המטופל. עם זאת, בניסוי זה לא נערכה הקצאה רנדומלית של החולים לטיפול או ביקורת.

הויכוח בדבר חשיבות העקרונות שהתוו סטודנט ופישר הסתיים סופית בניסוי לבדיקת יעילות החיסון של סאלק נגד נגיף הפוליו, שנערך ב-1954[9]. למעשה נערכו שני ניסויים. הניסוי שבראשו עמד הסטטיסטיקאי פול מאייר היה ניסוי כפול סמיות בהקצאה רנדומלית, והוא הראה ירידה של 70% במקרי השיתוק עקב פוליו בקבוצת הטיפול לעומת קבוצת הביקורת. גודל המדגם הגדול (כ-400 אלף ילדים בגילאי 6-8) סייע לביסוס התקפות החיצונית של התוצאות. במקביל נערך ניסוי נוסף, בו הקצאת הטיפול (חיסון או פלסבו) לא הייתה רנדומלית. 725,000 תלמידי כיתות א ו-ג שהשתתפו בניסוי שימשו כקבוצת ביקורת, ואליהם צורפו גם 125,000 ילדים מכיתות ב' שהוריהם סירבו לחיסון. נתוניהם הושוו עם הנתונים של 225,000 תלמידי כיתות ב' שהוריהם הסכימו לחסנם. סה"כ השתתפו בניסוי מעל מליון תלמידים, כמעט פי 3 מגודל הניסוי של מאייר. ניסוי זה הראה ירידה של 44% בלבד בשיעור מקרי השיתוק עקב פוליו, ואולם התברר כי האפקט הוקטן עקב הטיה הקשורה למצב הסוציו-אקונומי של קבוצת הטיפול. ילדי קבוצת הטיפול הגיעה ממשפחות אמידות יותר, ובשכבת אוכלוסיה זו שיעור מקרי השיתוק עקב פוליו היה גבוה יותר מכיוון ששיעור הילדים המחוסנים טבעית (חלו בפוליו באופן קל והחלימו ללא תיעוד) הינו נמוך יותר עקב רמת הסניטציה הגבוהה יותר בסביבתם. המקרה של ניסוי הפוליו הוכיח כי גודל המדגם אינו בהכרח הפרמטר החשוב ביותר בניסוי הקליני[10], וכי רק הקצאה רנדומלית וסמיות כפולה מבטיחים את התקפות הפנימית של הניסוי.


הערות
  1. 1. אם מתעלמים מפרק א' של ספר דניאל []
  2. 2. 2 מתוך כל 3 מלחים לקו במחלה ומתו. במלחמת 7 השנים בין אנגליה לצרפת, 1512 מלחים אנגלים נהרגו בקרבות, כ-100,000 מתו מצפדינה. []
  3. 3. Boylston, A. W. (2002). Clinical investigation of smallpox in 1767.New England Journal of Medicine, 346(17), 1326-1328. []
  4. 4.  Leighton G, McKinlay P (1930). Milk consumption and the growth of school-children. Department of Health forScotland, Edinburgh and London: HM Stationery Office. []
  5. 5. Student (1931). The Lanarkshire Milk Experiment. Biometrika 23:398-406. []
  6. 6. Fisher RA, Bartlett S (1931). Pasteurised and raw milk. Nature 127:591-592.  []
  7. 7. Medical Research Council Streptomycin in Tuberculosis Trials Committee. (1948). Streptomycin treatment for pulmonary tuberculosis. BMJ2, 769-82. []
  8. 8. Hart, P. D. A. (1999). A change in scientific approach: from alternation to randomised allocation in clinical trials in the 1940s.BMJ, 319(7209), 572-573. []
  9. 9. Meier, Paul. "Polio trial: an early efficient clinical trial." Statistics in medicine 9.1‐2 (1990): 13-16.  []
  10. 10. ראו גם את הרשימה בחירות 1936 – המנצח שלא היה, שעסקה במקרה מפורסם אחר בו מדגם גדול לא הצליח לחזות את המנצח בבחירות לנשיאות ארצות הברית עקב הטיה בתכנונו []

כמה הערות על זרעים מהונדסים גנטית

זרעים מהונדסים גנטית מעוררים רגשות עזים בקרב אנשים מסויימים. מתברר שגם אצלי.

לפני כשבוע הופיעה באתר "המקום הכי חם בגיהנום" טור דיעה תחת הכותרת "זרע הפורענות". הכותב, יוסי דורפמן, יוצא נגד הסכם שנחתם לאחרונה בין משרד הכלכלה ותאגיד החקלאות המהונדסת גנטית וחומרי ההדברה מונסנטו. אתר "עבודה שחורה" חזר ופרסם חלק מטורו של דורפמן, ושם הגבתי ביום חמישי האחרון במלים הבאות:

"חשוב מאוד להפריד בין המהות של זרעים מהונדסים גנטית, שצופנים בתוכם תועלת רבה לאנושות, ובין ההתנהלות העסקית של תאגיד מונסנטו, שהיא אכן בעייתית.
הדרך הראויה להתמודדות היא לא להתעלם מההתקדמות המדעית/טכנולוגית שמאפשרת יבולים גדולים יותר ואיכותיים יותר, אלא להשית רגולציה נכונה על התאגיד."

אני חושב שהסברים נוספים מיותרים. זרעים מהונדסים גנטית מניבים יבולים גדולים יותר, ומתוכננים לעמוד בפני מזיקים שונים, שצמחים "רגילים" אינם עמידים אליהם. הם משקפים את היכולות המדעיות והטכנולוגיות אליהם הגיעה האנושות בשנים האחרונות.

אני גם רוצה לחזור ולהדגיש כי ההתנהלות העסקית של תאגיד מונסנטו (בעיקר בנושא תביעות על הפרות פטנטים) היא בעייתית גם בעיני. עם התנהלות זו יש להתמודד באמצעות רגולציה, חקיקה, וגם בעזרת שופטים שיעיפו לכל הרוחות תביעות לא מוצדקות[1] עם הוצאות משפט כבדות. אני בהחלט גם מתנגד לחקיקה ייעודית לטובת תאגידים בכלל ומונסנטו בפרט, לקשרי הון שלטון, לשוחד, ולפעולות פליליות אחרות.

ולאחר כל ההסתייגויות הנ"ל, אני רוצה להפנות את תשומת לב קוראיי לכמה אמירות בעייתיות של דורפמן.

דורפמן כותב כי מונסנטו מחזיקה ב-90% משוק הזרעים המהונדסים גנטית, וזה נכון. הסיבה לכך: מונסנטו מחזיקה ברוב הפטנטים בתחום, והפטנטים עדיין בתוקף. עם זאת, יש לשים לב כי החל ב-2015 יחלו פטנטים רבים לפקוע, וצפויה תחרות גדולה מצד יצרנים גנריים, בדיוק כפי שקורה בתעשיות אחרות, כגון תרופות וחומרי הדברה. לכן צפוי כרסום במונופול. עד אז, יש לזכור כי מונופולים מעצם הגדרתם נתונים לרגולציה (בישראל, על ידי הממונה על ההגבלים העסקיים). אני מקווה שהממונה לא יגלה אזלת יד בנושא זה.

בעניין שימוש חוזר בזרעים: למיטב ידיעתי, הזרעים הצמחים המהונדסים גנטית כלל אינם מניבים זרעים. הסיבה לכך נעוצה בטבע. אם יניבו צמחים אלה זרעים, יופיעו באופן טבעי מוטציות שונות שעשויות/עלולות לשנות את התכונות של הצמחים בדור הבא. אם רוצים להבטיח תכונות מסויימות של זרעים, המוטבעות בהם באופן גנטי, הדרך היחידה להבטיח זאת היא על ידי הנדוס. האם זה הוגן? אפשר להתווכח. אפשר אולי להנדס זרעים כך שתתאפשר הצמחת מספר נוסף של דורות (שנים או שלושה) באופן שההסתברות לסחף גנטי משמעותי היא קטנה דיה. אני מניח שזה גם יתבטא במחיר הזרעים.

עד עכשיו דיברתי על אי דיוקים ועל אי הבנה. עכשיו מגיעים להטעיות.

דורפמן כותב: "מחיר של שקית זרעי תירס בשנות ה-80 בארצות הברית היה כ-70 דולר, ואילו היום עולה שקית זרעי תירס יותר מ-160 דולר". נו באמת. זה הטריק הכי ישן בספר. יכול להיות שדורפמן לא יודע כי כח הקניה של הדולר השתנה מעט מאז שנות ה-80 של המאה העשרים ועד היום? אני מפנה אתכם למחשבון האינפלציה באתר משרד העבודה של ארצות הברית. 70 דולר של שנת 1980 שווים ל-201 דולר של שנת 2014, מה שמשקף ירידה ריאלית של 20% במחיר שקית הזרעים. כן, אני קצת דמגוגי כאן. אולי שנות ה-80 של דורפמן חלו בשנת 1989? 70 דולר של 1989 שווים לכ-134 דולר, וזוהי אכן עליית מחיר ריאלית של 20%[2]. אוקיי, אבל בכל זאת מדובר במוצר שיניב יבול גדול יותר ועשוי להביא רווח גדול יותר לחקלאי.

דורפמן ממשיך, וזועק כי הזרעים המהונדסים גנטית העלו את שיעור ההתאבדויות של איכרים בהודו[3], בלי לבדוק את העובדות, כמובן. כתבתי על כך בהרחבה לא מזמן. הנתונים מראים דווקא את ההיפך: ניתן לקשר את הנהגת השימוש בגידולים מהונדסים גנטית לירידה בשיעורי ההתאבדות בקרב איכרים בהודו (שגם הם נמוכים יחסית ללא-איכרים בהודו בפרט, ולמדינות העולם בכלל). אך דורפמן לא מתעניין, כנראה, בעובדות.

מעניין לציין שקיבלתי תגובה לתגובה שלי ב-"עבודה שחורה"[4]:

"אחשלי אין משהו מתקדם יותר מהטבע וגם ידוע שאתה מקבל כסף על הפוסט הזה ,
וכל המהות של החברה זה לעשות כסף ממה שהטבע עושה בחינם יא גנבים קפיטליסטים )) ספר להם שהזרעים שלכם צריכים ריסוס מתמיד מאסיבי"

כן, אין משהו יותר מתקדם מהטבע. רעידות אדמה, בצורת, נגיפי אבעבועות שחורות ופוליו, הכל טבעי. שיהיה לך לבריאות.


הערות
  1. 1. למשל אם היבול נוצר כתוצאה מהאבקה טבעית באמצעות רוח או ציפורים, שפיזרו את הזרעים בשטח, והגיעו מחקלאי שכן []
  2. 2. מ-70 דולר ב-1989 ל-160 היום []
  3. 3. הוא נותן לינק לכתבה בהארץ, ותוך כדי כך מעוות את הדברים שנאמרו בכתבה []
  4. 4. המגיב הגיבור לא מספיק אמיץ כדי להזדהות בשמו, והוא יודע למה []