אני מקווה שלחיזבאללה אין אף לא טנק אחד. אבל השאלה “כמה טנקים יש לאויב?” נשאלה בכובד ראש במלחמת העולם השניה, והאויב במקרה הזה הייתה גרמניה הנאצית.
הטנקים ששימשו את גרמניה במלחמה מדגם “פאנצר” היו נחותים טכנולוגית לעומת הטנקים של בעלות הברית, אבל בתחילת 1943 המצב השתנה. הגרמנים הכניסו לשימוש דגם חדיש ומשופר, שכונה “פאנצר V”. דגם משופר זה העמיד את בנות הברית בפני שאלות רבות, ובינהן גם השאלה הפשוטה: “כמה טנקים כאלה יש לגרמניה?”. שאלה לא פחות חשובה הייתה מהו קצב הייצור של הטנקים האלה. זרועות המודיעין הבריטית והאמריקנית ניסו לענות על שאלות אלה באמצעות תצפיות אל אתרי הייצור וספירת טנקים בשדה הקרב, אך ההערכות שהתקבלו היו סותרות ובלתי מהימנות.
אבל כאשר הצליחו בעלות הברית לקחת שלל 5 טנקים, נפל בידם מידע רב ערך שאפשר להם לענות על השאלות האלה. הבריטים גילו כי על כל טנק הופיע מספר. מה משמעות המספר הזה? בהכירם את הגרמנים, אנשים מסודרים, הניחו הבריטים האלה כי אלה מספרים סידוריים שניתנו לטנקים על פי סדר ייצורם. הטנק הראשון שיוצר זכה למספר 1, השני למספר 2, וכן הלאה. אם זהו המצב, הרי שהמפתח לפתרון הוא סטטיסטי.
אסביר את העניין באמצעות דוגמא (המספרים לא אמיתיים). נניח שחמשת הטנקים שנתפסו נשאו את המספרים הסידוריים הבאים: 53, 13, 84, 109, ו-26. ברור כמובן שיוצרו לפחות 109 טנקים. אבל אפשר להסיק יותר מכך.
חמשת הטנקים שנתפסו הם מדגם (מייצג, יש לקוות) של כל הטנקים שייוצרו. לכל טנק יש מפר סידורי, והמספרים הסידוריים של הטנקים הם: N,…,1,2 כאשר N הוא מספר הטנקים שיוצרו עד כה. כיצד נאמוד את N? יש מספר דרכים לעשות זאת. אני מציע לכם הקוראים לחשוב קצת ולנסות לאמוד את N בעצמכם. אציג כאן שלוש דרכים אפשריות לאמוד את N.
הדרך הראשונה מבוססת על שימוש בממוצע. אם יוצרו N טנקים, הרי שלטנק הממוצע יש מספר סידורי השווה ל-2/(1+N). לעומת זאת, המספר הסידורי הממוצע של חמשת הטנקים שנתפסו הוא 57. אם נשווה בין הממוצע התיאורטי ובין ממוצע המדגם נקבל:
על פי שיטה זו, האמדן למספר הטנקים שיוצרו הוא 115.
דרך אפשרית אחרת היא להשתמש במרווחים שבין מהספרים. הסידוריים. זכרו כי אנו יודעים את מספרו של טנק נוסף – הטנק הראשון שיוצר שמספרו 1. נרשום את המספרים הסידוריים לפי הסדר:
המרווחים שבין המספרים הם:
(12 הוא המרווח בין 1 ל-13, 13 הוא המרווח בין 13 ל-26, וכולי). את המרווח האחרון, N-109, אפשר לאמוד באמצעות ממוצע חמשת המרווחים הראשונים (25, 31, 27, 13, 12) השווה ל-21.6 ולקבל כי האמדן ל-N יהיה 109+21.6, או 131 (לאחר עיגול).
ניתן לראות את החישוב הזה גם באופן הבא: בין שבעת המספרים הסידוריים (5 מספרי הטנקים שנתפסו, 1 ו-N) יש ששה מרווחים. לכן המרווח בין 1 ל-N שווה ל-6 פעמים המרווח הממוצע. מכאן ש-
ולכן שוב נקבל כי האמדן ל-N הוא 131.
שימו לב כי את המרווח הממוצע ניתן היה לחשב בלי לחשב את חמשת המרווחים בנפרד. המרווח הממוצע הוא למעשה 5/(109-1), וערכו תלוי רק במספר הסידורי המקסימלי שנצפה – נסמן אותו באות M, ובגודל המדגם, (כיוון שככל שגודל הדגם גדול יותר, כך רב הסיכוי כי נצפה במספר סידורי גדול יותר). למעשה, כל האינפורמציה הרלוונטית למספר הטנקים שיוצרו מרוכזת בנתון הבודד M. טענה זו ניתנת לניסוח מתמטי ולהוכחה.
תיקון קל לחישוב האחרון יביא לאמדן הסטטיסטי האופטימלי עבור N (שוב, ניתן להוכיח את האופטימליות של הנוסחה הבאה):
ובדוגמה שלנו:
לאחר שנפתרה הבעיה של אמידה מספר הטנקים שיוצרו עד כה, ניתן בקלות לחשב את קצב הייצור. כל מה שצריך זה להמתין חודש, לאסוף עוד נתונים, ולחזור על החישוב.
מיותר לציין, אך אומר בכל זאת: בסיום המלחמה, כאשר נתפסו בתי החרושת בהם יוצרו הטנקים – הובהר כי האמדנים הסטטיסטיים שהתבססו על המספרים הסידוריים היו מדוייקים בהרבה מהאמדנים שהתבססו על התצפיות המודיעיניות.
פורסם לראשונה באתר “רשימות” בתאריך 29 ביולי 2006 שם התקבלו 14 תגובות
אנוכי בתאריך 7/29/2006 10:44:09 PM
תיקון קטן
אם:
(n+1)/2=57
אז
n=113
ולא 115. לא שזה קריטי במיוחד, ועדיין…
עידן דורפמן [אתר] בתאריך 7/30/2006 12:00:07 AM
שיעור ראשון בסטטיסטיקה
זה מה שלמדנו…
נחמד היה להיזכר בזה שוב.
מכבס ותולה [אתר] בתאריך 7/30/2006 7:26:28 AM
מעולה, תודה!
אני חושב שהשם הנכון הוא פנזר. כך, לפחות לפי ויקיפדיה.
עופר בתאריך 7/30/2006 9:34:12 AM
ללא נושא
מבטאים זאת “פאנצר”.
האות “Z” בגרמנית היא “צ” בעברית.
אורן [אתר] בתאריך 7/30/2006 10:08:14 AM
מדגם מייצג?
זה כמובן מעניין ותודה.
אבל איך/על סמך מה ידעו שזה מדגם מייצג?
אני הייתי מניח שהטנקים של גדוד מסויים הם מאותה סדרת ייצור ולגדוד אחר בגיזרה אחרת יהיו טנקים בעלי מספרים סידוריים שונים שלא נתפסו (או שעוד לא הוטלו למערכה).
אגב, אני חושהב שבדיוק משיקולים אלו נוגים בצבאות העולם לתת מספרים סידוריים בסדרות עם קפיצות אקראיות בין סדרה לסידרה – כלומר בשביל להרוס את האומדן בסטטיסטי (ונדמה גם שעם מספיק נתונים אפשר להעריך גם את אורכי הסדרות ואת הקפיצות ביניהן)
אסף ברטוב בתאריך 7/30/2006 2:36:27 PM
פאנצר
כפי שהעיר עופר, הגיית השם היא פאנצר, בצד”י, ולא פאנצ’ר.
החישובים שאתה מראה שימושיים בהחלט, אך, כפי שציינת, רק בתנאי שמתקיימת ההנחה שהטנקים שנתפסו מהווים מדגם מייצג. נדמה לי שזו הנחה אופטימית למדי, לא כן? אמנם נראה שבמקרה ההוא היא היתה נכונה, אך מי תוקע לידנו במקרה הכללי שפיזור הטנקים אקראי? קל לדמיין סדרות ייצור שמיוצרות לאו דווקא בקצב הפיזור לחזיתות השונות, וכך בחזית נתונה יכולים להיות טנקים בעלי מספרים בתחום מאה עד מאתיים, בעוד שבחזית אחרת לגמרי ישנם הטנקים שמספרם בין שלוש-מאות לארבע-מאות. אם הטנקים שלקחת שלל באים מהגזרה הראשונה, תקבל אומדן רחוק מהמספר האמיתי, כי הפיזור אינו מייצג.
טנק יו בתאריך 8/19/2006 6:17:33 PM
עבור מדגם בגודל 1
תמיד לימדו אותי שאם רואים טנק אחד שמספרו 109, האמדן הטוב ביותר למספר הטנקים הוא 109 ולא 216. מדוע? נניח שמספר הטנקים הוא N, הסיכוי שנדגום מתוכו 109 הוא 1 חלקי N. הערך של N עבורו הסיכוי מקסימלי הוא 109.
עמי איילון בתאריך 8/24/2006 4:44:50 PM
אוניית חיל הים ק-16
שיעור קטן בהיסטוריה: האונייה הראשונה של חיל הים נקראה ק-16 רק מהסיבה שאויבינו יחשבו שיש לנו כבר עוד 15 ספינות שמסתובבות להן איפשהו בים
לכן, האומדן הזה לא תמיד מדויק
ירון בתאריך 1/3/2007 9:00:57 AM
ללא נושא
יש דרך להתגבר על הקפיצות במיספור?
יש דרך לדעת מה גודל הטעות האפשרית?
יוסי לוי [אתר] בתאריך 1/3/2007 9:40:14 AM
תשובה לירון
שאלות טובות.
התשובה היא בעקרון כן לשתי השאלות, אם כי הרבה יותר קשה להתגבר על קפיצות במספור.
את גודל הטעות, לעומת זאת, קל מאוד להעריך (זה חומר של שנה א בלימודי במוסמך)
ירון בתאריך 1/7/2007 11:42:38 AM
ללא נושא
אם תוכל להתוות את הדרך לתשובות, זה יהיה נהדר. (אני לא אגיד “הסברים לעמך”, כי אני יודע לאן זה יכול להוביל, ואני מחפש הסבר אמיתי).
יוסי לוי [אתר] בתאריך 1/7/2007 5:26:20 PM
התוויות
לגבי הערכת הטעות – לכל אומד נראות מקסימלי – Maximum Likelihood Estimator (וזהו בעקרון האמדן שהוצג כאן) ניתן לקבל ביטוי לשונות האומד – וממנה הערכה לטעות על ידי בניית רווח סמך.
לגבי קפיצות במספרים – כאן צריך לנסות לבנות מודל כלשהו לקפיצות ולנסות לאמוד את הפרמטרים שלו.
דב [אתר] בתאריך 1/14/2007 4:11:13 PM
שלילת אומדן
בהינתן שאלו המספר שנתפסו האם הם שוללים (ברמת מובהקות של 95%) את העובדה שיש 1,000 טנקים ורק נתפסו כאלו עם המספרים הנמוכים ?
יוסי לוי [אתר] בתאריך 1/14/2007 6:11:57 PM
תשובה לדב
אני לא יכול לענות על השאלה הזו כי היא לא ממש ברורה. בכל מקרה, רמת מובהקות של 95% היא ממש, אבל ממש גבוהה מדי.
אני ממליץ לך לקרוא את הרשימה “בין שתי טעויות” ולנסח את השאלה מחדש