これから何回かにわけて、いろいろなところで使われてきた統計的な考え方についてシリーズでご紹介していきたいと思います。

第1回目の今回は、第二次世界大戦の中で統計が関係する逸話を2つ紹介します。
統計的な考え方を使って、一部分のわかっている情報から、全体像についておおよその目安を付ける話です。

排泄物の量から兵力を推計

太平洋戦争に従軍したアメリカの軍医の記録などによると、米軍は日本軍の露営地跡を調べ、排泄物の量から兵力を推計したとのことです。

ただ、戦前の日本人の排便量(1日平均約400g)は食生活の影響もあってアメリカ人の2~3倍(!?)だったため、日本兵の数を過大に見積もってしまい、ある時は撤退し、またある時は過剰兵力で日本軍を攻撃していたそうです。

ゴミや排泄物の量・種類から人数や健康状態、生活水準などを統計的に推定することは戦時以外にも学術研究などで昔から行われていますが、生活習慣や体質の違いを考慮しなかったのはリサーチ不足でしたね。

一方、統計的な推計がうまくいった例もあります。

ドイツ戦車問題

第二次世界大戦中のヨーロッパでは、連合国がドイツ軍の戦車に脅威を感じ、なんとかその生産能力を知りたいと考えました。

その際、アメリカやイギリスの情報機関が収集した情報よりも正確だったのが、捕獲した戦車に付いていたシリアル番号を基にした推計値でした(実際に旧ドイツ軍の資料と照合できたのは戦後のことですが…)。

第二次世界大戦中におけるドイツ軍戦車の月間生産台数と推計値
(出典:Richard Ruggles, Henry Brodie. “An Empirical Approach to Economic Intelligence in World War Ⅱ”. The Journal of the American Statistical Association 1947, Vol.42. pp.72-91)

例えば、7台の戦車を捕獲し、それぞれのシリアル番号が

「259」「287」「211」「116」「222」「64」「195」

だった場合、その戦車全体におけるシリアル番号の最大値(=母集団の数)Nは、簡便的に以下の数式で推定されます。

限られたサンプルデータから最大値Nを推定する簡単な数式

つまり、サンプル内の最大値に観測されたサンプル値の平均間隔を加える、ということですが、上記例だと、サンプル内の最大値「287」と、サンプル数の「7」だけで、母集団の最大値は、

287+287/7-1=「327」

と推計できてしまうわけです。

これは「ドイツ戦車問題(German tank problem)」と呼ばれていますが、ドイツ人は軍需品にも順番通りにきっちりとシリアル番号を振っていたのでしょうかね。

それにしても、当時の米英の情報機関は、どのような諜報活動を行ったのか、かなり過大でざっくりした推計値を出しています。

もしかしたら、精確な情報を得ていたのに何か思惑があって多めの数字を出したのかもしれませんが、やはり最前線で敵軍に直面していると経験豊富なプロでも冷静な分析・判断は難しくなる、ということもあるのではないでしょうか。

「ドイツ戦車問題」は現代のビジネスにおいても競合分析などに応用できますが、それ以上に、現場の肌感覚や長年の経験・勘だけに頼らず、正しい統計的思考を身につけ客観的なリサーチデータを得ることの重要性を教えてくれます。

【関連コラムなど】

リサーチノウハウ
統計的データ活用思考法~ベイズ推定編
統計的データ活用思考法~ベイズ推定編
リサーチノウハウ
統計的データ活用思考法~生命保険のはじまり編
統計的データ活用思考法~生命保険のはじまり編
リサーチノウハウ
統計学で有名なパラドックスの話
統計学で有名なパラドックスの話