統計学で有名なパラドックスの話

統計学で有名なパラドックスの話

あるレストランで、既存メニューの味つけを変えた新メニューを作り、お客さん達に感想を聞いてみることにしました。

既存メニュー、新メニュー、それぞれを食べた100人を対象にしたアンケート結果は以下の通りでした。

統計学で有名なパラドックスの話

新メニューに自信のあったシェフは、この結果をみて少し残念がりましたが、オーナーが、「アンケートに答えてくれたお客さんには常連の人達が多かった気がするよ。もしかしたら、そのことが既存メニューの評価が高くなったことに影響しているのでは?」とアドバイスしたため、常連と新規のお客さんに分けて評価を比べてみることにしました(下図)。

統計学で有名なパラドックスの話

シェフ:
「なるほど。確かに常連さんの間では既存メニューの評価が高いものの、新規のお客さんだと新メニューの方が好評なわけか。ところで、新メニューは女性をターゲットに開発したので、男女の違いもみたいな。」

以下が男女別の評価です。

統計学で有名なパラドックスの話

シェフ:
「女性に新メニューが受け入れられたようなのはホッとしたけれど、意外と男性でも新メニューの方が評価が高いんだな。んっ?男女とも新メニューの方が好評なのに、全体では既存メニューの方が評価が高いって、なんかおかしくないか???」

上記の例のように、全体と分割してみた場合の傾向が相反するケースを「シンプソンのパラドックス」といいます。「常連/新規」「男性/女性」などサンプル構成比に偏りがあれば、全体の数字が歪んでしまうわけですね。

比較対象とする調査サンプルは、全体の人数だけでなく、性別や年代、地域などといった属性もできるだけ揃えて回収するのが望ましいわけですが、それが難しければ重み付け集計によって構成比を調整することも可能です。

いずれにしろ、全体の数字だけをみて判断するのではなく、様々な属性を絡めてタテ・ヨコ・ナナメの見方で分析する習慣をつけると統計リテラシーが高まりますよ。