「アンケートの分析で使える多変量解析手法」第4回目となる今回のテーマは重回帰分析です。
リサーチ業界では「ジュウカイキ」と呼ばれ(たまに「リグレッション」と呼ぶ人もいます)、多変量解析手法の中でも最もメジャーな分析といってよいでしょう。
Web上には「重回帰分析」について説明したサイトがたくさんありますので、手法についての詳細な説明や分析時の留意点などについては、ご自身で検索して調べていただくこととして、今回は、実際のデータでの分析例をご紹介したいと思います。
【重回帰分析の例】
重回帰分析について解説した書物やWebページには、様々な販売データから売り上げを予測したりするようなビジネスに直結した分析例がよくでてきます。ビジネス寄りの事例はWeb検索に譲り、ここではプロ野球チームの成績データを使って重回帰分析をしてみようと思います。
分析の目的は、打力と投手力のどちらがチームの成績(順位)により大きな影響を与えるのか?を探ることです。
まずは分析用のデータを揃えます。
今回用いるのは、日本野球機構(NPB)のオフィシャルサイトに掲載されているセ・パ両リーグのチーム成績のデータです。
[チーム別成績データ (2018年)]
出典:日本野球機構公開データを加工して作成
上の表のようなデータを、2010年シーズン以降の9年分、セ・パ両リーグあわせてのべ108チーム(6チーム×2リーグ×9年)分用意しました。
準備段階では、他にも、「得点」「安打」「二塁打」「三塁打」「打点」「セーブ」「完投」「完封」「奪三振」「失点」のデータも含めて分析を行い、「勝率」との相関をみてみました。
※ 「失点」「防御率」は、値が小さいほど成績がよいことを表すよう、データの正負を入れ替えて分析しています。
「勝率」との相関が最も高いのは「セーブ」で、2番目が「完封」ですが、いずれも勝利が前提となりますので、この2つは分析から除外することとしました。
また、「勝率」との相関が低い(0.3程度以下の)「奪三振」「二塁打」「三塁打」「完投」の4つも分析から除外することとしました。
残るデータのうち、主に投手力かかわるデータについては、エラーがらみの失点を含まない自責点から計算される「防御率」を使うこととしました。
そして、主に攻撃力にかかわるデータのうち、「得点」「打点」はほぼ同じものとなり、いずれも「打率」「本塁打」の両方と相関が高くなっています。また、「安打」は「打率」とほぼ同じものとなります。そこで、攻撃力については、打力の総合指標としての「打率」、長打力指標としての「本塁打」、機動力指標としての「盗塁」の3つを使うこととしました。
まとめると、以下のような分析イメージになります。
これを「プロ野球のチーム力モデル」として、投手力指標である「防御率」と、攻撃力指標である「打率」「本塁打」「盗塁」が「勝率」にどの程度の影響を与えるのかを、セ・パそれぞれのデータについて分析してみたところ、以下の通りの結果となりました。
セ・パともに「防御率」=投手力の影響度が最も高く、パ・リーグよりもセ・リーグでその影響度が高くなっています。
パ・リーグでは投手力:攻撃力が4対6の割合で攻撃力の影響度の方が高く、また、セ・リーグに比べると、長打力の影響度がより高くなっています。
このあたりはDH制の有無が、両リーグの戦い方の違いを生む要因となっているのかもしれません。
細かい違いはあるものの、投打のバランスがとれたチームの方が優勝により近いことは間違いありません。
まとめてみると当り前の結果ですが、分析してみて初めて「当り前」であることを確認することができます。
【ビジネス現場における重回帰分析の活用】
過去の売上と、売上に影響を与えていると思われる複数の要因の実績データから重回帰式を作ることで、売上額の予測ができるなど、重回帰分析は様々な予測に活用することができます。
また、認知度や満足度、好意度などを上げたいが、何から取り組めばよいか知りたいという時にも重回帰分析が活躍します。
たとえば、顧客アンケートで「最も重視するものを教えてください」とか「○○はどの程度重要だと思いますか」と質問しなくとも、重回帰分析で回答データの関係性を分析して、評価に影響を与えるキードライバーとその重要度を明らかにすることができます。
重要度を直接質問する方式は、非常にわかりやすいものの、一般に、料金の重要度が圧倒的に高くなる傾向があります。
これに対して、重回帰分析では表面には表れない因果関係を探り、より正確な重要度情報を得ることが可能です。
ただし、表に見えない情報を探る分、「ブラックボックス」として敬遠されることがありますので、できるだけシンプルで分かりやすい分析モデルを作ることがポイントになります。
【次はこちらもおすすめ】