アンケートの自由回答(フリーアンサー)のテキストマイニング

アンケートの自由回答や顧客からのフィードバックは、企業にとって貴重な情報源です。しかし、これらのテキストデータを効果的に分析するのは容易ではありません。大量のテキスト情報を直接読むのではなく、テキストマイニングを活用して、キーワードの頻出度や単語間の関連性を先に理解するのが効率的です。

テキストマイニングは、単にデータを解析するだけでなく、情報を整理し、読者にとってわかりやすくする役割も果たします。たとえば、Excelを使ってキーワードの頻出度を調べることもできますし、無料のツール「KH Coder」や「R」を使用することも可能です。

このコラムでは、テキストマイニングの基本的な手順と、どのような結果が得られるのかについて、具体的な例を交えて解説します。

テキストマイニング成功の鍵: データの前処理

テキストマイニングを行う際、景気ウォッチャー調査のような自由回答データを活用することが増えています。

この調査は、内閣府が毎月行っており、景気の変動を直接感じるタクシー運転手やホテル・レストランのスタッフなどが対象です。彼らの景気判断の理由を自由回答として収集し、CSV形式で公開しています。

ここでは令和5年3月の「景気判断理由集(先行き)」をダウンロードして分析します。しかし、テキストマイニングを成功させるためには、データの前処理が不可欠です。前処理が不十分だと、有意義な結果は得られません。

主な前処理としては:

  • 分かち書きと単語の指定
  • 表記ゆれの統一
  • 誤字・脱字の修正、不要な記号の除去

が挙げられます。

分かち書きの重要性と単語の指定

日本語の文章は単語の区切りが明確でないため、テキスト分析には「分かち書き」が必要です。例として、「ツアーを始め予約が好調に推移している」というフレーズを「ツアー を 始め 予約 が 好調 に 推移 し て いる」と分けることが考えられます。

テキストマイニングツールは、形態素解析エンジン「MeCab」などを使用して自動的に分かち書きを行います。しかし、新しい用語や固有名詞の認識は難しい場合があります。そのため、ツールで単語の指定を行うことが重要です。

表記ゆれの統一: テキストマイニングの精度向上

日本語には、漢字、ひらがな、カタカナ、アルファベットなどの表記ゆれが存在します。たとえば、「物」と「もの」、「ウェブ」と「Web」などです。これらの表記ゆれを統一しないと、同じ意味の言葉でも異なる単語として分析される可能性があります。前処理での表記統一は、分析の精度を向上させるために不可欠です。

テキストマイニングの基本:頻出語の分析

テキストマイニングの初歩は、大量のテキストからの情報抽出です。完璧な前処理は難しいかもしれませんが、出現頻度が低い単語は無視しても問題ありません。

単語の出現頻度を分析し、上位の単語に表記のゆれや誤字がないかを確認し、必要に応じて修正します。

テキストマイニングの結果:共起ネットワーク分析

テキストマイニングの次のステップは、分析結果の可視化です。共起ネットワークは、単語間の関連性を示す強力なツールです。

共起ネットワークは、文章内での単語の組み合わせを分析し、その関連性を示すものです。図示することで、単語の出現頻度や関連性が一目瞭然となります。

共起ネットワークの例(その①)

主要なキーワードとして「新型コロナウィルス」「景気回復」「売上増加」などが挙げられます。作図条件を設定して、表示する単語の数を調整することができます。

5段階の景気変動データも追加して分析すると、景気が改善すると思う理由や悪化すると思う要因など、多くの洞察が得られます。

共起ネットワーク分析の例(その②)

たとえば、インバウンド需要の回復や物価上昇の影響など、様々な要因が景気の動向に影響を与えています。

テキストマイニングを利用することで、大量の情報から有益な洞察を得ることができます。これにより、情報の解釈や分析が効率的に行えます。

テキストマイニングやアンケート分析に関するご相談は、お気軽にお問い合わせください。

お気軽にお問い合わせ・ご相談ください044-271-6043営業時間 9:00 - 18:00 [ 土日祝定休 ]

お問い合わせ・ご相談はこちら

はじめてでも上手にできるアンケートの作り方

アンケートの成功の鍵は聞き方にあり!

回答形式や質問の順番など、答えやすさを追求したアンケート作成のコツや、正確な回答を得るためのテクニックを専門家が伝授。

購読者特典:各種アンケートのテンプレート集

ASIN ‏ : ‎ ASIN: B0CVTCVQGM

【関連コラムなど】

アンケート/市場調査の作成・集計・分析