色聴者判定テスト > テキストマイニングとは > テキストマイニングが可能にすること
この記事は、
『テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法』
からの引用を元に執筆されています。
このページの中で何か分からないことがありましたら、
@ts_3156に何でも聞いてください。
「ここの意味が分かりにくい」とか、何でも大丈夫ですよ(^-^)
テキストマイニングが可能にすること
2010年現在、今や、知りたいことの大半はインターネット上に存在するような印象を受けます。
辞書や百科事典のように汎用的な知識を与えてくれる情報に加え、論文や学術文献などの専門知識に関する情報も豊富です。
最新のニュース、多様な商品の情報、そしてそれらに対する様々な意見…、読むべき文書データや読めば役に立ちそうな文書データの量は毎日
増え続けています。
利用可能な情報が豊富という点で良いことづくめのようなこの状況が、皮肉なことに情報過多という問題も生んでいます。
少量であればざっと目を通す文章も、多量になると全く目を通さないことになりやすいものです。
その結果、せっかくの文書データが実は十分に活用できていないという現状でしょう。このような状況の下で研究開発が進み、
世の中に普及し始めたのがテキストマイニングです。
テキストマイニングは、膨大な文書データの活用を通じてそのユーザ(や組織)に競争力の向上をもたらし、研究者に対しては
膨大な量のデータが新研究テーマと研究機会を与えてくれます。このような直接のユーザや研究者に対するメリットに限らず、
社会全体においても、例えば、
・テキストマイニングを通じて一般消費者の意見が企業活動に反映される
・テキストマイニングによって様々な情報を適切に参照することで、無駄が減るようになる
といったメリットをもたらしてくれるようになります。
ただし、テキストマイニングは魔法の玉手箱ではありません。膨大な文書データをコンピュータが勝手に分析してくれて、役に立つ情報を
勝手に報告してくれるようなことは今の技術ではありえないでしょう。
したがって、分析者を機械化(もしくはその役割を自動化)するのがテキストマイニングではありません。そもそも、同じ文書を人が
読んだり聞いたりしても、受け手によって解釈が異なることがあります。また、同じ人でさえも、年齢や状況、その時の気分や集中度によって、
同じ文書の解釈が異なることがあります。このように、読み手によって解釈が異なる以上、コンピュータと全く同じ解釈をすべての読み手がとる
ということはありえません。すなわち、誰もが納得するような解釈をコンピュータが自動的に行うということは現実的ではないと理解しておきましょう。
テキストマイニングというものは、あくまでも「人間が膨大な文書データを有効活用するための補助ツール」であり、データ内容を解釈して、
最終的な判断を下すのは人間であることに注意しましょう。
例えば、100万件の文書データに対して、一人の人間がそのすべてに目を通すことは不可能です。しかし、テキストマイニングを使いこなすことにより、
100万件の文書データの中から有用な情報に焦点を当て、その内容を活用することが可能になります。
テキストマイニングで具体的にどのようなメリットが得られるのかについて、以下で具体例を用いて説明します。
1000万人分の文書データの分析
週末の過ごし方を自由に記述した文書が1000万人分あるとします。
このデータを使えば、世の中の人々が週末に実際に何をしているのか、世代、職業、居住地、ごとに分析することが可能になります。
これは、適切な商品・サービスを適切な顧客に提供する上でも貴重なデータであり、様々な商品の開発やマーケティング活動に役立つ可能性を秘めています。
しかし、1000万人分のデータをすべて人手で分析し活用につなげるのはまず不可能でしょう。
人手のみによる分析の場合
1000万人分のデータを人でのみで分析する場合、最終的には人海戦術で手分けしてすべて読むにしても、まずはその一部、例えば1000件程度のデータ
をサンプルとして分析することになると考えられます。具体的には、サンプルの文書データを一通り読んで、似たような過ごし方のデータを集め、例えば
「読書」、「音楽鑑賞」、「散歩」といったラベルを付けます。そして、各ラベルに該当する文書データを集計し、「読書200件」、「散歩180件」、「音楽鑑賞130件」
という形で報告書を作るのが典型的な分析法でしょう。
実際に任意の文書データでこのような分析を行ってみると、例えば100件程度のデータであってもかなりの手間を必要とする作業であることを実感する
と思います。
手間がかかる以上に、実際には分類困難なデータに悩むケースも多いのではないでしょうか。例えば、「天気が良いのでCDを聞きながら図書館まで一時間
散歩して、本を三冊借りてきた」という記述は、「散歩」、「読書」、「音楽鑑賞」のうちどのラベルを付ければいいのか単純には判断できません。
このような問題が積もり重なると時間がかかり、1000件程度のサンプルであっても数時間から数日の時間がかかるかもしれません。
さらに、読書をして週末を過ごす人々が具体的にはどこでどのような本を読んでいるのか、どういった年代、職業の人々なのかを分析しようとすると、1000件
のサンプルのうちで「読書」と判断された200件だけでは十分ではないでしょう。より深い分析を進めるためには、さらに多くの「読書」データを集めてくる
必要がでてきます。
テキストマイニングによる分析
この1000万人分のデータをテキストマイニングで分析するとどうなるでしょうか。
「読書」や「音楽鑑賞」といった判断を機械的に実現することはとても困難です。テキストの分析で機械的に確実な判断が可能なのは、
「どのような文字列を含んでいるか」というレベルに過ぎません。しかし、「どのような文字列からなる表現を含むデータが何件あるか」
といった分析ならば、ある程度信頼性の高い精度で実現できます。したがって、読書関連の表現(本を読む、読書、書物を開く、等)を
含むデータが何件あるかを、1000万件のデータに対して網羅的に集計することは可能です。
しかし、単純な文字列の検索を行うと、例えば、「読書は嫌いなのでもっぱら音楽鑑賞」といった内容も「読書」関連のデータとしてラベル付けされてしまいます。
このようなエラーを防ぐためには、「『読書は嫌い』は『読書』の対象としない」などの例外的な対応が必要となります。ところが、
他にも、「普段は週末に読書をしているが、先週末は珍しくコンサートに行った」のように「読書」という表現を含んでいながら
実際には読書をしていない表現はいくらでも考えられます。このような多様な表現を全て網羅してエラーを完全排除することはほぼ不可能です。
したがって、エラーを排除しようとするならば、そのためにどの程度の労力をかけるべきか、また、エラーの排除がどのような価値をもたらすかを
十分に検討する必要があると言えます。
逆に、「最近は夏目漱石に夢中で、先週末は「三四郎」に没頭していた」のように「読書」という表現を一切含まなくても人間が読めば読書をしていた
と判断できるケースも存在します。
すなわち、内容レベルでの各データの分類精度という点ではテキストマイニングは人間に敵わないのです。そのため、テキストマイニングで認識できる
「読書関連の表現を含むデータ」と「先週末に実際に読書をした人のデータ」は必ずしも一致しません。したがって、「読書関連表現を含むデータ」
が200万件あったとしても、「実際に読書をした人のデータ」が何件かは不明です。しかしそれでも、200万件という膨大な量の
「読書関連表現を含むデータ」を対象とした様々な分析が可能になるというのは大きなメリットです。
1000万件のデータ中の読書関連表現を含むデータ200万件のうち、どれだけの割合が実際に読書をしたと言えるものかは別として、
200万件ものデータがあればさらに深い分析をすることが可能となります。例えば、
・どのような作家もしくは作品名が読書関連表現を含むデータの中に含まれているか
・読書関連表現を含むデータは、どのような年代、どのような地域の住民のものか
・読書関連表現を含むデータにおいて特定の年代や地域と相関の強い作家、もしくは作品名が見られないか
といった分析が可能となります。さらに、このデータを毎年集めていれば、
・読書関連表現を含むデータが10年前と比べて増えているか減っているか
・どのような年代や地域で読書関連表現を含むデータが増減しているか
・作家、作品、ジャンルの出現数がどう推移しているか
を分析することができます。
それに対して、1000件程度のサンプルの中から人手で分類された小数の「読書」のデータ(例えば200件)の中では、このように一歩踏み込んだ
傾向分析を行おうとしても、意味のある結果を望むことが難しいでしょう。
テキストマイニングの場合、基本的に、「~関連の表現を含むかどうか」という分析は機械的に行わます。そのため、どのような内容に関する データが何件程度含まれるかを把握するための人手による検索の手間はわずかです。そこで、その件数の変動やその中に含まれる要素の分布に 関してより深い分析を試行錯誤し、さらにその活用方法を色々と考える余裕が生じます。その結果、有益な知見が得られ、データの有効活用につながる 可能性が高くなります。
すなわち、テキストマイニングは、従来人手によって行われてきた分析の手間を単純に軽減するだけの技術ではないのです。膨大な量のデータを対象と することで、傾向分析や相関分析などの様々な分析を可能にし、分析内容の質的な変化をもたらす技術なのです。
このように、分析者が知りたい内容に関する表現を含むデータを分析対象とし、そのデータに関連付けられた様々な情報 (各データ中に含まれる表現、データの日付、年齢、性別、居住地域、等)の傾向や特徴、相関を通じて、 分析者にとって何らかの役に立つ知見を抽出するのがテキストマイニングの分析法です。どのような知見を抽出し、それをどう役に立てるかは 分析者のアイディア次第であり、テキストマイニングの成果はこの活用方法に関するアイディアに大きく依存します。
したがって、テキストマイニングにおいては、データの内容を様々な角度からインタラクティブに分析し、様々な試行錯誤を通じて有益な知見を 抽出する努力が重要になるのです。
このページの中で何か分からないことがありましたら、
@ts_3156に何でも聞いてください。
「ここの意味が分かりにくい」とか、何でも大丈夫ですよ(^-^)