テキストマイニングとは

色聴者判定テスト > テキストマイニングとは

この記事は、
『テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法』
からの引用を元に執筆されています。

このページの中で何か分からないことがありましたら、 @ts_3156に何でも聞いてください。
「ここの意味が分かりにくい」とか、何でも大丈夫ですよ(^-^)

あと、まだ書いていないページが多くてすいません…。頑張って書きます！急いで欲しい人もお気軽にリプライください。笑

テキストマイニングとは

テキストマイニングという言葉は、1990年代半ばから世の中に広がり始めました。2010年の今となっては特に目新しい言葉でもありません。しかし、この言葉の定義はいまだに曖昧なままとなっています。
世の中で使われているテキストマイニングツールはたくさんあるものの、その機能がそれぞれまちまちであることからも、この言葉の定義の曖昧さがうかがえます。
しかしながら、細かな定義はそれぞれで異なっていても、大まかに見れば共通している目的があります。それは、

「膨大な文書データをいかに有効活用するのかを探る」

という目的です。
したがって、広義のテキストマイニングには文書データを活用する技術全般が含まれます。例えば、googleのweb検索技術もテキストマイニングとして位置づけられることがあります。
これから書いていく記事の中では、単なる検索や分類整理とは異なる、

「複数の文書データの内容を総合的にとらえることで初めて得られる知見を抽出するための内容分析の技術」

をテキストマイニングと呼ぶことにします。

例えば、膨大な文書データから「Aが良い」という情報を抽出する場合に、「Aが良い」という文字列のヒット数を単純にカウントするのではなく、

・「Aが良い」という内容を含む文書データが増加している
・Aに関して言及している文書データのうち、「Aが良い」という内容を含む文書データの割合は、Bに関して言及しているデータの中で「Bが良い」という内容を含むデータの割合よりも多い。すなわち、AはBに比べて「良い」と言われる割合が高い

というような知見を得るための技術が、これから紹介するテキストマイニングです。
これからの一連の記事では、このテキストマイニングが、検索や分類整理などの技術とどう異なり、具体的にどのような処理から構成され、何が難しく、何が可能であるかを示します。

テキストマイニングとは　目次

テキストマイニングとは　目次　←今はここ
テキストマイニングが可能にすること
　1000万人分の文書データの分析
　人手のみによる分析の場合
　テキストマイニングによる分析
単なる検索や分類整理との違い
テキストマイニングの基本的な仕組み
テキストマイニング処理の流れ
テキストマイニングとデータマイニングの違い
テキストマイニングの自然言語処理
自然言語処理の基本的な技術
　形態素解析
　構文解析
　曖昧性の問題
自然言語処理の精度と意義
参考文献