色聴者判定テスト > テキストマイニングとは

この記事は、
『テキストマイニングを使う技術/作る技術―基礎技術と適用事例から導く本質と活用法』
からの引用を元に執筆されています。

このページの中で何か分からないことがありましたら、 @ts_3156に何でも聞いてください。
「ここの意味が分かりにくい」とか、何でも大丈夫ですよ(^-^)

あと、まだ書いていないページが多くてすいません…。頑張って書きます! 急いで欲しい人もお気軽にリプライください。笑

テキストマイニングとは

テキストマイニングという言葉は、1990年代半ばから世の中に広がり始めました。2010年の今となっては特に目新しい 言葉でもありません。しかし、この言葉の定義はいまだに曖昧なままとなっています。
世の中で使われているテキストマイニングツールはたくさんあるものの、その機能がそれぞれまちまちであることからも、 この言葉の定義の曖昧さがうかがえます。
しかしながら、細かな定義はそれぞれで異なっていても、大まかに見れば共通している目的があります。それは、

「膨大な文書データをいかに有効活用するのかを探る」

という目的です。
したがって、広義のテキストマイニングには文書データを活用する技術全般が含まれます。例えば、googleのweb検索技術もテキストマイニング として位置づけられることがあります。
これから書いていく記事の中では、単なる検索や分類整理とは異なる、

「複数の文書データの内容を総合的にとらえることで初めて得られる知見を抽出するための内容分析の技術」

をテキストマイニングと呼ぶことにします。

例えば、膨大な文書データから「Aが良い」という情報を抽出する場合に、「Aが良い」という文字列のヒット数を単純にカウントするのではなく、

・「Aが良い」という内容を含む文書データが増加している
・Aに関して言及している文書データのうち、「Aが良い」という内容を含む文書データの割合は、Bに関して言及しているデータの中で「Bが良い」 という内容を含むデータの割合よりも多い。すなわち、AはBに比べて「良い」と言われる割合が高い

というような知見を得るための技術が、これから紹介するテキストマイニングです。
これからの一連の記事では、このテキストマイニングが、検索や分類整理などの技術とどう異なり、具体的にどのような処理から構成され、何が難しく、 何が可能であるかを示します。

テキストマイニングとは 目次

テキストマイニングとは 目次 ←今はここ
テキストマイニングが可能にすること
 1000万人分の文書データの分析
 人手のみによる分析の場合
 テキストマイニングによる分析
単なる検索や分類整理との違い
テキストマイニングの基本的な仕組み
テキストマイニング処理の流れ
テキストマイニングとデータマイニングの違い
テキストマイニングの自然言語処理
自然言語処理の基本的な技術
 形態素解析
 構文解析
 曖昧性の問題
自然言語処理の精度と意義
参考文献

色聴判定テスト一覧
テストはどれも10分ほどで終わります
推奨環境
・Internet Explorer7以降
・Firefox3以降
判定テストについて
これまでに 1541人 がテストを受けました
09/12/28~12/02/02
更新情報
・12/10/14
twitterの埋め込み方法を更新しました
・12/01/11
共感覚面白ニュースを更新しました
・11/11/03
共感覚面白ニュースを更新しました
・11/04/03
筑波大学新入生向け情報を書きました
・11/03/04
Twitter4j逆引きリファレンス【使い方 やりたいことから見つける】を書きました
もっと見る
知りたい情報募集中
知りたい情報は見つかりましたか? 見つからなかったならご連絡ください。 詳しく調べて、ネットでは見つからないような良質で科学的な情報を掲載いたします。

研究協力者も募集中です!
お問い合わせはこちら