2008年03月19日

茶筌を使ったテキストマイニング with Excel

MyCOMの「Yet Another」さんの記事に、茶筌を使って自然言語を分割し、MUSASHIを使ってデータマイニングを行う手法を紹介している。

MyCOM コラム Yet Another 茶筌とMUSASHIで純和風テキストマイニング

Windows環境では、茶筌 for Windowsはあるが、MUSASHIに関してはcygwin用しかない。まあcygwinにあわせれば使えると思うが、ココではまずあえてExcelを使ってデータマイニングを行ってみたいと思う。とりあえずの目標は上記ページのように出現単語ランキングをHTML形式で出力する事である。
 今回記事とあわせるために、連載44回目をコピーし、ya44.txtとした。その手順は以下の通りである。

C:\ >chasen -F "%m,%H\n" ya44.txt > output.csv
csvファイルをエクセルで開いてエクセル形式で保存。
1行目を挿入して、項目として、「単語」「品詞」を追加。
[データ(D)]→[オートフィルタ(F)]・・・名詞を選択して、それを新しい表にコピー
=COUNTIF(範囲,検索条件)で出現頻度を出す。項目に「出現頻度」
表をコピー、[編集(E)]→[形式を選択して貼り付け]・・・値を選択して、新しい表にコピー
[データ(D)]→[フィルタ(F)]→[フィルタオプションの設定(A)...]・・・重複するレコードは無視するにチェック。それを新しい表にコピー。
[データ(D)]→[並べ替え(S)]・・・最優先されるキーに出現頻度を選択。

 結果的にいくつかのシートが出来上がるが、出来上がったシートはそれっぽいものである。TOP20をHTMLで保存したのが次のファイルになる。

ya44_r01.htm

 ただこの時点では、数字がランキングに入っているので主導で抜いてみた。それが次のファイルである。

ya44_r02.htm

 上の記事と比べて中々似ている結果が出力できたのではないか。このようにして、若干手間はかかるが、Excelを用いてデータマイニングを行う事が出来た。
 今後は、これらの記事の取得→単語の出力の自動化、相関グラフなどの作成について調べてみたい。
posted by 柿03 at 02:51| Comment(0) | TrackBack(0) | 情報
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

この記事へのトラックバックURL
http://blog.sakura.ne.jp/tb/12732240

この記事へのトラックバック