2006/02/12 Sun 17:02:14
「
KH Coder」はChaSenを利用した日本語形態素解析をするソフトです。環境はWindowsで、フリーソフト。
作者のHPではソースコードが公開されていて、LinuxやMacの環境でもChaSenやPerlが扱える人なら、KH Coderを使用出来るみたいです。
簡単な操作で品詞ごとの統計(使用回数など)を出せたり、特定の言葉がどんな文脈で使われているのかも出してくれます。
使ってみて、かなりの高性能ぶりにびっくり。
試しに宮沢賢治の銀河鉄道の夜でテスト解析をしてみました。
一番初めに「前処理の実行」をした後に、「品詞別出現リスト」や、コンコーダンスなど色々試してみたら……

こんな感じ。後ろのエクセルが品詞ごとの出現リストです(数字が出現回数)。
わあ、きれいな漢字が多いなあ・・。銀河鉄道の夜だからね。
抽出も、品詞ごとに出してくれます。

「星」で抽出語検索をしたら、
星 名詞C 21
星 人名 4
星座 名詞 4
星あかり 名詞 1
星図 名詞 1
彗星 名詞 1
星祭 名詞 1
このような結果を使って、単語練習問題を作るのもいいかもしれない…。
連関規則まで出ます。

他にもコロケーション統計や、出現回数分布など色々なデータの出し方が揃ってます。
このソフトを使って、例えば自分の文章を解析して、品詞ごとに頻度の高い順からの問題集を作ったり、自分が特定の漢字をどういう文脈で使っているのかを検索して、その文章を問題集にしたりなど、色々な練習方法が考えられる……ん~、良さそう。
このソフト、結構前からあるみたい?なのに今まで、ソフト関連のサイトで紹介されているのを見たことがないし、Vectorでもレビューされていない……。不思議。。
■リンク
「KH Coder」
http://www.vector.co.jp/soft/win95/business/se373750.html
スポンサーサイト
- ソフト
-
Trackback(-)