2005/12/01 Thu 23:15:11
morogramの使い方を書いてみます。
色々な所ですでに書かれているのですが、私がやった方法も書きますね。
morogramとは、任意の文字数の組み合わせ(連なり)の出現頻度を計る事が出来るツールです。
極悪氏によるmorogramのWindows用実行ファイル
http://hpcgi1.nifty.com/dune/gwiki.pl?morogram を利用させて貰います。
まずは、解析したい文章を一つのテキストファイルに纏めます。漢直の場合は漢字の頻度も欲しいので、集めた文章をそのままで保存すればいいでしょう。
漢字やカタカナを平仮名にしたい場合は、前に書いた「
Kanji2na」や、kakasi、などで変換します。
■方法
1 一つに纏めた文章を、「
UTF-8」形式で保存します。メモ帳でも簡単に出来ます。
2 ファイル名を「
半角英字」でつける。その時、ハイフン(- のこと)は使わない。私はhiragana.txtにしました。
3 ダウンロードしたmorogramを解凍し、フォルダを移動する。この時、浅い階層に入れた方が後でコマンドプロンプト時にパスを入力するのが楽になります。私は、Dドライブに入れました。
4 私がダウンロードしたファイルは、「morogram-0.7.1yCJKT.zip」なので、解凍したフォルダも「morogram-0.7.1yCJKT」でした。これを 3 と同じ理由で(入力が楽になるように)「morogram」とシンプルに直します。
同じく実行ファイルもmorogram-0.7.1yCJKT.exeから、morogram.exeと名前を直しました。
5 解析したいテキスト(hiragana.txtなど)を、morogram.exeが入っているフォルダと同じ場所に入れます。
6 コマンドプロンプトを立ち上げます。スタート→ファイル名を指定して実行→ cmdを入力してエンター、が楽です。
私のパソコン(Windows XP)では、スタート→すべてのプログラム→ アクセサリ→コマンドプロンプト、とマウスで辿るとありました。
7 コマンドプロンプトで、morogram.exeがあるフォルダまで移動します。自分はD:\morogramに置きました。
なので、
cd/d d:morogram と手早く入れるか、もしくは
D:と入力してエンターを押すと、
D:\>
と出るので、そこに「cd\morogram」と入力し、エンターを押します。すると、
D:\morogram> と表示されます。これで、morogram.exeがあるフォルダまで移動した事になるので、次は実行です。オプションを忘れずに入れます。
オプションは
http://www.shuiren.org/chuden/teach/n-gram/02.htmに説明があります。
特に必要なのが
、--f=n(最少頻度の指定)と
、--g=min,max(最少、最大グラムの指定。グラムとは文字数のことです) で、これは指定した方がいいです。
--f=n(最少頻度の指定) は、ここで指定した数字以下の頻度だった文字(単語)は結果に出ません。
--g=min,max ……例えば、--g=2,5 とすると、2文字〜5文字の連なり単語が同じ出力結果に出ます。
テキスト量が膨大になるし、ごちゃごちゃするので、あまり勧められません。
--g=2,2(2文字のみ)、が出し終わったら、--g=3,3、次に--g=4,4、と分けて解析した方が良いです。
7 D:\morogram>
と出ている画面に、
morogram.exe --f=100 --g=2,2 hiragana.txt > hiragana2gram.txt と入力しました。これは、「した」「った」など2文字(2-gram)の結果を出します。100以下の頻度は切り捨てです。hiragana2gram.txt(ファイル名に-は使わないで下さい)が自動で作成され、結果が書き出されます。

エンターキーを押します。
(※注 2-gramを出すなら、--f= に入れる数字は100以上にした方がいいです。私は何をトチ狂ったか4にしたら6時間経っても終わりませんでした。テキストの量にもよりますが、1Mを超えている場合は、--f=100 以上にした方が無難です)

(上のような画面のまま、他の事をしながらしばし待つ)
結果が出ました。

8 morogramフォルダに、hiragana2gram.txtが作成されていた結果が出ていると思います。そのままだとUTF-8形式なので、文字コードを直します。
この記事は結構前に書いたのに、アップするのを忘れていました。
何か間違いがありましたら教えて下されば助かります。
■リンク
「もろ式: 読書日記」
http://morosiki.txt-nifty.com/blog/……morogramの作者、師茂樹さんのブログです。
「N-gramモデルを利用したテキスト分析」
……
http://www.shuiren.org/chuden/teach/n-gram/01.htmmorogramの詳しい説明があります。
「コマンドプロンプトを使ってみよう!」
http://ykr414.com/dos/dos01.html#01……コマンドプロンプトについてあります。
- 配列関連
-
Trackback:2