漢直ノート

日本語入力方法の一つである、漢字直接入力(漢直)の練習日記や、日々のつれづれ事を書いています。

スポンサーサイト

--/--/-- -- --:--:--

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
  1. スポンサー広告

morogramの使い方

2005/12/01 Thu 23:15:11

morogramの使い方を書いてみます。
色々な所ですでに書かれているのですが、私がやった方法も書きますね。
morogramとは、任意の文字数の組み合わせ(連なり)の出現頻度を計る事が出来るツールです。
極悪氏によるmorogramのWindows用実行ファイル
http://hpcgi1.nifty.com/dune/gwiki.pl?morogram を利用させて貰います。

まずは、解析したい文章を一つのテキストファイルに纏めます。漢直の場合は漢字の頻度も欲しいので、集めた文章をそのままで保存すればいいでしょう。
漢字やカタカナを平仮名にしたい場合は、前に書いた「Kanji2na」や、kakasi、などで変換します。

■方法
1 一つに纏めた文章を、「UTF-8」形式で保存します。メモ帳でも簡単に出来ます。
2 ファイル名を「半角英字」でつける。その時、ハイフン(- のこと)は使わない。私はhiragana.txtにしました。
3 ダウンロードしたmorogramを解凍し、フォルダを移動する。この時、浅い階層に入れた方が後でコマンドプロンプト時にパスを入力するのが楽になります。私は、Dドライブに入れました。

4 私がダウンロードしたファイルは、「morogram-0.7.1yCJKT.zip」なので、解凍したフォルダも「morogram-0.7.1yCJKT」でした。これを 3 と同じ理由で(入力が楽になるように)「morogram」とシンプルに直します。
同じく実行ファイルもmorogram-0.7.1yCJKT.exeから、morogram.exeと名前を直しました。

5 解析したいテキスト(hiragana.txtなど)を、morogram.exeが入っているフォルダと同じ場所に入れます。

6 コマンドプロンプトを立ち上げます。スタート→ファイル名を指定して実行→ cmdを入力してエンター、が楽です。
私のパソコン(Windows XP)では、スタート→すべてのプログラム→ アクセサリ→コマンドプロンプト、とマウスで辿るとありました。

7 コマンドプロンプトで、morogram.exeがあるフォルダまで移動します。自分はD:\morogramに置きました。
なので、 cd/d d:morogram と手早く入れるか、もしくは
D:と入力してエンターを押すと、
D:\>
と出るので、そこに「cd\morogram」と入力し、エンターを押します。すると、
D:\morogram> と表示されます。これで、morogram.exeがあるフォルダまで移動した事になるので、次は実行です。オプションを忘れずに入れます。

オプションはhttp://www.shuiren.org/chuden/teach/n-gram/02.htmに説明があります。
特に必要なのが、--f=n(最少頻度の指定)、--g=min,max(最少、最大グラムの指定。グラムとは文字数のことです) で、これは指定した方がいいです。

--f=n(最少頻度の指定) は、ここで指定した数字以下の頻度だった文字(単語)は結果に出ません。

--g=min,max ……例えば、--g=2,5 とすると、2文字~5文字の連なり単語が同じ出力結果に出ます。
テキスト量が膨大になるし、ごちゃごちゃするので、あまり勧められません。
--g=2,2(2文字のみ)、が出し終わったら、--g=3,3、次に--g=4,4、と分けて解析した方が良いです。

7 D:\morogram>
と出ている画面に、
morogram.exe --f=100 --g=2,2 hiragana.txt > hiragana2gram.txt

と入力しました。これは、「した」「った」など2文字(2-gram)の結果を出します。100以下の頻度は切り捨てです。hiragana2gram.txt(ファイル名に-は使わないで下さい)が自動で作成され、結果が書き出されます。
始め

エンターキーを押します。
(※注 2-gramを出すなら、--f= に入れる数字は100以上にした方がいいです。私は何をトチ狂ったか4にしたら6時間経っても終わりませんでした。テキストの量にもよりますが、1Mを超えている場合は、--f=100 以上にした方が無難です)
エンター

(上のような画面のまま、他の事をしながらしばし待つ)

結果が出ました。
終わり


8 morogramフォルダに、hiragana2gram.txtが作成されていた結果が出ていると思います。そのままだとUTF-8形式なので、文字コードを直します。

この記事は結構前に書いたのに、アップするのを忘れていました。
何か間違いがありましたら教えて下されば助かります。

■リンク

「もろ式: 読書日記」http://morosiki.txt-nifty.com/blog/
……morogramの作者、師茂樹さんのブログです。

「N-gramモデルを利用したテキスト分析」
……http://www.shuiren.org/chuden/teach/n-gram/01.htm
morogramの詳しい説明があります。

「コマンドプロンプトを使ってみよう!」http://ykr414.com/dos/dos01.html#01
……コマンドプロンプトについてあります。
スポンサーサイト
  1. 配列関連

≪ ハの字状のキーボード | HOME | 繭姫の日 >>

Comment

承認待ちコメント [by # ]
2009/01/24 Sat 09:57:20 [Edit]
このコメントは管理者の承認待ちです
承認待ちコメント [by # ]
2009/02/25 Wed 02:11:28 [Edit]
このコメントは管理者の承認待ちです

Post Comment

管理者にだけ表示を許可する
Calendar
01 ≪2017年02月 ≫ 03
S M T W T F S
- - - 1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 - - - -
Categories
漢直とは : 3
漢直色々 : 61
漢直練習日記 : 66
日常 : 97
はじめに : 4
配列関連 : 57
P-Study System : 24
音楽と漢直 : 5
奏コード : 23
ソフト : 21
アウトラインプロセッサ : 7
未分類 : 0
Recent Entries
05/06/27の日記 2
05/06/27の日記
3打鍵漢字
ちょこっと練習と練習方法
05/06/26の日記 2
Recent Comments
Recent Trackbacks
Archives
2006年10月 : 1
2006年09月 : 8
2006年08月 : 13
2006年07月 : 15
2006年06月 : 13
2006年05月 : 14
2006年04月 : 16
2006年03月 : 17
2006年02月 : 33
2006年01月 : 51
2005年12月 : 58
2005年11月 : 62
2005年10月 : 39
2005年09月 : 28
Introduction
Author:みのり
みのりです。このブログは漢直に関する話題を書いています。taffy632@yahoo.co.jp
「漢直ノート出張版」
(ファイルやタイピング動画があります)
RSS
Search
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。