漢直ノート

日本語入力方法の一つである、漢字直接入力(漢直)の練習日記や、日々のつれづれ事を書いています。

スポンサーサイト

--/--/-- -- --:--:--

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
  1. スポンサー広告

漢字カナ交じりの頻度

2005/10/04 Tue 00:56:06

過去の日記だけをアップするのも、つまらなく思えてきたので、普通の現在進行形の日記も、時々書こうかな、と思います。

今は、かえでさんのhttp://d.hatena.ne.jp/maple_magician/20051001/1128170775の記事の文字頻度の違いを見て、興味を持って久々にmonogramを取り出してみた。
このデータの違いって本当に面白いねぇ。
monograme、前に使った事はあるんだけど、私の場合は「漢字カタカナ交じりのデータ」が必要だったので、自分の文章をひらがなに開いたデータは持ってないんだよね。

今は、一体どうやったら平仮名にしたデータを作れるのか、よく分からなくて、悪戦苦闘してます。

※monogramとは、N-gramモデルを使いテキストを分析出来るツールです。
任意のテキストから、一文字ずつの
「N-gramモデルを利用したテキスト分析」http://www.shuiren.org/chuden/teach/n-gram/index-j.htmlに、分かりやすく整理されています。

私が持っている、「漢字かな交じり」文章の1文字頻度を上げると、

い。、のなてっとたかしでにるうはがんすもをまだらーこれあくりよそけきどさやえンねつち日スわおト「」じみイ思め分!―ゃ人ろッル?~リ: ク私せば時気ジラ(出)自見今ょレほずア感間食メ大ド事中べカロ何無読シフタ目方バ

――上位の文字が、みんなと全然違う( ̄▽ ̄;)!!

他の方の公開されているデータを借りて比べてみると、

Uジローさん http://ameblo.jp/ujiro/entry-10001094398.html
いうん、しとかのなてたにはくるきでがっこもすじだつりれ。

itouh さん http://kirinsystem.net/diary/?date=20050523
いうんしかるとの。すくたにてでをこっきーなさりがょはまじつ、どらせれあゅ

かえでさん http://d.hatena.ne.jp/maple_magician/20050521/1116697514
いうんしかとてなのはにすたでき、くっまがるもこつ。じれりーょだおをあらけ

qua_rkさんhttp://mqmq.exblog.jp/1899364/
いんかうしなたってのとでまくにるさすきらだはがあこもれりおじちーょつけよ

これと、私の『漢字かな交じり』のデータ、
い。、のなてっとたかしでにるうはがんすもをまだらーこれあくりよそけき


――驚きというか、当たり前というか。漢字が入るとかなり違ってくるね。
そんな中、かわらず一位の座にいる「い」の根性にも驚くけど……。カタカナは予想よりも上位に多いな、とあらためて思ったり。
私の場合、日記に『、、』や、『。。。』も使うので、その分句読点が多くなってるのはあると思います。

漢字も平仮名にしたデータだと、それぞれ差意はあるけど、「いうんし」あたりが高いなというのが印象です。
スポンサーサイト
  1. 配列関連

≪ P-Study Systemeのスキン | HOME | 05/06/06の日記 その5 >>

Comment

「。」が多いのが不思議ですね [by Uジロー #- URL]
2005/10/04 Tue 01:16:15 [Edit]
こんにちは、みのりさん!TBありがとうございました。いろんな人のデータを眺めるのは確かに面白いですよね。

他では常連の「ん」「う」がみのりさんのデータで少ないのは、やはりこれらがいわゆる「漢語の2音目」になりがちで、漢字をそのまま解析された影響なのでしょうね。おそらく平仮名化されたら、そんなに大きくは異ならないのでは?というような印象を受けました。日記(このブログでしょうか?)をちょっと拝見させていただいた分には、「。」がそんなに多いようには見えなかったのですが、2番目に来ているのはちょっと不思議な気がします。どこかで大量に使っているのでしょうか???
[by かえで(yfi) #- URL]
2005/10/04 Tue 01:38:00 [Edit]
 トラバいただきありがとうございます~。
 #あっ、私が書いてる間にUジローさんがコメント済みですね…速いなぁ^^;

 どこかで漢字頻度の「思・人」が突出したデータがあったな、と思って検索してみました…これですね(既にご存じでしたらすみません)。
 http://www.geocities.com/ken_nishimura/im/
 そういえば、ひらがなに展開したものしか評価していませんでした…うーん、「漢かな交じりのまま解析してみて」有意な差が得られるのかどうか、ちょっと試してみたいところです。

 漢字読みの展開に関しては、ツールによって読み精度が異なるようで、厳密なひらがな化は出来ていない気もします…その辺も含めて書かれていた、当時のメモを列記してみます。
http://d.hatena.ne.jp/maple_magician/20050521/1116684594
http://ujiro.ameblo.jp/entry-facc417f879149f4f4b7af24d22e8e48.html
http://kirinsystem.net/diary/?date=20050523

 ついでに、「漢字→かな変換ツール」のリストを(この部分は、Wikipediaにあるリストと同じです)。
http://www4.atwiki.jp/japanese_keyboard_layout/pages/19.html

 漢直の場合、読みを入力する方法(かな系・ローマ字系)とは違ったひらがな・カタカナ配列規則が必要になりそうですね…予想を超える違いっぷりに驚いてみたり^^;
[by みのり #1bS.biKU URL]
2005/10/04 Tue 21:15:05 [Edit]
Uジローさん、こんにちは。コメントの通り、『。』 多いですよね~。おそらく、

・一文が短い(何故か日記だと短くなるらしい。メモ的な文が多いからかも)
・考えている時など、文の最後に、"。。。"と、「。」をたくさんくっつける時がある、
……が原因かなあと。

解析に使ったデータは、このブログじゃなくて、一年分くらいの普通の日記やメモからです。あ、これどこかに書いとかなければ。

Uジローさんの頻度表を見てみると、
「、」が多くて、「。」が少ない、という事は一文が長いということですね。私とは正反対の区切り方だ^^
ブログを改めて読ませて頂くと、確かに一文が長いかも? ……なんて事が分かってしまうのが、データの恐いところですね・・・。
[by みのり #1bS.biKU URL]
2005/10/04 Tue 21:17:39 [Edit]
>かえでさん
漢かな交じりのまま解析してみると、漢字に自分の好みや生活が出まくりで、全公表するとしたらドキドキですよ(笑) 頻度が高い所はまだいいけど、低くなってくるに従って……。
4gramの下の方の頻度なんかは、まさにデンジャラスゾーンです(゚ ゚;;)

有意な差はおそらく出るのではと思うけど、どうでしょうね??

それと、かな変換に関してリンクを集めて下さり、ありがとうございました。
KAKASIやMeCab 以外にも、こんなにツールがある事を始めて知りました。

kakasiについては、かえでさんやUジローさんの記事を読ませてもらってたのですが、DOS形式を扱うのがどうも苦手でして(汗) monogramで手いっぱいで、ジタバタしていたのでした。
そうしたら、さっき良さそうなツールを見つけられて(日記に大変だと書いた為、お手数をかけて貰ったのにすみません)、色々と試している最中です。使えそうならいずれ記事に書こうかなあと思ってます。
漢字カナ混じり1gram [by qua #4nqao9.I URL]
2005/10/04 Tue 22:40:31 [Edit]
いなかってんのたでしとるうだらにーは・さまがあれすもよこくけ´や
そりンえき・どね、ち→;お゚わゃ?じ。人゙ろイ^つ!トみルをスぁ
め。ほッДクばーンラリノタアせ(ω日`マ一ドレチイ大時カロノタ今
分クッw場ょカ━見言ム出何フ気オ間キず中む思シげд前ネバプ-サ無
コ)牧ャメ全ジル~∀パト最ナゲサ生部ぎo会テグフヽ゜手自動ボ通勝
回ごハ名上入年ぐスハキウシ俺本>ぱエ合方ぇ私行違知べぶ死戦セダ
ふア変ミ使普学


ひらがな化しないと結構変わりますね。
「う」と「ん」はかなり下がりました。
>quaさん [by みのり #1bS.biKU URL]
2005/10/04 Tue 23:33:14 [Edit]
∑( ̄▽ ̄;)ビクッ
……ああ、漢字カナ混じりで出してくれたんですね。ありがとうございます♪

やはり、かなり違ってますね~。
……「な」の頻度が上がったり、「う」と「ん」が下がるのは私と共通するなど、パターンが分かってきますね。面白い。
この頻度表は、これから漢直の配列を作る人の役に立つのでは! 今までこういうデータは無かった筈なので。その内、記事にまた転載させて頂きます~。

にしても、リンク先でUジローさんもコメントしてますが、データを公表するのに躊躇しない姿に惚れぼれです(・ω・o)

Post Comment

管理者にだけ表示を許可する
Calendar
07 ≪2017年08月 ≫ 09
S M T W T F S
- - 1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31 - -
Categories
漢直とは : 3
漢直色々 : 61
漢直練習日記 : 66
日常 : 97
はじめに : 4
配列関連 : 57
P-Study System : 24
音楽と漢直 : 5
奏コード : 23
ソフト : 21
アウトラインプロセッサ : 7
未分類 : 0
Recent Entries
05/06/27の日記 2
05/06/27の日記
3打鍵漢字
ちょこっと練習と練習方法
05/06/26の日記 2
Recent Comments
Recent Trackbacks
Archives
2006年10月 : 1
2006年09月 : 8
2006年08月 : 13
2006年07月 : 15
2006年06月 : 13
2006年05月 : 14
2006年04月 : 16
2006年03月 : 17
2006年02月 : 33
2006年01月 : 51
2005年12月 : 58
2005年11月 : 62
2005年10月 : 39
2005年09月 : 28
Introduction
Author:みのり
みのりです。このブログは漢直に関する話題を書いています。taffy632@yahoo.co.jp
「漢直ノート出張版」
(ファイルやタイピング動画があります)
RSS
Search
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。