2005/10/08 Sat 00:57:34
「全ひらがなに直した」 1文字頻度表を出しました。(2-gramはやり直し中)
ソースは約一年分の日記やメモからです。
順位 文字 使用回数 頻度(%)
1 い 57935 5.155
2 ん 42701 3.799
3 う 36148 3.216
4 。 35952 3.199
5 か 35851 3.190
6 し 33494 2.980
7 な 32795 2.918
8 、 31925 2.841
9 と 30033 2.672
10 た 29796 2.651
11 っ 27479 2.445
12 の 26369 2.346
13 て 25363 2.257
14 ・ 24611 2.190
15 SPC 20195 1.797
16 も 19892 1.770
17 く 18983 1.689
18 き 18544 1.650
19 で 18312 1.629
20 が 18209 1.620
21 こ 18158 1.616
22 に 17914 1.594
23 ー 17901 1.593
24 は 17621 1.568
25 る 17416 1.550
26 だ 17202 1.531
27 あ 16108 1.433
28 す 15279 1.359
29 ま 14967 1.332
30 ら 14576 1.297
(表がズレてるのが直らない・・・)
いんう。かしな、とたっのてもくきでがこにーはるだあすまらおりれさょじよけわつどそちえをやねろみせゃほめ!ひばふむぶゅげ?ごずぎぱ(「」)びぜぐ~べゆへぼ ぷざぽぞぃぴぬづぁぇぺぅヴぉぢ
……ふむふむ。やはり「。」が多いなあ、という印象です。これは、
・「。。。」と、語尾にたくさんつける事がある。
・メモ書きも多いので、一文が短い。
――この二つが原因かな、と思います。
そして、「ん」が漢カナ交じりの表と比べて多い。
あと「か」「う」ですね。Uジローさんがコメント欄で推察してくれたように、漢語が原因なのでしょう。それにしても、こんなに増えるとは思わなかったです。
☆おまけ
順位や頻度つきの全データをダウンロード
hiragana1gram.txt
スポンサーサイト
- 配列関連
-
Trackback(-)