[morogram-users] Re: こんばんは!

Back to archive index

dune FZH01****@nifty*****
2005年 4月 10日 (日) 03:04:30 JST


極悪です。
学校の先生は忙しいということなので。

ジョウレントモカさんの[morogram-users] こんばんは!から
>漢詩の統計的、数量的に分析したいのですが、使用できるデータは
>テキストデータのみ、と考えてよろしいでしょうか?

テキストデータ以外ではどんなデータがありますか? バイナリであっても
ビットパターンを &Mnnnnnn; の形式に変換するとか、何かしら文字を割り
当ててやれば morogram で処理できるはずです。

>また結果を分析するよい方法はないでしょうか?

次のサイトで紹介されている方法を検討してみてはどうでしょうか。
EXCEL の「分散分析(繰り返しのない二元配置)」というわけのわからない
機能を使ってますが、必要なのは出現頻度値の分散だけなので実は簡単にで
きそうです。
http://www.karitsu.org/studies/laozi_ngsm.htm

>サイトにあるN-gram分析スクリプト
><http://www1.u-netsurf.ne.jp/~dune/N_2Dgram.html?> 等はmorogramでも
>使用可能なのでしょうか?

僕のホームページにあるのは morogram(のスタンドアロン版)の説明だけで
すよ。

>また、作者の違う作品を比べて作者ごとに比較したい、ということなのですが
>作者の名前も頻度に数えられるのを()でくくってそこを頻度に加えない、と

作者の名前を削除してから分析すれば良いと思いますが、そういう問題とは
違うのでしょうね。データがどういう形式になっているのかが問題?

><>で囲われた文字をひとつの文字として認識する、とか

ひとつの文字として扱いたい部分を &Mnnnnnn; に置き換えてから分析すれば
ok です。

>ある文字に限定して頻度を数える

一文字に限定して頻度を数えるなら
morogram-0.7.1xCJKT.exe --I=Guess --g=1,1 SARASINA.TXT
で良いです(これくらいだと morogram を使う必要ないかもしれませんが)。

特定の文字の出現頻度だけを知りたいなら、
morogram-0.7.1xCJKT.exe --I=Guess --g=1,1 SARASINA.TXT | find "夢"
とすれば ok。夢という文字が何回使われているかがわかります。

実際にやるときは同じ文書を何度も N-gram 分析していては効率が悪いので、
最初に分析したときの結果を保存して再利用します。

>また、作者の違う作品を比べて作者ごとに比較したい、ということなのですが

作品毎に N-gram 分析して、(必要なら同じ作者の作品はマージして)作者の
特徴や違いがないか眺めることになるのではと思います。先の分散分析の例で
は作者間で使い方に違いのある文字ほど分散が大きくなるはず。
-- 
極悪, mailto:FZH01****@nifty*****




morogram-users メーリングリストの案内
Back to archive index