[morogram-users] Re: 1000字あたりの使用頻度の実装化

Back to archive index

Shigeki Moro s-mor****@hanaz*****
2003年 10月 24日 (金) 23:20:39 JST


もろです。

# うお、Subjectが文字化けしてる。mailmanは割とタコいなぁ。

今日、情報処理学会・人文科学とコンピュータ研究会に行ってきました。
確率・統計的モデルによる分析に期待が集まっているということを知ったのと、
あと、フランス語ですがNグラムと統計モデルを使って言語の分析をしている人
(院生)に協力をお願いしたところOKをもらえたのが収穫でした。

On 2003.10.22, at 22:56 Japan, Takahito Yamada wrote:

>  総字数と言うよりも、共起頻度の総合計と言った方がいいかもしれません。

あ、そうなんですか。だとあれじゃだめですね。私の誤解でした。

>  1000分率のグラフだけ見ると、相関係数が0.83になるので、「長さの異なる複
> 数の文献間おいて、共起aと共起bとの出現率に強い相関関係がある」とでも言え
> ちゃうのかなあ。多分単純に1000分率をする時点で間違っているんだと思います
> が。

いや、スクリプトを見てもらえばわかるとおもいますが、このスクリプトであれば
相関関数が高くなるのは当たり前だと思います。グラフも扇形になってるでしょ?

>  ※すいませんが、師さんのベクトル100のスクリプト、添付して頂けますか。
> こちらでいくつかの文献でやってみたいので。

とりあえず添付します。morogramの出力ファイルに対して実行して下さい。
使い方はスクリプトの冒頭を見て下さい (^_^;;
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: normalize_v.pl
型:         application/octet-stream
サイズ:     1027 バイト
説明:       無し
Descargar 
-------------- next part --------------


Shigeki Moro
s-mor****@hanaz*****


morogram-users メーリングリストの案内
Back to archive index