[Anthy-dev 3340] Re: ja.wikipedia を解析して名詞の頻度リストを作りました

Back to archive index

UTUMI Hirosi utuhi****@yahoo*****
2007年 2月 2日 (金) 01:59:15 JST


内海です。

Yusuke TABATA wrote:
> anthyの側でどう扱ったら良いのか
> 検討が難しいのが正直なところですが、

不完全なものなので放置しておいてください。:-)

以下のものをアップロードしました。
http://www.geocities.jp/ep3797/anthy_dict_01.html
1. ja.wikipedia の本文を mecab-ruby で解析して
単語ごとに出現数を付けたもの
2. 上記のファイルのうち動詞以外を cannadic 形式に変換したもの(不完全)
3. これらを行うために作成したプログラム(不完全)

作業途中のものなので、動くかどうか確認していません。
動詞辞書と cannadic の付属語辞書を加えれば
最低限の変換はできるかもしれません。
(動詞は活用形の判定で手が止まっていて、まだ cannadic 形式に
変換できていません)

大泉さん >
解析するファイルを指定できるようにしました。
あと、"読みが3文字以上"という制限は外しました。
(後から削るのは簡単ですが、追加するのは難しいので)
ただし未知語に関しては3文字以上限定のままです。
README は書きかけです。

私自身は私家版の cannadic で満足していますし、
ja.wikipedia の分析自体はできたので、
ひょっとしたらここで手を止めるかもしれません。
--------------------------------------
Start Yahoo! Auction now! Check out the cool campaign
http://pr.mail.yahoo.co.jp/auction/




Anthy-dev メーリングリストの案内
Back to archive index