UTUMI Hirosi
utuhi****@yahoo*****
2007年 2月 2日 (金) 01:59:15 JST
内海です。 Yusuke TABATA wrote: > anthyの側でどう扱ったら良いのか > 検討が難しいのが正直なところですが、 不完全なものなので放置しておいてください。:-) 以下のものをアップロードしました。 http://www.geocities.jp/ep3797/anthy_dict_01.html 1. ja.wikipedia の本文を mecab-ruby で解析して 単語ごとに出現数を付けたもの 2. 上記のファイルのうち動詞以外を cannadic 形式に変換したもの(不完全) 3. これらを行うために作成したプログラム(不完全) 作業途中のものなので、動くかどうか確認していません。 動詞辞書と cannadic の付属語辞書を加えれば 最低限の変換はできるかもしれません。 (動詞は活用形の判定で手が止まっていて、まだ cannadic 形式に 変換できていません) 大泉さん > 解析するファイルを指定できるようにしました。 あと、"読みが3文字以上"という制限は外しました。 (後から削るのは簡単ですが、追加するのは難しいので) ただし未知語に関しては3文字以上限定のままです。 README は書きかけです。 私自身は私家版の cannadic で満足していますし、 ja.wikipedia の分析自体はできたので、 ひょっとしたらここで手を止めるかもしれません。 -------------------------------------- Start Yahoo! Auction now! Check out the cool campaign http://pr.mail.yahoo.co.jp/auction/