UTUMI Hirosi
utuhi****@yahoo*****
2005年 9月 27日 (火) 19:00:31 JST
内海です。 gcanna.ctd は単語数が多すぎて基本語彙に目が届きにくく、 anthy の固有辞書は gcanna.ctd とは別に複数に分かれているので どこに何があるのか分かりにくくなっています。 そこで、gcanna.ctd をカテゴリー別に分割して、 anthy の固有辞書と統合することを提案します。 -------------------------------------------- これまでの gcanna.ctd 用のパッチを当てた上で、 1. gcanna.ctd を次のように切り分ける ・単漢字辞書 (kanji.t) 内容物: #KJ ・人名辞書 (gcanna_name.t) 内容物: #JN, #JNS, #JNM ・地名辞書 (gcanna_placename.t) 内容物: #CN ・固有名詞辞書 (propername.t) 内容物: #KK 残ったものを基本辞書 (gcanna_base.t) とする。 2. こうしてできた 基本辞書/人名辞書/地名辞書 を、 それぞれ anthy の base.t/name.t/placename.t に マージしてソートする (anthy の base.t にも地名などが含まれていると思うので あらかじめ分割しておく) こうすれば見通しがすっきりして、辞書の編集をやりやすくなると 思います。 adjust.t については gcanna.ctd 側で可能な限り織り込みました。 (adjust.t は荒技過ぎるので、できる限り辞書側/ 変換アルゴリズム側で対処したほうが良いと思います :-)) 問題点: 0. gcanna.ctd を上記の種類別に分割するスクリプトを 書いていただく必要がある (その後 anthy の固有辞書にマージしてソートするスクリプトも必要) 1. このように辞書を分割/統合して Anthy 側で辞書の改訂を進めていくと、 cannadic が改訂されたときに追随するのが難しくなる。 (cannadic_old と cannadic_new の差分を取って、 重要なものをマージすれば足りる?) 2. Anthy 側で改訂した部分が すぎもとさんに伝わりにくくなる。 (cannadic リリース時からの anthy-dic の差分を見ていただければ伝わる?) __________________________________ For All Sports Fans! http://pr.mail.yahoo.co.jp/yells/