辞書ファイルの分割 / 統合の提案 (Anthy-dev 2458) - Anthy

内海です。

gcanna.ctd は単語数が多すぎて基本語彙に目が届きにくく、
anthy の固有辞書は gcanna.ctd とは別に複数に分かれているので
どこに何があるのか分かりにくくなっています。

そこで、gcanna.ctd をカテゴリー別に分割して、
anthy の固有辞書と統合することを提案します。

--------------------------------------------
これまでの gcanna.ctd 用のパッチを当てた上で、

1. gcanna.ctd を次のように切り分ける
・単漢字辞書 (kanji.t)
内容物: #KJ

・人名辞書 (gcanna_name.t)
内容物: #JN, #JNS, #JNM

・地名辞書 (gcanna_placename.t)
内容物: #CN

・固有名詞辞書 (propername.t)
内容物: #KK

残ったものを基本辞書 (gcanna_base.t) とする。

2. こうしてできた 基本辞書/人名辞書/地名辞書 を、
それぞれ anthy の base.t/name.t/placename.t に
マージしてソートする
(anthy の base.t にも地名などが含まれていると思うので
あらかじめ分割しておく)

こうすれば見通しがすっきりして、辞書の編集をやりやすくなると
思います。

adjust.t については gcanna.ctd 側で可能な限り織り込みました。
(adjust.t は荒技過ぎるので、できる限り辞書側/
変換アルゴリズム側で対処したほうが良いと思います :-))

問題点:
0. gcanna.ctd を上記の種類別に分割するスクリプトを
書いていただく必要がある
(その後 anthy の固有辞書にマージしてソートするスクリプトも必要)

1. このように辞書を分割/統合して Anthy 側で辞書の改訂を進めていくと、
cannadic が改訂されたときに追随するのが難しくなる。
(cannadic_old と cannadic_new の差分を取って、
重要なものをマージすれば足りる？)

2. Anthy 側で改訂した部分が すぎもとさんに伝わりにくくなる。
(cannadic リリース時からの anthy-dic の差分を見ていただければ伝わる？)

__________________________________
 For All Sports Fans!
 http://pr.mail.yahoo.co.jp/yells/

Anthy

[Anthy-dev 2458] 辞書ファイルの分割 / 統合の提案