UTUMI Hirosi
utuhi****@yahoo*****
2005年 9月 15日 (木) 00:15:46 JST
// To: Anthy-dev // Cc: Scim-imengine-dev // Cc: Sugimoto-san 内海です。 Anthy での変換結果にときどき出てくる堅い表現が気になったので、 gcanna.ctd の改変と base.t の修正を行いました。 全体としては表記を丸く現代的にすることを目指しています。 変更した見出語は 300ほどです。 改変方針は下記の通りですが、gcanna.ctd の見出しは 9万以上あるので、 > 5. 広く用いられている表記を追加。 > 6. Google のヒット数に基づく優先度の変更 これらを全ての語に対して貫くのは難しそうです。 (1-4 については一通りやりました) 辞書の編集に職人技と根性を要する仕組みは (品詞決め、独特の品詞記号、頻度指定、辞書ファイルが多数に分かれていること) 敷居が高いので、 sumibi や skk のようなコストの低い形式が 今後は良いのかなと思います。 差分はこちら: http://www.geocities.jp/ep3797/snapshot/tmp/anthy_gcanna.ctd.diff.zip http://www.geocities.jp/ep3797/snapshot/tmp/anthy_base.t.diff.zip 動作は anthy-6829 で確認しました。 OpenSUSE-10.0-beta 用の RPM はこちら: (emacs/xemacs のサポートは外しています) http://sourceforge.net/project/showfiles.php?group_id=109779&package_id=119961 インストール後 全ての SCIM/UIM プロセスを止めて、 ~/.anthy を削除してください。 注意: Canna 用にコンパイルするとエラーが出ます。 Anthy 用としてお使いください。 > crxdic -m -o gcanna.cbd gcanna.ctd > Error in RkParseWrec 巨大な辞書を編集してくださった Sugimoto さんに感謝。 驚くべき作業量です。 // gcanna.ctd の改変について 1. "御" で始まる語に "ご" "お" の候補を付加。 現状の候補: 御手洗 改変後の候補: お手洗い お手洗 御手洗 2. "無し" のつく語に "なし" の候補を付加。 現状の候補: 甲斐性無し 改変後の候補: 甲斐性なし 甲斐性無し 3. "方" のつく語に "かた" の候補を付加。 現状の候補: 飼い方 買い方 買方 改変後の候補: 飼い方 買い方 買方 飼いかた 買いかた 4. "付" のつく語に "つき" の候補を付加。 現状の候補: お近付き 改変後の候補: お近づき お近付き 5. 広く用いられている表記を追加。 現状の候補: 昼ごはん 昼御飯 改変後の候補: 昼ご飯 昼ごはん 昼御飯 6. Google のヒット数に基づく優先度の変更 現状の順序: 御高誼 ご高誼 改変後の順序: ご厚誼 御厚誼 ご高誼 御高誼 7. その他 雑多な修正/追加。 ・"秋田県" を "秋田犬" より先に出す ・"アサヒビール" を追加 など // base.t の修正について 表記の追加など雑多な修正。 __________________________________ Take an action against poverty http://pr.mail.yahoo.co.jp/whiteband/