[Anthy-dev 2377] anthy-dic: gcanna.ctd の改変と base.t の修正

Back to archive index

UTUMI Hirosi utuhi****@yahoo*****
2005年 9月 15日 (木) 00:15:46 JST


// To: Anthy-dev
// Cc: Scim-imengine-dev
// Cc: Sugimoto-san

内海です。

Anthy での変換結果にときどき出てくる堅い表現が気になったので、
gcanna.ctd の改変と base.t の修正を行いました。
全体としては表記を丸く現代的にすることを目指しています。
変更した見出語は 300ほどです。

改変方針は下記の通りですが、gcanna.ctd の見出しは 9万以上あるので、
> 5. 広く用いられている表記を追加。
> 6. Google のヒット数に基づく優先度の変更
これらを全ての語に対して貫くのは難しそうです。
(1-4 については一通りやりました)

辞書の編集に職人技と根性を要する仕組みは
(品詞決め、独特の品詞記号、頻度指定、辞書ファイルが多数に分かれていること)
敷居が高いので、
sumibi や skk のようなコストの低い形式が
今後は良いのかなと思います。

差分はこちら:
http://www.geocities.jp/ep3797/snapshot/tmp/anthy_gcanna.ctd.diff.zip
http://www.geocities.jp/ep3797/snapshot/tmp/anthy_base.t.diff.zip

動作は anthy-6829 で確認しました。

OpenSUSE-10.0-beta 用の RPM はこちら:
(emacs/xemacs のサポートは外しています)
http://sourceforge.net/project/showfiles.php?group_id=109779&package_id=119961

インストール後 全ての SCIM/UIM プロセスを止めて、
~/.anthy を削除してください。

注意:
Canna 用にコンパイルするとエラーが出ます。
Anthy 用としてお使いください。
> crxdic -m -o gcanna.cbd gcanna.ctd
> Error in RkParseWrec

巨大な辞書を編集してくださった Sugimoto さんに感謝。
驚くべき作業量です。


// gcanna.ctd の改変について
1. "御" で始まる語に "ご" "お" の候補を付加。
現状の候補:     御手洗
改変後の候補:   お手洗い お手洗 御手洗

2. "無し" のつく語に "なし" の候補を付加。
現状の候補:     甲斐性無し
改変後の候補:   甲斐性なし 甲斐性無し

3. "方" のつく語に "かた" の候補を付加。
現状の候補:     飼い方 買い方 買方
改変後の候補:   飼い方 買い方 買方 飼いかた 買いかた

4. "付" のつく語に "つき" の候補を付加。
現状の候補:     お近付き
改変後の候補:   お近づき お近付き

5. 広く用いられている表記を追加。
現状の候補:     昼ごはん 昼御飯
改変後の候補:   昼ご飯 昼ごはん 昼御飯

6. Google のヒット数に基づく優先度の変更
現状の順序:     御高誼 ご高誼
改変後の順序:   ご厚誼 御厚誼 ご高誼 御高誼

7. その他 雑多な修正/追加。
・"秋田県" を "秋田犬" より先に出す
・"アサヒビール" を追加
など


// base.t の修正について
表記の追加など雑多な修正。


__________________________________
 Take an action against poverty
 http://pr.mail.yahoo.co.jp/whiteband/




Anthy-dev メーリングリストの案内
Back to archive index