Yusuke TABATA
yusuk****@w5*****
2005年 9月 25日 (日) 04:17:21 JST
田畑です。 anthy開発の項目のうち、僕のTODOっぽいものを列挙します。 適当な手段で優先順位のコメントをいただけると助かります。 (a)地名辞書の分離 (b)接頭辞、接尾辞の指定方法の拡張 (c)自立語、付属語の接続の統計情報の生成 (d)形態素解析器の命名 (e)開発者の募集 -- (a)地名辞書の分離 cannadicの中にもanthyで追加したcompound.ctdにも多数の地名が 含まれているのですが、これらを全部抜き出して別のファイルに しようと思います。 *地名の接尾辞は色々なパターンがあるので、(b)でやる予定の 拡張を利用して正確な接尾辞を付けれるようにできるはずです。 *郵便番号辞書から地名を取り出すスクリプトを田郷さんから もらったので、そこから出た地名も追加します (b)接頭辞、接尾辞の指定方法の拡張 例えば、次のような形式で接頭辞、接尾辞を詳細に指定 できるようにすることを検討しています。 :おおさか #CN #<ふ*府 大阪 「#<」で接尾辞を指定 「#>」で接頭辞を指定 「#+」で指定した単語と同じ接頭辞、接尾辞パターンを持つ(継承) (c)自立語、付属語の接続の統計情報の生成 (多分)wikipediaの文章を(d)の形態素解析器にかけて、文節を構成する 自立語、付属語の統計を取ることになる予定です。 各文節に出てくる自立語の関係や同音異義語の出現など、色々なものが 統計の対象として考えられますが、とりあえず自立語x付属語の行列を 作って出現頻度を詰めれば効果がありそうな気がします。 (d)形態素解析器の命名 考えても決まらないのでanthy-morphological-analyzerにしてしまおうと 思います。 (e)開発者の募集 anthyに限らず他の変換エンジンや新規開発のでも良いのですが、 もう少し人が欲しいと思ってます。 変換エンジンの開発は敷居が高い上に評価されない領域であり、 僕らに出来ることはそれほど無いのですが、少しぐらいは手を 打ちたいものです。 -- -- CHAOS AND CHANCE! Yusuke TABATA