anthyの開発TODO (Anthy-dev 2427) - Anthy

田畑です。

anthy開発の項目のうち、僕のTODOっぽいものを列挙します。
適当な手段で優先順位のコメントをいただけると助かります。

(a)地名辞書の分離
(b)接頭辞、接尾辞の指定方法の拡張
(c)自立語、付属語の接続の統計情報の生成
(d)形態素解析器の命名
(e)開発者の募集

--

(a)地名辞書の分離
 cannadicの中にもanthyで追加したcompound.ctdにも多数の地名が
 含まれているのですが、これらを全部抜き出して別のファイルに
 しようと思います。
 *地名の接尾辞は色々なパターンがあるので、(b)でやる予定の
  拡張を利用して正確な接尾辞を付けれるようにできるはずです。
 *郵便番号辞書から地名を取り出すスクリプトを田郷さんから
  もらったので、そこから出た地名も追加します

(b)接頭辞、接尾辞の指定方法の拡張
 例えば、次のような形式で接頭辞、接尾辞を詳細に指定
 できるようにすることを検討しています。
 ：おおさか #CN #<ふ*府 大阪
「#<」で接尾辞を指定
「#>」で接頭辞を指定
「#+」で指定した単語と同じ接頭辞、接尾辞パターンを持つ(継承)

(c)自立語、付属語の接続の統計情報の生成
 (多分)wikipediaの文章を(d)の形態素解析器にかけて、文節を構成する
 自立語、付属語の統計を取ることになる予定です。
 各文節に出てくる自立語の関係や同音異義語の出現など、色々なものが
 統計の対象として考えられますが、とりあえず自立語x付属語の行列を
 作って出現頻度を詰めれば効果がありそうな気がします。

(d)形態素解析器の命名
 考えても決まらないのでanthy-morphological-analyzerにしてしまおうと
 思います。

(e)開発者の募集
 anthyに限らず他の変換エンジンや新規開発のでも良いのですが、
 もう少し人が欲しいと思ってます。
 変換エンジンの開発は敷居が高い上に評価されない領域であり、
 僕らに出来ることはそれほど無いのですが、少しぐらいは手を
 打ちたいものです。

-- 
--
 CHAOS AND CHANCE!
  Yusuke TABATA

Anthy

[Anthy-dev 2427] anthyの開発TODO