UTUMI Hirosi
utuhi****@yahoo*****
2006年 1月 14日 (土) 12:49:42 JST
// To: scim-****@lists***** 内海です。 mecab-users で cannadic改変について話をうかがったので転載します。 http://lists.sourceforge.jp/mailman/listinfo/mecab-users UTUMI wrote: http://lists.sourceforge.jp/mailman/archives/mecab-users/2006-January/000016.html ------------------- http://mecab.sourceforge.jp/#download > Canna dic > * Canna 辞書: 公開予定 これはどういったものになるのでしょうか。 cannadic は頻度指定の甘さが気になるので、 (辞書についての考えは scim-imemgine-dev に書きました。 http://lists.sourceforge.jp/mailman/archives/scim-imengine-dev/2006-January/000864.html ) 頻度を補正するようなものであれば Anthy の精度向上にも役立つのではないかと期待しています。 なお、大泉さんというかたが 公式版の cannadic に見出しと表記を 大幅に追加した "cannadic改" を公開しておられるので、 http://homepage2.nifty.com/jjade/alt-cannadic/ こちらの辞書をベースにされるのも良いかと思います。 大泉さんの "cannadic改" は品詞ごとに頻度を画一化しているので 同音異義語などの変換には弱いのですが、 非常に良く整理されていて新語も大量に追加されているので、 これに適切な頻度が付加されれば Anthy に最適な辞書になるのではないかと 思っています。 ------------------- Kudo-san wrote: http://lists.sourceforge.jp/mailman/archives/mecab-users/2006-January/000023.html ------------------- 鍵はコスト値の推定にあります。おもに 1. 内省に基づき人手でチューンする 2. 大量のテキストのみから推定する 3. 正しく解析されたタグ付きデータを人手で作成し、そこから推定する という3つの方法があります。 3番目の方法が一番精度がよく、内省に依存しないためコンシステントな コスト推定が行えます。ipadic, jumandic の作成は 3 番目の方法でやっています。 ただ、問題は cannna は 3番目に必要なタグ付きデータがないことです。 そこで、2番目の大量のテキストのみからコスト推定する方法をとりあえず 使ってみます。具体的には隠れマルコフモデル(HMM)を使います。 大量のテキストはたとえば wikipedia 等が利用できるでしょう。 ただ、過去の経験からだと、HMM はそんなに優れた方法ではないので、 少量のタグつきデータを作るかもしれません。タグ付きデータ作成とは、 Cannna の辞書体系で正しく形態素解析されたデータ (MeCab の理想的な出力) の作成です。CRF という方法を使うとわりと少量のデータで十分な精度が 得られると思います。(たぶん数百文程度) > なお、大泉さんというかたが 公式版の cannadic に見出しと表記を > 大幅に追加した "cannadic改" を公開しておられるので、 > http://homepage2.nifty.com/jjade/alt-cannadic/ > こちらの辞書をベースにされるのも良いかと思います。 > > 大泉さんの "cannadic改" は品詞ごとに頻度を画一化しているので > 同音異義語などの変換には弱いのですが、 > 非常に良く整理されていて新語も大量に追加されているので、 > これに適切な頻度が付加されれば Anthy に最適な辞書になるのではないかと > 思っています。 ありがとうございます。確かに高品質の辞書を使ったほうがいいですね。 ------------------- UTUMI wrote: http://lists.sourceforge.jp/mailman/archives/mecab-users/2006-January/000024.html ------------------- わくわくします。新しい cannadic をとても楽しみにしています。:-) 公開なさる際はぜひ Anthy-dev にもご連絡ください。 http://lists.sourceforge.jp/mailman/listinfo/anthy-dev > 確かに高品質の辞書を使ったほうがいいですね。 Cannadic改 は大泉さんが一年以上かけて見出しと表記の追加を行い、 スクリプトによる整理をなさったものなので、 報われるときがくることを願っていました。 ------------------- -------------------------------------- Yahoo! Mail - supported by 10million people http://pr.mail.yahoo.co.jp/mail_pr/