[Anthy-dev 3403] Re: alt-cannadic の非活用語を mecab-ipadic に取り込む

Back to archive index

Yusuke TABATA yusuk****@w5*****
2007年 3月 5日 (月) 20:40:02 JST


田畑です。

UTUMI Hirosi wrote:
>>実際のところ、変換精度を向上させるためには
>>99,90,50,10(上位1%,10%,50%,下位10%)
>>ぐらいがあれば十分で、そんなに細かくする必要は
>>ないんじゃないかと予想しています。

> 日本語は同音異義語が非常に多いので、上位の語は細かく分類しないと
> 適切な変換結果を得られないかもしれません。
> (切る/斬る, 蛸/凧 のように)
確かに候補の順序についてはそうなんですが、区切り間違いで頻度の
低い単語が入るものはもっと大雑把で良いんじゃないかと予想してます。

先日、大泉さんから指摘された例では
「ほしいものがあって」で「干し芋のがあって」になってしまうのですが、
「干し芋」が「欲しい」とか「物」よりもかなり出にくい単語という
情報だけあれば十分と思います。

候補順序の決定については、今までどおりの情報を使うはずです。

-- 
--
 CHAOS AND CHANCE!
  Yusuke TABATA



Anthy-dev メーリングリストの案内
Back to archive index