[Anthy-dev 3237] Re: anthy-8317

Back to archive index

Hideyuki SHIRAI ( 白井秀行 ) shira****@meado*****
2006年 11月 23日 (木) 14:50:36 JST


白井です。

From: Yusuke TABATA <yusuk****@w5*****> さん曰く
Subject: [Anthy-dev 3234] Re: anthy-8317
Message-ID: <4564F****@w5*****>
Date: Thu, 23 Nov 2006 10:36:25 +0900

> Hideyuki SHIRAI (白井秀行) wrote:
> > ところが 8317 を使っていると、まれに「出てこない漢字」があるのに
> > 気付きました。
> > 
> > たとえば、"iku" => "行く" です。

> anthyでは候補を生成する時に候補の形式にスコアを付けて、
> そのスコアが低いもの(今は最高スコアの1/3)から候補を
> 生成しないという処理をします。

解説ありがとうございます。

> 「いく」であれば
>   *名詞「異口」
>   *単漢字「育」
>   *動詞「行く」
>   *形容詞「良く」
>   *接頭辞+名詞「異区」
> のようなパターンがあって、この中で使いそうな構造の
> 順に並べて低いものを使わないようにします。
> 
> 問題は
>  *"行く"の構造のスコアが低いこと
>  *使いそうなのに閾値を越えてないこと
> とりあえず、anthy-8322では閾値を下げるという安易な対処を
> して逃げました。

anthy-8322 で "iku" => "行く", "iku" => "逝く", kita => "来た"
が候補に出てくるのを確認しました。

> スコアがまともになるようにする方法は今から検討させてください。

生成するときのスコアの閾値を best/3 から best/10 に低くして候補
に入るようにしたのですね。今一わかっていないのですが、なんでスコ
アに関係なくすべてのものを候補に入れないのでしょうか?

使いそうもないものがたくさん出てくるとうざったい、とか、動作が重
くなるという理由だろう、というのは想像できるのですが、『スコアに
関係なくすべての候補を表示する』というインタフェースがないと、大
なり小なり『辞書にはあるのだけど出てこない漢字がある』という問題
が発生すると思うのです。

とりあえず limit=0 のままで適当に試した限りでは、limit=best/10
でのものと出てくる候補が全部一緒だったので上のぼくの考え方が正し
いかどうかもわからないの出すけど ^^;

# もしかして、egg-anthy 以外は『すべての候補を表示する』というユー
# ザインタフェースがあるとか ^^;;;


P.S.
中本さんの dic-tool.c のパッチ助かりました。メインの WS のユーザ
辞書を dump して Zaurus に持っていこうとして混乱していたところで
した。

P.P.S.
よし、egg-anthy も UTF8 で国際化だ!! と思ったら、agent.c,
egg.c が(まだ?)だめなのですね :-)

-- 
白井秀行 (mailto:shira****@meado*****)



Anthy-dev メーリングリストの案内
Back to archive index