[groonga-dev,02797] Re: BigramとNatural Language Mode

Back to archive index

Kazuhiko kazuh****@fdiar*****
2014年 9月 24日 (水) 18:30:57 JST


森さん、こんにちは。

On 24/09/2014 11:14, morit****@razil***** wrote:
> Boolean Modeではクエリに指定されたトークンの隣接関係をきちんとチェックしているのに対して、
> Natural Language Modeですとトークンの出現順序は無視しています。

はい、Natural Language Modeでトークンの出現順序は無視、というのはよく考
えたら当たり前でした。

ただ、Boolean Modeで、TokenBigramSplitSymbolAlphaDigitだと'fine'が'nefi'
にマッチしなくて、TokenBigramだと'tomorrow fine'が'fine tomorrow'にマッ
チするのは、前者の検索語の'fi, in, ne'というトークンと後者の検索語の
'fine, tomorrow'というトークンは何かが違うということでしょうか?
(もちろん、後者の挙動に不満は全くありません)。

> 日本語ですとbigramでもトークンの種類が多いですから、
> TF*IDFで選別されてそれほど不自然な結果にはならないと思います。

やはり、そうなのですね。

> 字種の少ない言語では、bigram索引とNatural Language Modeの組み合わせでは精度が出ないと思います。

はい、もっと規模の多いデータで実験したときも、「これは無いわ―」という感
じでした。

かずひこ




groonga-dev メーリングリストの案内
Back to archive index