Re: BigramとNatural Language Mode (groonga-dev,02797) - Groonga - fulltext search engine.

森さん、こんにちは。

On 24/09/2014 11:14, morit****@razil***** wrote:
> Boolean Modeではクエリに指定されたトークンの隣接関係をきちんとチェックしているのに対して、
> Natural Language Modeですとトークンの出現順序は無視しています。

はい、Natural Language Modeでトークンの出現順序は無視、というのはよく考
えたら当たり前でした。

ただ、Boolean Modeで、TokenBigramSplitSymbolAlphaDigitだと'fine'が'nefi'
にマッチしなくて、TokenBigramだと'tomorrow fine'が'fine tomorrow'にマッ
チするのは、前者の検索語の'fi, in, ne'というトークンと後者の検索語の
'fine, tomorrow'というトークンは何かが違うということでしょうか？
（もちろん、後者の挙動に不満は全くありません）。

> 日本語ですとbigramでもトークンの種類が多いですから、
> TF*IDFで選別されてそれほど不自然な結果にはならないと思います。

やはり、そうなのですね。

> 字種の少ない言語では、bigram索引とNatural Language Modeの組み合わせでは精度が出ないと思います。

はい、もっと規模の多いデータで実験したときも、「これは無いわ―」という感
じでした。

かずひこ

Groonga - fulltext search engine.

[groonga-dev,02797] Re: BigramとNatural Language Mode