[groonga-dev,00344] Re: :key_normalize => true 時にの検索の漏れについて

Back to archive index

SHIDARA Yoji dara****@shida*****
2010年 4月 23日 (金) 22:13:44 JST


しだらです。

> ご指摘ありがとうございます。
>
> groongaのNグラムトークナイザの現状の挙動では、
> 複数の連続する記号列は一つのトークンとして扱っています。
> この場合、
>
>  ...)
>
> という文字列が、ひとつのトークンとして扱われてしまい、
> 結果として ")" や ")は" でヒットしなくなっています。
>
> groongaのlib/token.c:340のところを
>
>  token->uni_symbol = 0;
>
> とすると、連続する記号列もバイグラムを作るようになるので
> この問題は回避できるのですが、デフォルトの挙動を切り替えると
> インデックスの互換性がなくなってしまうのでちょっと躊躇しています。
>
> 近い将来にインデックス作成時にそれを指定するインタフェースを準備しようと
> 考えています。
>
> 以上どうぞ宜しくお願いします。

ご対応ありがとうございます。

確認ですが、:key_normalize => false とすると、この問題は生じないのですが、
正規化の有無によって tokenize の仕方が変わるということでしょうか。
#状況をちゃんと理解できていない気もしています

-- 
SHIDARA Yoji




groonga-dev メーリングリストの案内
Back to archive index