SHIDARA Yoji
dara****@shida*****
2010年 4月 23日 (金) 22:13:44 JST
しだらです。 > ご指摘ありがとうございます。 > > groongaのNグラムトークナイザの現状の挙動では、 > 複数の連続する記号列は一つのトークンとして扱っています。 > この場合、 > > ...) > > という文字列が、ひとつのトークンとして扱われてしまい、 > 結果として ")" や ")は" でヒットしなくなっています。 > > groongaのlib/token.c:340のところを > > token->uni_symbol = 0; > > とすると、連続する記号列もバイグラムを作るようになるので > この問題は回避できるのですが、デフォルトの挙動を切り替えると > インデックスの互換性がなくなってしまうのでちょっと躊躇しています。 > > 近い将来にインデックス作成時にそれを指定するインタフェースを準備しようと > 考えています。 > > 以上どうぞ宜しくお願いします。 ご対応ありがとうございます。 確認ですが、:key_normalize => false とすると、この問題は生じないのですが、 正規化の有無によって tokenize の仕方が変わるということでしょうか。 #状況をちゃんと理解できていない気もしています -- SHIDARA Yoji