Kazuhiko
kazuh****@fdiar*****
2014年 9月 24日 (水) 18:30:57 JST
森さん、こんにちは。 On 24/09/2014 11:14, morit****@razil***** wrote: > Boolean Modeではクエリに指定されたトークンの隣接関係をきちんとチェックしているのに対して、 > Natural Language Modeですとトークンの出現順序は無視しています。 はい、Natural Language Modeでトークンの出現順序は無視、というのはよく考 えたら当たり前でした。 ただ、Boolean Modeで、TokenBigramSplitSymbolAlphaDigitだと'fine'が'nefi' にマッチしなくて、TokenBigramだと'tomorrow fine'が'fine tomorrow'にマッ チするのは、前者の検索語の'fi, in, ne'というトークンと後者の検索語の 'fine, tomorrow'というトークンは何かが違うということでしょうか? (もちろん、後者の挙動に不満は全くありません)。 > 日本語ですとbigramでもトークンの種類が多いですから、 > TF*IDFで選別されてそれほど不自然な結果にはならないと思います。 やはり、そうなのですね。 > 字種の少ない言語では、bigram索引とNatural Language Modeの組み合わせでは精度が出ないと思います。 はい、もっと規模の多いデータで実験したときも、「これは無いわ―」という感 じでした。 かずひこ