taku miyamoto
taku_miyam****@dwang*****
2006年 9月 14日 (木) 17:59:35 JST
宮本です。 大変お世話になっております。 Senna の N-gram インデックスについて以下のような事例から、1byte のインデッ クスについては、分かち書きになっている??との疑問を持ちましたのでメール させていただきました。 疑問を持ったのは以下のような環境、データセットと、検索クエリによるもので す。 ----------------------------------------------------------------------------------------- 【環境】 mysql-4.0.27 senna-0.8.1 mecabは N-gram での操作のためインストールされておりません。 【入力データ】 create table articles( id int unsigned not null auto_increment primary key, body text, fulltext index using ngram (body) ); insert into articles values (null,"郵貯民営化は重要な問題だと思う "), (null,"スローライフを志向するiPodの強み - CNET Japan"), (null,"HTML, CSS, Photoshopを同時に学べるサンプル付きデザイン記事:Goodpic"), (null,"jazzanovaの日記 - 現在顧問弁護士に相談中であり、対応についても検討中"), (null,"mixi非公式ニュースサイト - mixiの問題人物Kusakabe氏、強制退会に?"), (null,"むだづかいにっき♂:ネット上で議論を仕掛ける事について"), (null,"はてな perl ハッカーの方々にお聞きします。近頃ますます良い感じなperlですが、 どのような開発環境で開発していますでしょうか。"), (null,"シナトラ千代子 - 投げ銭が飛び交うなかでダイアリーに立てこもる、という意味。"), (null,"Going My Way: Skypeの会話をPodcast用に録音する場合の設定方法"), (null,"Kusakabeさんがmixiの一部?を賑わしている。彼にmixi強制退会が言い渡されたのだ。"), (null,"Ringo's Weblog: googleと競合しない方法2 "), (null,"Moleskin Diary - 投げ銭よりたれ銭"), (null,"第38回 海外メディアが伝えた小泉・郵政解散劇の評判 - nikkeibp.jp - 立花隆の「メディア ソシオ-ポリティクス」"), (null,"ほその日記 - フォームが変更された事を知る"), (null,"総選挙はてなと公職選挙法:北海道に住む国家公務員日記 "), (null,"はてな、政党を株式に見立てて総選挙結果を予測 - CNET Japan"); 【検索クエリとその結果】 mysql> select * from articles where match (body) against ('はてな'); +----+----------------------------------------------------------------------------- | id | body +----+----------------------------------------------------------------------------- | 7 | はてな perl ハッカーの方々にお聞きします。近頃ますます良い感じなperlですが‥ | 15 | 総選挙はてなと公職選挙法:北海道に住む国家公務員日記 | 16 | はてな、政党を株式に見立てて総選挙結果を予測 - CNET Japan +----+----------------------------------------------------------------------------- 3 rows in set (0.00 sec) mysql> select * from articles where match (body) against ('てな'); +----+----------------------------------------------------------------------------- | id | body +----+----------------------------------------------------------------------------- | 7 | はてな perl ハッカーの方々にお聞きします。近頃ますます良い感じなperlですが‥ | 15 | 総選挙はてなと公職選挙法:北海道に住む国家公務員日記 | 16 | はてな、政党を株式に見立てて総選挙結果を予測 - CNET Japan +----+----------------------------------------------------------------------------- 3 rows in set (0.00 sec) mysql> select * from articles where match (body) against ('perl'); +----+------------------------------------------------------------------------------ | id | body +----+------------------------------------------------------------------------------ | 7 | はてな perl ハッカーの方々にお聞きします。近頃ますます良い感じなperlですが‥ +----+------------------------------------------------------------------------------ 1 row in set (0.00 sec) mysql> select * from articles where match (body) against ('erl'); Empty set (0.00 sec) ※検索結果の右側は少し割愛しています。 ----------------------------------------------------------------------------------------- 上記検索結果の検索語、「はてな」の検索結果は、「てな」の検索結果に含まれ ているのですが、検索語「perl」の検索結果は、検索語「erl」の中に含まれて おりません。 私の N-gram に対する認識が間違っていなければ、N-gram のインデックスの場 合、「perl」の検索結果は、検索語「erl」の中に含まれるものだと思ったので すが。