Susumu Yata
null+****@clear*****
Mon Mar 28 14:05:12 JST 2016
Susumu Yata 2016-03-28 14:05:12 +0900 (Mon, 28 Mar 2016) New Revision: 8ac6ffaf6fe1b7d47885d24c1e057ed9a0a47bf1 https://github.com/groonga/groonga.org/commit/8ac6ffaf6fe1b7d47885d24c1e057ed9a0a47bf1 Message: blog ja: update an article about chunk split in static indexing Renamed files: ja/_posts/2016-03-28-chunk-split.md (from ja/_posts/2016-03-27-chunk-split.md) Renamed: ja/_posts/2016-03-28-chunk-split.md (+15 -10) 64% =================================================================== --- ja/_posts/2016-03-27-chunk-split.md 2016-03-25 21:21:04 +0900 (3ec4747) +++ ja/_posts/2016-03-28-chunk-split.md 2016-03-28 14:05:12 +0900 (04c16e6) @@ -1,21 +1,21 @@ --- layout: post.ja -title: 静的構築した索引によるフレーズ検索の高速化 +title: 静的索引によるフレーズ検索の高速化 description: 索引を静的構築するときにチャンクを分割することで,頻出トークンとレアトークンの混ざったフレーズ検索を高速化できるようになりました. published: false --- -## 静的構築した索引によるフレーズ検索の高速化 +## 静的索引によるフレーズ検索の高速化 ### 概要 -静的に構築した索引を使ったフレーズ検索を高速化する方法を紹介します.データとクエリの組み合わせによっては 10 倍以上速くなるので,フレーズ検索が遅いと感じている方は試してみる価値があります. +Groonga 6.0.1 において実験的な機能として追加される,静的に構築した索引を使ったフレーズ検索を高速化する方法を紹介します.データとクエリの組み合わせによっては 10 倍以上に速くなるので,フレーズ検索が遅いと感じている方は試してみる価値があります. 実は,一年前(Groonga 5.0.1)に頻出トークンとレアトークンを同時に検索するときの高速化が取り入れられています.しかし,静的構築した索引では効果を得ることができませんでした.本記事で紹介するのは,高速化が有効になる索引を静的に構築する方法と,どのくらい効果があるのかです. フレーズ検索の高速化については, groonga-dev における以下の投稿が参考になります. -- [https://osdn.jp/projects/groonga/lists/archive/dev/2014-December/003038.html]([groonga-dev,03095] 頻出トークンとレアトークンを一緒に検索したときの性能向上パッチ) +- [[groonga-dev,03095] 頻出トークンとレアトークンを一緒に検索したときの性能向上パッチ](https://osdn.jp/projects/groonga/lists/archive/dev/2015-February/003097.html) ### 使い方 @@ -33,9 +33,9 @@ GRN_II_CURSOR_SET_MIN_ENABLE=1 使い方は以上です. -### 例 +### どのくらい効果があるのか -まずはデータを保存するためのテーブルを以下のコマンドで作成し, `page.body` に合計 2GiB, xxx,yyy レコードのデータを `load` しました. +まずはデータを保存するためのテーブルを以下のコマンドで作成し, `page.body` に合計 2GiB, 19,905,063 レコードのデータを `load` しました. ``` $ groonga /tmp/groonga/db @@ -65,8 +65,13 @@ $ GRN_II_CURSOR_SET_MIN_ENABLE=1 groonga /tmp/groonga/db 以下の表には,各クエリについて 10 回の試行で得られたベストの検索時間を載せています. -|QUERY|idx_old|idx_new|補足| +|QUERY|idx_old|idx_new|分かち書き| |-----|------:|------:|----| -| a| 0.0s| 0.0s|TBW| - -以上のように,頻出トークンとレアトークンが混じったクエリについては劇的な改善が見込めます. +|検索|0.016s|0.016s|検索| +|未来検索|0.005s|0.004s|未来 検索| +|山越郡長万部町|0.004s|0.001s|山越 郡 長万部 町| +|焼肉のたれ|0.262s|0.002s|焼肉 の たれ| +|マツコ・デラックス|0.010s|0.001s|マツコ ・ デラックス| +|藤岡弘、|0.166s|0.001s|藤岡 弘 、| + +以上のように,頻出トークン(「の」,「・」,「、」など)とレアトークンが混じったクエリについては劇的な改善が見込めます. -------------- next part -------------- HTML����������������������������... Descargar