[Ludia-users 101] 形態素インデックスで投入に1秒以上かかります

Back to archive index

Shunsuke Tanaka tanak****@nttda*****
2007年 10月 9日 (火) 09:52:18 JST


田中と申します。

初めて投稿します。よろしくお願いします。

形態素インデックスでデータを連続して投入していたら、3万件くらい投入した
ところから1件投入するのに1秒以上かかるようになり、処理がほとんど進まなく
なってしまい困っております。

行った作業の順番は以下の通りです。
  テーブルを作成
  形態素インデックスを作成
  データを1件ずつINSERT文で投入

テーブルには列が4つありますが、1つの列だけに形態素インデックスを作成しま
した。
形態素インデックスを作成した列のデータは、可変長で、小さいものは数十Kバ
イト、大きい物では数Mバイトで、たいていは100Kバイト程度です。

PostgreSQLのログに以下の出力が大量に出ているのが少し気になります。
LOG:  pgsenna2: |w| invalid euc-jp string end on sen_str_charlen

なお、同じデータを2-gramインデックスで投入したときは上記のログは出力されません。

使用したソフトウェアは以下の通りです。
Ludia 1.3.0
Senna 1.0.9
mecab 0.96
mecab-ipadic 2.7.0 20070801
PostgreSQL 8.2.4
Linux ( Fedora Core 2 (32bit版) (Kernel 2.6.5) )

使用したハードウェアは以下の通りです。
Dell Precision 470
CPU:  Xeon 2.8GHz × 2
Memory:  2Gbyte
HDD:  SATA 400Gbyte  7200rpm

よろしくお願いします。




Ludia-users メーリングリストの案内
Back to archive index