Incidencia #12456

妙な文字にHitする
Abrir Fecha: 2008-05-03 11:41 Última actualización: 2008-05-09 17:46

Informador:
(Anónimo)
Propietario:
(Ninguno)
Tipo:
Estado:
Open
Componente:
(Ninguno)
Hito:
(Ninguno)
Prioridad:
5 - Medium
Gravedad:
5 - Medium
Resolución:
Ninguno
Fichero:
Ninguno

Details

Ludia を使わせていただいています。
速さに、びっくりしております。
さて・・
PostgreSQL 8.3 : UTF8
mecab: UTF8
という設定で使用しています。
pgs2indexinfo() での情報も
 encoding | 3
となっています。
大概の検索は、OKなのですが
「京」「桃」という1文字で検索した時に
これらを含まない物がHitしてしまいます。
この2文字だけです。

OSは、Ubunto、CentOS、MacOS X
で、Postgresql は、8.3、8.2 で
Ludia は、1.5.0、mecab などは、deps内の物を
--with-charset=utf8
で、build しました。
index には、fulltexta、fulltextb などを試しました。
SET CLIENT_ENCODING TO 'UNICODE'
も、行いましたが、どーしても、この2文字はHit してしまいます。

どうか、ご教授、いただけませんでしょうか。

Ticket History (3/3 Histories)

2008-05-07 16:49 Updated by: co-saka
Comentario
Logged In: YES
user_id=23292

幸坂です。こんにちは。

> OSは、Ubunto、CentOS、MacOS X
> で、Postgresql は、8.3、8.2 で
多くの環境で再現できているという事ですね。
こちらでも再現できるかどうか試してみます。

以下の2点を教えてもらえますか?

・EXPLAINの結果
・HITしないはずなのにHITしてしまう行
2008-05-07 18:16 Updated by: None
Comentario
Logged In: NO

ご回答、ありがとうございました。
本物のデータは、隠匿性があるので、ホームページ上の文章を拾って入れて
試してみました。
結果は、下記の様になりました。

> SELECT * FROM table_4_ludia WHERE txt_ludia @@ '桃';
ブログ ニュース メール RSSリーダー 一覧 ゲストさんログイン ウェブ検索 最新
ニュース! クリックするほどよく分かる ヘルプ livedoor livedoor ニュース ニュー
ス スポーツ トピックス 写真 世論調査 ランキング 提供元  記事  写真 主要 国内 海
外 経済 IT 芸能 音楽 映画 スポーツ PJ 社会 政治 女性 人 今週のお役立ち情報
物件探しはlivedoor新築マンションで! 実質年率12.0%~、最速3秒審査、初
回より300万円 民主党茶番劇はいつまで続く 2008年04月10日18時35分 コメン
ト(25)     トラックバック(11)    ブックマーク   民主党が、またしても日銀人事にお
いて、党利党略、政局を優先させるような判断を行った。彼らの茶番劇を見ている
と、それほどまで国民を馬鹿にしているのかと腹立たしい気分になる。最初の二回の
総裁人事において、彼らは「財政と金融の分離」という論理を持ち出して、元財務事
務次官の二人を総裁に任命するという政府案に不同意という結論を出した。そして、
今回は、財務省の財務官経験者を副総裁に任命するという政府案に対し「天下り廃
止」という別の論理を理由にして、不同意とする党議決定を行った。「財政と金融の
分離」にしても、「天下り廃止」にしても、いずれも重要なテーマであることは間違
いない。今回の民主党の方針は、「財務省OBは、その人物の能力にかかわらず、一
切日銀ポストには就かせない」ということのようだ。途中で理由が変わったのは、個
人の財務省でのポストが違うためで、自分たちの正当性を誇張するためだろう。疑問
は、どちらの理由付けにしても、そこまでこだわる必要があるのかという点にある。
前者については、日本国の一つの重要なポストだから、調整役としての能力も必要と
いう観点もあるだろうし、後者についても、本当に能力の備わった人なら、天下りで
あっても意義があるのではないかと私は考える。システム的な天下りで、無能な人材
が重要ポストに就くことと、能力を評価されて出自に関係なく人物本位で人材登用を
行うことを同一視すべきとは思えない。実際、民主党内でも今回は異論が噴出してい
るようだ。表向きの建前論としては、正論を理由としたものなのだろうが、その本質
として、党利党略、政局至上主義なのは、常識的な国民にすればあまりにも見え見え
である。だから、民主党の支持率が低迷しているのだろう。総理からの道路特定財源
の一般財源化提案については、暫定税率の期限切れを棚上げしてでも協議を行い、確
約させることを優先すべきであったと思うし、今回の副総裁人事も、人物本位を理由
にして、同意すべきであったと私は思う。なぜなら、その判断は、目先の党利党略で
はなく、国の行く末に対する重要な判断だからだ。そして、そういう決断こそが支持
率を高めると私は考える。[記事全文へ](記者:keigo)■民主党関連記事小泉氏再登
場はイラク戦争責任者退場と矛盾『賢い』民主党の猿知恵・その2 日銀総裁選びのく
だらなさ死んだふり?小泉元首相と「改革」の行方■記者固定リンク・編集画面
keigo記者の書いた他の記事「政治全般」カテゴリー関連記事 ツカサネット新
聞 / 提供元一覧 Ads by Google このサイトへ広告を掲載 コメントを読む(25
件)    コメントする(ログイン) 前後の記事 暫定税率は景気対策に  ツカサネット
新聞 10日18時35分    1comments民主党茶番劇はいつまで続く  ツカサネット新
聞 10日18時35分「人事権の乱用」か「官僚支配打破」か、党首討論が示した大き
な溝   ロイター 10日07時04分    5comments小泉元首相、「世界ラーメンサミッ
ト」に登場  ロイター 10日12時51分酷すぎる!かくも論争下手な「党首討論」に意
味はあるのか【週刊・上杉隆】  ダイヤモンド・オンライン 10日13時51分   
3comments 国内一覧 国内アクセスランキング 1 「元少年殺されれば遺族は幸せ」
青学准教授ブログに集中砲火  J-CASTニュース 24日21時12分    33comments 2
【独女通信】独女も身につけたい「妊娠・出産の知識」  独女通信 25日14時00分   
2comments 3 日本で増えている「暴走老人」とは  朝鮮日報 25日11時59分 4 あ
と何年?親子入浴上限は11歳、父娘は9歳まで―「浴育」のススメ  Techinsight
Japan 24日22時00分    6comments 5 [硫化水素自殺]14人が入院…75人が体
育館で一夜 高知  毎日新聞 24日13時44分 6 【オトコ魂】EDの切実な悩み。その改
善法とは  オトコ魂 24日20時00分 7 【独女通信】結婚をためらうとき、結婚を決
めたとき  独女通信 24日14時00分    1comments 8 エッチなエッチな展示会、日
本で初開催  livedoor 27日23時47分    1comments 9 光市母子殺害事件で暴走し
たマスコミ報道に危惧を覚える【週刊・上杉隆】   ダイヤモンド・オンライン 24日
11時12分    18comments 10 ◎「国境なき記者団」のメナール氏、通常の入国審
査を=福田首相  時事通信社 25日10時13分 アクセスランキング一覧 注目の情報
キャンペーン実施中! DCキャッシュワンは実質年率12.0%~、かつ最速3秒
審査! カードデリで即日キャッシング可能!初回より最高300万円! 三菱東京U
FJ銀行グループのカードローン詳しくはコチラ! ページの先頭へ 国内トピックス
外資系ホテルで硫化水素が発生 誤認逮捕の男性に600万円支払い 硫化水素か 工場で
有毒ガス発生 24歳男"しつけで"4歳児に暴行 火に油 なぜ有名人を走らせる? 日本で
増えている"暴走老人" "子育て楽しい" 男性は5割超える 障害者が"障害者病棟"に入
れない トピックス一覧 おすすめ情報 ワールドフレンズ ヘタな英語でもOK!海外
に行かなくても、ココで世界中に友達づくり。 年率5.9%から 低金利カードローン
の決定版!オリックスVIPローンカード ヘッドライン 【独女通信】独女も身に...
倖田來未の「35歳になると羊水が腐る」発言は極端な例だとしても、あちこちで言
われている「出産35歳リミット説」に不安を煽られている人も多いのではないだろ
写真ニュース 写真一覧 世論調査 青少年インターネット規制法案に賛成ですか、反対
ですか? 賛成 (33.33%) 反対 (66.66%) 投票する 特集 えっ!1万円でも? 最近話題
のFX!ネット証券よりもカッコよく世界に投資FX♪ ケータイでニュースを見る
行きの電車、帰りの電車で livedoorニュースを読もう!ケータイにメールを送る
ページの先頭へ 本文エリアへ メニューエリアへ サブエリアへ


> EXPLAIN SELECT * FROM table_4_ludia WHERE txt_ludia @@ '桃';
QUERY PLAN
-----------------------------------------------------------------
---------
Bitmap Heap Scan on table_4_ludia (cost=1.18..193.53 rows=52
width=411)
Recheck Cond: (txt_ludia @@ '桃'::text)
-> Bitmap Index Scan on index_4_ludia (cost=0.00..1.18 rows=52
width=0)
Index Cond: (txt_ludia @@ '桃'::text)
(4 rows)

となります。


上記の他に 本来は英文なのですが、ミスで漢字コードらしき物が混じっているレ
コードがHit しています。
この文章をpg_dump してみると
「・・・Map<E3><82><AD>Inquiry Information・・・」
(<>内は、反転しています)
となっており、大概「<E3><82><AD>」を持つ物がHit している様です
ただ・・・
> SELECT * FROM table_4_ludia WHERE txt_ludia Like '%キ%';
の結果とは一致していません
2008-05-09 17:46 Updated by: co-saka
Comentario
Logged In: YES
user_id=23292

現象は再現しませんでした…orz

REINDEXしても同様の事象ですか?
PostgreSQL8.3の場合、autovacuumをOFFにしていますか?
インデックス更新(構築)時に、ログに「pgsenna2」が含まれた行
ありますか?
Ludia,Sennaバージョンアップ時に、REINDEXせずに、そのまま使
用していませんか?

Attachment File List

No attachments

Editar

You are not logged in. I you are not logged in, your comment will be treated as an anonymous post. » Entrar