[Anthy-dev 3738] Re: 郵便番号のデータ

Back to archive index

NIIBE Yutaka gniib****@fsij*****
2010年 6月 1日 (火) 13:19:21 JST


大泉様:
各位:

> 上げました。

ありがとうございます。スクリプトもありがとうございました。


時に、郵便番号のデータとその扱いですが、ファイルの形式はソートされた文
字列で、現在、変換毎にファイルを open し、parse し、探すという実装になっ
ています。

ここは、データの形式と検索方法の二つの方向で改善が望まれますか。

(1) データの形式

もし、データの形式を、prefix を共通部分とする文字列という形式にすると、
ファイルの大きさはだいぶ小さくできますよね。

例えば、現在の形:

   0010010 #CNS 北海道札幌市北区北十条西 北海道札幌市北区北十条西1丁目 北海道札幌市北区北十条西2丁目 北海道札幌市北区北十条西3丁目 北海道札幌市北区北十条西4丁目

は、"北海道札幌市北区北十条西" が 0 のエントリとすれば、

   0010010 #CNS <0> <0>1丁目 <0>2丁目 <0>3丁目 <0>4丁目

と短く収められます。

今、4MB 以上もありますもん。


(2) 検索方法

まぁ、頭から全部見ていくというのでも間違いではないんです。
-- 




Anthy-dev メーリングリストの案内
Back to archive index