Hiroaki Kawai
hiroa****@gmail*****
2008年 11月 21日 (金) 15:04:54 JST
川井と申します。 UTF-8 で辞書をメインテナンスしたい方で、同じようなことをしている人の投稿が あったので、私のやり方を出しておこうかな、と思います。 ポイントは兎にも角にも、ただしい CSV ファイルを作ることにありました。 普通にやると、EUC-JP -> UTF-8 変換時に CSV ファイルの形式が壊れます。 私の場合 python で読み書きして成功しています。 本当は元になるコーパス自体を Normalize してからパラメータ推定して 辞書を構築したいところですが、そこは妥協してこれでいいことにしました。 import csv from unicodedata import normalize import os import glob os.rename('naist-jdic.csv','naist-jdic.csv.euc') r=csv.reader(file('naist-jdic.csv.euc','rU')) w=csv.writer(file('naist-jdic.csv','wb'), quoting=csv.QUOTE_MINIMAL) for row in r: w.writerow([normalize('NFKC', x.decode('EUC-JP')).encode('UTF-8') for x in row]) for l in glob.glob("*.def"): os.rename(l, l+'.euc') s=normalize('NFKC', open(l+'.euc','rb').read().decode('EUC-JP')).encode('UTF-8') fp=open(l,'wb') fp.write(s) fp.close() -------------- next part -------------- HTMLの添付ファイルを保管しました... Descargar