[mecab-users 341] UTF-8 で辞書を作る

Back to archive index

Hiroaki Kawai hiroa****@gmail*****
2008年 11月 21日 (金) 15:04:54 JST


川井と申します。

UTF-8 で辞書をメインテナンスしたい方で、同じようなことをしている人の投稿が
あったので、私のやり方を出しておこうかな、と思います。

ポイントは兎にも角にも、ただしい CSV ファイルを作ることにありました。
普通にやると、EUC-JP -> UTF-8 変換時に CSV ファイルの形式が壊れます。
私の場合 python で読み書きして成功しています。

本当は元になるコーパス自体を Normalize してからパラメータ推定して
辞書を構築したいところですが、そこは妥協してこれでいいことにしました。

import csv
from unicodedata import normalize
import os
import glob

os.rename('naist-jdic.csv','naist-jdic.csv.euc')
r=csv.reader(file('naist-jdic.csv.euc','rU'))
w=csv.writer(file('naist-jdic.csv','wb'), quoting=csv.QUOTE_MINIMAL)
for row in r:
w.writerow([normalize('NFKC', x.decode('EUC-JP')).encode('UTF-8') for x in
row])

for l in glob.glob("*.def"):
os.rename(l, l+'.euc')
s=normalize('NFKC',
open(l+'.euc','rb').read().decode('EUC-JP')).encode('UTF-8')
fp=open(l,'wb')
fp.write(s)
fp.close()
-------------- next part --------------
HTMLの添付ファイルを保管しました...
Descargar 


mecab-users メーリングリストの案内
Back to archive index