wikipediaからのデータ取得 (Anthy-dev 2821) - Anthy

田畑です。

anthyの性能向上のためにwikipedia日本語版から統計情報を取ってくる
実験をしているのですが、データを作るところまではできたので
状況を書いておきます。

出力としては、http://ofanim.net/~yusuke/060218/result の
ように自立語、付属語に切ったものが得られています。
(2MBのテキストなのでダウンロードの時は注意してください)
wikipedia全体だと1GBで1000万語強で50万文弱といった感じです。

再現するには、まず
http://download-yaseo.wikimedia.org/ のjawikiから
pages-articles.xml.bz2をダウンロードします。
これは巨大なXMLファイルなので、タグ等を除去します。
僕がやった方法は
http://ofanim.net/~yusuke/060218/filter.c をコンパイルして
$ bunzip2 -dc *xml.bz2 | ./filter > filtered
という感じです。ここでは一文を一行にするのと、文字コードの
EUC-JPへの変更もやってます。

文節に切るためにanthy-7413(以降)のanthy-morphological-analyzerを
使います。これはインストールされないコマンドなので、コンパイル
したディレクトリに入っているものを使います。
$ ~/anthy-7413/src-util/anthy-morphological-analyzer filtered > result

anthy-morphological-analyzerは大量のテキストを一度に処理させると
遅くなるという問題があるので、これは次のリリースまでに修正する
予定です。

#結構インパクトが大きな成果だと思ってますが、
#これをどう使うかが今後の課題です。

-- 
--
 CHAOS AND CHANCE!
  Yusuke TABATA

Anthy

[Anthy-dev 2821] wikipediaからのデータ取得