Yusuke TABATA
yusuk****@w5*****
2006年 2月 18日 (土) 02:12:51 JST
田畑です。 anthyの性能向上のためにwikipedia日本語版から統計情報を取ってくる 実験をしているのですが、データを作るところまではできたので 状況を書いておきます。 出力としては、http://ofanim.net/~yusuke/060218/result の ように自立語、付属語に切ったものが得られています。 (2MBのテキストなのでダウンロードの時は注意してください) wikipedia全体だと1GBで1000万語強で50万文弱といった感じです。 再現するには、まず http://download-yaseo.wikimedia.org/ のjawikiから pages-articles.xml.bz2をダウンロードします。 これは巨大なXMLファイルなので、タグ等を除去します。 僕がやった方法は http://ofanim.net/~yusuke/060218/filter.c をコンパイルして $ bunzip2 -dc *xml.bz2 | ./filter > filtered という感じです。ここでは一文を一行にするのと、文字コードの EUC-JPへの変更もやってます。 文節に切るためにanthy-7413(以降)のanthy-morphological-analyzerを 使います。これはインストールされないコマンドなので、コンパイル したディレクトリに入っているものを使います。 $ ~/anthy-7413/src-util/anthy-morphological-analyzer filtered > result anthy-morphological-analyzerは大量のテキストを一度に処理させると 遅くなるという問題があるので、これは次のリリースまでに修正する 予定です。 #結構インパクトが大きな成果だと思ってますが、 #これをどう使うかが今後の課題です。 -- -- CHAOS AND CHANCE! Yusuke TABATA