Re: wikipediaからのデータ取得 (Anthy-dev 2822) - Anthy

田畑です。

Yusuke TABATA wrote:
> anthyの性能向上のためにwikipedia日本語版から統計情報を取ってくる
> 実験をしているのですが、データを作るところまではできたので
> 状況を書いておきます。
さらに追加です。付属語の出現頻度のヒストグラムを作ってみました。
うまく使えれば、anthyの文節区切りや候補の順序決定の
性能が向上しそうな気がします。
674131 の
451819 に
442267 を
306703 が
289585 は
137777 で
137052 る
135982 と
…
<以下45000行程続く>
ファイル全体は次のところに置いてます。
http://ofanim.net/~yusuke/060218/dep (約800K)

これに使ったwikipediaのデータは
http://ofanim.net/~yusuke/060218/20051012_pages_current.xml.bz2 (約165M)

anthy-morphological-analyzerをかけた結果
http://ofanim.net/~yusuke/060218/result.bz2 (約100M)

このデータから付属語の頻度のヒストグラムを作るためのコードは
http://ofanim.net/~yusuke/060218/a.cpp です

$ g++ a.cpp
$ bunzip2 -dc result.bz2 | ./a.out | sort -nr > dep で
このデータが得られます。


-- 
--
 CHAOS AND CHANCE!
  Yusuke TABATA

Anthy

[Anthy-dev 2822] Re: wikipediaからのデータ取得