Yusuke TABATA
yusuk****@w5*****
2006年 2月 19日 (日) 02:05:11 JST
田畑です。 Yusuke TABATA wrote: > anthyの性能向上のためにwikipedia日本語版から統計情報を取ってくる > 実験をしているのですが、データを作るところまではできたので > 状況を書いておきます。 さらに追加です。付属語の出現頻度のヒストグラムを作ってみました。 うまく使えれば、anthyの文節区切りや候補の順序決定の 性能が向上しそうな気がします。 674131 の 451819 に 442267 を 306703 が 289585 は 137777 で 137052 る 135982 と … <以下45000行程続く> ファイル全体は次のところに置いてます。 http://ofanim.net/~yusuke/060218/dep (約800K) これに使ったwikipediaのデータは http://ofanim.net/~yusuke/060218/20051012_pages_current.xml.bz2 (約165M) anthy-morphological-analyzerをかけた結果 http://ofanim.net/~yusuke/060218/result.bz2 (約100M) このデータから付属語の頻度のヒストグラムを作るためのコードは http://ofanim.net/~yusuke/060218/a.cpp です $ g++ a.cpp $ bunzip2 -dc result.bz2 | ./a.out | sort -nr > dep で このデータが得られます。 -- -- CHAOS AND CHANCE! Yusuke TABATA