[Anthy-dev 3688] Re: コーパスへの頻度付けと制限の適用

Back to archive index

Jun Oizumi vagus****@gmail*****
2009年 2月 10日 (火) 22:56:25 JST


大泉です。

> 私のほうのファイルは破棄して、
> vagusさんのコーパスパッチを取り込まれるといいと思います。
> ("お試し版"とのことなのでまだ早いかもしれませんが)

私のは分からないままに手探りでいじり回してみている最中、かつ、
自作 depgraph 用に区切り位置を変えた所が結構あるので、
そのまま取り込むのは問題あると思います。

ただ、

・かなり重複があったのを削除
・辞書にないために出せないものを例文に入れることで無理やり
 出そうとしていたのを辞書に登録
・誤字誤変換などの誤りを修正
・読みと変換結果とで区切りの数が合っていなかったものを修正

してあるので、その部分ではまあ参考程度にはなるかも、という気も
するので、一応ここ↓に置いておきます。
http://vagus.up.seesaa.net/data/alt-corpus.tar.bz2
(手元のものと単純に diff 取っただけです。
gcanna.diff は先日いくやさんにお送りしたものと同じものです)


個人的には「有用/不要」を具体的にどう判断すればいいのかを
知りたいのですが…。




Anthy-dev メーリングリストの案内
Back to archive index