Jun Inoue
jun0****@users*****
2004年 7月 2日 (金) 01:43:09 JST
皆さん、はじめまして。井上と申します。よろしく。 変換精度チェックのコーパスについてちょっと調べ物+実験をしてみたので、よ ろしければ参考にしてください。 On Thu, 24 Jun 2004 21:24:32 +0900 Kazuki Ohta <mover****@hct*****> wrote: > [snip] > やっぱり大量のコーパスを食わせるっていう方法しか無いんじゃないでしょう > か。そのコーパスをどこから持ってくるんだっていう根本的問題が有りますけ > ど(@_@; > > > 個人的にはライトノベルを適当にとってきて, それのセパレート and/or > > 変換がどれだけ正確に行われるかを見るのが良いのではないかと考えていま > > す. その手の小説にはいろんな種類の文(普通の文, 説明的な文, 会話文)が > > 混じっているからです. > そうですねぇ。 > ただ、平仮名オンリーの文 + 変換後の文が必要ですが、手に入れるのが難し > そうです。。。漢字に変換された後の文を辞書と照らし合わせてひらがなに戻 > したりするとかですかね? にしては辞書の語数が足りなさそうなのですが。。 そこで形態素解析ソフト「Chasen」を使ってこのメーリングリストの過去ログを 平仮名に直させてみたところ、なかなかの精度で変換されました。参考までに [Anthy-880] の変換結果を適当に端折って載せておきます。ちなみに全く辞書な どは調整していませんので、「暗黒」が「くらくろ」となったり、いくつか問題 は発生しているのですが、記号や alphanumeric、漢数字の扱いを正して辞書を 充実させれば (これは anthy が使う辞書の充実と絡ませる方向でいけないでし ょうか)、anthy の漢字変換精度を確認するのに使えるぐらいの精度は得られる と思うのですが、どうでしょう。 1.XCT_PARTがたのもじはいまのものでたりているのかどうかけんとうし,もん だいがあればかいぜんする. たとえば,"ー""ん"とうはXCT_PARTがたでもよいの ではないか. 2.XCT_OPEN,XCT_CLOSEがたのもじはいまのものでたりているかどうかけんとうし ,もんだいがあればかいぜんする. たとえば,"「""’"とうをついかする. 3.XCT_OPEN,XCT_CLOSEがたについて,それぞれopenであることとcloseであるこ とをゆうこうにつかえるようにする.げんじょうでは"いんようふであること"し かつかっていない. 4.ぶんせつにいんようふをいれないようにする.たんなる「みため」のもんだい かもしれないが,たとえば"「"がちょくぜんのぶんせつのいちぶになってしまう のはきもちがわるい. かっこにかんするところにもんだいがありそうなことは ,test/test.txtのせんとうに,*たんなるみためのもんだいかもしれないが-*たん なる(みため)のもんだいかもしれないが- をついかして,test/のしたで ,./anthy--fromいち--toにとやってみると(かんかくてきに)りかいできるのでは ないかとおもいます.