Masayuki Asahara
masay****@is*****
2010年 8月 1日 (日) 14:06:45 JST
浅原です。 ここ半年ほどのコーパス修正で頻度10回以上の単語の品詞情報の齟齬について 解消したもので学習したものを mecab-naist-jdic-0.6.3-20100801 <http://sourceforge.jp/projects/naist-jdic/downloads/48487/mecab-naist-jdic-0.6.3-20100801.tar.gz/> としてリリースしました。 0.6.2 との語彙項目の増減はありません。 何とかこの夏に残りの齟齬についても、つぶしにかかりますので、 涼しく見守ってあげてください。 > 工藤さん、牧本さん、 > 浅原です。 > > ご指摘の問題の本質は IPADIC にあって NAIST-jdic にはない語彙項目が由来ではなく、 > NAIST-jdic にする際に基本語彙項目の品詞は修正したが、 > コーパスに出現する品詞の修正までは至っていない(正確には修正したけどロストした) > ということに由来します。 > この結果、識別モデルでは、当該語彙項目を出現しない方向に学習をしてしまっています。 > > 手作業で diff を取って事例を見ながら直していますが、気長に待っていただければと思います。 > #対象となるエントリが多いだけで本当にちまちまと直してはいるんですよ。 > > 2010年7月27日5:31 Shimpei Makimoto <smaki****@gmail*****>: > >> 浅原さん、 >> 牧本です。横から失礼します。 >> >> わたしも以前 naist-jdic を使っていて語彙が抜けているように感じたことがあって >> 何が抜けているのか調べたことがありました。 >> 記憶している限り、 >> 無向、季節、奇怪 >> などの比較的頻度が高そうな語彙が登録されていないようです。 >> >> 簡単に作れるものではありますが、 >> IPADIC にはあって naist-jdic にはないエントリのリストが手元にあるのでシェアいたします。 >> 総数で 1,300 件程度で、このうち漢字熟語の部分だけでも精査すれば >> ある程度抜けている語彙を拾えるのではないかと思います。 >> >> http://makimoto.tsuyabu.in/ipadic_minus_naistjdic.txt >> >> よろしくおねがいします。 >> >> >> 2010/7/27 Taku Kudo <taku****@chase*****>: >> >>> 工藤です >>> >>> 以前naist-jdicを試したのですが、基本的な語彙がポロポロ抜け落ちていて >>> 使いにくい印象をもちました。どの語彙が落ちていたのかをメモっておけばよかったのですが… >>> >>> この点も修正していただけると大変助かります。 >>> >>> どうぞよろしくお願いします >>> >>> 工藤 >>> >>> 2010年7月23日10:45 Masayuki Asahara <masay****@is*****>: >>> >>>> 光石様、 >>>> 浅原です。 >>>> >>>> どうもありがとうございます。 >>>> >>>> 当該エントリは IPADICから NAIST-jdic への移行作業の際に >>>> 表記ゆれを展開する作業で登録されたものです。 >>>> この作業では自動的に異表記を展開した上で大規模コーパスで頻度の高いものを >>>> 人手で妥当性をみながら(この表記も利用されうるかどうか)を判定しながら登録 >>>> しました。 >>>> >>>> その際に作業者には頻度情報のみを提示して用例をみていたわけではないために >>>> 「考え*る次*のような」 >>>> のような、正しい分かち書きでない用例についてもカウントしておりました。 >>>> >>>> 他の「る述」「る報」も含めて、適切な双方の用例を集めてみて、 >>>> CRF のモデルできちんと識別できそうであれば残す >>>> そうでないならば削除する >>>> という方針をとりたいと思います。 >>>> >>>> 夏休み中、この作業(他のエントリのチェックも含む)に人的資源を >>>> 割り当てたいと思いますので、少しお時間をください。 >>>> >>>> >>>> >>>>> 浅原様、 >>>>> >>>>> 光石と申します。 >>>>> >>>>> # すみません。個人宛に送ってしまいましたので、ML 宛に再送します。 >>>>> >>>>> 下記の理由で削除の必要はないのではないかと思います。 >>>>> >>>>> 辞書の抜粋を示しますが、「る次」は「屡次」の「屡」をひらがなで書いた >>>>> エントリのようです (「grep ,ルジ,」して見つけました)。 >>>>> >>>>> 屡次,1394,1394,1760,名詞,副詞可能,*,*,*,*,屡次,ルジ,ルジ,, >>>>> る次,1394,1394,687,名詞,副詞可能,*,*,*,*,る次,ルジ,ルジ,, >>>>> >>>>> 「屡」を「る」と書く例は他にも見られます。 >>>>> >>>>> 屡述,1356,1356,1896,名詞,サ変接続,*,*,*,*,屡述,ルジュツ,ルジュツ,, >>>>> る述,1356,1356,765,名詞,サ変接続,*,*,*,*,る述,ルジュツ,ルジュツ,, >>>>> 屡報,1356,1356,1896,名詞,サ変接続,*,*,*,*,屡報,ルホウ,ルホー,, >>>>> る報,1356,1356,765,名詞,サ変接続,*,*,*,*,る報,ルホウ,ルホー,, >>>>> >>>>> 以上、よろしくお願い致します。 >>>>> >>>>> >>>>> Date: Fri, 23 Jul 2010 09:19:51 +0900 >>>>> From: Masayuki Asahara <masay****@is*****> >>>>> >>>>> >>>>> >>>>>> 奈良先端大の浅原です。 >>>>>> >>>>>> 当該エントリを辞書データベースから削除いたしました。 >>>>>> 次期リリースで反映いたします。 >>>>>> >>>>>> どうもありがとうございました。 >>>>>> >>>>>> >>>>>> >>>>>>> きしもとと申します >>>>>>> >>>>>>> naist-jdic でのことなのですが、naist-jdic のコミュニティといったものが >>>>>>> わからないので、こちらに質問させていただきます。 >>>>>>> >>>>>>> mecab-naist-jdic-0.6.2-20100208 に、次のようなエントリがあります。 >>>>>>> >>>>>>> る次,1394,1394,687,名詞,副詞可能,*,*,*,*,る次,ルジ,ルジ,, >>>>>>> >>>>>>> どういう言葉なのか、ちょっと用例とか思いつかないのですが、わかる方おられます >>>>>>> でしょうか? >>>>>>> >>>>>>> >> >> -- >> Shimpei Makimoto <smaki****@gmail*****> >> >> > > > -------------- next part -------------- HTMLの添付ファイルを保管しました... Descargar