Incidencia #21388

CreateCorpusでの自動判定の改良

Abrir Fecha: 2010-04-12 21:43 Última actualización: 2010-04-12 21:43

Informador:
Propietario:
(Ninguno)
Estado:
Open
Componente:
(Ninguno)
Hito:
(Ninguno)
Prioridad:
6
Gravedad:
5 - Medium
Resolución:
Ninguno
Fichero:
Ninguno

Details

ディレクトリを指定してのインポートもほぼ問題はないのですが、Input Typeを指定せずにAutoにしておくと、 ディレクトリに含まれるファイルのいくつかでInput Typeの判定が失敗し、最後に謎のエラーとして 表れることがありました。

このエラーは、一文が長すぎたために最初の100行を読んだだけではEOSを検出できず、 フォーマット判定に失敗してPlainTextReaderが使われたのが原因でした。 白書ではCaboChaフォーマットで500行を超える文もあるので、フォーマット判定のために読む行数を 多めにすることと、このエラーの原因をわかりやすく(各Readerの使用回数を最後に表示するなど) していただけるとありがたいです。

Ticket History (1/1 Histories)

2010-04-12 21:43 Updated by: tomorita
  • New Ticket "CreateCorpusでの自動判定の改良" created

Attachment File List

No attachments

Editar

Please login to add comment to this ticket » Entrar