Kunihiko Kanou
lvisd****@gmail*****
2010年 10月 21日 (木) 03:50:20 JST
お世話になっております。 加納です。 なんと。。 早速のご対応ありがとうございます。 楽しみにしております。 別スレッドで展開していただいた、 fessの開発環境構築を私も試させていただこうかと 思っています。 今後ともよろしくお願いいたします。 以上です。 2010年10月20日6:29 Shinsuke Sugaya <shins****@yahoo*****>: > 菅谷です。 > > S2Robot で対応したので、Fess 4.0 からは CommandExtractor を > 登録することで対応できる予定です。 > > http://s2robot.sandbox.seasar.org/ja/extractor-guide.html > > よろしくお願いいたします。 > > shinsuke > > > 2010年10月12日9:07 Shinsuke Sugaya <shins****@yahoo*****>: >> 菅谷です。 >> >> 情報をありがとうございます。 >> S2Robotで対応できる気がするので >> 対応方法を検討したいと思います。 >> >> shinsuke >> >> 2010年10月12日2:45 Kunihiko Kanou <lvisd****@gmail*****>: >>> お世話になります。 >>> 加納です。 >>> >>> 機能リクエストをさせていただきたいと思います。 >>> ご検討をよろしくお願いいたします。 >>> >>> ※長文で失礼します。 >>> >>> 【機能リクエスト内容】 >>> 特定拡張子の場合、外部テキストフィルタ(任意のプログラム/スクリプト)を実行し、 >>> 抽出したテキストに対して、ファイルシステムクロールを行う。 >>> >>> ※S2Robot(または、Apache Tika)に未対応のファイルがある場合や、 >>> クロール結果に不具合(文字化け等)がある場合に、回避するのが目的です。 >>> 何か他にいいアイディアがあればご教授ください。 >>> >>> 【処理イメージ】 >>> ①対象ファイルが特定拡張子(例:.jtd)の場合、任意の外部プログラム(スクリプト)を実行し、 >>> ファイル形式を変換(例:.jtd$→.jtd.txt)する。 >>> >>> ②変換後のファイル(例:.jtd.txt)に対して、ファイルクロールを実施する。 >>> >>> ③検索結果の表示は、パスマッピングで元の対象ファイルに変換する。 >>> (例:.(jtd|jtt|jbw|JTD|JTT|JBW).txt$→.$1) >>> >>> 【経緯】 >>> 現状、一太郎ファイル(*.jtd,*.jbw...etc)を処理するのに、 >>> IFilter(Windows Desktop Searchが使用)を経由して、 >>> 事前にテキスト形式に変換することで、 >>> Fessのファイルクロール対象にしています。 >>> >>> ※以下のサイトを参考にして、特定フォルダ配下の一太郎ファイルを >>> 一括してテキスト変換するrubyスクリプトを作ることで対処しました。 >>> >>> 「ExtractText.dll で外部ファイルを片っ端からテキスト検索」 >>> http://www.f3.dion.ne.jp/~element/msaccess/AcRevExtractText.html >>> >>> 「[ichitaro]ExtractText.dllを使ってみる」 >>> http://cgi.actv.ne.jp/~kkojima/diary/index.cgi?20091008_1254987991 >>> >>> このやり方であれば、Windows限定ですが、 >>> IFilterが提供されているファイル形式なら、 >>> 何でも対応できるようになります。 >>> >>> …が、 >>> >>> ・WindowsのタスクスケジュールとFessのファイルクロール時刻の順序を考慮する必要がある >>> ・変換元と変換先を同一ディレクトリに格納できない場合は、 >>> 変換後ファイルのみを別ディレクトリに格納する必要がある。 >>> (ファイルクロールのパスを別途設定する必要がある) >>> >>> ため、Fess側で外部プログラムを直接実行できると、楽だなぁ…っという発想です。 >>> >>> Linuxであれば、pdftotextコマンドを実行するイメージでしょうか。 >>> >>> 「PDFファイルからテキストを抽出するには」 >>> http://www.atmarkit.co.jp/flinux/rensai/linuxtips/745textfpdf.html >>> >>> 【備考】 >>> xdoc2txtも高機能なのですが、テキスト抽出時に、 >>> プログラムがダンマリ状態になり、バッチが終了しないケースがあるようです。 >>> (原因究明のために、対象ファイルを提示できない場合は、 >>> バグレポートも出せないため、お手上げになります。) >>> >>> 「xdoc2txt - PDF,WORD,EXCEL,一太郎などの各種バイナリ文書からテキストを抽出」 >>> http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html >>> >>> 以上、よろしくお願いいたします。 >>> >>> >>> _______________________________________________ >>> Fess-user mailing list >>> Fess-****@lists***** >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >>> >> > > > _______________________________________________ > Fess-user mailing list > Fess-****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/fess-user > >