[fess-user 360] Re: 【機能リクエスト】特定拡張子への外部テキストフィルタの実行について

Back to archive index

Kunihiko Kanou lvisd****@gmail*****
2010年 10月 21日 (木) 03:50:20 JST


お世話になっております。
加納です。

なんと。。
早速のご対応ありがとうございます。
楽しみにしております。

別スレッドで展開していただいた、
fessの開発環境構築を私も試させていただこうかと
思っています。

今後ともよろしくお願いいたします。

以上です。

2010年10月20日6:29 Shinsuke Sugaya <shins****@yahoo*****>:
> 菅谷です。
>
> S2Robot で対応したので、Fess 4.0 からは CommandExtractor を
> 登録することで対応できる予定です。
>
> http://s2robot.sandbox.seasar.org/ja/extractor-guide.html
>
> よろしくお願いいたします。
>
> shinsuke
>
>
> 2010年10月12日9:07 Shinsuke Sugaya <shins****@yahoo*****>:
>> 菅谷です。
>>
>> 情報をありがとうございます。
>> S2Robotで対応できる気がするので
>> 対応方法を検討したいと思います。
>>
>> shinsuke
>>
>> 2010年10月12日2:45 Kunihiko Kanou <lvisd****@gmail*****>:
>>> お世話になります。
>>> 加納です。
>>>
>>> 機能リクエストをさせていただきたいと思います。
>>> ご検討をよろしくお願いいたします。
>>>
>>> ※長文で失礼します。
>>>
>>> 【機能リクエスト内容】
>>> 特定拡張子の場合、外部テキストフィルタ(任意のプログラム/スクリプト)を実行し、
>>> 抽出したテキストに対して、ファイルシステムクロールを行う。
>>>
>>> ※S2Robot(または、Apache Tika)に未対応のファイルがある場合や、
>>> クロール結果に不具合(文字化け等)がある場合に、回避するのが目的です。
>>> 何か他にいいアイディアがあればご教授ください。
>>>
>>> 【処理イメージ】
>>> ①対象ファイルが特定拡張子(例:.jtd)の場合、任意の外部プログラム(スクリプト)を実行し、
>>> ファイル形式を変換(例:.jtd$→.jtd.txt)する。
>>>
>>> ②変換後のファイル(例:.jtd.txt)に対して、ファイルクロールを実施する。
>>>
>>> ③検索結果の表示は、パスマッピングで元の対象ファイルに変換する。
>>> (例:.(jtd|jtt|jbw|JTD|JTT|JBW).txt$→.$1)
>>>
>>> 【経緯】
>>> 現状、一太郎ファイル(*.jtd,*.jbw...etc)を処理するのに、
>>> IFilter(Windows Desktop Searchが使用)を経由して、
>>> 事前にテキスト形式に変換することで、
>>> Fessのファイルクロール対象にしています。
>>>
>>> ※以下のサイトを参考にして、特定フォルダ配下の一太郎ファイルを
>>> 一括してテキスト変換するrubyスクリプトを作ることで対処しました。
>>>
>>> 「ExtractText.dll で外部ファイルを片っ端からテキスト検索」
>>> http://www.f3.dion.ne.jp/~element/msaccess/AcRevExtractText.html
>>>
>>> 「[ichitaro]ExtractText.dllを使ってみる」
>>> http://cgi.actv.ne.jp/~kkojima/diary/index.cgi?20091008_1254987991
>>>
>>> このやり方であれば、Windows限定ですが、
>>> IFilterが提供されているファイル形式なら、
>>> 何でも対応できるようになります。
>>>
>>> …が、
>>>
>>> ・WindowsのタスクスケジュールとFessのファイルクロール時刻の順序を考慮する必要がある
>>> ・変換元と変換先を同一ディレクトリに格納できない場合は、
>>> 変換後ファイルのみを別ディレクトリに格納する必要がある。
>>> (ファイルクロールのパスを別途設定する必要がある)
>>>
>>> ため、Fess側で外部プログラムを直接実行できると、楽だなぁ…っという発想です。
>>>
>>> Linuxであれば、pdftotextコマンドを実行するイメージでしょうか。
>>>
>>> 「PDFファイルからテキストを抽出するには」
>>> http://www.atmarkit.co.jp/flinux/rensai/linuxtips/745textfpdf.html
>>>
>>> 【備考】
>>> xdoc2txtも高機能なのですが、テキスト抽出時に、
>>> プログラムがダンマリ状態になり、バッチが終了しないケースがあるようです。
>>> (原因究明のために、対象ファイルを提示できない場合は、
>>> バグレポートも出せないため、お手上げになります。)
>>>
>>> 「xdoc2txt - PDF,WORD,EXCEL,一太郎などの各種バイナリ文書からテキストを抽出」
>>> http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html
>>>
>>> 以上、よろしくお願いいたします。
>>>
>>>
>>> _______________________________________________
>>> Fess-user mailing list
>>> Fess-****@lists*****
>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>>
>>>
>>
>
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>
>



Fess-user メーリングリストの案内
Back to archive index