Kunihiko Kanou
lvisd****@gmail*****
2010年 10月 13日 (水) 02:13:57 JST
加納です。 ご回答ありがとうございました。 既に検討済みでしたか。 OpenOfficeを利用する方法は思いつきませんでした。 Apache POIと一緒に勉強させていただきます。 2010年10月12日9:02 Shinsuke Sugaya <shins****@yahoo*****>: > 菅谷です。 > > いえいえ、RTF形式について勉強になりました。 > > S2RobotでOpenOfficeを利用したテキスト抽出を > 考えていまして、一太郎とかはそれ経由でやれば > よいかと思っていました。考えてみたものの、今のところ、 > ROBOT-7の作業をする予定はない感じです(おそらく、 > これを求められるような案件が発生しない限り、 > 私はやらないと思います…)。 > > https://www.seasar.org/issues/browse/ROBOT-7 > > shinsuke > > > 2010年10月12日1:02 Kunihiko Kanou <lvisd****@gmail*****>: >> 加納です。 >> >> ご対応ありがとうございます。 >> >> はてなダイアリーを拝見しました。 >> 大変な手間だったようで。。 >> 申し訳ありません。 >> >> とても言い出しにくいのですが、質問があります。 >> (実は、こちらが本題だったのですが、、先に言えば良かったです。) >> >> 【質問事項】 >> S2Robot(または、Apache Tika)に >> 一太郎形式(*.jtd,*jbw...etc)を対応させることは可能でしょうか。 >> >> 【経緯】 >> 上記対処を行うことは(少なくともすぐには)難しいだろうと考え、 >> 一太郎形式(*.jtd)をFessのファイルクロールに対応させるため、 >> word形式で事前に保存しておくことで回避していました。 >> >> ①一太郎のWord変換機能を使用した場合 >> >> ・「Word 97-2003 & 6.0/95 -RTF (*.doc)」で保存される。 >> ・カレントシートのみが変換対象となるため、win32oleの操作で、 >> 存在するシート数分、処理を行う必要がある。 >> >> ※「jt.pl(namazuのテキストフィルタ)」の処理イメージ >> >> http://www10.plala.or.jp/miyazawa/namazu/jtdidx.html >> >> ②MS-Wordの一太郎変換機能を使用した場合 >> >> ・「Microsoft Word 97-2003 文書」で保存することができる。 >> ・Wordにはシートの概念が無いため、カレントシートのみが変換対象となる。 >> (複数シートがある場合は、変換不可の模様。) >> >> 上記実装を当初、vbscriptからwin32oleを操作して頑張っていました。 >> (現在は、別の対処を行っています。 >> 別メールで、機能リクエストをさせていただきます。) >> >> 以上、よろしくお願い致します >> >> 2010年10月10日10:47 Shinsuke Sugaya <shins****@yahoo*****>: >>> 菅谷です。 >>> >>> だいぶ時間が経過してしまいましたが、Apache Tikaに >>> 対してパッチを送りましたので、それが適用されれば >>> Fess 4.0 では最新のTikaを利用することで本件の対応と >>> したいと思います(取り込まれなければ独自に修正します)。 >>> ですので、Fess 4.0 では修正されている予定です。 >>> よろしくお願いいたします。 >>> >>> shinsuke >>> >>> >>> 2010年8月10日10:16 Shinsuke Sugaya <shins****@yahoo*****>: >>>> 菅谷です。 >>>> >>>> 情報をありがとうございます。 >>>> Shift_JIS で扱われているためと思われます。 >>>> 対策を検討したいと思います。 >>>> >>>> shinsuke >>>> >>>> >>>> 2010年8月9日23:30 <lvisd****@gmail*****>: >>>>> お世話になります。 >>>>> 加納です。 >>>>> >>>>> rtfドキュメントに対して、 >>>>> ファイルシステムクロールしたところ、 >>>>> "digest"が文字化けするようです。 >>>>> >>>>> 【solr admin検索結果】 >>>>> >>>>> 「Microsoft Word 97-2003 文書」 >>>>> <str name="cache">test TEST テスト てすと</str> >>>>> <str name="digest">...test TEST テスト てすと</str> >>>>> <str name="mimetype">application/msword</str> >>>>> <str name="site">c:\docs\rtf\test.doc</str> >>>>> >>>>> ⇒OK >>>>> >>>>> 「Word 97-2003 & 6.0/95 -RTF (*.doc)」 >>>>> <str name="cache">test TEST ƒ e ƒ X ƒ g ‚ Ä ‚ · ‚ Æ</str> >>>>> <str name="digest">...test TEST ƒ e ƒ X ƒ g ‚ Ä ‚ · ‚ Æ</str> >>>>> <str name="mimetype">application/msword</str> >>>>> <str name="site">c:\docs\rtf\test_rtf.doc</str> >>>>> >>>>> ⇒NG >>>>> >>>>> 「リッチ テキスト形式 (RTF) 文書」 >>>>> <str name="cache">test TEST ƒ e ƒ X ƒ g ‚ Ä ‚ · ‚ Æ</str> >>>>> <str name="digest">...test TEST ƒ e ƒ X ƒ g ‚ Ä ‚ · ‚ Æ</str> >>>>> <str name="mimetype">application/rtf</str> >>>>> <str name="site">c:\docs\rtf\test.rtf</str> >>>>> >>>>> ⇒NG >>>>> >>>>> 【利用環境】 >>>>> OS:WindowsXP-SP3 >>>>> Java:1.6.0_20 >>>>> fess:3.1.1/3.1.3(SNAPSHOT) >>>>> MS-WORD:2002/2003 >>>>> >>>>> 以下のサイトで紹介されているように、 >>>>> Wordから出力されるRTFの文字列が、 >>>>> Unicode化されていないのが原因でしょうか? >>>>> >>>>> 【参考】 >>>>> <http://a-gamyl.hp.infoseek.co.jp/Java/RTFio/RTFio_java.html> >>>>> >>>>> 以上、よろしくお願い致します。 >>>>> _______________________________________________ >>>>> Fess-user mailing list >>>>> Fess-****@lists***** >>>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>> >>>>> >>>> >>> _______________________________________________ >>> Fess-user mailing list >>> Fess-****@lists***** >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> _______________________________________________ >> Fess-user mailing list >> Fess-****@lists***** >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > _______________________________________________ > Fess-user mailing list > Fess-****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/fess-user >