[fess-user 355] Re: ファイルシステムクロール時のrtfドキュメントの文字化けについて

Back to archive index

Kunihiko Kanou lvisd****@gmail*****
2010年 10月 13日 (水) 02:13:57 JST


加納です。

ご回答ありがとうございました。
既に検討済みでしたか。

OpenOfficeを利用する方法は思いつきませんでした。

Apache POIと一緒に勉強させていただきます。

2010年10月12日9:02 Shinsuke Sugaya <shins****@yahoo*****>:
> 菅谷です。
>
> いえいえ、RTF形式について勉強になりました。
>
> S2RobotでOpenOfficeを利用したテキスト抽出を
> 考えていまして、一太郎とかはそれ経由でやれば
> よいかと思っていました。考えてみたものの、今のところ、
> ROBOT-7の作業をする予定はない感じです(おそらく、
> これを求められるような案件が発生しない限り、
> 私はやらないと思います…)。
>
> https://www.seasar.org/issues/browse/ROBOT-7
>
> shinsuke
>
>
> 2010年10月12日1:02 Kunihiko Kanou <lvisd****@gmail*****>:
>> 加納です。
>>
>> ご対応ありがとうございます。
>>
>> はてなダイアリーを拝見しました。
>> 大変な手間だったようで。。
>> 申し訳ありません。
>>
>> とても言い出しにくいのですが、質問があります。
>> (実は、こちらが本題だったのですが、、先に言えば良かったです。)
>>
>> 【質問事項】
>> S2Robot(または、Apache Tika)に
>> 一太郎形式(*.jtd,*jbw...etc)を対応させることは可能でしょうか。
>>
>> 【経緯】
>> 上記対処を行うことは(少なくともすぐには)難しいだろうと考え、
>> 一太郎形式(*.jtd)をFessのファイルクロールに対応させるため、
>> word形式で事前に保存しておくことで回避していました。
>>
>> ①一太郎のWord変換機能を使用した場合
>>
>> ・「Word 97-2003 & 6.0/95 -RTF (*.doc)」で保存される。
>> ・カレントシートのみが変換対象となるため、win32oleの操作で、
>> 存在するシート数分、処理を行う必要がある。
>>
>> ※「jt.pl(namazuのテキストフィルタ)」の処理イメージ
>>
>> http://www10.plala.or.jp/miyazawa/namazu/jtdidx.html
>>
>> ②MS-Wordの一太郎変換機能を使用した場合
>>
>> ・「Microsoft Word 97-2003 文書」で保存することができる。
>> ・Wordにはシートの概念が無いため、カレントシートのみが変換対象となる。
>> (複数シートがある場合は、変換不可の模様。)
>>
>> 上記実装を当初、vbscriptからwin32oleを操作して頑張っていました。
>> (現在は、別の対処を行っています。
>> 別メールで、機能リクエストをさせていただきます。)
>>
>> 以上、よろしくお願い致します
>>
>> 2010年10月10日10:47 Shinsuke Sugaya <shins****@yahoo*****>:
>>> 菅谷です。
>>>
>>> だいぶ時間が経過してしまいましたが、Apache Tikaに
>>> 対してパッチを送りましたので、それが適用されれば
>>> Fess 4.0 では最新のTikaを利用することで本件の対応と
>>> したいと思います(取り込まれなければ独自に修正します)。
>>> ですので、Fess 4.0 では修正されている予定です。
>>> よろしくお願いいたします。
>>>
>>> shinsuke
>>>
>>>
>>> 2010年8月10日10:16 Shinsuke Sugaya <shins****@yahoo*****>:
>>>> 菅谷です。
>>>>
>>>> 情報をありがとうございます。
>>>> Shift_JIS で扱われているためと思われます。
>>>> 対策を検討したいと思います。
>>>>
>>>> shinsuke
>>>>
>>>>
>>>> 2010年8月9日23:30  <lvisd****@gmail*****>:
>>>>> お世話になります。
>>>>> 加納です。
>>>>>
>>>>> rtfドキュメントに対して、
>>>>> ファイルシステムクロールしたところ、
>>>>> "digest"が文字化けするようです。
>>>>>
>>>>> 【solr admin検索結果】
>>>>>
>>>>> 「Microsoft Word 97-2003 文書」
>>>>> <str name="cache">test TEST テスト てすと</str>
>>>>> <str name="digest">...test TEST テスト てすと</str>
>>>>> <str name="mimetype">application/msword</str>
>>>>> <str name="site">c:\docs\rtf\test.doc</str>
>>>>>
>>>>> ⇒OK
>>>>>
>>>>> 「Word 97-2003 & 6.0/95 -RTF (*.doc)」
>>>>> <str name="cache">test TEST ƒ e ƒ X ƒ g ‚ Ä ‚ · ‚ Æ</str>
>>>>> <str name="digest">...test TEST ƒ e ƒ X ƒ g ‚ Ä ‚ · ‚ Æ</str>
>>>>> <str name="mimetype">application/msword</str>
>>>>> <str name="site">c:\docs\rtf\test_rtf.doc</str>
>>>>>
>>>>> ⇒NG
>>>>>
>>>>> 「リッチ テキスト形式 (RTF) 文書」
>>>>> <str name="cache">test TEST ƒ e ƒ X ƒ g ‚ Ä ‚ · ‚ Æ</str>
>>>>> <str name="digest">...test TEST ƒ e ƒ X ƒ g ‚ Ä ‚ · ‚ Æ</str>
>>>>> <str name="mimetype">application/rtf</str>
>>>>> <str name="site">c:\docs\rtf\test.rtf</str>
>>>>>
>>>>> ⇒NG
>>>>>
>>>>> 【利用環境】
>>>>> OS:WindowsXP-SP3
>>>>> Java:1.6.0_20
>>>>> fess:3.1.1/3.1.3(SNAPSHOT)
>>>>> MS-WORD:2002/2003
>>>>>
>>>>> 以下のサイトで紹介されているように、
>>>>> Wordから出力されるRTFの文字列が、
>>>>> Unicode化されていないのが原因でしょうか?
>>>>>
>>>>> 【参考】
>>>>> <http://a-gamyl.hp.infoseek.co.jp/Java/RTFio/RTFio_java.html>
>>>>>
>>>>> 以上、よろしくお願い致します。
>>>>> _______________________________________________
>>>>> Fess-user mailing list
>>>>> Fess-****@lists*****
>>>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>>>>
>>>>>
>>>>
>>> _______________________________________________
>>> Fess-user mailing list
>>> Fess-****@lists*****
>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>>
>> _______________________________________________
>> Fess-user mailing list
>> Fess-****@lists*****
>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>



Fess-user メーリングリストの案内
Back to archive index