From shinsuke @ yahoo.co.jp Thu Jul 1 08:43:46 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Thu, 1 Jul 2010 08:43:46 +0900 Subject: [fess-user 254] Re: =?iso-2022-jp?b?GyRCJVUlISUkJWslNyU5JUYlYCUvJW0hPCVrJEcbKEI=?= =?iso-2022-jp?b?GyRCJE5ANTUsST04PRsoQg==?= In-Reply-To: References: Message-ID: 菅谷です。 ご指摘いただきありがとうございます。 ちらっと確認した感じですと、おっしゃる通りかと 思いますので、今週中に修正したいと思います。 shinsuke 2010年6月30日10:26 Takahiro Kikumoto : > はじめまして、きくもとと申します。 > > fess 3.1.1 を利用しています。 > ファイルシステムクロールの設定で、「クロール対象から除外するパス」で > 拡張子 txt を除外するために > > .*\.txt$ > > を指定したのですが、除外されませんでした。 > 一方で > > .*txt$ > > を指定すると除外してくれます。 > FileSystemIndexHelper.java 見ると、「クロール対象とするパス」「クロール対象から除外するパス」は > SystemHelper#encodeUrlFilter でエンコードされているかと思います(#20713対応)。 > そうすると、org.seasar.robot.util.CharUtil#isUrlChar でバックスラッシュは false を返すため、 > バックスラッシュはエンコードされてしまうのではないかと思います。 > そうすると、正規表現 '\.' が S2Robot に渡されるときには意図したものとはことなった表現となり、 > 期待通りに動作しなかったのではないかと考えました。 > > ご確認いただき、対応をご検討いただければ幸です。 > よろしくお願いいたします。 > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From takakiku810 @ gmail.com Thu Jul 1 10:31:35 2010 From: takakiku810 @ gmail.com (Takahiro Kikumoto) Date: Thu, 1 Jul 2010 10:31:35 +0900 Subject: [fess-user 255] Re: =?iso-2022-jp?b?GyRCJVUlISUkJWslNyU5JUYlYCUvJW0hPCVrJEcbKEI=?= =?iso-2022-jp?b?GyRCJE5ANTUsST04PRsoQg==?= In-Reply-To: References: Message-ID: きくもとです。 ご確認いただきありがとうございます。 よろしくお願いします。 2010年7月1日8:43 Shinsuke Sugaya : > 菅谷です。 > > ご指摘いただきありがとうございます。 > ちらっと確認した感じですと、おっしゃる通りかと > 思いますので、今週中に修正したいと思います。 > > shinsuke > > 2010年6月30日10:26 Takahiro Kikumoto : >> はじめまして、きくもとと申します。 >> >> fess 3.1.1 を利用しています。 >> ファイルシステムクロールの設定で、「クロール対象から除外するパス」で >> 拡張子 txt を除外するために >> >> .*\.txt$ >> >> を指定したのですが、除外されませんでした。 >> 一方で >> >> .*txt$ >> >> を指定すると除外してくれます。 >> FileSystemIndexHelper.java 見ると、「クロール対象とするパス」「クロール対象から除外するパス」は >> SystemHelper#encodeUrlFilter でエンコードされているかと思います(#20713対応)。 >> そうすると、org.seasar.robot.util.CharUtil#isUrlChar でバックスラッシュは false を返すため、 >> バックスラッシュはエンコードされてしまうのではないかと思います。 >> そうすると、正規表現 '\.' が S2Robot に渡されるときには意図したものとはことなった表現となり、 >> 期待通りに動作しなかったのではないかと考えました。 >> >> ご確認いただき、対応をご検討いただければ幸です。 >> よろしくお願いいたします。 >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From shinsuke @ yahoo.co.jp Fri Jul 2 05:55:37 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 2 Jul 2010 05:55:37 +0900 Subject: [fess-user 256] Re: =?iso-2022-jp?b?GyRCJVUlISUkJWslNyU5JUYlYCUvJW0hPCVrJEcbKEI=?= =?iso-2022-jp?b?GyRCJE5ANTUsST04PRsoQg==?= In-Reply-To: References: Message-ID: 菅谷です。 修正しました。 近いうちに 3.1.2 をリリースしようと思っているので そこに入る予定です。 shinsuke 2010年7月1日10:31 Takahiro Kikumoto : > きくもとです。 > > ご確認いただきありがとうございます。 > よろしくお願いします。 > > 2010年7月1日8:43 Shinsuke Sugaya : >> 菅谷です。 >> >> ご指摘いただきありがとうございます。 >> ちらっと確認した感じですと、おっしゃる通りかと >> 思いますので、今週中に修正したいと思います。 >> >> shinsuke >> >> 2010年6月30日10:26 Takahiro Kikumoto : >>> はじめまして、きくもとと申します。 >>> >>> fess 3.1.1 を利用しています。 >>> ファイルシステムクロールの設定で、「クロール対象から除外するパス」で >>> 拡張子 txt を除外するために >>> >>> .*\.txt$ >>> >>> を指定したのですが、除外されませんでした。 >>> 一方で >>> >>> .*txt$ >>> >>> を指定すると除外してくれます。 >>> FileSystemIndexHelper.java 見ると、「クロール対象とするパス」「クロール対象から除外するパス」は >>> SystemHelper#encodeUrlFilter でエンコードされているかと思います(#20713対応)。 >>> そうすると、org.seasar.robot.util.CharUtil#isUrlChar でバックスラッシュは false を返すため、 >>> バックスラッシュはエンコードされてしまうのではないかと思います。 >>> そうすると、正規表現 '\.' が S2Robot に渡されるときには意図したものとはことなった表現となり、 >>> 期待通りに動作しなかったのではないかと考えました。 >>> >>> ご確認いただき、対応をご検討いただければ幸です。 >>> よろしくお願いいたします。 >>> >>> _______________________________________________ >>> Fess-user mailing list >>> Fess-user @ lists.sourceforge.jp >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From takakiku810 @ gmail.com Fri Jul 2 08:39:16 2010 From: takakiku810 @ gmail.com (Takahiro Kikumoto) Date: Fri, 2 Jul 2010 08:39:16 +0900 Subject: [fess-user 257] Re: =?iso-2022-jp?b?GyRCJVUlISUkJWslNyU5JUYlYCUvJW0hPCVrJEcbKEI=?= =?iso-2022-jp?b?GyRCJE5ANTUsST04PRsoQg==?= In-Reply-To: References: Message-ID: きくもとです。 早速のご対応ありがとうございました。 2010年7月2日5:55 Shinsuke Sugaya : > 菅谷です。 > > 修正しました。 > 近いうちに 3.1.2 をリリースしようと思っているので > そこに入る予定です。 > > shinsuke > > > 2010年7月1日10:31 Takahiro Kikumoto : >> きくもとです。 >> >> ご確認いただきありがとうございます。 >> よろしくお願いします。 >> >> 2010年7月1日8:43 Shinsuke Sugaya : >>> 菅谷です。 >>> >>> ご指摘いただきありがとうございます。 >>> ちらっと確認した感じですと、おっしゃる通りかと >>> 思いますので、今週中に修正したいと思います。 >>> >>> shinsuke >>> >>> 2010年6月30日10:26 Takahiro Kikumoto : >>>> はじめまして、きくもとと申します。 >>>> >>>> fess 3.1.1 を利用しています。 >>>> ファイルシステムクロールの設定で、「クロール対象から除外するパス」で >>>> 拡張子 txt を除外するために >>>> >>>> .*\.txt$ >>>> >>>> を指定したのですが、除外されませんでした。 >>>> 一方で >>>> >>>> .*txt$ >>>> >>>> を指定すると除外してくれます。 >>>> FileSystemIndexHelper.java 見ると、「クロール対象とするパス」「クロール対象から除外するパス」は >>>> SystemHelper#encodeUrlFilter でエンコードされているかと思います(#20713対応)。 >>>> そうすると、org.seasar.robot.util.CharUtil#isUrlChar でバックスラッシュは false を返すため、 >>>> バックスラッシュはエンコードされてしまうのではないかと思います。 >>>> そうすると、正規表現 '\.' が S2Robot に渡されるときには意図したものとはことなった表現となり、 >>>> 期待通りに動作しなかったのではないかと考えました。 >>>> >>>> ご確認いただき、対応をご検討いただければ幸です。 >>>> よろしくお願いいたします。 >>>> >>>> _______________________________________________ >>>> Fess-user mailing list >>>> Fess-user @ lists.sourceforge.jp >>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> >>> >>> _______________________________________________ >>> Fess-user mailing list >>> Fess-user @ lists.sourceforge.jp >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Fri Jul 2 15:56:32 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Fri, 02 Jul 2010 15:56:32 +0900 Subject: [fess-user 258] Re: =?iso-2022-jp?b?GyRCJF4kPxsoQiBXaW5kb3dzIBskQiU1ITwlUyU5GyhC?= =?iso-2022-jp?b?GyRCNFhPIiRKJE4kRyQ5JCwbKEI=?= In-Reply-To: References: Message-ID: <201007020656.AA13097@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 本稼働しているサーバーでしか発生しないので、なかなか試す機会が 作れなかったのですが、ようやく本日やってみることができました。 ログを添付してますが、見ていただくことはできますか? 本日明け方の fess-server-3.1.2-SNAPSHOT.zip で再試したものです。 バージョンは先回ご連絡したとき (3.1.0 stable) と変わっています が状況変わらずでした。 当方環境で 2.x.x 系で問題なく動いてて 3.x.x 系の方だけで発生す る「何か」があるようです。 >菅谷です。 > >こちらではその現象が再現できなかったので、 >現状では何とも言えませんが、webapps/fess/WEB-INF/ >classes/log4j.xml において、 >として、fess.out で開始したときのログ内容を確認する >しか、ないかと思います。よろしくお願いいたします。 > >shinsuke > >2010年6月4日18:46 Masayuki Shibata : >> 柴田@亀岡市です。 >> >> ちょっと不思議な状態になってしまいました。 >> >> Fess 3.1.0 正式版がリリースされていたので、localhost に入れて >> Windows サービスとして起動して動作確認しました。 >> >> 短時間しか見ていませんが、とりあえず正常に動作していたように >> 思えました。 >> >> それではということで、Fess 2.0.0 で暫定稼働させているサーバー >> をバージョンアップしようと、正常に動作している Fess 3.1.0 を >> サーバーに移しました。 >> >> そちらでも Windows サービスとして起動したのですが、クローラー >> プロセスの実行をかけたらかかりません。停止のままです。 >> >> 一瞬かかったように見えることもありますが、すぐ停止に戻ります。 >> #localhost ではできたのですが... >> >> また、startup.bat からの起動だと正常にクロールできます。 >> >> もちろん、その前に動かしていた Fess 2.0.0 も Windows サービス >> として正常に (work フォルダにファイルが溜まっていく件を除いて) >> クロールできます。 >> >> 以前同様の問題があって対処していただいてますし、localhost で >> の動作を見る限り、正常になっているように思います。 >> >> どう考えたらよいのか見当がつきません。 >> >> 何か サーバーと localhost で違いがあるようなのですが... >> >> とりあえず Fess 2.0.0 に戻せばよいのですが、原因究明しようと >> 思うともう実稼働しているサーバーを止めて 3.1.0 を入れることに >> なるので、ちょいと調査しにくい状況です。 >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >_______________________________________________ >Fess-user mailing list >Fess-user @ lists.sourceforge.jp >http://lists.sourceforge.jp/mailman/listinfo/fess-user > -------------- next part -------------- テキスト形式以外の添付ファイルを保管しました... ファイル名: fess.zip 型: application/x-zip-compressed サイズ: 37229 バイト 説明: 無し URL: http://lists.sourceforge.jp/mailman/archives/fess-user/attachments/20100702/a5e90e0f/attachment-0001.bin From shinsuke @ yahoo.co.jp Fri Jul 2 16:18:06 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 2 Jul 2010 16:18:06 +0900 Subject: [fess-user 259] Re: =?iso-2022-jp?b?GyRCJF4kPxsoQiBXaW5kb3dzIBskQiU1ITwlUyU5GyhC?= =?iso-2022-jp?b?GyRCNFhPIiRKJE4kRyQ5JCwbKEI=?= In-Reply-To: <201007020656.AA13097@ea8055.shimadzu.co.jp> References: <201007020656.AA13097@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 情報をありがとうございます。 Crawler が起動直後に終了しているので http://sourceforge.jp/projects/fess/lists/archive/user/2010-June/000247.html の件同様に環境変数の問題だったりは しないでしょうか? よろしくお願いいたします。 菅谷 2010年7月2日15:56 Masayuki Shibata : > 柴田@亀岡市です。 > > 本稼働しているサーバーでしか発生しないので、なかなか試す機会が > 作れなかったのですが、ようやく本日やってみることができました。 > > ログを添付してますが、見ていただくことはできますか? > > 本日明け方の fess-server-3.1.2-SNAPSHOT.zip で再試したものです。 > > バージョンは先回ご連絡したとき (3.1.0 stable) と変わっています > が状況変わらずでした。 > > 当方環境で 2.x.x 系で問題なく動いてて 3.x.x 系の方だけで発生す > る「何か」があるようです。 > >>菅谷です。 >> >>こちらではその現象が再現できなかったので、 >>現状では何とも言えませんが、webapps/fess/WEB-INF/ >>classes/log4j.xml において、 >>として、fess.out で開始したときのログ内容を確認する >>しか、ないかと思います。よろしくお願いいたします。 >> >>shinsuke >> >>2010年6月4日18:46 Masayuki Shibata : >>> 柴田@亀岡市です。 >>> >>> ちょっと不思議な状態になってしまいました。 >>> >>> Fess 3.1.0 正式版がリリースされていたので、localhost に入れて >>> Windows サービスとして起動して動作確認しました。 >>> >>> 短時間しか見ていませんが、とりあえず正常に動作していたように >>> 思えました。 >>> >>> それではということで、Fess 2.0.0 で暫定稼働させているサーバー >>> をバージョンアップしようと、正常に動作している Fess 3.1.0 を >>> サーバーに移しました。 >>> >>> そちらでも Windows サービスとして起動したのですが、クローラー >>> プロセスの実行をかけたらかかりません。停止のままです。 >>> >>> 一瞬かかったように見えることもありますが、すぐ停止に戻ります。 >>> #localhost ではできたのですが... >>> >>> また、startup.bat からの起動だと正常にクロールできます。 >>> >>> もちろん、その前に動かしていた Fess 2.0.0 も Windows サービス >>> として正常に (work フォルダにファイルが溜まっていく件を除いて) >>> クロールできます。 >>> >>> 以前同様の問題があって対処していただいてますし、localhost で >>> の動作を見る限り、正常になっているように思います。 >>> >>> どう考えたらよいのか見当がつきません。 >>> >>> 何か サーバーと localhost で違いがあるようなのですが... >>> >>> とりあえず Fess 2.0.0 に戻せばよいのですが、原因究明しようと >>> 思うともう実稼働しているサーバーを止めて 3.1.0 を入れることに >>> なるので、ちょいと調査しにくい状況です。 >>> >>> _______________________________________________ >>> Fess-user mailing list >>> Fess-user @ lists.sourceforge.jp >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >>_______________________________________________ >>Fess-user mailing list >>Fess-user @ lists.sourceforge.jp >>http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > From mshibata @ shimadzu.co.jp Fri Jul 2 17:57:30 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Fri, 02 Jul 2010 17:57:30 +0900 Subject: [fess-user 260] Re: =?iso-2022-jp?b?GyRCJF4kPxsoQiBXaW5kb3dzIBskQiU1ITwlUyU5GyhC?= =?iso-2022-jp?b?GyRCNFhPIiRKJE4kRyQ5JCwbKEI=?= In-Reply-To: References: Message-ID: <201007020857.AA13099@ea8055.shimadzu.co.jp> 柴田です。 初歩的なミスですみません。Path の方がありませんでした。 メールは拝見していたのですが Fess 2.x.x の Windows サービスは 問題なく動いておりましたので、関係ないものと思い込んでおりま した。 インデックス数をきざみ始めて 500 まで行きましたので、もう大丈 夫だと思います。 >菅谷です。 > >情報をありがとうございます。 >Crawler が起動直後に終了しているので >http://sourceforge.jp/projects/fess/lists/archive/user/2010-June/000247.html >の件同様に環境変数の問題だったりは >しないでしょうか? > >よろしくお願いいたします。 > >菅谷 > >2010年7月2日15:56 Masayuki Shibata : >> 柴田@亀岡市です。 >> >> 本稼働しているサーバーでしか発生しないので、なかなか試す機会が >> 作れなかったのですが、ようやく本日やってみることができました。 >> >> ログを添付してますが、見ていただくことはできますか? >> >> 本日明け方の fess-server-3.1.2-SNAPSHOT.zip で再試したものです。 >> >> バージョンは先回ご連絡したとき (3.1.0 stable) と変わっています >> が状況変わらずでした。 >> >> 当方環境で 2.x.x 系で問題なく動いてて 3.x.x 系の方だけで発生す >> る「何か」があるようです。 >> >>>菅谷です。 >>> >>>こちらではその現象が再現できなかったので、 >>>現状では何とも言えませんが、webapps/fess/WEB-INF/ >>>classes/log4j.xml において、 >>>として、fess.out で開始したときのログ内容を確認する >>>しか、ないかと思います。よろしくお願いいたします。 >>> >>>shinsuke >>> >>>2010年6月4日18:46 Masayuki Shibata : >>>> 柴田@亀岡市です。 >>>> >>>> ちょっと不思議な状態になってしまいました。 >>>> >>>> Fess 3.1.0 正式版がリリースされていたので、localhost に入れて >>>> Windows サービスとして起動して動作確認しました。 >>>> >>>> 短時間しか見ていませんが、とりあえず正常に動作していたように >>>> 思えました。 >>>> >>>> それではということで、Fess 2.0.0 で暫定稼働させているサーバー >>>> をバージョンアップしようと、正常に動作している Fess 3.1.0 を >>>> サーバーに移しました。 >>>> >>>> そちらでも Windows サービスとして起動したのですが、クローラー >>>> プロセスの実行をかけたらかかりません。停止のままです。 >>>> >>>> 一瞬かかったように見えることもありますが、すぐ停止に戻ります。 >>>> #localhost ではできたのですが... >>>> >>>> また、startup.bat からの起動だと正常にクロールできます。 >>>> >>>> もちろん、その前に動かしていた Fess 2.0.0 も Windows サービス >>>> として正常に (work フォルダにファイルが溜まっていく件を除いて) >>>> クロールできます。 >>>> >>>> 以前同様の問題があって対処していただいてますし、localhost で >>>> の動作を見る限り、正常になっているように思います。 >>>> >>>> どう考えたらよいのか見当がつきません。 >>>> >>>> 何か サーバーと localhost で違いがあるようなのですが... >>>> >>>> とりあえず Fess 2.0.0 に戻せばよいのですが、原因究明しようと >>>> 思うともう実稼働しているサーバーを止めて 3.1.0 を入れることに >>>> なるので、ちょいと調査しにくい状況です。 >>>> >>>> _______________________________________________ >>>> Fess-user mailing list >>>> Fess-user @ lists.sourceforge.jp >>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> >>> >>>_______________________________________________ >>>Fess-user mailing list >>>Fess-user @ lists.sourceforge.jp >>>http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> >> > >_______________________________________________ >Fess-user mailing list >Fess-user @ lists.sourceforge.jp >http://lists.sourceforge.jp/mailman/listinfo/fess-user > From shinsuke @ yahoo.co.jp Fri Jul 2 18:05:00 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 2 Jul 2010 18:05:00 +0900 Subject: [fess-user 261] Re: =?iso-2022-jp?b?GyRCJF4kPxsoQiBXaW5kb3dzIBskQiU1ITwlUyU5GyhC?= =?iso-2022-jp?b?GyRCNFhPIiRKJE4kRyQ5JCwbKEI=?= In-Reply-To: <201007020857.AA13099@ea8055.shimadzu.co.jp> References: <201007020857.AA13099@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 確認していただきありがとうございます。 Windowsのサービス登録でのハマリどころな気が しますので、ドキュメントで目立つようにしたいと 思います。 shinsuke 2010年7月2日17:57 Masayuki Shibata : > 柴田です。 > > 初歩的なミスですみません。Path の方がありませんでした。 > > メールは拝見していたのですが Fess 2.x.x の Windows サービスは > 問題なく動いておりましたので、関係ないものと思い込んでおりま > した。 > > インデックス数をきざみ始めて 500 まで行きましたので、もう大丈 > 夫だと思います。 > >>菅谷です。 >> >>情報をありがとうございます。 >>Crawler が起動直後に終了しているので >>http://sourceforge.jp/projects/fess/lists/archive/user/2010-June/000247.html >>の件同様に環境変数の問題だったりは >>しないでしょうか? >> >>よろしくお願いいたします。 >> >>菅谷 >> >>2010年7月2日15:56 Masayuki Shibata : >>> 柴田@亀岡市です。 >>> >>> 本稼働しているサーバーでしか発生しないので、なかなか試す機会が >>> 作れなかったのですが、ようやく本日やってみることができました。 >>> >>> ログを添付してますが、見ていただくことはできますか? >>> >>> 本日明け方の fess-server-3.1.2-SNAPSHOT.zip で再試したものです。 >>> >>> バージョンは先回ご連絡したとき (3.1.0 stable) と変わっています >>> が状況変わらずでした。 >>> >>> 当方環境で 2.x.x 系で問題なく動いてて 3.x.x 系の方だけで発生す >>> る「何か」があるようです。 >>> >>>>菅谷です。 >>>> >>>>こちらではその現象が再現できなかったので、 >>>>現状では何とも言えませんが、webapps/fess/WEB-INF/ >>>>classes/log4j.xml において、 >>>>として、fess.out で開始したときのログ内容を確認する >>>>しか、ないかと思います。よろしくお願いいたします。 >>>> >>>>shinsuke >>>> >>>>2010年6月4日18:46 Masayuki Shibata : >>>>> 柴田@亀岡市です。 >>>>> >>>>> ちょっと不思議な状態になってしまいました。 >>>>> >>>>> Fess 3.1.0 正式版がリリースされていたので、localhost に入れて >>>>> Windows サービスとして起動して動作確認しました。 >>>>> >>>>> 短時間しか見ていませんが、とりあえず正常に動作していたように >>>>> 思えました。 >>>>> >>>>> それではということで、Fess 2.0.0 で暫定稼働させているサーバー >>>>> をバージョンアップしようと、正常に動作している Fess 3.1.0 を >>>>> サーバーに移しました。 >>>>> >>>>> そちらでも Windows サービスとして起動したのですが、クローラー >>>>> プロセスの実行をかけたらかかりません。停止のままです。 >>>>> >>>>> 一瞬かかったように見えることもありますが、すぐ停止に戻ります。 >>>>> #localhost ではできたのですが... >>>>> >>>>> また、startup.bat からの起動だと正常にクロールできます。 >>>>> >>>>> もちろん、その前に動かしていた Fess 2.0.0 も Windows サービス >>>>> として正常に (work フォルダにファイルが溜まっていく件を除いて) >>>>> クロールできます。 >>>>> >>>>> 以前同様の問題があって対処していただいてますし、localhost で >>>>> の動作を見る限り、正常になっているように思います。 >>>>> >>>>> どう考えたらよいのか見当がつきません。 >>>>> >>>>> 何か サーバーと localhost で違いがあるようなのですが... >>>>> >>>>> とりあえず Fess 2.0.0 に戻せばよいのですが、原因究明しようと >>>>> 思うともう実稼働しているサーバーを止めて 3.1.0 を入れることに >>>>> なるので、ちょいと調査しにくい状況です。 >>>>> >>>>> _______________________________________________ >>>>> Fess-user mailing list >>>>> Fess-user @ lists.sourceforge.jp >>>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>> >>>> >>>>_______________________________________________ >>>>Fess-user mailing list >>>>Fess-user @ lists.sourceforge.jp >>>>http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> >>> >>> _______________________________________________ >>> Fess-user mailing list >>> Fess-user @ lists.sourceforge.jp >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >>> >> >>_______________________________________________ >>Fess-user mailing list >>Fess-user @ lists.sourceforge.jp >>http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From kf96614 @ gmail.com Wed Jul 7 11:03:05 2010 From: kf96614 @ gmail.com (kazuto fukuda) Date: Wed, 7 Jul 2010 11:03:05 +0900 Subject: [fess-user 262] =?iso-2022-jp?b?UERGGyRCJEc4ITp3GyhCIBskQiVSJUMlSCQ3JD8lWiE8GyhC?= =?iso-2022-jp?b?GyRCJTgkTkk9PCgbKEI=?= Message-ID: お世話になっております。福田です。 質問なのですが、 fessでPDFで検索 ヒットしたページを直接表示する事はできないでしょうか? 作成されたインデックスにヒットしたページの情報があれば、PDFのURLの最後に 「#page=2」のようなキーワードを追加する事により、直接そのページを表示できるようです。 どうなんでしょうか? From shinsuke @ yahoo.co.jp Wed Jul 7 22:28:55 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Wed, 7 Jul 2010 22:28:55 +0900 Subject: [fess-user 263] Re: =?iso-2022-jp?b?UERGGyRCJEc4ITp3GyhCIBskQiVSJUMlSCQ3JD8bKEI=?= =?iso-2022-jp?b?GyRCJVohPCU4JE5JPTwoGyhC?= In-Reply-To: References: Message-ID: 菅谷です。 面白いアイデアかと思うのですが、現状、PDF から テキストを抽出しているだけなので、いろいろと改修を しないと厳しいかと思います。ですので、すぐには 何とかするのは難しい状況です。すいません…。 shinsuke 2010年7月7日11:03 kazuto fukuda : > お世話になっております。福田です。 > > 質問なのですが、 > fessでPDFで検索 ヒットしたページを直接表示する事はできないでしょうか? > 作成されたインデックスにヒットしたページの情報があれば、PDFのURLの最後に > 「#page=2」のようなキーワードを追加する事により、直接そのページを表示できるようです。 > > どうなんでしょうか? > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From kf96614 @ gmail.com Thu Jul 8 15:12:27 2010 From: kf96614 @ gmail.com (kazuto fukuda) Date: Thu, 8 Jul 2010 15:12:27 +0900 Subject: [fess-user 264] Re: =?iso-2022-jp?b?UERGGyRCJEc4ITp3GyhCIBskQiVSJUMlSCQ3JD8bKEI=?= =?iso-2022-jp?b?GyRCJVohPCU4JE5JPTwoGyhC?= In-Reply-To: References: Message-ID: お世話になっております。福田です。 回答ありがとうございます。 これが出来るとかなり便利だったのですが、残念です。 できれば機能追加して頂きたいです。 よろしくお願いします。 2010年7月7日22:28 Shinsuke Sugaya : > 菅谷です。 > > 面白いアイデアかと思うのですが、現状、PDF から > テキストを抽出しているだけなので、いろいろと改修を > しないと厳しいかと思います。ですので、すぐには > 何とかするのは難しい状況です。すいません…。 > > shinsuke > > 2010年7月7日11:03 kazuto fukuda : >> お世話になっております。福田です。 >> >> 質問なのですが、 >> fessでPDFで検索 ヒットしたページを直接表示する事はできないでしょうか? >> 作成されたインデックスにヒットしたページの情報があれば、PDFのURLの最後に >> 「#page=2」のようなキーワードを追加する事により、直接そのページを表示できるようです。 >> >> どうなんでしょうか? >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From megumi @ fujimic.com Thu Jul 8 15:51:59 2010 From: megumi @ fujimic.com (megumi @ fujimic.com) Date: Thu, 08 Jul 2010 15:51:59 +0900 Subject: [fess-user 265] Re: =?iso-2022-jp?b?UERGGyRCJEc4ITp3GyhCIBskQiVSJUMlSCQ3JD8bKEI=?= =?iso-2022-jp?b?GyRCJVohPCU4JE5JPTwoGyhC?= In-Reply-To: References: Message-ID: <20100708065159.00003B11.0166@fujimic.com> 横から失礼します。恵と申します。 たとえば1件だけヒットした場合はそれでもいいかも知れませんが、 1つのPDFファイルの中で複数箇所ヒットした際にはどうしますか? (自分が探していたページと別のページに飛ばされたとしたら、 それは却ってユーザビリティに反する可能性も?) また、PDFでそのような動きが実現するならば、 ExcelやWordなどのファイルもそうならないと、 システム全体としての統一感に欠けるかと思います。 私は現状のままでも良いと思います。 #「いろいろ改修する」ことで実現できるのかどうか、私は分かりませんが(^^; (そもそも、ページ情報の取得は可能なのか?) ----- Original Message ----- > お世話になっております。福田です。 > 回答ありがとうございます。 > これが出来るとかなり便利だったのですが、残念です。 > できれば機能追加して頂きたいです。 > よろしくお願いします。 > > 2010年7月7日22:28 Shinsuke Sugaya : > > 菅谷です。 > > > > 面白いアイデアかと思うのですが、現状、PDF から > > テキストを抽出しているだけなので、いろいろと改修を > > しないと厳しいかと思います。ですので、すぐには > > 何とかするのは難しい状況です。すいません…。 > > > > shinsuke > > > > 2010年7月7日11:03 kazuto fukuda : > >> お世話になっております。福田です。 > >> > >> 質問なのですが、 > >> fessでPDFで検索 ヒットしたページを直接表示する事はできないでしょう か? > >> 作成されたインデックスにヒットしたページの情報があれば、PDFのURLの 最後に > >> 「#page=2」のようなキーワードを追加する事により、直接そのページを表 示できるようです。 > >> > >> どうなんでしょうか? > >> > >> _______________________________________________ > >> Fess-user mailing list > >> Fess-user @ lists.sourceforge.jp > >> http://lists.sourceforge.jp/mailman/listinfo/fess-user > >> > > > > _______________________________________________ > > Fess-user mailing list > > Fess-user @ lists.sourceforge.jp > > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From shinsuke @ yahoo.co.jp Thu Jul 8 16:15:30 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Thu, 8 Jul 2010 16:15:30 +0900 Subject: [fess-user 266] Re: =?iso-2022-jp?b?UERGGyRCJEc4ITp3GyhCIBskQiVSJUMlSCQ3JD8bKEI=?= =?iso-2022-jp?b?GyRCJVohPCU4JE5JPTwoGyhC?= In-Reply-To: <20100708065159.00003B11.0166@fujimic.com> References: <20100708065159.00003B11.0166@fujimic.com> Message-ID: 菅谷です。 コメントをありがとうございます。 > 1つのPDFファイルの中で複数箇所ヒットした際にはどうしますか? 始めの箇所にするしかないかなとか、思ったり しました(内部ロジック的なところが気になり、 そこはじっくり考えてないですが…)。 > ExcelやWordなどのファイルもそうならないと、 そうですよね。これはちょっと気になっていました。 ページやシートに飛べるのか確認はしていないですが…。 > (そもそも、ページ情報の取得は可能なのか?) これもなかなか手ごわそうな気がしています。 現状、Tika で一括で文字列をとってきているだけなので そこを調査・対応も辛そうなので、今のところ そこに手を出すモチベーションがない感じです。 shinsuke 2010年7月8日15:51 : > 横から失礼します。恵と申します。 > > たとえば1件だけヒットした場合はそれでもいいかも知れませんが、 > 1つのPDFファイルの中で複数箇所ヒットした際にはどうしますか? > (自分が探していたページと別のページに飛ばされたとしたら、 > それは却ってユーザビリティに反する可能性も?) > > また、PDFでそのような動きが実現するならば、 > ExcelやWordなどのファイルもそうならないと、 > システム全体としての統一感に欠けるかと思います。 > > 私は現状のままでも良いと思います。 > > #「いろいろ改修する」ことで実現できるのかどうか、私は分かりませんが(^^; > (そもそも、ページ情報の取得は可能なのか?) > > ----- Original Message ----- >> お世話になっております。福田です。 >> 回答ありがとうございます。 >> これが出来るとかなり便利だったのですが、残念です。 >> できれば機能追加して頂きたいです。 >> よろしくお願いします。 >> >> 2010年7月7日22:28 Shinsuke Sugaya : >> > 菅谷です。 >> > >> > 面白いアイデアかと思うのですが、現状、PDF から >> > テキストを抽出しているだけなので、いろいろと改修を >> > しないと厳しいかと思います。ですので、すぐには >> > 何とかするのは難しい状況です。すいません…。 >> > >> > shinsuke >> > >> > 2010年7月7日11:03 kazuto fukuda : >> >> お世話になっております。福田です。 >> >> >> >> 質問なのですが、 >> >> fessでPDFで検索 ヒットしたページを直接表示する事はできないでしょう > か? >> >> 作成されたインデックスにヒットしたページの情報があれば、PDFのURLの > 最後に >> >> 「#page=2」のようなキーワードを追加する事により、直接そのページを表 > 示できるようです。 >> >> >> >> どうなんでしょうか? >> >> >> >> _______________________________________________ >> >> Fess-user mailing list >> >> Fess-user @ lists.sourceforge.jp >> >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> >> >> > >> > _______________________________________________ >> > Fess-user mailing list >> > Fess-user @ lists.sourceforge.jp >> > http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Thu Jul 8 16:56:51 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Thu, 08 Jul 2010 16:56:51 +0900 Subject: [fess-user 267] Re: =?iso-2022-jp?b?UERGGyRCJEc4ITp3GyhCIBskQiVSJUMlSCQ3JD8bKEI=?= =?iso-2022-jp?b?GyRCJVohPCU4JE5JPTwoGyhC?= In-Reply-To: References: Message-ID: <201007080756.AA13130@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 >ページやシートに飛べるのか確認はしていないですが…。 PDF で特定のページを外部から呼び出せるのは、公式にサポート された機能ではありません。 いつ無くなっても文句は言えないと Adobe さんから釘を刺され た状態で使うものです。 #知る人ぞ知る機能ですが、ある意味有名... >菅谷です。 > >コメントをありがとうございます。 > >> 1つのPDFファイルの中で複数箇所ヒットした際にはどうしますか? > >始めの箇所にするしかないかなとか、思ったり >しました(内部ロジック的なところが気になり、 >そこはじっくり考えてないですが…)。 > >> ExcelやWordなどのファイルもそうならないと、 > >そうですよね。これはちょっと気になっていました。 >ページやシートに飛べるのか確認はしていないですが…。 > >> (そもそも、ページ情報の取得は可能なのか?) > >これもなかなか手ごわそうな気がしています。 >現状、Tika で一括で文字列をとってきているだけなので >そこを調査・対応も辛そうなので、今のところ >そこに手を出すモチベーションがない感じです。 > >shinsuke > > >2010年7月8日15:51 : >> 横から失礼します。恵と申します。 >> >> たとえば1件だけヒットした場合はそれでもいいかも知れませんが、 >> 1つのPDFファイルの中で複数箇所ヒットした際にはどうしますか? >> (自分が探していたページと別のページに飛ばされたとしたら、 >> それは却ってユーザビリティに反する可能性も?) >> >> また、PDFでそのような動きが実現するならば、 >> ExcelやWordなどのファイルもそうならないと、 >> システム全体としての統一感に欠けるかと思います。 >> >> 私は現状のままでも良いと思います。 >> >> #「いろいろ改修する」ことで実現できるのかどうか、私は分かりませんが(^^; >> (そもそも、ページ情報の取得は可能なのか?) >> >> ----- Original Message ----- >>> お世話になっております。福田です。 >>> 回答ありがとうございます。 >>> これが出来るとかなり便利だったのですが、残念です。 >>> できれば機能追加して頂きたいです。 >>> よろしくお願いします。 >>> >>> 2010年7月7日22:28 Shinsuke Sugaya : >>> > 菅谷です。 >>> > >>> > 面白いアイデアかと思うのですが、現状、PDF から >>> > テキストを抽出しているだけなので、いろいろと改修を >>> > しないと厳しいかと思います。ですので、すぐには >>> > 何とかするのは難しい状況です。すいません…。 >>> > >>> > shinsuke >>> > >>> > 2010年7月7日11:03 kazuto fukuda : >>> >> お世話になっております。福田です。 >>> >> >>> >> 質問なのですが、 >>> >> fessでPDFで検索 ヒットしたページを直接表示する事はできないでしょう >> か? >>> >> 作成されたインデックスにヒットしたページの情報があれば、PDFのURLの >> 最後に >>> >> 「#page=2」のようなキーワードを追加する事により、直接そのページを表 >> 示できるようです。 >>> >> >>> >> どうなんでしょうか? >>> >> >>> >> _______________________________________________ >>> >> Fess-user mailing list >>> >> Fess-user @ lists.sourceforge.jp >>> >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >>> > >>> > _______________________________________________ >>> > Fess-user mailing list >>> > Fess-user @ lists.sourceforge.jp >>> > http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> > >>> >>> _______________________________________________ >>> Fess-user mailing list >>> Fess-user @ lists.sourceforge.jp >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >_______________________________________________ >Fess-user mailing list >Fess-user @ lists.sourceforge.jp >http://lists.sourceforge.jp/mailman/listinfo/fess-user > From shinsuke @ yahoo.co.jp Fri Jul 9 09:11:21 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 9 Jul 2010 09:11:21 +0900 Subject: [fess-user 268] =?iso-2022-jp?b?RmVzcyAzLjEuMiAbJEIlaiVqITwlORsoQg==?= Message-ID: 菅谷です。 Fess 3.1.2 をリリースしました。 バグ修正をしたリリースになります。 修正したものは以下になります。 http://sourceforge.jp/projects/fess/ticket/?milestone=768&status=2&milestone_mode=eq Fess 3.1.2 から Apple の App Store で公開している Fess の iPhone アプリからの接続が可能になります。 (3.1.1 まで JSON 応答がバグっていました…) Fess の結果を表示するリファレンス実装的な位置づけで さくっと作ったものですので、問題がありましたら、 (星1つなどにせず(^^;) お知らせいただければと思います。 ソースコードなどは SF.jp の SVN にあります。 http://itunes.apple.com/us/app/fess/id379788332?mt=8 よろしくお願いいたします。 shinsuke From kf96614 @ gmail.com Fri Jul 9 09:24:43 2010 From: kf96614 @ gmail.com (kazuto fukuda) Date: Fri, 9 Jul 2010 09:24:43 +0900 Subject: [fess-user 269] Re: =?iso-2022-jp?b?UERGGyRCJEc4ITp3GyhCIBskQiVSJUMlSCQ3JD8bKEI=?= =?iso-2022-jp?b?GyRCJVohPCU4JE5JPTwoGyhC?= In-Reply-To: <201007080756.AA13130@ea8055.shimadzu.co.jp> References: <201007080756.AA13130@ea8055.shimadzu.co.jp> Message-ID: お世話になっております。福田です。 特定ページに飛ぶURLの話は以下のページにあります。 http://kb2.adobe.com/jp/cps/226/226119.html 非公式って事でもなさそうですが... 実は、ページ数の多いマニュアル等の複数のPDFを全文検索化しようと 考えていて、その時に、ヒットしたファイルの表示だけでなくその最初 のページでも表示されたらかなり利便性が高いのではと思いました。 というか、Acrobatが起動してPDFが表示された後、もう一度検索文字 を入力するのはちょっと面倒だなと思った訳です。 実際、「検索 ヒットしたページを直接表示できます」を売り文句にしている 全文検索の製品もあるようです。 fessではどのような方法でPDFを検索しているのかわかりませんが、 そのような製品があるという事は、そんなに難しくない事なのかなと 思い質問させていただきました。 2010年7月8日16:56 Masayuki Shibata : > 柴田@亀岡市です。 > >>ページやシートに飛べるのか確認はしていないですが…。 > > PDF で特定のページを外部から呼び出せるのは、公式にサポート > された機能ではありません。 > > いつ無くなっても文句は言えないと Adobe さんから釘を刺され > た状態で使うものです。 > #知る人ぞ知る機能ですが、ある意味有名... > >>菅谷です。 >> >>コメントをありがとうございます。 >> >>> 1つのPDFファイルの中で複数箇所ヒットした際にはどうしますか? >> >>始めの箇所にするしかないかなとか、思ったり >>しました(内部ロジック的なところが気になり、 >>そこはじっくり考えてないですが…)。 >> >>> ExcelやWordなどのファイルもそうならないと、 >> >>そうですよね。これはちょっと気になっていました。 >>ページやシートに飛べるのか確認はしていないですが…。 >> >>> (そもそも、ページ情報の取得は可能なのか?) >> >>これもなかなか手ごわそうな気がしています。 >>現状、Tika で一括で文字列をとってきているだけなので >>そこを調査・対応も辛そうなので、今のところ >>そこに手を出すモチベーションがない感じです。 >> >>shinsuke >> >> >>2010年7月8日15:51 : >>> 横から失礼します。恵と申します。 >>> >>> たとえば1件だけヒットした場合はそれでもいいかも知れませんが、 >>> 1つのPDFファイルの中で複数箇所ヒットした際にはどうしますか? >>> (自分が探していたページと別のページに飛ばされたとしたら、 >>> それは却ってユーザビリティに反する可能性も?) >>> >>> また、PDFでそのような動きが実現するならば、 >>> ExcelやWordなどのファイルもそうならないと、 >>> システム全体としての統一感に欠けるかと思います。 >>> >>> 私は現状のままでも良いと思います。 >>> >>> #「いろいろ改修する」ことで実現できるのかどうか、私は分かりませんが(^^; >>> (そもそも、ページ情報の取得は可能なのか?) >>> >>> ----- Original Message ----- >>>> お世話になっております。福田です。 >>>> 回答ありがとうございます。 >>>> これが出来るとかなり便利だったのですが、残念です。 >>>> できれば機能追加して頂きたいです。 >>>> よろしくお願いします。 >>>> >>>> 2010年7月7日22:28 Shinsuke Sugaya : >>>> > 菅谷です。 >>>> > >>>> > 面白いアイデアかと思うのですが、現状、PDF から >>>> > テキストを抽出しているだけなので、いろいろと改修を >>>> > しないと厳しいかと思います。ですので、すぐには >>>> > 何とかするのは難しい状況です。すいません…。 >>>> > >>>> > shinsuke >>>> > >>>> > 2010年7月7日11:03 kazuto fukuda : >>>> >> お世話になっております。福田です。 >>>> >> >>>> >> 質問なのですが、 >>>> >> fessでPDFで検索 ヒットしたページを直接表示する事はできないでしょう >>> か? >>>> >> 作成されたインデックスにヒットしたページの情報があれば、PDFのURLの >>> 最後に >>>> >> 「#page=2」のようなキーワードを追加する事により、直接そのページを表 >>> 示できるようです。 >>>> >> >>>> >> どうなんでしょうか? >>>> >> >>>> >> _______________________________________________ >>>> >> Fess-user mailing list >>>> >> Fess-user @ lists.sourceforge.jp >>>> >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> >> >>>> > >>>> > _______________________________________________ >>>> > Fess-user mailing list >>>> > Fess-user @ lists.sourceforge.jp >>>> > http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> > >>>> >>>> _______________________________________________ >>>> Fess-user mailing list >>>> Fess-user @ lists.sourceforge.jp >>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> >>> >>> _______________________________________________ >>> Fess-user mailing list >>> Fess-user @ lists.sourceforge.jp >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >>_______________________________________________ >>Fess-user mailing list >>Fess-user @ lists.sourceforge.jp >>http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From kf96614 @ gmail.com Fri Jul 9 09:42:21 2010 From: kf96614 @ gmail.com (kazuto fukuda) Date: Fri, 9 Jul 2010 09:42:21 +0900 Subject: [fess-user 270] Re: =?iso-2022-jp?b?UERGGyRCJEc4ITp3GyhCIBskQiVSJUMlSCQ3JD8bKEI=?= =?iso-2022-jp?b?GyRCJVohPCU4JE5JPTwoGyhC?= In-Reply-To: References: <201007080756.AA13130@ea8055.shimadzu.co.jp> Message-ID: お世話になっております。福田です。 すいません自己レスです。 ちょっとネットで検索してみたところ、こういった機能は全文検索機能 がやるのではなく、ビューワーの方で行うような感じですね。 つまり、専用のビューワーがあって、それにキーワードを渡して起動 すると自動的に最初のページが表示されるみたいな感じです。 無償で利用可能なビューワーがあれば、それとの連携を考えてみる のも方法としてありそうですね。 2010年7月9日9:24 kazuto fukuda : > お世話になっております。福田です。 > > 特定ページに飛ぶURLの話は以下のページにあります。 > http://kb2.adobe.com/jp/cps/226/226119.html > 非公式って事でもなさそうですが... > > 実は、ページ数の多いマニュアル等の複数のPDFを全文検索化しようと > 考えていて、その時に、ヒットしたファイルの表示だけでなくその最初 > のページでも表示されたらかなり利便性が高いのではと思いました。 > というか、Acrobatが起動してPDFが表示された後、もう一度検索文字 > を入力するのはちょっと面倒だなと思った訳です。 > > 実際、「検索 ヒットしたページを直接表示できます」を売り文句にしている > 全文検索の製品もあるようです。 > fessではどのような方法でPDFを検索しているのかわかりませんが、 > そのような製品があるという事は、そんなに難しくない事なのかなと > 思い質問させていただきました。 > > 2010年7月8日16:56 Masayuki Shibata : >> 柴田@亀岡市です。 >> >>>ページやシートに飛べるのか確認はしていないですが…。 >> >> PDF で特定のページを外部から呼び出せるのは、公式にサポート >> された機能ではありません。 >> >> いつ無くなっても文句は言えないと Adobe さんから釘を刺され >> た状態で使うものです。 >> #知る人ぞ知る機能ですが、ある意味有名... >> >>>菅谷です。 >>> >>>コメントをありがとうございます。 >>> >>>> 1つのPDFファイルの中で複数箇所ヒットした際にはどうしますか? >>> >>>始めの箇所にするしかないかなとか、思ったり >>>しました(内部ロジック的なところが気になり、 >>>そこはじっくり考えてないですが…)。 >>> >>>> ExcelやWordなどのファイルもそうならないと、 >>> >>>そうですよね。これはちょっと気になっていました。 >>>ページやシートに飛べるのか確認はしていないですが…。 >>> >>>> (そもそも、ページ情報の取得は可能なのか?) >>> >>>これもなかなか手ごわそうな気がしています。 >>>現状、Tika で一括で文字列をとってきているだけなので >>>そこを調査・対応も辛そうなので、今のところ >>>そこに手を出すモチベーションがない感じです。 >>> >>>shinsuke >>> >>> >>>2010年7月8日15:51 : >>>> 横から失礼します。恵と申します。 >>>> >>>> たとえば1件だけヒットした場合はそれでもいいかも知れませんが、 >>>> 1つのPDFファイルの中で複数箇所ヒットした際にはどうしますか? >>>> (自分が探していたページと別のページに飛ばされたとしたら、 >>>> それは却ってユーザビリティに反する可能性も?) >>>> >>>> また、PDFでそのような動きが実現するならば、 >>>> ExcelやWordなどのファイルもそうならないと、 >>>> システム全体としての統一感に欠けるかと思います。 >>>> >>>> 私は現状のままでも良いと思います。 >>>> >>>> #「いろいろ改修する」ことで実現できるのかどうか、私は分かりませんが(^^; >>>> (そもそも、ページ情報の取得は可能なのか?) >>>> >>>> ----- Original Message ----- >>>>> お世話になっております。福田です。 >>>>> 回答ありがとうございます。 >>>>> これが出来るとかなり便利だったのですが、残念です。 >>>>> できれば機能追加して頂きたいです。 >>>>> よろしくお願いします。 >>>>> >>>>> 2010年7月7日22:28 Shinsuke Sugaya : >>>>> > 菅谷です。 >>>>> > >>>>> > 面白いアイデアかと思うのですが、現状、PDF から >>>>> > テキストを抽出しているだけなので、いろいろと改修を >>>>> > しないと厳しいかと思います。ですので、すぐには >>>>> > 何とかするのは難しい状況です。すいません…。 >>>>> > >>>>> > shinsuke >>>>> > >>>>> > 2010年7月7日11:03 kazuto fukuda : >>>>> >> お世話になっております。福田です。 >>>>> >> >>>>> >> 質問なのですが、 >>>>> >> fessでPDFで検索 ヒットしたページを直接表示する事はできないでしょう >>>> か? >>>>> >> 作成されたインデックスにヒットしたページの情報があれば、PDFのURLの >>>> 最後に >>>>> >> 「#page=2」のようなキーワードを追加する事により、直接そのページを表 >>>> 示できるようです。 >>>>> >> >>>>> >> どうなんでしょうか? >>>>> >> >>>>> >> _______________________________________________ >>>>> >> Fess-user mailing list >>>>> >> Fess-user @ lists.sourceforge.jp >>>>> >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>> >> >>>>> > >>>>> > _______________________________________________ >>>>> > Fess-user mailing list >>>>> > Fess-user @ lists.sourceforge.jp >>>>> > http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>> > >>>>> >>>>> _______________________________________________ >>>>> Fess-user mailing list >>>>> Fess-user @ lists.sourceforge.jp >>>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>> >>>> >>>> _______________________________________________ >>>> Fess-user mailing list >>>> Fess-user @ lists.sourceforge.jp >>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> >>> >>>_______________________________________________ >>>Fess-user mailing list >>>Fess-user @ lists.sourceforge.jp >>>http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > From shinsuke @ yahoo.co.jp Fri Jul 9 09:43:27 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 9 Jul 2010 09:43:27 +0900 Subject: [fess-user 271] Re: =?iso-2022-jp?b?UERGGyRCJEc4ITp3GyhCIBskQiVSJUMlSCQ3JD8bKEI=?= =?iso-2022-jp?b?GyRCJVohPCU4JE5JPTwoGyhC?= In-Reply-To: References: <201007080756.AA13130@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 情報をありがとうございます。 ページでなくて検索語を渡せないのかと思い、見てみたら search というのもあるのですね。こっちは簡単なので やるなら、search 渡しが良いかと思うので、考えてみます。 http://kb2.adobe.com/jp/cps/511/511684.html # Word とかはどうするか、というのもありますが… shinsuke 2010年7月9日9:24 kazuto fukuda : > お世話になっております。福田です。 > > 特定ページに飛ぶURLの話は以下のページにあります。 > http://kb2.adobe.com/jp/cps/226/226119.html > 非公式って事でもなさそうですが... > > 実は、ページ数の多いマニュアル等の複数のPDFを全文検索化しようと > 考えていて、その時に、ヒットしたファイルの表示だけでなくその最初 > のページでも表示されたらかなり利便性が高いのではと思いました。 > というか、Acrobatが起動してPDFが表示された後、もう一度検索文字 > を入力するのはちょっと面倒だなと思った訳です。 > > 実際、「検索 ヒットしたページを直接表示できます」を売り文句にしている > 全文検索の製品もあるようです。 > fessではどのような方法でPDFを検索しているのかわかりませんが、 > そのような製品があるという事は、そんなに難しくない事なのかなと > 思い質問させていただきました。 > > 2010年7月8日16:56 Masayuki Shibata : >> 柴田@亀岡市です。 >> >>>ページやシートに飛べるのか確認はしていないですが…。 >> >> PDF で特定のページを外部から呼び出せるのは、公式にサポート >> された機能ではありません。 >> >> いつ無くなっても文句は言えないと Adobe さんから釘を刺され >> た状態で使うものです。 >> #知る人ぞ知る機能ですが、ある意味有名... >> >>>菅谷です。 >>> >>>コメントをありがとうございます。 >>> >>>> 1つのPDFファイルの中で複数箇所ヒットした際にはどうしますか? >>> >>>始めの箇所にするしかないかなとか、思ったり >>>しました(内部ロジック的なところが気になり、 >>>そこはじっくり考えてないですが…)。 >>> >>>> ExcelやWordなどのファイルもそうならないと、 >>> >>>そうですよね。これはちょっと気になっていました。 >>>ページやシートに飛べるのか確認はしていないですが…。 >>> >>>> (そもそも、ページ情報の取得は可能なのか?) >>> >>>これもなかなか手ごわそうな気がしています。 >>>現状、Tika で一括で文字列をとってきているだけなので >>>そこを調査・対応も辛そうなので、今のところ >>>そこに手を出すモチベーションがない感じです。 >>> >>>shinsuke >>> >>> >>>2010年7月8日15:51 : >>>> 横から失礼します。恵と申します。 >>>> >>>> たとえば1件だけヒットした場合はそれでもいいかも知れませんが、 >>>> 1つのPDFファイルの中で複数箇所ヒットした際にはどうしますか? >>>> (自分が探していたページと別のページに飛ばされたとしたら、 >>>> それは却ってユーザビリティに反する可能性も?) >>>> >>>> また、PDFでそのような動きが実現するならば、 >>>> ExcelやWordなどのファイルもそうならないと、 >>>> システム全体としての統一感に欠けるかと思います。 >>>> >>>> 私は現状のままでも良いと思います。 >>>> >>>> #「いろいろ改修する」ことで実現できるのかどうか、私は分かりませんが(^^; >>>> (そもそも、ページ情報の取得は可能なのか?) >>>> >>>> ----- Original Message ----- >>>>> お世話になっております。福田です。 >>>>> 回答ありがとうございます。 >>>>> これが出来るとかなり便利だったのですが、残念です。 >>>>> できれば機能追加して頂きたいです。 >>>>> よろしくお願いします。 >>>>> >>>>> 2010年7月7日22:28 Shinsuke Sugaya : >>>>> > 菅谷です。 >>>>> > >>>>> > 面白いアイデアかと思うのですが、現状、PDF から >>>>> > テキストを抽出しているだけなので、いろいろと改修を >>>>> > しないと厳しいかと思います。ですので、すぐには >>>>> > 何とかするのは難しい状況です。すいません…。 >>>>> > >>>>> > shinsuke >>>>> > >>>>> > 2010年7月7日11:03 kazuto fukuda : >>>>> >> お世話になっております。福田です。 >>>>> >> >>>>> >> 質問なのですが、 >>>>> >> fessでPDFで検索 ヒットしたページを直接表示する事はできないでしょう >>>> か? >>>>> >> 作成されたインデックスにヒットしたページの情報があれば、PDFのURLの >>>> 最後に >>>>> >> 「#page=2」のようなキーワードを追加する事により、直接そのページを表 >>>> 示できるようです。 >>>>> >> >>>>> >> どうなんでしょうか? >>>>> >> >>>>> >> _______________________________________________ >>>>> >> Fess-user mailing list >>>>> >> Fess-user @ lists.sourceforge.jp >>>>> >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>> >> >>>>> > >>>>> > _______________________________________________ >>>>> > Fess-user mailing list >>>>> > Fess-user @ lists.sourceforge.jp >>>>> > http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>> > >>>>> >>>>> _______________________________________________ >>>>> Fess-user mailing list >>>>> Fess-user @ lists.sourceforge.jp >>>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>> >>>> >>>> _______________________________________________ >>>> Fess-user mailing list >>>> Fess-user @ lists.sourceforge.jp >>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> >>> >>>_______________________________________________ >>>Fess-user mailing list >>>Fess-user @ lists.sourceforge.jp >>>http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From k-kanamori @ rundum.co.jp Fri Jul 9 09:51:52 2010 From: k-kanamori @ rundum.co.jp (=?iso-2022-jp?B?GyRCQmdKP01OJWklcyVAJWAbKEIpGyRCNmI/ORsoQg==?=) Date: Fri, 9 Jul 2010 09:51:52 +0900 Subject: [fess-user 272] =?iso-2022-jp?b?QWN0aXZlRGlyZWNvdHJ5GyRCNEQ2LTI8JEckTiVVJSEbKEI=?= =?iso-2022-jp?b?GyRCJSQlayU1ITwlUEE0Sjg4ITp3GyhC?= In-Reply-To: References: Message-ID: <06019C7FA87F458584A1914C6656F639@prc.local> 菅谷様およびメーリングリスト各位 金森と申します。 いつもメーリングリストを拝見させていただいています。 誠に勝手な要望なのですが、ファイルサーバが大きくなり、 どこに何があるかわからない状況になっており、 全文検索システムはないものか、と探し、Fessにたどり着きました。 ファイルサーバにはアクセス権があり、ユーザ認証は ActiveDirecotryで行っています。 上記のような環境でユーザ毎に表示させるラベル(フォルダ名)を 変更するやり方が、正直わかりません。 もし上記のような環境で実際行われている方がおられましたら、 クレクレで申し訳ありませんが、やり方を教えてください。 From mshibata @ shimadzu.co.jp Fri Jul 9 10:15:56 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Fri, 09 Jul 2010 10:15:56 +0900 Subject: [fess-user 273] Re: =?iso-2022-jp?b?UERGGyRCJEc4ITp3GyhCIBskQiVSJUMlSCQ3JD8bKEI=?= =?iso-2022-jp?b?GyRCJVohPCU4JE5JPTwoGyhC?= In-Reply-To: References: Message-ID: <201007090115.AA13135@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 そうですか... では、私の持ってる情報が古いということだと思 います。 Acrobat 周辺の仕事をやってる技術者の間では超有名な話なので 当時としては間違いではなかったはずですが、ある時点から正式 サポートになっているのですね。 この動作を実際に行うのは、ブラウザではなく、プラグインとし て動作する Acrobat か Adobe Reader になりますので、リンク 先の記事では 7.0 以降が入っていれば動作保証できることにな ります。 #それ以前でも動作はします。ただ以前のバージョンでは保証は #されてませんでした。6.0 は知らないのですが 5.0 の頃はそ #うでした。 >お世話になっております。福田です。 > >特定ページに飛ぶURLの話は以下のページにあります。 >http://kb2.adobe.com/jp/cps/226/226119.html >非公式って事でもなさそうですが... > >実は、ページ数の多いマニュアル等の複数のPDFを全文検索化しようと >考えていて、その時に、ヒットしたファイルの表示だけでなくその最初 >のページでも表示されたらかなり利便性が高いのではと思いました。 >というか、Acrobatが起動してPDFが表示された後、もう一度検索文字 >を入力するのはちょっと面倒だなと思った訳です。 > >実際、「検索 ヒットしたページを直接表示できます」を売り文句にしている >全文検索の製品もあるようです。 >fessではどのような方法でPDFを検索しているのかわかりませんが、 >そのような製品があるという事は、そんなに難しくない事なのかなと >思い質問させていただきました。 > >2010年7月8日16:56 Masayuki Shibata : >> 柴田@亀岡市です。 >> >>>ページやシートに飛べるのか確認はしていないですが…。 >> >> PDF で特定のページを外部から呼び出せるのは、公式にサポート >> された機能ではありません。 >> >> いつ無くなっても文句は言えないと Adobe さんから釘を刺され >> た状態で使うものです。 >> #知る人ぞ知る機能ですが、ある意味有名... >> >>>菅谷です。 >>> >>>コメントをありがとうございます。 >>> >>>> 1つのPDFファイルの中で複数箇所ヒットした際にはどうしますか? >>> >>>始めの箇所にするしかないかなとか、思ったり >>>しました(内部ロジック的なところが気になり、 >>>そこはじっくり考えてないですが…)。 >>> >>>> ExcelやWordなどのファイルもそうならないと、 >>> >>>そうですよね。これはちょっと気になっていました。 >>>ページやシートに飛べるのか確認はしていないですが…。 >>> >>>> (そもそも、ページ情報の取得は可能なのか?) >>> >>>これもなかなか手ごわそうな気がしています。 >>>現状、Tika で一括で文字列をとってきているだけなので >>>そこを調査・対応も辛そうなので、今のところ >>>そこに手を出すモチベーションがない感じです。 >>> >>>shinsuke >>> >>> >>>2010年7月8日15:51 : >>>> 横から失礼します。恵と申します。 >>>> >>>> たとえば1件だけヒットした場合はそれでもいいかも知れませんが、 >>>> 1つのPDFファイルの中で複数箇所ヒットした際にはどうしますか? >>>> (自分が探していたページと別のページに飛ばされたとしたら、 >>>> それは却ってユーザビリティに反する可能性も?) >>>> >>>> また、PDFでそのような動きが実現するならば、 >>>> ExcelやWordなどのファイルもそうならないと、 >>>> システム全体としての統一感に欠けるかと思います。 >>>> >>>> 私は現状のままでも良いと思います。 >>>> >>>> #「いろいろ改修する」ことで実現できるのかどうか、私は分かりませんが(^^; >>>> (そもそも、ページ情報の取得は可能なのか?) >>>> >>>> ----- Original Message ----- >>>>> お世話になっております。福田です。 >>>>> 回答ありがとうございます。 >>>>> これが出来るとかなり便利だったのですが、残念です。 >>>>> できれば機能追加して頂きたいです。 >>>>> よろしくお願いします。 >>>>> >>>>> 2010年7月7日22:28 Shinsuke Sugaya : >>>>> > 菅谷です。 >>>>> > >>>>> > 面白いアイデアかと思うのですが、現状、PDF から >>>>> > テキストを抽出しているだけなので、いろいろと改修を >>>>> > しないと厳しいかと思います。ですので、すぐには >>>>> > 何とかするのは難しい状況です。すいません…。 >>>>> > >>>>> > shinsuke >>>>> > >>>>> > 2010年7月7日11:03 kazuto fukuda : >>>>> >> お世話になっております。福田です。 >>>>> >> >>>>> >> 質問なのですが、 >>>>> >> fessでPDFで検索 ヒットしたページを直接表示する事はできないでしょう >>>> か? >>>>> >> 作成されたインデックスにヒットしたページの情報があれば、PDFのURLの >>>> 最後に >>>>> >> 「#page=2」のようなキーワードを追加する事により、直接そのページを表 >>>> 示できるようです。 >>>>> >> >>>>> >> どうなんでしょうか? >>>>> >> >>>>> >> _______________________________________________ >>>>> >> Fess-user mailing list >>>>> >> Fess-user @ lists.sourceforge.jp >>>>> >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>> >> >>>>> > >>>>> > _______________________________________________ >>>>> > Fess-user mailing list >>>>> > Fess-user @ lists.sourceforge.jp >>>>> > http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>> > >>>>> >>>>> _______________________________________________ >>>>> Fess-user mailing list >>>>> Fess-user @ lists.sourceforge.jp >>>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>> >>>> >>>> _______________________________________________ >>>> Fess-user mailing list >>>> Fess-user @ lists.sourceforge.jp >>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> >>> >>>_______________________________________________ >>>Fess-user mailing list >>>Fess-user @ lists.sourceforge.jp >>>http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >_______________________________________________ >Fess-user mailing list >Fess-user @ lists.sourceforge.jp >http://lists.sourceforge.jp/mailman/listinfo/fess-user > ---------- Shibata, Masayuki Manager, Software Development Shimadzu Corporation Analytical Measuring Instruments Division Research & Development Department Telephone: 075-823-1441 Japan Facsimile: 075-823-1365 Japan E-mail: mshibata @ shimadzu.co.jp From shinsuke @ yahoo.co.jp Fri Jul 9 14:42:47 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 9 Jul 2010 14:42:47 +0900 Subject: [fess-user 274] Re: =?iso-2022-jp?b?QWN0aXZlRGlyZWNvdHJ5GyRCNEQ2LTI8JEckTiVVGyhC?= =?iso-2022-jp?b?GyRCJSElJCVrJTUhPCVQQTRKODghOncbKEI=?= In-Reply-To: <06019C7FA87F458584A1914C6656F639@prc.local> References: <06019C7FA87F458584A1914C6656F639@prc.local> Message-ID: 菅谷です。 Fess を検討していただきありがとうございます。 > 上記のような環境でユーザ毎に表示させるラベル(フォルダ名)を > 変更するやり方が、正直わかりません。 現状、ラベルはシステムで共通なものなので、 ロールごとに表示することはできません。 確かにラベルはロールに結びつけて出しわけられる方が 良いかと思うので、検討したいと思います。 shinsuke 2010年7月9日9:51 大平洋ランダム)金森 : > 菅谷様およびメーリングリスト各位 > > 金森と申します。 > いつもメーリングリストを拝見させていただいています。 > > 誠に勝手な要望なのですが、ファイルサーバが大きくなり、 > どこに何があるかわからない状況になっており、 > 全文検索システムはないものか、と探し、Fessにたどり着きました。 > > ファイルサーバにはアクセス権があり、ユーザ認証は > ActiveDirecotryで行っています。 > > 上記のような環境でユーザ毎に表示させるラベル(フォルダ名)を > 変更するやり方が、正直わかりません。 > > もし上記のような環境で実際行われている方がおられましたら、 > クレクレで申し訳ありませんが、やり方を教えてください。 > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From kf96614 @ gmail.com Wed Jul 14 09:16:56 2010 From: kf96614 @ gmail.com (kazuto fukuda) Date: Wed, 14 Jul 2010 09:16:56 +0900 Subject: [fess-user 275] =?iso-2022-jp?b?UERGGyRCJVUlISUkJWskTiUvJW0hPCVqJXMlMCRHJSgbKEI=?= =?iso-2022-jp?b?GyRCJWkhPEgvQDgbKEI=?= Message-ID: お世話になっております。福田です。 PDFファイルのクローリングで以下のエラーが発生します。 1. 2010-07-14 09:06:05,002 [Robot-20100714090416-1-5] INFO org.seasar.robot.helper.impl.LogHelperImpl - The content length (27962048 byte) is over 10485760 byte. The url is file:/xxxxx.pdf 2. 2010-07-14 09:06:09,268 [Robot-20100714090416-1-3] WARN org.apache.pdfbox.pdmodel.font.PDFontFactory - Failed to create Type1C font. Falling back to Type1 font java.lang.NullPointerException 1の方はファイルのサイズが大きすぎるという事でしょうか?。どこか設定を変更すればできるようになるでしょうか? 2の方は「WARN」ですが、何か対処が必要でしょうか?。 以上です。よろしくお願いします。 From shinsuke @ yahoo.co.jp Wed Jul 14 09:43:41 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Wed, 14 Jul 2010 09:43:41 +0900 Subject: [fess-user 276] Re: =?iso-2022-jp?b?UERGGyRCJVUlISUkJWskTiUvJW0hPCVqJXMlMCRHGyhC?= =?iso-2022-jp?b?GyRCJSglaSE8SC9AOBsoQg==?= In-Reply-To: References: Message-ID: 菅谷です。 > 1の方はファイルのサイズが大きすぎるという事でしょうか? はい。 http://fess.sourceforge.jp/ja/3.0/config/filesize.html に最近まとめたのでご覧ください。 > 2の方は「WARN」ですが、何か対処が必要でしょうか?。 スタックトーレスを見ないとわかりませんが、たぶん https://issues.apache.org/jira/browse/PDFBOX-703 かと思います。pdfbox 1.2 では直っているようなので pdfbox の更新を検討したいと思います。(3.x で pdfbox を差し替えて解決されるかは未確認です) よろしくお願いいたします。 shinsuke 2010年7月14日9:16 kazuto fukuda : > お世話になっております。福田です。 > PDFファイルのクローリングで以下のエラーが発生します。 > > 1. > 2010-07-14 09:06:05,002 [Robot-20100714090416-1-5] INFO > org.seasar.robot.helper.impl.LogHelperImpl - The content length > (27962048 byte) is over 10485760 byte. The url is file:/xxxxx.pdf > > 2. > 2010-07-14 09:06:09,268 [Robot-20100714090416-1-3] WARN > org.apache.pdfbox.pdmodel.font.PDFontFactory - Failed to create Type1C > font. Falling back to Type1 font > java.lang.NullPointerException > > 1の方はファイルのサイズが大きすぎるという事でしょうか?。どこか設定を変更すればできるようになるでしょうか? > 2の方は「WARN」ですが、何か対処が必要でしょうか?。 > > 以上です。よろしくお願いします。 > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Wed Jul 14 10:00:33 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Wed, 14 Jul 2010 10:00:33 +0900 Subject: [fess-user 277] Re: =?iso-2022-jp?b?UERGGyRCJVUlISUkJWskTiUvJW0hPCVqJXMlMCRHGyhC?= =?iso-2022-jp?b?GyRCJSglaSE8SC9AOBsoQg==?= In-Reply-To: References: Message-ID: <201007140100.AA13169@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 1の方は INFO ですし、仕様 (大きなファイルはスキップ) だと思います。 PDF 以外でも大きければそうなるはず。 2の方はわかりませんが、コレ↓かな? http://www.listware.net/201007/pdfbox-users/18184-error-failed-to-create-type1c-font.html >お世話になっております。福田です。 >PDFファイルのクローリングで以下のエラーが発生します。 > >1. >2010-07-14 09:06:05,002 [Robot-20100714090416-1-5] INFO >org.seasar.robot.helper.impl.LogHelperImpl - The content length >(27962048 byte) is over 10485760 byte. The url is file:/xxxxx.pdf > >2. >2010-07-14 09:06:09,268 [Robot-20100714090416-1-3] WARN >org.apache.pdfbox.pdmodel.font.PDFontFactory - Failed to create Type1C >font. Falling back to Type1 font >java.lang.NullPointerException > >1の方はファイルのサイズが大きすぎるという事でしょうか?。どこか設定を変更すればできるようになる でしょうか? >2の方は「WARN」ですが、何か対処が必要でしょうか?。 > >以上です。よろしくお願いします。 > >_______________________________________________ >Fess-user mailing list >Fess-user @ lists.sourceforge.jp >http://lists.sourceforge.jp/mailman/listinfo/fess-user > From kf96614 @ gmail.com Wed Jul 14 13:47:18 2010 From: kf96614 @ gmail.com (kazuto fukuda) Date: Wed, 14 Jul 2010 13:47:18 +0900 Subject: [fess-user 278] Re: =?iso-2022-jp?b?UERGGyRCJVUlISUkJWskTiUvJW0hPCVqJXMlMCRHGyhC?= =?iso-2022-jp?b?GyRCJSglaSE8SC9AOBsoQg==?= In-Reply-To: <201007140100.AA13169@ea8055.shimadzu.co.jp> References: <201007140100.AA13169@ea8055.shimadzu.co.jp> Message-ID: 福田です。 菅谷様、柴田様、回答ありがとうございます。 早速、「s2robot_contentlength.dicon」を変更して実行してみました。 「The content length(??? byte) is over 10485760 byte」のエラーは出なくなりました。 「Failed to create Type1C」は対応をお願いします。(次期バージョン?) よろしくお願いします。 2010年7月14日10:00 Masayuki Shibata : > 柴田@亀岡市です。 > > 1の方は INFO ですし、仕様 (大きなファイルはスキップ) だと思います。 > PDF 以外でも大きければそうなるはず。 > > 2の方はわかりませんが、コレ↓かな? > http://www.listware.net/201007/pdfbox-users/18184-error-failed-to-create-type1c-font.html > >>お世話になっております。福田です。 >>PDFファイルのクローリングで以下のエラーが発生します。 >> >>1. >>2010-07-14 09:06:05,002 [Robot-20100714090416-1-5] INFO >>org.seasar.robot.helper.impl.LogHelperImpl - The content length >>(27962048 byte) is over 10485760 byte. The url is file:/xxxxx.pdf >> >>2. >>2010-07-14 09:06:09,268 [Robot-20100714090416-1-3] WARN >>org.apache.pdfbox.pdmodel.font.PDFontFactory - Failed to create Type1C >>font. Falling back to Type1 font >>java.lang.NullPointerException >> >>1の方はファイルのサイズが大きすぎるという事でしょうか?。どこか設定を変更すればできるようになる > でしょうか? >>2の方は「WARN」ですが、何か対処が必要でしょうか?。 >> >>以上です。よろしくお願いします。 >> >>_______________________________________________ >>Fess-user mailing list >>Fess-user @ lists.sourceforge.jp >>http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From kf96614 @ gmail.com Wed Jul 14 13:55:02 2010 From: kf96614 @ gmail.com (kazuto fukuda) Date: Wed, 14 Jul 2010 13:55:02 +0900 Subject: [fess-user 279] Re: =?iso-2022-jp?b?UERGGyRCJEc4ITp3GyhCIBskQiVSJUMlSCQ3JD8bKEI=?= =?iso-2022-jp?b?GyRCJVohPCU4JE5JPTwoGyhC?= In-Reply-To: References: <201007080756.AA13130@ea8055.shimadzu.co.jp> Message-ID: お世話になっております。福田です。 自分でもいろいろ試してみたのですが、「#search="word1 word2"」の方法で いけそうな感じですね。 なんとかこの方法で対応をお願いします。 2010年7月9日9:43 Shinsuke Sugaya : > 菅谷です。 > > 情報をありがとうございます。 > > ページでなくて検索語を渡せないのかと思い、見てみたら > search というのもあるのですね。こっちは簡単なので > やるなら、search 渡しが良いかと思うので、考えてみます。 > > http://kb2.adobe.com/jp/cps/511/511684.html > > # Word とかはどうするか、というのもありますが… > > shinsuke > > > 2010年7月9日9:24 kazuto fukuda : >> お世話になっております。福田です。 >> >> 特定ページに飛ぶURLの話は以下のページにあります。 >> http://kb2.adobe.com/jp/cps/226/226119.html >> 非公式って事でもなさそうですが... >> >> 実は、ページ数の多いマニュアル等の複数のPDFを全文検索化しようと >> 考えていて、その時に、ヒットしたファイルの表示だけでなくその最初 >> のページでも表示されたらかなり利便性が高いのではと思いました。 >> というか、Acrobatが起動してPDFが表示された後、もう一度検索文字 >> を入力するのはちょっと面倒だなと思った訳です。 >> >> 実際、「検索 ヒットしたページを直接表示できます」を売り文句にしている >> 全文検索の製品もあるようです。 >> fessではどのような方法でPDFを検索しているのかわかりませんが、 >> そのような製品があるという事は、そんなに難しくない事なのかなと >> 思い質問させていただきました。 >> >> 2010年7月8日16:56 Masayuki Shibata : >>> 柴田@亀岡市です。 >>> >>>>ページやシートに飛べるのか確認はしていないですが…。 >>> >>> PDF で特定のページを外部から呼び出せるのは、公式にサポート >>> された機能ではありません。 >>> >>> いつ無くなっても文句は言えないと Adobe さんから釘を刺され >>> た状態で使うものです。 >>> #知る人ぞ知る機能ですが、ある意味有名... >>> >>>>菅谷です。 >>>> >>>>コメントをありがとうございます。 >>>> >>>>> 1つのPDFファイルの中で複数箇所ヒットした際にはどうしますか? >>>> >>>>始めの箇所にするしかないかなとか、思ったり >>>>しました(内部ロジック的なところが気になり、 >>>>そこはじっくり考えてないですが…)。 >>>> >>>>> ExcelやWordなどのファイルもそうならないと、 >>>> >>>>そうですよね。これはちょっと気になっていました。 >>>>ページやシートに飛べるのか確認はしていないですが…。 >>>> >>>>> (そもそも、ページ情報の取得は可能なのか?) >>>> >>>>これもなかなか手ごわそうな気がしています。 >>>>現状、Tika で一括で文字列をとってきているだけなので >>>>そこを調査・対応も辛そうなので、今のところ >>>>そこに手を出すモチベーションがない感じです。 >>>> >>>>shinsuke >>>> >>>> >>>>2010年7月8日15:51 : >>>>> 横から失礼します。恵と申します。 >>>>> >>>>> たとえば1件だけヒットした場合はそれでもいいかも知れませんが、 >>>>> 1つのPDFファイルの中で複数箇所ヒットした際にはどうしますか? >>>>> (自分が探していたページと別のページに飛ばされたとしたら、 >>>>> それは却ってユーザビリティに反する可能性も?) >>>>> >>>>> また、PDFでそのような動きが実現するならば、 >>>>> ExcelやWordなどのファイルもそうならないと、 >>>>> システム全体としての統一感に欠けるかと思います。 >>>>> >>>>> 私は現状のままでも良いと思います。 >>>>> >>>>> #「いろいろ改修する」ことで実現できるのかどうか、私は分かりませんが(^^; >>>>> (そもそも、ページ情報の取得は可能なのか?) >>>>> >>>>> ----- Original Message ----- >>>>>> お世話になっております。福田です。 >>>>>> 回答ありがとうございます。 >>>>>> これが出来るとかなり便利だったのですが、残念です。 >>>>>> できれば機能追加して頂きたいです。 >>>>>> よろしくお願いします。 >>>>>> >>>>>> 2010年7月7日22:28 Shinsuke Sugaya : >>>>>> > 菅谷です。 >>>>>> > >>>>>> > 面白いアイデアかと思うのですが、現状、PDF から >>>>>> > テキストを抽出しているだけなので、いろいろと改修を >>>>>> > しないと厳しいかと思います。ですので、すぐには >>>>>> > 何とかするのは難しい状況です。すいません…。 >>>>>> > >>>>>> > shinsuke >>>>>> > >>>>>> > 2010年7月7日11:03 kazuto fukuda : >>>>>> >> お世話になっております。福田です。 >>>>>> >> >>>>>> >> 質問なのですが、 >>>>>> >> fessでPDFで検索 ヒットしたページを直接表示する事はできないでしょう >>>>> か? >>>>>> >> 作成されたインデックスにヒットしたページの情報があれば、PDFのURLの >>>>> 最後に >>>>>> >> 「#page=2」のようなキーワードを追加する事により、直接そのページを表 >>>>> 示できるようです。 >>>>>> >> >>>>>> >> どうなんでしょうか? >>>>>> >> >>>>>> >> _______________________________________________ >>>>>> >> Fess-user mailing list >>>>>> >> Fess-user @ lists.sourceforge.jp >>>>>> >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>>> >> >>>>>> > >>>>>> > _______________________________________________ >>>>>> > Fess-user mailing list >>>>>> > Fess-user @ lists.sourceforge.jp >>>>>> > http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>>> > >>>>>> >>>>>> _______________________________________________ >>>>>> Fess-user mailing list >>>>>> Fess-user @ lists.sourceforge.jp >>>>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>>> >>>>> >>>>> _______________________________________________ >>>>> Fess-user mailing list >>>>> Fess-user @ lists.sourceforge.jp >>>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>> >>>> >>>>_______________________________________________ >>>>Fess-user mailing list >>>>Fess-user @ lists.sourceforge.jp >>>>http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> >>> >>> _______________________________________________ >>> Fess-user mailing list >>> Fess-user @ lists.sourceforge.jp >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From fj.kuwata @ gmail.com Wed Jul 14 16:53:55 2010 From: fj.kuwata @ gmail.com (Tetsutomo Kuwata) Date: Wed, 14 Jul 2010 16:53:55 +0900 Subject: [fess-user 280] =?iso-2022-jp?b?GyRCJSQlcyVHJUMlLyU5JE46bkAuJCxEZDtfJDckXiQ5GyhC?= Message-ID: 初めまして、桑田と申します。 この度始めてFessを導入しインデックス作成を実行しているところなのですが クローラープロセスが実行中にも関わらず、ドキュメント数が増加しなくなります。 システム設定画面で何度が停止->実行を繰り返しましたが状況が変わりません。 どの辺を調べれば原因がわかりますでしょうか。 環境 Windows Server 2003 R2 JDK 6 Update 20 fess-server-3.1.1(サービスとして登録) 対象ドキュメント: ファイルシステム 23万件 現在のドキュメント数: 4万件 以上、よろしくお願い致します。 From shinsuke @ yahoo.co.jp Wed Jul 14 22:00:28 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Wed, 14 Jul 2010 22:00:28 +0900 Subject: [fess-user 281] Re: =?iso-2022-jp?b?GyRCJSQlcyVHJUMlLyU5JE46bkAuJCxEZDtfJDcbKEI=?= =?iso-2022-jp?b?GyRCJF4kORsoQg==?= In-Reply-To: References: Message-ID: 菅谷です。 おそらく crawler.out か catalina.out などに出力されて いるかと思います。以下を参照してみてください。 http://fess.sourceforge.jp/ja/3.0/config/logging.html よろしくお願いいたします。 shinsuke 2010年7月14日16:53 Tetsutomo Kuwata : > 初めまして、桑田と申します。 > > この度始めてFessを導入しインデックス作成を実行しているところなのですが > クローラープロセスが実行中にも関わらず、ドキュメント数が増加しなくなります。 > システム設定画面で何度が停止->実行を繰り返しましたが状況が変わりません。 > どの辺を調べれば原因がわかりますでしょうか。 > > 環境 > Windows Server 2003 R2 > JDK 6 Update 20 > fess-server-3.1.1(サービスとして登録) > > 対象ドキュメント: ファイルシステム 23万件 > 現在のドキュメント数: 4万件 > > > 以上、よろしくお願い致します。 > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From shinsuke @ yahoo.co.jp Thu Jul 15 08:59:37 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Thu, 15 Jul 2010 08:59:37 +0900 Subject: [fess-user 282] =?iso-2022-jp?b?RmVzcyA0LjAgGyRCJEs4fiQxJEYbKEI=?= Message-ID: 菅谷です。 近頃では多くの方に利用していただき、様々な フィードバックから着実な改善をできている感じが しています(ありがとうございます!)。現在は Fess 4.0 に向けて開発を進めていて、検索語ログ などの機能を追加しようと考えています。個人的には 全文検索システムとしては主要な機能は大体ある かな、という気分になっているのですが、こういう 機能があった方がいいのでは?などありますで しょうか?実装できる(する)かどうかは別にして 今後の参考にしたいと考えています。 よろしくお願いいたします。 shinsuke From mshibata @ shimadzu.co.jp Thu Jul 15 09:32:43 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Thu, 15 Jul 2010 09:32:43 +0900 Subject: [fess-user 283] Re: =?iso-2022-jp?b?RmVzcyA0LjAgGyRCJEs4fiQxJEYbKEI=?= In-Reply-To: References: Message-ID: <201007150032.AA13177@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 ・ロールとラベルの連動。 小技ですし、企業内イントラ利用独特の要求仕様かと思いますが... ログインしないと検索できないようにしているのにラベルに表示される と、見られない何かがあるかばれてしまいます。検索対象でないラベル は隠していただくとありがたいです。 開発関連文書なんかだと、置き場の名前 = 開発中の製品の仮名称だった りするので、特に外注さんにその存在が知られるのはコンプライアンス 上まずかったりします。 ・エラーメールの送信。 クローラーが止まるなど、状態変化があったときに管理者宛にメールが 飛んで来てくれるとウレシイです。 ・自サイト、ページへの組み込み方 やればできるのかも知れないのですが、自分のサイトのページの右肩上 とかに検索エディットボックスの形で置く方法が知りたいです。 Fess 4.0 ネタというより、マニュアル、ヘルプ系の充実の話かも知れ ませんが。 ・ウェブ認証の追加 イメージだけなのですが、Basic/Digest 認証以外の認証越えもできる とよいのになと思ったことはあります。 file:/// でファイルサーバーを検索対象にできるので NTLM 認証など を越えられると使い途が広がります。 ・クロールがスキップされたものを知る方法 パスワードをかけたり、例えば Excel で開いたときにマクロをいき なり実行しないよう、問い合わせのダイアログが出るようなものも同 様にエラーでクロールされずスキップしていますが、エラーではなく 検索対象外 (= 仕様) ということだと思います。 ほかにサイズの大きいものもスキップされますが、そのようなスキッ プされたファイルのエラー扱いではないログ... とか、管理画面でス キップされた数などがわかるとよいと思ったことはあります。 強い要望ではありませんが... とりあえず、パッと思いついたものを書いてます。 難易度は考慮していません (というかわかりません)。 From shinsuke @ yahoo.co.jp Thu Jul 15 09:42:25 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Thu, 15 Jul 2010 09:42:25 +0900 Subject: [fess-user 284] Re: =?iso-2022-jp?b?RmVzcyA0LjAgGyRCJEs4fiQxJEYbKEI=?= In-Reply-To: <201007150032.AA13177@ea8055.shimadzu.co.jp> References: <201007150032.AA13177@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 ありがとうございます! 大変参考になりました。 対応するチケットとして登録されていないものは チケット登録して検討したいと思います。 shinsuke 2010年7月15日9:32 Masayuki Shibata : > 柴田@亀岡市です。 > > ・ロールとラベルの連動。 > 小技ですし、企業内イントラ利用独特の要求仕様かと思いますが... > > ログインしないと検索できないようにしているのにラベルに表示される > と、見られない何かがあるかばれてしまいます。検索対象でないラベル > は隠していただくとありがたいです。 > > 開発関連文書なんかだと、置き場の名前 = 開発中の製品の仮名称だった > りするので、特に外注さんにその存在が知られるのはコンプライアンス > 上まずかったりします。 > > ・エラーメールの送信。 > クローラーが止まるなど、状態変化があったときに管理者宛にメールが > 飛んで来てくれるとウレシイです。 > > ・自サイト、ページへの組み込み方 > やればできるのかも知れないのですが、自分のサイトのページの右肩上 > とかに検索エディットボックスの形で置く方法が知りたいです。 > > Fess 4.0 ネタというより、マニュアル、ヘルプ系の充実の話かも知れ > ませんが。 > > ・ウェブ認証の追加 > イメージだけなのですが、Basic/Digest 認証以外の認証越えもできる > とよいのになと思ったことはあります。 > > file:/// でファイルサーバーを検索対象にできるので NTLM 認証など > を越えられると使い途が広がります。 > > ・クロールがスキップされたものを知る方法 > パスワードをかけたり、例えば Excel で開いたときにマクロをいき > なり実行しないよう、問い合わせのダイアログが出るようなものも同 > 様にエラーでクロールされずスキップしていますが、エラーではなく > 検索対象外 (= 仕様) ということだと思います。 > > ほかにサイズの大きいものもスキップされますが、そのようなスキッ > プされたファイルのエラー扱いではないログ... とか、管理画面でス > キップされた数などがわかるとよいと思ったことはあります。 > > 強い要望ではありませんが... > > とりあえず、パッと思いついたものを書いてます。 > 難易度は考慮していません (というかわかりません)。 > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From kf96614 @ gmail.com Thu Jul 15 12:27:53 2010 From: kf96614 @ gmail.com (kazuto fukuda) Date: Thu, 15 Jul 2010 12:27:53 +0900 Subject: [fess-user 285] Re: =?iso-2022-jp?b?RmVzcyA0LjAgGyRCJEs4fiQxJEYbKEI=?= In-Reply-To: References: <201007150032.AA13177@ea8055.shimadzu.co.jp> Message-ID: お世話になっております。福田です。 今のところは必要という訳ではないのですが、 ・ファイルの種類(拡張子?)毎にラベルを付けられるといいかもしれません。 ・検索結果画面で、ラベルをリストボックスではなくラジオボタンでも選択できる  ようにする。(検索キーワードの欄の下辺りに表示) ・検索結果画面でキーワードは黒の太字で表示されますが、これを変更できる  と(色を赤にするとか)いいかも知れません。 ・検索結果画面を表示する時にパスマッピングする。 いつも注文ばかりですいません。よろしくお願いします。 2010年7月15日9:42 Shinsuke Sugaya : > 菅谷です。 > > ありがとうございます! > 大変参考になりました。 > 対応するチケットとして登録されていないものは > チケット登録して検討したいと思います。 > > shinsuke > > 2010年7月15日9:32 Masayuki Shibata : >> 柴田@亀岡市です。 >> >> ・ロールとラベルの連動。 >> 小技ですし、企業内イントラ利用独特の要求仕様かと思いますが... >> >> ログインしないと検索できないようにしているのにラベルに表示される >> と、見られない何かがあるかばれてしまいます。検索対象でないラベル >> は隠していただくとありがたいです。 >> >> 開発関連文書なんかだと、置き場の名前 = 開発中の製品の仮名称だった >> りするので、特に外注さんにその存在が知られるのはコンプライアンス >> 上まずかったりします。 >> >> ・エラーメールの送信。 >> クローラーが止まるなど、状態変化があったときに管理者宛にメールが >> 飛んで来てくれるとウレシイです。 >> >> ・自サイト、ページへの組み込み方 >> やればできるのかも知れないのですが、自分のサイトのページの右肩上 >> とかに検索エディットボックスの形で置く方法が知りたいです。 >> >> Fess 4.0 ネタというより、マニュアル、ヘルプ系の充実の話かも知れ >> ませんが。 >> >> ・ウェブ認証の追加 >> イメージだけなのですが、Basic/Digest 認証以外の認証越えもできる >> とよいのになと思ったことはあります。 >> >> file:/// でファイルサーバーを検索対象にできるので NTLM 認証など >> を越えられると使い途が広がります。 >> >> ・クロールがスキップされたものを知る方法 >> パスワードをかけたり、例えば Excel で開いたときにマクロをいき >> なり実行しないよう、問い合わせのダイアログが出るようなものも同 >> 様にエラーでクロールされずスキップしていますが、エラーではなく >> 検索対象外 (= 仕様) ということだと思います。 >> >> ほかにサイズの大きいものもスキップされますが、そのようなスキッ >> プされたファイルのエラー扱いではないログ... とか、管理画面でス >> キップされた数などがわかるとよいと思ったことはあります。 >> >> 強い要望ではありませんが... >> >> とりあえず、パッと思いついたものを書いてます。 >> 難易度は考慮していません (というかわかりません)。 >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From shinsuke @ yahoo.co.jp Thu Jul 15 14:26:02 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Thu, 15 Jul 2010 14:26:02 +0900 Subject: [fess-user 286] Re: =?iso-2022-jp?b?RmVzcyA0LjAgGyRCJEs4fiQxJEYbKEI=?= In-Reply-To: References: <201007150032.AA13177@ea8055.shimadzu.co.jp> Message-ID: 菅谷です。 ありがとうございます! ファイルの種類はmimetypeで検索条件が できるようにはなっているものの、登録されている mimetype がわからないと利用しにくいですね…。 いただいたものをチケット化して検討したいと思います。 shinsuke 2010年7月15日12:27 kazuto fukuda : > お世話になっております。福田です。 > > 今のところは必要という訳ではないのですが、 > > ・ファイルの種類(拡張子?)毎にラベルを付けられるといいかもしれません。 > > ・検索結果画面で、ラベルをリストボックスではなくラジオボタンでも選択できる > ようにする。(検索キーワードの欄の下辺りに表示) > > ・検索結果画面でキーワードは黒の太字で表示されますが、これを変更できる > と(色を赤にするとか)いいかも知れません。 > > ・検索結果画面を表示する時にパスマッピングする。 > > いつも注文ばかりですいません。よろしくお願いします。 > > 2010年7月15日9:42 Shinsuke Sugaya : >> 菅谷です。 >> >> ありがとうございます! >> 大変参考になりました。 >> 対応するチケットとして登録されていないものは >> チケット登録して検討したいと思います。 >> >> shinsuke >> >> 2010年7月15日9:32 Masayuki Shibata : >>> 柴田@亀岡市です。 >>> >>> ・ロールとラベルの連動。 >>> 小技ですし、企業内イントラ利用独特の要求仕様かと思いますが... >>> >>> ログインしないと検索できないようにしているのにラベルに表示される >>> と、見られない何かがあるかばれてしまいます。検索対象でないラベル >>> は隠していただくとありがたいです。 >>> >>> 開発関連文書なんかだと、置き場の名前 = 開発中の製品の仮名称だった >>> りするので、特に外注さんにその存在が知られるのはコンプライアンス >>> 上まずかったりします。 >>> >>> ・エラーメールの送信。 >>> クローラーが止まるなど、状態変化があったときに管理者宛にメールが >>> 飛んで来てくれるとウレシイです。 >>> >>> ・自サイト、ページへの組み込み方 >>> やればできるのかも知れないのですが、自分のサイトのページの右肩上 >>> とかに検索エディットボックスの形で置く方法が知りたいです。 >>> >>> Fess 4.0 ネタというより、マニュアル、ヘルプ系の充実の話かも知れ >>> ませんが。 >>> >>> ・ウェブ認証の追加 >>> イメージだけなのですが、Basic/Digest 認証以外の認証越えもできる >>> とよいのになと思ったことはあります。 >>> >>> file:/// でファイルサーバーを検索対象にできるので NTLM 認証など >>> を越えられると使い途が広がります。 >>> >>> ・クロールがスキップされたものを知る方法 >>> パスワードをかけたり、例えば Excel で開いたときにマクロをいき >>> なり実行しないよう、問い合わせのダイアログが出るようなものも同 >>> 様にエラーでクロールされずスキップしていますが、エラーではなく >>> 検索対象外 (= 仕様) ということだと思います。 >>> >>> ほかにサイズの大きいものもスキップされますが、そのようなスキッ >>> プされたファイルのエラー扱いではないログ... とか、管理画面でス >>> キップされた数などがわかるとよいと思ったことはあります。 >>> >>> 強い要望ではありませんが... >>> >>> とりあえず、パッと思いついたものを書いてます。 >>> 難易度は考慮していません (というかわかりません)。 >>> >>> _______________________________________________ >>> Fess-user mailing list >>> Fess-user @ lists.sourceforge.jp >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From ganosu0 @ gmail.com Fri Jul 16 01:17:19 2010 From: ganosu0 @ gmail.com (Sugano) Date: Fri, 16 Jul 2010 01:17:19 +0900 Subject: [fess-user 287] Re: =?iso-2022-jp?b?GyRCJSQlcyVHJUMlLyU5JE46bkAuJCxEZDtfJDcbKEI=?= =?iso-2022-jp?b?GyRCJF4kORsoQg==?= Message-ID: 初めまして、すがのと申します。 ご質問があるのですが、クロールで集めた情報(H2DB)を、SolrDBへ 手動で登録する方法(機能など)はありませんでしょうか? (クロール実行中もしくはクロール停止時に手動実行) というのも、私のところでも桑田さんとほぼ同様の現象が発生して おり、 > クローラープロセスが実行中にも関わらず、ドキュメント数が増 > 加しなくなります。 > システム設定画面で何度が停止->実行を繰り返しましたが状況が > 変わりません。 具体的には、以下2つの現象のいずれかが発生することが多く、 事象1.クローラプロセスが稼働中にもかかわらず、クローラ側DB (\webapp\fess\WEB-INF\db)やSolrDBへの登録が行われない。 事象2.クローラ側DB(\webapp\fess\WEB-INF\db)への登録はされ 続けるが、SolrDBへの登録が行われなず、クローラ側DBのみが増え 続ける。 上記の現象発生後に、クローラで収集したSolrDBへの未登録情報を 破棄するのはもったいないので、収集した情報をSolrDBへ手動登録 する手段を知りたいと考えております。 (クロールを再度起動すると、前回収集した情報がすべて消えてし まい、事象2で数万件分の情報が溜まっていたとしても全てクリア されてしまうため、クリアされずにDB登録する方法が知りたいで す。) ちなみに、本現象の原因については、下記を参考にして現在調査中 ですが、現時点では原因は特定できていません。 > おそらく crawler.out か catalina.out などに出力されて > いるかと思います。以下を参照してみてください。 > > http://fess.sourceforge.jp/ja/3.0/config/logging.html > ※少なくとも、catalina.outにはエラーメッセージなどは出力され ていませんでした。他のログはこれから調べます。 ※ファイルパスの長さが260字以上(WindowsのMAX_PATH値以上)のデ ィレクトリ・ファイルもあるため、それが原因の一つの可能性も有 り? ※上記、もう少し調べてわからないようであれば、再度詳細な情報 をお知らせします。 以上、よろしくお願い致します。 > 菅谷です。 > > おそらく crawler.out か catalina.out などに出力されて > いるかと思います。以下を参照してみてください。 > > http://fess.sourceforge.jp/ja/3.0/config/logging.html > > よろしくお願いいたします。 > > shinsuke > > > 2010年7月14日16:53 Tetsutomo Kuwata : > 初めまして、桑田と申します。 > > この度始めてFessを導入しインデックス作成を実行しているとこ > ろなのですが > クローラープロセスが実行中にも関わらず、ドキュメント数が増 > 加しなくなります。 > システム設定画面で何度が停止->実行を繰り返しましたが状況が > 変わりません。 > どの辺を調べれば原因がわかりますでしょうか。 > > 環境 > Windows Server 2003 R2 > JDK 6 Update 20 > fess-server-3.1.1(サービスとして登録) > > 対象ドキュメント: ファイルシステム 23万件 > 現在のドキュメント数: 4万件 > > > 以上、よろしくお願い致します。 > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From ganosu0 @ gmail.com Fri Jul 16 01:52:13 2010 From: ganosu0 @ gmail.com (Sugano) Date: Fri, 16 Jul 2010 01:52:13 +0900 Subject: [fess-user 288] =?iso-2022-jp?b?GyRCSiM/dCROJSQlcyVHJUMlLyU5JE5FfTlnJEskRCQkGyhC?= =?iso-2022-jp?b?GyRCJEYbKEI=?= Message-ID: お世話になっております。すがのです。 別々の機器で稼動しているFess上で作成されたインデックスデータ を、一つに統合したいと思っているのですが、インデックスの統合 機能などはありますでしょうか? インデックス作成に利用できる機器が、スペックが低い機器しかな いため、複数機器を利用してインデックス作成を別々に行いたいの ですが、別々に作成したインデックスの統合が上手くいかず、困っ ている状態です。 (できれば、Fessの管理画面の機能としてサポートしてもらえると 助かったりしますが、可能でしょうか?) From ganosu0 @ gmail.com Fri Jul 16 03:00:01 2010 From: ganosu0 @ gmail.com (Sugano) Date: Fri, 16 Jul 2010 03:00:01 +0900 Subject: [fess-user 289] Re: =?iso-2022-jp?b?RmVzcyA0LjAgGyRCJEs4fiQxJEYbKEI=?= Message-ID: お世話になっております。すがのです。 あれば便利だと思っている機能について、対応可能かどうかは別に して一通り記載してみました。 ・フィールド指定検索やソート検索・検索結果の表示件数など 現在、フィールド指定検索やソート検索は、「Fess sort: contentLength」などの文字を検索フォームに直接入力することで 行えますが、googleの検索オプションみたいな感じで、ユーザ側に わかりやすいような感じで、オプション指定できればいいなと思い ました。 http://www.google.co.jp/advanced_search?hl=ja ・ラベル名などのデフォルト値の変更について 現在、ラベル名のデフォルト値が「-- ラベル --」ですが、Fess管 理画面からデフォルト値のラベル名を変更できるような機能があれ ばと思いました。 また、ラベル名に限らず、いくつかの設定値は、 application_ja.propertiesの内容を変更して対応していますが、 Fessのバージョンアップ対応のたびにこのファイルを変更するは面 倒な気もしますので、Fess管理画面側から内容の修正が行えるよう にして、fessのバックアップ/リストア機能で設定値の移行ができ れば便利だなと思いました。 ・クローラープロセスの一時中止・再開機能 クローラープロセスで大規模な処理を行っているときに、緊急で機 器の再起動などが必要になり、クローラープロセスを中断して1か らやり直しになるケースなどもあります。 そのため、プロセスの一時停止を可能にして、再開できるタイミン グになったらクローラープロセスを再開するなどの機能があると、 便利だと思いました。 ・ブラウザ種別判別による検索結果ページ(リンクなど)の変更 現在、検索結果で「file://XXXX」の形式のリンクは、IEで開くことができますが、FireFoxなど他のブラウザでは、直接開くことができないなど、IE用に最適化された状態です。 これを、携帯用ページみたいにFirefoxなどの別ブラウザ用に最適化したページを出力するなど(Firefoxだと「file://XXXX」を「file://///XXXX」で出力するなど)の、ブラウザ種別判別の機能(UserAgentによる制御機能?)があればいいなと思いました。 ・Fessバージョンアップ時の簡易設定移行機能 Fessバージョンアップ時に、以前のバージョンのFess設定を移行で きる機能があると便利だと思いました。 多分、バックアップ/リストア機能で実現できてるとは思いますが、 バックアップ/リストア機能だと、旧バージョンしか対応していな い情報を、新バージョン側に上書きして不具合を起こす可能性があ るかもしれないなど、管理者側が不安になる点もあるので、公式な 設定移行機能(手順)があると、安心できたりします。 ……と、Fessを利用してみて思った要望(だけ)を、色々と多く述べ てしまい恐縮ですが、今後の機能改善に役立つものがあるとすれば 嬉しいです。。。 > 菅谷です。 > > ありがとうございます! > ファイルの種類はmimetypeで検索条件が > できるようにはなっているものの、登録されている > mimetype がわからないと利用しにくいですね…。 > いただいたものをチケット化して検討したいと思います。 > > shinsuke > > > 2010年7月15日12:27 kazuto fukuda : > お世話になっております。福田です。 > > 今のところは必要という訳ではないのですが、 > > ・ファイルの種類(拡張子?)毎にラベルを付けられるといいか > もしれません。 > > ・検索結果画面で、ラベルをリストボックスではなくラジオボタ > ンでも選択できる > ようにする。(検索キーワードの欄の下辺りに表示) > > ・検索結果画面でキーワードは黒の太字で表示されますが、これ > を変更できる > と(色を赤にするとか)いいかも知れません。 > > ・検索結果画面を表示する時にパスマッピングする。 > > いつも注文ばかりですいません。よろしくお願いします。 > > 2010年7月15日9:42 Shinsuke Sugaya : >> 菅谷です。 >> >> ありがとうございます! >> 大変参考になりました。 >> 対応するチケットとして登録されていないものは >> チケット登録して検討したいと思います。 >> >> shinsuke >> >> 2010年7月15日9:32 Masayuki Shibata > co.jp>: >>> 柴田@亀岡市です。 >>> >>> ・ロールとラベルの連動。 >>> 小技ですし、企業内イントラ利用独特の要求仕様かと思いますが... >>> >>> ログインしないと検索できないようにしているのにラベルに >>> 表示される >>> と、見られない何かがあるかばれてしまいます。検索対象で >>> ないラベル >>> は隠していただくとありがたいです。 >>> >>> 開発関連文書なんかだと、置き場の名前 = 開発中の製品の仮 >>> 名称だった >>> りするので、特に外注さんにその存在が知られるのはコンプ >>> ライアンス >>> 上まずかったりします。 >>> >>> ・エラーメールの送信。 >>> クローラーが止まるなど、状態変化があったときに管理者宛 >>> にメールが >>> 飛んで来てくれるとウレシイです。 >>> >>> ・自サイト、ページへの組み込み方 >>> やればできるのかも知れないのですが、自分のサイトのペー >>> ジの右肩上 >>> とかに検索エディットボックスの形で置く方法が知りたいです。 >>> >>> Fess 4.0 ネタというより、マニュアル、ヘルプ系の充実の話 >>> かも知れ >>> ませんが。 >>> >>> ・ウェブ認証の追加 >>> イメージだけなのですが、Basic/Digest 認証以外の認証越え >>> もできる >>> とよいのになと思ったことはあります。 >>> >>> file:/// でファイルサーバーを検索対象にできるので NTLM >>> 認証など >>> を越えられると使い途が広がります。 >>> >>> ・クロールがスキップされたものを知る方法 >>> パスワードをかけたり、例えば Excel で開いたときにマクロをいき >>> なり実行しないよう、問い合わせのダイアログが出るような >>> ものも同 >>> 様にエラーでクロールされずスキップしていますが、エラー >>> ではなく >>> 検索対象外 (= 仕様) ということだと思います。 >>> >>> ほかにサイズの大きいものもスキップされますが、そのよう >>> なスキッ >>> プされたファイルのエラー扱いではないログ... とか、管理 >>> 画面でス >>> キップされた数などがわかるとよいと思ったことはあります。 >>> >>> 強い要望ではありませんが... >>> >>> とりあえず、パッと思いついたものを書いてます。 >>> 難易度は考慮していません (というかわかりません)。 >>> >>> _______________________________________________ >>> Fess-user mailing list >>> Fess-user @ lists.sourceforge.jp >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From shinsuke @ yahoo.co.jp Fri Jul 16 06:33:00 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 16 Jul 2010 06:33:00 +0900 Subject: [fess-user 290] Re: =?iso-2022-jp?b?GyRCJSQlcyVHJUMlLyU5JE46bkAuJCxEZDtfJDcbKEI=?= =?iso-2022-jp?b?GyRCJF4kORsoQg==?= In-Reply-To: References: Message-ID: 菅谷です。 > ご質問があるのですが、クロールで集めた情報(H2DB)を、SolrDBへ > 手動で登録する方法(機能など)はありませんでしょうか? 現状、ないです。クロールデータについては パフォーマンスに大きな影響を与えるので 消せるときに消す感じにしています。ただ 今回のように例外的にクロールを抜けるような 場合に残せるかどうかは検討してみます。 > ※少なくとも、catalina.outにはエラーメッセージなどは出力され > ていませんでした。他のログはこれから調べます。 最新の環境であれば、fess_crawler.out が どうなっているかがポイントになるかと思います。 よろしくお願いいたします。 shinsuke 2010年7月16日1:17 Sugano : > 初めまして、すがのと申します。 > > ご質問があるのですが、クロールで集めた情報(H2DB)を、SolrDBへ > 手動で登録する方法(機能など)はありませんでしょうか? > (クロール実行中もしくはクロール停止時に手動実行) > > というのも、私のところでも桑田さんとほぼ同様の現象が発生して > おり、 >> クローラープロセスが実行中にも関わらず、ドキュメント数が増 >> 加しなくなります。 >> システム設定画面で何度が停止->実行を繰り返しましたが状況が >> 変わりません。 > > 具体的には、以下2つの現象のいずれかが発生することが多く、 > > 事象1.クローラプロセスが稼働中にもかかわらず、クローラ側DB > (\webapp\fess\WEB-INF\db)やSolrDBへの登録が行われない。 > > 事象2.クローラ側DB(\webapp\fess\WEB-INF\db)への登録はされ > 続けるが、SolrDBへの登録が行われなず、クローラ側DBのみが増え > 続ける。 > > 上記の現象発生後に、クローラで収集したSolrDBへの未登録情報を > 破棄するのはもったいないので、収集した情報をSolrDBへ手動登録 > する手段を知りたいと考えております。 > (クロールを再度起動すると、前回収集した情報がすべて消えてし > まい、事象2で数万件分の情報が溜まっていたとしても全てクリア > されてしまうため、クリアされずにDB登録する方法が知りたいで > す。) > > ちなみに、本現象の原因については、下記を参考にして現在調査中 > ですが、現時点では原因は特定できていません。 >> おそらく crawler.out か catalina.out などに出力されて >> いるかと思います。以下を参照してみてください。 >> >> http://fess.sourceforge.jp/ja/3.0/config/logging.html >> > ※少なくとも、catalina.outにはエラーメッセージなどは出力され > ていませんでした。他のログはこれから調べます。 > ※ファイルパスの長さが260字以上(WindowsのMAX_PATH値以上)のデ > ィレクトリ・ファイルもあるため、それが原因の一つの可能性も有 > り? > ※上記、もう少し調べてわからないようであれば、再度詳細な情報 > をお知らせします。 > > 以上、よろしくお願い致します。 > >> 菅谷です。 >> >> おそらく crawler.out か catalina.out などに出力されて >> いるかと思います。以下を参照してみてください。 >> >> http://fess.sourceforge.jp/ja/3.0/config/logging.html >> >> よろしくお願いいたします。 >> >> shinsuke >> >> >> 2010年7月14日16:53 Tetsutomo Kuwata : >> 初めまして、桑田と申します。 >> >> この度始めてFessを導入しインデックス作成を実行しているとこ >> ろなのですが >> クローラープロセスが実行中にも関わらず、ドキュメント数が増 >> 加しなくなります。 >> システム設定画面で何度が停止->実行を繰り返しましたが状況が >> 変わりません。 >> どの辺を調べれば原因がわかりますでしょうか。 >> >> 環境 >> Windows Server 2003 R2 >> JDK 6 Update 20 >> fess-server-3.1.1(サービスとして登録) >> >> 対象ドキュメント: ファイルシステム 23万件 >> 現在のドキュメント数: 4万件 >> >> >> 以上、よろしくお願い致します。 >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From shinsuke @ yahoo.co.jp Fri Jul 16 06:44:17 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 16 Jul 2010 06:44:17 +0900 Subject: [fess-user 291] Re: =?iso-2022-jp?b?GyRCSiM/dCROJSQlcyVHJUMlLyU5JE5FfTlnJEsbKEI=?= =?iso-2022-jp?b?GyRCJEQkJCRGGyhC?= In-Reply-To: References: Message-ID: 菅谷です。 現在、Fess の管理画面上には Solr のインデックスを 統合する機能はありません。Fess 上でできるかは 検討したいと思いますが、いくつか拡張しなければ ならない点もあるので、Solr の mergeindexes を 利用していただくしかないかと思います。すいません。 shinsuke 2010年7月16日1:52 Sugano : > お世話になっております。すがのです。 > > 別々の機器で稼動しているFess上で作成されたインデックスデータ > を、一つに統合したいと思っているのですが、インデックスの統合 > 機能などはありますでしょうか? > > インデックス作成に利用できる機器が、スペックが低い機器しかな > いため、複数機器を利用してインデックス作成を別々に行いたいの > ですが、別々に作成したインデックスの統合が上手くいかず、困っ > ている状態です。 > (できれば、Fessの管理画面の機能としてサポートしてもらえると > 助かったりしますが、可能でしょうか?) > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From shinsuke @ yahoo.co.jp Fri Jul 16 06:52:03 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 16 Jul 2010 06:52:03 +0900 Subject: [fess-user 292] Re: =?iso-2022-jp?b?RmVzcyA0LjAgGyRCJEs4fiQxJEYbKEI=?= In-Reply-To: References: Message-ID: 菅谷です。 ありがとうございます! 検討させていただきます。 > ・ブラウザ種別判別による検索結果ページ(リンクなど)の変更 これについては既に実装しているつもりなのですが、 Firefox の場合、 http://kb.mozillazine.org/Links_to_local_pages_don%27t_work にあるように設定を変えるか、アドオンを入れるかしないと 表示されないと思うのですが、これをしてもダメな感じで しょうか? shinsuke 2010年7月16日3:00 Sugano : > お世話になっております。すがのです。 > > あれば便利だと思っている機能について、対応可能かどうかは別に > して一通り記載してみました。 > > ・フィールド指定検索やソート検索・検索結果の表示件数など > 現在、フィールド指定検索やソート検索は、「Fess sort: > contentLength」などの文字を検索フォームに直接入力することで > 行えますが、googleの検索オプションみたいな感じで、ユーザ側に > わかりやすいような感じで、オプション指定できればいいなと思い > ました。 > http://www.google.co.jp/advanced_search?hl=ja > > > ・ラベル名などのデフォルト値の変更について > 現在、ラベル名のデフォルト値が「-- ラベル --」ですが、Fess管 > 理画面からデフォルト値のラベル名を変更できるような機能があれ > ばと思いました。 > また、ラベル名に限らず、いくつかの設定値は、 > application_ja.propertiesの内容を変更して対応していますが、 > Fessのバージョンアップ対応のたびにこのファイルを変更するは面 > 倒な気もしますので、Fess管理画面側から内容の修正が行えるよう > にして、fessのバックアップ/リストア機能で設定値の移行ができ > れば便利だなと思いました。 > > > ・クローラープロセスの一時中止・再開機能 > クローラープロセスで大規模な処理を行っているときに、緊急で機 > 器の再起動などが必要になり、クローラープロセスを中断して1か > らやり直しになるケースなどもあります。 > そのため、プロセスの一時停止を可能にして、再開できるタイミン > グになったらクローラープロセスを再開するなどの機能があると、 > 便利だと思いました。 > > > ・ブラウザ種別判別による検索結果ページ(リンクなど)の変更 > 現在、検索結果で「file://XXXX」の形式のリンクは、IEで開くことができますが、FireFoxなど他のブラウザでは、直接開くことができないなど、IE用に最適化された状態です。 > これを、携帯用ページみたいにFirefoxなどの別ブラウザ用に最適化したページを出力するなど(Firefoxだと「file://XXXX」を「file://///XXXX」で出力するなど)の、ブラウザ種別判別の機能(UserAgentによる制御機能?)があればいいなと思いました。 > > > ・Fessバージョンアップ時の簡易設定移行機能 > Fessバージョンアップ時に、以前のバージョンのFess設定を移行で > きる機能があると便利だと思いました。 > 多分、バックアップ/リストア機能で実現できてるとは思いますが、 > バックアップ/リストア機能だと、旧バージョンしか対応していな > い情報を、新バージョン側に上書きして不具合を起こす可能性があ > るかもしれないなど、管理者側が不安になる点もあるので、公式な > 設定移行機能(手順)があると、安心できたりします。 > > > ……と、Fessを利用してみて思った要望(だけ)を、色々と多く述べ > てしまい恐縮ですが、今後の機能改善に役立つものがあるとすれば > 嬉しいです。。。 > >> 菅谷です。 >> >> ありがとうございます! >> ファイルの種類はmimetypeで検索条件が >> できるようにはなっているものの、登録されている >> mimetype がわからないと利用しにくいですね…。 >> いただいたものをチケット化して検討したいと思います。 >> >> shinsuke >> >> >> 2010年7月15日12:27 kazuto fukuda : >> お世話になっております。福田です。 >> >> 今のところは必要という訳ではないのですが、 >> >> ・ファイルの種類(拡張子?)毎にラベルを付けられるといいか >> もしれません。 >> >> ・検索結果画面で、ラベルをリストボックスではなくラジオボタ >> ンでも選択できる >> ようにする。(検索キーワードの欄の下辺りに表示) >> >> ・検索結果画面でキーワードは黒の太字で表示されますが、これ >> を変更できる >> と(色を赤にするとか)いいかも知れません。 >> >> ・検索結果画面を表示する時にパスマッピングする。 >> >> いつも注文ばかりですいません。よろしくお願いします。 >> >> 2010年7月15日9:42 Shinsuke Sugaya : >>> 菅谷です。 >>> >>> ありがとうございます! >>> 大変参考になりました。 >>> 対応するチケットとして登録されていないものは >>> チケット登録して検討したいと思います。 >>> >>> shinsuke >>> >>> 2010年7月15日9:32 Masayuki Shibata >> co.jp>: >>>> 柴田@亀岡市です。 >>>> >>>> ・ロールとラベルの連動。 >>>> 小技ですし、企業内イントラ利用独特の要求仕様かと思いますが... >>>> >>>> ログインしないと検索できないようにしているのにラベルに >>>> 表示される >>>> と、見られない何かがあるかばれてしまいます。検索対象で >>>> ないラベル >>>> は隠していただくとありがたいです。 >>>> >>>> 開発関連文書なんかだと、置き場の名前 = 開発中の製品の仮 >>>> 名称だった >>>> りするので、特に外注さんにその存在が知られるのはコンプ >>>> ライアンス >>>> 上まずかったりします。 >>>> >>>> ・エラーメールの送信。 >>>> クローラーが止まるなど、状態変化があったときに管理者宛 >>>> にメールが >>>> 飛んで来てくれるとウレシイです。 >>>> >>>> ・自サイト、ページへの組み込み方 >>>> やればできるのかも知れないのですが、自分のサイトのペー >>>> ジの右肩上 >>>> とかに検索エディットボックスの形で置く方法が知りたいです。 >>>> >>>> Fess 4.0 ネタというより、マニュアル、ヘルプ系の充実の話 >>>> かも知れ >>>> ませんが。 >>>> >>>> ・ウェブ認証の追加 >>>> イメージだけなのですが、Basic/Digest 認証以外の認証越え >>>> もできる >>>> とよいのになと思ったことはあります。 >>>> >>>> file:/// でファイルサーバーを検索対象にできるので NTLM >>>> 認証など >>>> を越えられると使い途が広がります。 >>>> >>>> ・クロールがスキップされたものを知る方法 >>>> パスワードをかけたり、例えば Excel で開いたときにマクロをいき >>>> なり実行しないよう、問い合わせのダイアログが出るような >>>> ものも同 >>>> 様にエラーでクロールされずスキップしていますが、エラー >>>> ではなく >>>> 検索対象外 (= 仕様) ということだと思います。 >>>> >>>> ほかにサイズの大きいものもスキップされますが、そのよう >>>> なスキッ >>>> プされたファイルのエラー扱いではないログ... とか、管理 >>>> 画面でス >>>> キップされた数などがわかるとよいと思ったことはあります。 >>>> >>>> 強い要望ではありませんが... >>>> >>>> とりあえず、パッと思いついたものを書いてます。 >>>> 難易度は考慮していません (というかわかりません)。 >>>> >>>> _______________________________________________ >>>> Fess-user mailing list >>>> Fess-user @ lists.sourceforge.jp >>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> >>> >>> _______________________________________________ >>> Fess-user mailing list >>> Fess-user @ lists.sourceforge.jp >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From shinsuke @ yahoo.co.jp Fri Jul 16 10:21:09 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 16 Jul 2010 10:21:09 +0900 Subject: [fess-user 293] Re: =?iso-2022-jp?b?RmVzcyA0LjAgGyRCJEs4fiQxJEYbKEI=?= In-Reply-To: References: Message-ID: 菅谷です。 すいません、もう一つ…。 > また、ラベル名に限らず、いくつかの設定値は、 > application_ja.propertiesの内容を変更して対応していますが、 application_ja.properties はただのメッセージなので ここに設定値を書くことは想定していなかったのですが、 どのような設定を記述されているのでしょうか? shinsuke 2010年7月16日3:00 Sugano : > お世話になっております。すがのです。 > > あれば便利だと思っている機能について、対応可能かどうかは別に > して一通り記載してみました。 > > ・フィールド指定検索やソート検索・検索結果の表示件数など > 現在、フィールド指定検索やソート検索は、「Fess sort: > contentLength」などの文字を検索フォームに直接入力することで > 行えますが、googleの検索オプションみたいな感じで、ユーザ側に > わかりやすいような感じで、オプション指定できればいいなと思い > ました。 > http://www.google.co.jp/advanced_search?hl=ja > > > ・ラベル名などのデフォルト値の変更について > 現在、ラベル名のデフォルト値が「-- ラベル --」ですが、Fess管 > 理画面からデフォルト値のラベル名を変更できるような機能があれ > ばと思いました。 > また、ラベル名に限らず、いくつかの設定値は、 > application_ja.propertiesの内容を変更して対応していますが、 > Fessのバージョンアップ対応のたびにこのファイルを変更するは面 > 倒な気もしますので、Fess管理画面側から内容の修正が行えるよう > にして、fessのバックアップ/リストア機能で設定値の移行ができ > れば便利だなと思いました。 > > > ・クローラープロセスの一時中止・再開機能 > クローラープロセスで大規模な処理を行っているときに、緊急で機 > 器の再起動などが必要になり、クローラープロセスを中断して1か > らやり直しになるケースなどもあります。 > そのため、プロセスの一時停止を可能にして、再開できるタイミン > グになったらクローラープロセスを再開するなどの機能があると、 > 便利だと思いました。 > > > ・ブラウザ種別判別による検索結果ページ(リンクなど)の変更 > 現在、検索結果で「file://XXXX」の形式のリンクは、IEで開くことができますが、FireFoxなど他のブラウザでは、直接開くことができないなど、IE用に最適化された状態です。 > これを、携帯用ページみたいにFirefoxなどの別ブラウザ用に最適化したページを出力するなど(Firefoxだと「file://XXXX」を「file://///XXXX」で出力するなど)の、ブラウザ種別判別の機能(UserAgentによる制御機能?)があればいいなと思いました。 > > > ・Fessバージョンアップ時の簡易設定移行機能 > Fessバージョンアップ時に、以前のバージョンのFess設定を移行で > きる機能があると便利だと思いました。 > 多分、バックアップ/リストア機能で実現できてるとは思いますが、 > バックアップ/リストア機能だと、旧バージョンしか対応していな > い情報を、新バージョン側に上書きして不具合を起こす可能性があ > るかもしれないなど、管理者側が不安になる点もあるので、公式な > 設定移行機能(手順)があると、安心できたりします。 > > > ……と、Fessを利用してみて思った要望(だけ)を、色々と多く述べ > てしまい恐縮ですが、今後の機能改善に役立つものがあるとすれば > 嬉しいです。。。 > >> 菅谷です。 >> >> ありがとうございます! >> ファイルの種類はmimetypeで検索条件が >> できるようにはなっているものの、登録されている >> mimetype がわからないと利用しにくいですね…。 >> いただいたものをチケット化して検討したいと思います。 >> >> shinsuke >> >> >> 2010年7月15日12:27 kazuto fukuda : >> お世話になっております。福田です。 >> >> 今のところは必要という訳ではないのですが、 >> >> ・ファイルの種類(拡張子?)毎にラベルを付けられるといいか >> もしれません。 >> >> ・検索結果画面で、ラベルをリストボックスではなくラジオボタ >> ンでも選択できる >> ようにする。(検索キーワードの欄の下辺りに表示) >> >> ・検索結果画面でキーワードは黒の太字で表示されますが、これ >> を変更できる >> と(色を赤にするとか)いいかも知れません。 >> >> ・検索結果画面を表示する時にパスマッピングする。 >> >> いつも注文ばかりですいません。よろしくお願いします。 >> >> 2010年7月15日9:42 Shinsuke Sugaya : >>> 菅谷です。 >>> >>> ありがとうございます! >>> 大変参考になりました。 >>> 対応するチケットとして登録されていないものは >>> チケット登録して検討したいと思います。 >>> >>> shinsuke >>> >>> 2010年7月15日9:32 Masayuki Shibata >> co.jp>: >>>> 柴田@亀岡市です。 >>>> >>>> ・ロールとラベルの連動。 >>>> 小技ですし、企業内イントラ利用独特の要求仕様かと思いますが... >>>> >>>> ログインしないと検索できないようにしているのにラベルに >>>> 表示される >>>> と、見られない何かがあるかばれてしまいます。検索対象で >>>> ないラベル >>>> は隠していただくとありがたいです。 >>>> >>>> 開発関連文書なんかだと、置き場の名前 = 開発中の製品の仮 >>>> 名称だった >>>> りするので、特に外注さんにその存在が知られるのはコンプ >>>> ライアンス >>>> 上まずかったりします。 >>>> >>>> ・エラーメールの送信。 >>>> クローラーが止まるなど、状態変化があったときに管理者宛 >>>> にメールが >>>> 飛んで来てくれるとウレシイです。 >>>> >>>> ・自サイト、ページへの組み込み方 >>>> やればできるのかも知れないのですが、自分のサイトのペー >>>> ジの右肩上 >>>> とかに検索エディットボックスの形で置く方法が知りたいです。 >>>> >>>> Fess 4.0 ネタというより、マニュアル、ヘルプ系の充実の話 >>>> かも知れ >>>> ませんが。 >>>> >>>> ・ウェブ認証の追加 >>>> イメージだけなのですが、Basic/Digest 認証以外の認証越え >>>> もできる >>>> とよいのになと思ったことはあります。 >>>> >>>> file:/// でファイルサーバーを検索対象にできるので NTLM >>>> 認証など >>>> を越えられると使い途が広がります。 >>>> >>>> ・クロールがスキップされたものを知る方法 >>>> パスワードをかけたり、例えば Excel で開いたときにマクロをいき >>>> なり実行しないよう、問い合わせのダイアログが出るような >>>> ものも同 >>>> 様にエラーでクロールされずスキップしていますが、エラー >>>> ではなく >>>> 検索対象外 (= 仕様) ということだと思います。 >>>> >>>> ほかにサイズの大きいものもスキップされますが、そのよう >>>> なスキッ >>>> プされたファイルのエラー扱いではないログ... とか、管理 >>>> 画面でス >>>> キップされた数などがわかるとよいと思ったことはあります。 >>>> >>>> 強い要望ではありませんが... >>>> >>>> とりあえず、パッと思いついたものを書いてます。 >>>> 難易度は考慮していません (というかわかりません)。 >>>> >>>> _______________________________________________ >>>> Fess-user mailing list >>>> Fess-user @ lists.sourceforge.jp >>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> >>> >>> _______________________________________________ >>> Fess-user mailing list >>> Fess-user @ lists.sourceforge.jp >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From ganosu0 @ gmail.com Sat Jul 17 10:04:12 2010 From: ganosu0 @ gmail.com (Sugano) Date: Sat, 17 Jul 2010 10:04:12 +0900 Subject: [fess-user 294] Re: =?iso-2022-jp?b?RmVzcyA0LjAgGyRCJEs4fiQxJEYbKEI=?= In-Reply-To: References: Message-ID: <11CB254BF7EEEBganosu0@gmail.com> お世話になってます。 すがのです。 > application_ja.properties はただのメッセージなので > ここに設定値を書くことは想定していなかったのですが、 > どのような設定を記述されているのでしょうか? 上記、ラベル名(「-- ラベル --」)やhtmlの、ロゴのaltで の文字変更などで、該当ファイルの修正(デザイン機能と併用)を行 っていました。 ※設定値というよりはメッセージ内容の修正でした。  誤解させてしまいすいませんでした。 ただ、該当ファイルの変更を想定していなかったということなので、 できるだけデザイン機能側を使って、jspファイルの修正でメッ セージ変更を行うほうが正しい方法なのかなとも認識しました。 > ----Original Message---- > Fri, 16 Jul 2010 10:21:09 +0900 > From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> > Reply-To: fess-user @ lists.sourceforge.jp > To: fess-user @ lists.sourceforge.jp > Subject: [fess-user 293] Re:Fess 4.0 に向けて > > 菅谷です。 > > すいません、もう一つ…。 > > > また、ラベル名に限らず、いくつかの設定値は、 > > application_ja.propertiesの内容を変更して対応していますが、 > > application_ja.properties はただのメッセージなので > ここに設定値を書くことは想定していなかったのですが、 > どのような設定を記述されているのでしょうか? > > shinsuke > > > 2010年7月16日3:00 Sugano <ganosu0 @ gmail.com>: > > お世話になっております。すがのです。 > > > > あれば便利だと思っている機能について、対応可能かどうかは別に > > して一通り記載してみました。 > > > > ・フィールド指定検索やソート検索・検索結果の表示件数など > > 現在、フィールド指定検索やソート検索は、「Fess sort: > > contentLength」などの文字を検索フォームに直接入力することで > > 行えますが、googleの検索オプションみたいな感じで、ユーザ側に > > わかりやすいような感じで、オプション指定できればいいなと思い > > ました。 > > http://www.google.co.jp/advanced_search?hl=ja > > > > > > ・ラベル名などのデフォルト値の変更について > > 現在、ラベル名のデフォルト値が「-- ラベル --」ですが、Fess管 > > 理画面からデフォルト値のラベル名を変更できるような機能があれ > > ばと思いました。 > > また、ラベル名に限らず、いくつかの設定値は、 > > application_ja.propertiesの内容を変更して対応していますが、 > > Fessのバージョンアップ対応のたびにこのファイルを変更するは面 > > 倒な気もしますので、Fess管理画面側から内容の修正が行えるよう > > にして、fessのバックアップ/リストア機能で設定値の移行ができ > > れば便利だなと思いました。 > > > > > > ・クローラープロセスの一時中止・再開機能 > > クローラープロセスで大規模な処理を行っているときに、緊急で機 > > 器の再起動などが必要になり、クローラープロセスを中断して1か > > らやり直しになるケースなどもあります。 > > そのため、プロセスの一時停止を可能にして、再開できるタイミン > > グになったらクローラープロセスを再開するなどの機能があると、 > > 便利だと思いました。 > > > > > > ・ブラウザ種別判別による検索結果ページ(リンクなど)の変更 > > 現在、検索結果で「file://XXXX」の形式のリンクは、IEで開くこと > > ができますが、FireFoxなど他のブラウザでは、直接開くことができ > > ないなど、IE用に最適化された状態です。 > > これを、携帯用ページみたいにFirefoxなどの別ブラウザ用に最適化 > > したページを出力するなど(Firefoxだと「file://XXXX」を「file: > > /////XXXX」で出力するなど)の、ブラウザ種別判別の機能 > > (UserAgentによる制御機能?)があればいいなと思いました。 > > > > > > ・Fessバージョンアップ時の簡易設定移行機能 > > Fessバージョンアップ時に、以前のバージョンのFess設定を移行で > > きる機能があると便利だと思いました。 > > 多分、バックアップ/リストア機能で実現できてるとは思いますが、 > > バックアップ/リストア機能だと、旧バージョンしか対応していな > > い情報を、新バージョン側に上書きして不具合を起こす可能性があ > > るかもしれないなど、管理者側が不安になる点もあるので、公式な > > 設定移行機能(手順)があると、安心できたりします。 > > > > > > ……と、Fessを利用してみて思った要望(だけ)を、色々と多く述べ > > てしまい恐縮ですが、今後の機能改善に役立つものがあるとすれば > > 嬉しいです。。。 > > > >> 菅谷です。 > >> > >> ありがとうございます! > >> ファイルの種類はmimetypeで検索条件が > >> できるようにはなっているものの、登録されている > >> mimetype がわからないと利用しにくいですね…。 > >> いただいたものをチケット化して検討したいと思います。 > >> > >> shinsuke > >> > >> > >> 2010年7月15日12:27 kazuto fukuda <kf96614 @ gmail.com>: > >> お世話になっております。福田です。 > >> > >> 今のところは必要という訳ではないのですが、 > >> > >> ・ファイルの種類(拡張子?)毎にラベルを付けられるといいか > >> もしれません。 > >> > >> ・検索結果画面で、ラベルをリストボックスではなくラジオボタ > >> ンでも選択できる > >> ようにする。(検索キーワードの欄の下辺りに表示) > >> > >> ・検索結果画面でキーワードは黒の太字で表示されますが、これ > >> を変更できる > >> と(色を赤にするとか)いいかも知れません。 > >> > >> ・検索結果画面を表示する時にパスマッピングする。 > >> > >> いつも注文ばかりですいません。よろしくお願いします。 > >> > >> 2010年7月15日9:42 Shinsuke Sugaya <shinsuke @ yahoo.co.jp>: > >>> 菅谷です。 > >>> > >>> ありがとうございます! > >>> 大変参考になりました。 > >>> 対応するチケットとして登録されていないものは > >>> チケット登録して検討したいと思います。 > >>> > >>> shinsuke > >>> > >>> 2010年7月15日9:32 Masayuki Shibata <mshibata @ shimadzu. > >>> co.jp>: > >>>> 柴田@亀岡市です。 > >>>> > >>>> ・ロールとラベルの連動。 > >>>> 小技ですし、企業内イントラ利用独特の要求仕様かと思います > >>>> が... > >>>> > >>>> ログインしないと検索できないようにしているのにラベルに > >>>> 表示される > >>>> と、見られない何かがあるかばれてしまいます。検索対象で > >>>> ないラベル > >>>> は隠していただくとありがたいです。 > >>>> > >>>> 開発関連文書なんかだと、置き場の名前 = 開発中の製品の仮 > >>>> 名称だった > >>>> りするので、特に外注さんにその存在が知られるのはコンプ > >>>> ライアンス > >>>> 上まずかったりします。 > >>>> > >>>> ・エラーメールの送信。 > >>>> クローラーが止まるなど、状態変化があったときに管理者宛 > >>>> にメールが > >>>> 飛んで来てくれるとウレシイです。 > >>>> > >>>> ・自サイト、ページへの組み込み方 > >>>> やればできるのかも知れないのですが、自分のサイトのペー > >>>> ジの右肩上 > >>>> とかに検索エディットボックスの形で置く方法が知りたいです。 > >>>> > >>>> Fess 4.0 ネタというより、マニュアル、ヘルプ系の充実の話 > >>>> かも知れ > >>>> ませんが。 > >>>> > >>>> ・ウェブ認証の追加 > >>>> イメージだけなのですが、Basic/Digest 認証以外の認証越え > >>>> もできる > >>>> とよいのになと思ったことはあります。 > >>>> > >>>> file:/// でファイルサーバーを検索対象にできるので NTLM > >>>> 認証など > >>>> を越えられると使い途が広がります。 > >>>> > >>>> ・クロールがスキップされたものを知る方法 > >>>> パスワードをかけたり、例えば Excel で開いたときにマクロを > >>>> いき > >>>> なり実行しないよう、問い合わせのダイアログが出るような > >>>> ものも同 > >>>> 様にエラーでクロールされずスキップしていますが、エラー > >>>> ではなく > >>>> 検索対象外 (= 仕様) ということだと思います。 > >>>> > >>>> ほかにサイズの大きいものもスキップされますが、そのよう > >>>> なスキッ > >>>> プされたファイルのエラー扱いではないログ... とか、管理 > >>>> 画面でス > >>>> キップされた数などがわかるとよいと思ったことはあります。 > >>>> > >>>> 強い要望ではありませんが... > >>>> > >>>> とりあえず、パッと思いついたものを書いてます。 > >>>> 難易度は考慮していません (というかわかりません)。 > >>>> > >>>> _______________________________________________ > >>>> Fess-user mailing list > >>>> Fess-user @ lists.sourceforge.jp > >>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user > >>>> > >>> > >>> _______________________________________________ > >>> Fess-user mailing list > >>> Fess-user @ lists.sourceforge.jp > >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user > >>> > >> > >> _______________________________________________ > >> Fess-user mailing list > >> Fess-user @ lists.sourceforge.jp > >> http://lists.sourceforge.jp/mailman/listinfo/fess-user > >> > > > > _______________________________________________ > > Fess-user mailing list > > Fess-user @ lists.sourceforge.jp > > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user From ganosu0 @ gmail.com Sat Jul 17 10:35:15 2010 From: ganosu0 @ gmail.com (Sugano) Date: Sat, 17 Jul 2010 10:35:15 +0900 Subject: [fess-user 295] Re: =?iso-2022-jp?b?RmVzcyA0LjAgGyRCJEs4fiQxJEYbKEI=?= In-Reply-To: <AANLkTimCigBwv7si5nOPj9oiFniBjWgqZvzvUU8kmvgz@mail.gmail.com> References: <FCB24478BDED5ganosu0@gmail.com> <AANLkTimCigBwv7si5nOPj9oiFniBjWgqZvzvUU8kmvgz@mail.gmail.com> Message-ID: <12CB25504E6A14ganosu0@gmail.com> お世話になってます。 すがのです。 > > ・ブラウザ種別判別による検索結果ページ(リンクなど)の変更 > > これについては既に実装しているつもりなのですが、 すいませんでした。もう少し調べてみます。 (対応ブラウザ機能は携帯電話向け専用と思い込んでいましたの で) > Firefox の場合、 > > http://kb.mozillazine.org/Links_to_local_pages_don%27t_work > > にあるように設定を変えるか、アドオンを入れるかしないと > 表示されないと思うのですが、これをしてもダメな感じで > しょうか? 上記ですが、最新版Firefox3.6.6で設定しましたが上手く設定でき ず(自分の設定方法が間違っている可能性も高いですが)、また、少 し情報が古い(Firefox1.5以降)ので、最近のFirefox3.6にどこまで 対応しているかが少し疑問だったりします。 (Firefoxのデフォルトのセキュリティ設定が、バージョンが変わる たびに変更されているような気もするので) 最新のFirefox3.6であれば、「file://///」で開く分には、 Firefoxの設定変更無しでファイルを開くことができるみたいなの で、できるだけブラウザ側の設定変更無しで対応できればと思って たりします。 (もう少し調べてみます) あと、私個人のみがFirefoxを使って検索エンジンを利用するので あればともかく、PC知識の少ない人も検索エンジンを使うことを想 定していたりするので、他の一般ユーザ側への設定変更依頼や設定 変更に関するサポートを極力少なくしたいと考えていたりもします。 (ユーザは楽でいいですが、裏方である管理者は苦労する一方だっ たりしますが。。。) > ----Original Message---- > Fri, 16 Jul 2010 06:52:03 +0900 > From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> > Reply-To: fess-user @ lists.sourceforge.jp > To: fess-user @ lists.sourceforge.jp > Subject: [fess-user 292] Re:Fess 4.0 に向けて > > 菅谷です。 > > ありがとうございます! > 検討させていただきます。 > > > ・ブラウザ種別判別による検索結果ページ(リンクなど)の変更 > > これについては既に実装しているつもりなのですが、 > Firefox の場合、 > > http://kb.mozillazine.org/Links_to_local_pages_don%27t_work > > にあるように設定を変えるか、アドオンを入れるかしないと > 表示されないと思うのですが、これをしてもダメな感じで > しょうか? > > shinsuke > > > 2010年7月16日3:00 Sugano <ganosu0 @ gmail.com>: > > お世話になっております。すがのです。 > > > > あれば便利だと思っている機能について、対応可能かどうかは別に > > して一通り記載してみました。 > > > > ・フィールド指定検索やソート検索・検索結果の表示件数など > > 現在、フィールド指定検索やソート検索は、「Fess sort: > > contentLength」などの文字を検索フォームに直接入力することで > > 行えますが、googleの検索オプションみたいな感じで、ユーザ側に > > わかりやすいような感じで、オプション指定できればいいなと思い > > ました。 > > http://www.google.co.jp/advanced_search?hl=ja > > > > > > ・ラベル名などのデフォルト値の変更について > > 現在、ラベル名のデフォルト値が「-- ラベル --」ですが、Fess管 > > 理画面からデフォルト値のラベル名を変更できるような機能があれ > > ばと思いました。 > > また、ラベル名に限らず、いくつかの設定値は、 > > application_ja.propertiesの内容を変更して対応していますが、 > > Fessのバージョンアップ対応のたびにこのファイルを変更するは面 > > 倒な気もしますので、Fess管理画面側から内容の修正が行えるよう > > にして、fessのバックアップ/リストア機能で設定値の移行ができ > > れば便利だなと思いました。 > > > > > > ・クローラープロセスの一時中止・再開機能 > > クローラープロセスで大規模な処理を行っているときに、緊急で機 > > 器の再起動などが必要になり、クローラープロセスを中断して1か > > らやり直しになるケースなどもあります。 > > そのため、プロセスの一時停止を可能にして、再開できるタイミン > > グになったらクローラープロセスを再開するなどの機能があると、 > > 便利だと思いました。 > > > > > > ・ブラウザ種別判別による検索結果ページ(リンクなど)の変更 > > 現在、検索結果で「file://XXXX」の形式のリンクは、IEで開くこと > > ができますが、FireFoxなど他のブラウザでは、直接開くことができ > > ないなど、IE用に最適化された状態です。 > > これを、携帯用ページみたいにFirefoxなどの別ブラウザ用に最適化 > > したページを出力するなど(Firefoxだと「file://XXXX」を「file: > > /////XXXX」で出力するなど)の、ブラウザ種別判別の機能 > > (UserAgentによる制御機能?)があればいいなと思いました。 > > > > > > ・Fessバージョンアップ時の簡易設定移行機能 > > Fessバージョンアップ時に、以前のバージョンのFess設定を移行で > > きる機能があると便利だと思いました。 > > 多分、バックアップ/リストア機能で実現できてるとは思いますが、 > > バックアップ/リストア機能だと、旧バージョンしか対応していな > > い情報を、新バージョン側に上書きして不具合を起こす可能性があ > > るかもしれないなど、管理者側が不安になる点もあるので、公式な > > 設定移行機能(手順)があると、安心できたりします。 > > > > > > ……と、Fessを利用してみて思った要望(だけ)を、色々と多く述べ > > てしまい恐縮ですが、今後の機能改善に役立つものがあるとすれば > > 嬉しいです。。。 > > > >> 菅谷です。 > >> > >> ありがとうございます! > >> ファイルの種類はmimetypeで検索条件が > >> できるようにはなっているものの、登録されている > >> mimetype がわからないと利用しにくいですね…。 > >> いただいたものをチケット化して検討したいと思います。 > >> > >> shinsuke > >> > >> > >> 2010年7月15日12:27 kazuto fukuda <kf96614 @ gmail.com>: > >> お世話になっております。福田です。 > >> > >> 今のところは必要という訳ではないのですが、 > >> > >> ・ファイルの種類(拡張子?)毎にラベルを付けられるといいか > >> もしれません。 > >> > >> ・検索結果画面で、ラベルをリストボックスではなくラジオボタ > >> ンでも選択できる > >> ようにする。(検索キーワードの欄の下辺りに表示) > >> > >> ・検索結果画面でキーワードは黒の太字で表示されますが、これ > >> を変更できる > >> と(色を赤にするとか)いいかも知れません。 > >> > >> ・検索結果画面を表示する時にパスマッピングする。 > >> > >> いつも注文ばかりですいません。よろしくお願いします。 > >> > >> 2010年7月15日9:42 Shinsuke Sugaya <shinsuke @ yahoo.co.jp>: > >>> 菅谷です。 > >>> > >>> ありがとうございます! > >>> 大変参考になりました。 > >>> 対応するチケットとして登録されていないものは > >>> チケット登録して検討したいと思います。 > >>> > >>> shinsuke > >>> > >>> 2010年7月15日9:32 Masayuki Shibata <mshibata @ shimadzu. > >>> co.jp>: > >>>> 柴田@亀岡市です。 > >>>> > >>>> ・ロールとラベルの連動。 > >>>> 小技ですし、企業内イントラ利用独特の要求仕様かと思います > >>>> が... > >>>> > >>>> ログインしないと検索できないようにしているのにラベルに > >>>> 表示される > >>>> と、見られない何かがあるかばれてしまいます。検索対象で > >>>> ないラベル > >>>> は隠していただくとありがたいです。 > >>>> > >>>> 開発関連文書なんかだと、置き場の名前 = 開発中の製品の仮 > >>>> 名称だった > >>>> りするので、特に外注さんにその存在が知られるのはコンプ > >>>> ライアンス > >>>> 上まずかったりします。 > >>>> > >>>> ・エラーメールの送信。 > >>>> クローラーが止まるなど、状態変化があったときに管理者宛 > >>>> にメールが > >>>> 飛んで来てくれるとウレシイです。 > >>>> > >>>> ・自サイト、ページへの組み込み方 > >>>> やればできるのかも知れないのですが、自分のサイトのペー > >>>> ジの右肩上 > >>>> とかに検索エディットボックスの形で置く方法が知りたいです。 > >>>> > >>>> Fess 4.0 ネタというより、マニュアル、ヘルプ系の充実の話 > >>>> かも知れ > >>>> ませんが。 > >>>> > >>>> ・ウェブ認証の追加 > >>>> イメージだけなのですが、Basic/Digest 認証以外の認証越え > >>>> もできる > >>>> とよいのになと思ったことはあります。 > >>>> > >>>> file:/// でファイルサーバーを検索対象にできるので NTLM > >>>> 認証など > >>>> を越えられると使い途が広がります。 > >>>> > >>>> ・クロールがスキップされたものを知る方法 > >>>> パスワードをかけたり、例えば Excel で開いたときにマクロを > >>>> いき > >>>> なり実行しないよう、問い合わせのダイアログが出るような > >>>> ものも同 > >>>> 様にエラーでクロールされずスキップしていますが、エラー > >>>> ではなく > >>>> 検索対象外 (= 仕様) ということだと思います。 > >>>> > >>>> ほかにサイズの大きいものもスキップされますが、そのよう > >>>> なスキッ > >>>> プされたファイルのエラー扱いではないログ... とか、管理 > >>>> 画面でス > >>>> キップされた数などがわかるとよいと思ったことはあります。 > >>>> > >>>> 強い要望ではありませんが... > >>>> > >>>> とりあえず、パッと思いついたものを書いてます。 > >>>> 難易度は考慮していません (というかわかりません)。 > >>>> > >>>> _______________________________________________ > >>>> Fess-user mailing list > >>>> Fess-user @ lists.sourceforge.jp > >>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user > >>>> > >>> > >>> _______________________________________________ > >>> Fess-user mailing list > >>> Fess-user @ lists.sourceforge.jp > >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user > >>> > >> > >> _______________________________________________ > >> Fess-user mailing list > >> Fess-user @ lists.sourceforge.jp > >> http://lists.sourceforge.jp/mailman/listinfo/fess-user > >> > > > > _______________________________________________ > > Fess-user mailing list > > Fess-user @ lists.sourceforge.jp > > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user From ganosu0 @ gmail.com Sat Jul 17 11:21:41 2010 From: ganosu0 @ gmail.com (Sugano) Date: Sat, 17 Jul 2010 11:21:41 +0900 Subject: [fess-user 296] Re: =?iso-2022-jp?b?GyRCJSQlcyVHJUMlLyU5JE46bkAuJCxEZDtfJDcbKEI=?= =?iso-2022-jp?b?GyRCJF4kORsoQg==?= In-Reply-To: <AANLkTimbq1XcK9PfPhRElBxqN05f8aAh_DKZAhggLVq8@mail.gmail.com> References: <DCB243932F5A7ganosu0@gmail.com> <AANLkTimbq1XcK9PfPhRElBxqN05f8aAh_DKZAhggLVq8@mail.gmail.com> Message-ID: <13CB2556CB5C6Fganosu0@gmail.com> お世話になってます。 すがのです。 > > ご質問があるのですが、クロールで集めた情報(H2DB)を、SolrDBへ > > 手動で登録する方法(機能など)はありませんでしょうか? > > 現状、ないです。クロールデータについては > パフォーマンスに大きな影響を与えるので > 消せるときに消す感じにしています。ただ > 今回のように例外的にクロールを抜けるような > 場合に残せるかどうかは検討してみます。 了解しました。 是非、お願いします。 > > ※少なくとも、catalina.outにはエラーメッセージなどは出力され > > ていませんでした。他のログはこれから調べます。 > > 最新の環境であれば、fess_crawler.out が > どうなっているかがポイントになるかと思います。 fess_crawler.outを調べたところ、添付ファイル(fess_crawler. outのログを一部抜粋、一部ファイルパスの修正有)のように OutOfMemory エラーが発生していたことがわかりました。 下記の設定は既にしているのですが、それでも発生するようです。 http://fess.sourceforge.jp/ja/3.0/config/memory-config.html ちなみに、当方の環境・状況は以下のとおりです。 ●環境 ・WindowsXP SP3に搭載して試用・検証中 (CPU:Core 2 Duo 2GHz、メモリ:1.5GB) ・JDK 6 Update 21 ・fess-server-3.1.1 or 4.0.0SNAPSHOT (どちらでも発生するようです) ・メモリ関連設定:上記リンクと同じ設定 ●クロール設定 ・対象ドキュメント: ファイルサーバ上のファイル 約6万件 ・同時実行のクロール設定数:1 ・ドキュメント数毎にコミット:500 ・スレッド数:3 ・間隔:1000ミリ秒 ●状況 約1万ドキュメントを処理したあたりで、メモリエラー発生 ※エラー発生後は、延々とクロール処理のみが行われて、 SolrDBへの登録処理が行われない状態 ※かなり高い確率(現時点100%)で現象が再発。 上記、メモリ関連設定の再チューニングなどで回避は可能なのでし ょうか? 以上、よろしくお願いします。 > ----Original Message---- > Fri, 16 Jul 2010 06:33:00 +0900 > From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> > Reply-To: fess-user @ lists.sourceforge.jp > To: fess-user @ lists.sourceforge.jp > Subject: [fess-user 290] Re:インデックスの作成が停止します > > 菅谷です。 > > > ご質問があるのですが、クロールで集めた情報(H2DB)を、SolrDBへ > > 手動で登録する方法(機能など)はありませんでしょうか? > > 現状、ないです。クロールデータについては > パフォーマンスに大きな影響を与えるので > 消せるときに消す感じにしています。ただ > 今回のように例外的にクロールを抜けるような > 場合に残せるかどうかは検討してみます。 > > > ※少なくとも、catalina.outにはエラーメッセージなどは出力され > > ていませんでした。他のログはこれから調べます。 > > 最新の環境であれば、fess_crawler.out が > どうなっているかがポイントになるかと思います。 > > よろしくお願いいたします。 > > shinsuke > > > 2010年7月16日1:17 Sugano <ganosu0 @ gmail.com>: > > 初めまして、すがのと申します。 > > > > ご質問があるのですが、クロールで集めた情報(H2DB)を、SolrDBへ > > 手動で登録する方法(機能など)はありませんでしょうか? > > (クロール実行中もしくはクロール停止時に手動実行) > > > > というのも、私のところでも桑田さんとほぼ同様の現象が発生して > > おり、 > >> クローラープロセスが実行中にも関わらず、ドキュメント数が増 > >> 加しなくなります。 > >> システム設定画面で何度が停止->実行を繰り返しましたが状況が > >> 変わりません。 > > > > 具体的には、以下2つの現象のいずれかが発生することが多く、 > > > > 事象1.クローラプロセスが稼働中にもかかわらず、クローラ側DB > > (\webapp\fess\WEB-INF\db)やSolrDBへの登録が行われない。 > > > > 事象2.クローラ側DB(\webapp\fess\WEB-INF\db)への登録はされ > > 続けるが、SolrDBへの登録が行われなず、クローラ側DBのみが増え > > 続ける。 > > > > 上記の現象発生後に、クローラで収集したSolrDBへの未登録情報を > > 破棄するのはもったいないので、収集した情報をSolrDBへ手動登録 > > する手段を知りたいと考えております。 > > (クロールを再度起動すると、前回収集した情報がすべて消えてし > > まい、事象2で数万件分の情報が溜まっていたとしても全てクリア > > されてしまうため、クリアされずにDB登録する方法が知りたいで > > す。) > > > > ちなみに、本現象の原因については、下記を参考にして現在調査中 > > ですが、現時点では原因は特定できていません。 > >> おそらく crawler.out か catalina.out などに出力されて > >> いるかと思います。以下を参照してみてください。 > >> > >> http://fess.sourceforge.jp/ja/3.0/config/logging.html > >> > > ※少なくとも、catalina.outにはエラーメッセージなどは出力され > > ていませんでした。他のログはこれから調べます。 > > ※ファイルパスの長さが260字以上(WindowsのMAX_PATH値以上)のデ > > ィレクトリ・ファイルもあるため、それが原因の一つの可能性も有 > > り? > > ※上記、もう少し調べてわからないようであれば、再度詳細な情報 > > をお知らせします。 > > > > 以上、よろしくお願い致します。 > > > >> 菅谷です。 > >> > >> おそらく crawler.out か catalina.out などに出力されて > >> いるかと思います。以下を参照してみてください。 > >> > >> http://fess.sourceforge.jp/ja/3.0/config/logging.html > >> > >> よろしくお願いいたします。 > >> > >> shinsuke > >> > >> > >> 2010年7月14日16:53 Tetsutomo Kuwata <fj.kuwata @ gmail. > >> com>: > >> 初めまして、桑田と申します。 > >> > >> この度始めてFessを導入しインデックス作成を実行しているとこ > >> ろなのですが > >> クローラープロセスが実行中にも関わらず、ドキュメント数が増 > >> 加しなくなります。 > >> システム設定画面で何度が停止->実行を繰り返しましたが状況が > >> 変わりません。 > >> どの辺を調べれば原因がわかりますでしょうか。 > >> > >> 環境 > >> Windows Server 2003 R2 > >> JDK 6 Update 20 > >> fess-server-3.1.1(サービスとして登録) > >> > >> 対象ドキュメント: ファイルシステム 23万件 > >> 現在のドキュメント数: 4万件 > >> > >> > >> 以上、よろしくお願い致します。 > >> > >> _______________________________________________ > >> Fess-user mailing list > >> Fess-user @ lists.sourceforge.jp > >> http://lists.sourceforge.jp/mailman/listinfo/fess-user > >> > > > > _______________________________________________ > > Fess-user mailing list > > Fess-user @ lists.sourceforge.jp > > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user -------------- next part -------------- 2010-07-16 16:22:43,270 [IndexUpdater] ERROR jp.sf.fess.solr.IndexUpdater - IndexUpdater is terminated. java.lang.OutOfMemoryError: Java heap space at java.util.Arrays.copyOf(Arrays.java:2882) at java.lang.AbstractStringBuilder.expandCapacity(AbstractStringBuilder.java:100) at java.lang.AbstractStringBuilder.append(AbstractStringBuilder.java:515) at java.lang.StringBuilder.append(StringBuilder.java:189) at java.io.ObjectInputStream$BlockDataInputStream.readUTFSpan(ObjectInputStream.java:3099) at java.io.ObjectInputStream$BlockDataInputStream.readUTFBody(ObjectInputStream.java:3007) at java.io.ObjectInputStream$BlockDataInputStream.readLongUTF(ObjectInputStream.java:2990) at java.io.ObjectInputStream.readString(ObjectInputStream.java:1603) at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1320) at java.io.ObjectInputStream.readObject(ObjectInputStream.java:351) at java.util.HashMap.readObject(HashMap.java:1030) at sun.reflect.GeneratedMethodAccessor84.invoke(Unknown Source) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) at java.lang.reflect.Method.invoke(Method.java:597) at java.io.ObjectStreamClass.invokeReadObject(ObjectStreamClass.java:974) at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1849) at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1753) at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1329) at java.io.ObjectInputStream.readObject(ObjectInputStream.java:351) at org.seasar.framework.util.SerializeUtil.fromBinaryToObject(SerializeUtil.java:92) at jp.sf.fess.transformer.AbstractFessFileTransformer.getData(AbstractFessFileTransformer.java:380) at jp.sf.fess.solr.IndexUpdater.processAccessResults(IndexUpdater.java:300) at jp.sf.fess.solr.IndexUpdater.run(IndexUpdater.java:189) 2010-07-16 16:22:43,270 [IndexUpdater] INFO jp.sf.fess.solr.IndexUpdater - [EXEC TIME] index update time: 1041054ms 2010-07-16 16:23:21,801 [Robot-20100716135749-1-1] ERROR org.seasar.robot.helper.impl.LogHelperImpl - Crawling Exception at file:////hogehoge/hoge1.xlsx java.lang.OutOfMemoryError: Java heap space at org.apache.xmlbeans.impl.piccolo.xml.PiccoloLexer.parseCdataLiteral(PiccoloLexer.java:3027) at org.apache.xmlbeans.impl.piccolo.xml.PiccoloLexer.parseQuotedTagValue(PiccoloLexer.java:2936) at org.apache.xmlbeans.impl.piccolo.xml.PiccoloLexer.parseAttributesNS(PiccoloLexer.java:1754) at org.apache.xmlbeans.impl.piccolo.xml.PiccoloLexer.parseOpenTagNS(PiccoloLexer.java:1521) at org.apache.xmlbeans.impl.piccolo.xml.PiccoloLexer.parseTagNS(PiccoloLexer.java:1362) at org.apache.xmlbeans.impl.piccolo.xml.PiccoloLexer.parseXMLNS(PiccoloLexer.java:1293) at org.apache.xmlbeans.impl.piccolo.xml.PiccoloLexer.parseXML(PiccoloLexer.java:1261) at org.apache.xmlbeans.impl.piccolo.xml.PiccoloLexer.yylex(PiccoloLexer.java:4808) at org.apache.xmlbeans.impl.piccolo.xml.Piccolo.yylex(Piccolo.java:1290) at org.apache.xmlbeans.impl.piccolo.xml.Piccolo.yyparse(Piccolo.java:1400) at org.apache.xmlbeans.impl.piccolo.xml.Piccolo.parse(Piccolo.java:714) at org.apache.xmlbeans.impl.store.Locale$SaxLoader.load(Locale.java:3439) at org.apache.xmlbeans.impl.store.Locale.parseToXmlObject(Locale.java:1270) at org.apache.xmlbeans.impl.store.Locale.parseToXmlObject(Locale.java:1257) at org.apache.xmlbeans.impl.schema.SchemaTypeLoaderBase.parse(SchemaTypeLoaderBase.java:345) at org.openxmlformats.schemas.spreadsheetml.x2006.main.WorksheetDocument$Factory.parse(Unknown Source) at org.apache.poi.xssf.usermodel.XSSFSheet.read(XSSFSheet.java:127) at org.apache.poi.xssf.usermodel.XSSFSheet.onDocumentRead(XSSFSheet.java:119) at org.apache.poi.xssf.usermodel.XSSFWorkbook.onDocumentRead(XSSFWorkbook.java:222) at org.apache.poi.POIXMLDocument.load(POIXMLDocument.java:200) at org.apache.poi.xssf.usermodel.XSSFWorkbook.<init>(XSSFWorkbook.java:172) at org.apache.poi.xssf.extractor.XSSFExcelExtractor.<init>(XSSFExcelExtractor.java:49) at org.apache.poi.extractor.ExtractorFactory.createExtractor(ExtractorFactory.java:104) at org.apache.poi.extractor.ExtractorFactory.createExtractor(ExtractorFactory.java:86) at org.apache.tika.parser.microsoft.ooxml.OOXMLExtractorFactory.parse(OOXMLExtractorFactory.java:53) at org.apache.tika.parser.microsoft.ooxml.OOXMLParser.parse(OOXMLParser.java:69) at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:132) at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:99) at org.seasar.robot.extractor.impl.TikaExtractor.getText(TikaExtractor.java:105) at jp.sf.fess.transformer.AbstractFessFileTransformer.transform(AbstractFessFileTransformer.java:95) at org.seasar.robot.processor.impl.DefaultResponseProcessor.process(DefaultResponseProcessor.java:64) at org.seasar.robot.S2RobotThread.processResponse(S2RobotThread.java:294) 2010-07-16 16:23:21,801 [Robot-20100716135749-1-2] ERROR org.seasar.robot.helper.impl.LogHelperImpl - Crawling Exception at file:////hogehogehoge/hoge2.xlsx java.lang.OutOfMemoryError: Java heap space at org.apache.xmlbeans.impl.store.Cur.createElementXobj(Cur.java:257) at org.apache.xmlbeans.impl.store.Cur$CurLoadContext.startElement(Cur.java:2992) at org.apache.xmlbeans.impl.store.Locale$SaxHandler.startElement(Locale.java:3198) at org.apache.xmlbeans.impl.piccolo.xml.Piccolo.reportStartTag(Piccolo.java:1082) at org.apache.xmlbeans.impl.piccolo.xml.PiccoloLexer.parseOpenTagNS(PiccoloLexer.java:1473) at org.apache.xmlbeans.impl.piccolo.xml.PiccoloLexer.parseTagNS(PiccoloLexer.java:1362) at org.apache.xmlbeans.impl.piccolo.xml.PiccoloLexer.yylex(PiccoloLexer.java:4678) at org.apache.xmlbeans.impl.piccolo.xml.Piccolo.yylex(Piccolo.java:1290) at org.apache.xmlbeans.impl.piccolo.xml.Piccolo.yyparse(Piccolo.java:1400) at org.apache.xmlbeans.impl.piccolo.xml.Piccolo.parse(Piccolo.java:714) at org.apache.xmlbeans.impl.store.Locale$SaxLoader.load(Locale.java:3439) at org.apache.xmlbeans.impl.store.Locale.parseToXmlObject(Locale.java:1270) at org.apache.xmlbeans.impl.store.Locale.parseToXmlObject(Locale.java:1257) at org.apache.xmlbeans.impl.schema.SchemaTypeLoaderBase.parse(SchemaTypeLoaderBase.java:345) at org.openxmlformats.schemas.spreadsheetml.x2006.main.WorksheetDocument$Factory.parse(Unknown Source) at org.apache.poi.xssf.usermodel.XSSFSheet.read(XSSFSheet.java:127) at org.apache.poi.xssf.usermodel.XSSFSheet.onDocumentRead(XSSFSheet.java:119) at org.apache.poi.xssf.usermodel.XSSFWorkbook.onDocumentRead(XSSFWorkbook.java:222) at org.apache.poi.POIXMLDocument.load(POIXMLDocument.java:200) at org.apache.poi.xssf.usermodel.XSSFWorkbook.<init>(XSSFWorkbook.java:172) at org.apache.poi.xssf.extractor.XSSFExcelExtractor.<init>(XSSFExcelExtractor.java:49) at org.apache.poi.extractor.ExtractorFactory.createExtractor(ExtractorFactory.java:104) at org.apache.poi.extractor.ExtractorFactory.createExtractor(ExtractorFactory.java:86) at org.apache.tika.parser.microsoft.ooxml.OOXMLExtractorFactory.parse(OOXMLExtractorFactory.java:53) at org.apache.tika.parser.microsoft.ooxml.OOXMLParser.parse(OOXMLParser.java:69) at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:132) at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:99) at org.seasar.robot.extractor.impl.TikaExtractor.getText(TikaExtractor.java:105) at jp.sf.fess.transformer.AbstractFessFileTransformer.transform(AbstractFessFileTransformer.java:95) at org.seasar.robot.processor.impl.DefaultResponseProcessor.process(DefaultResponseProcessor.java:64) at org.seasar.robot.S2RobotThread.processResponse(S2RobotThread.java:294) at org.seasar.robot.S2RobotThread.run(S2RobotThread.java:180) From shinsuke @ yahoo.co.jp Sun Jul 18 07:48:35 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Sun, 18 Jul 2010 07:48:35 +0900 Subject: [fess-user 297] Re: =?iso-2022-jp?b?GyRCJSQlcyVHJUMlLyU5JE46bkAuJCxEZDtfJDcbKEI=?= =?iso-2022-jp?b?GyRCJF4kORsoQg==?= In-Reply-To: <13CB2556CB5C6Fganosu0@gmail.com> References: <DCB243932F5A7ganosu0@gmail.com> <AANLkTimbq1XcK9PfPhRElBxqN05f8aAh_DKZAhggLVq8@mail.gmail.com> <13CB2556CB5C6Fganosu0@gmail.com> Message-ID: <AANLkTiktDh1XBpjOJtDYEvSRNCyhNIdtHd0JkL-miV9k@mail.gmail.com> 菅谷です。 > (CPU:Core 2 Duo 2GHz、メモリ:1.5GB) この環境ですと、Fess 的には mx を 512m くらいが 上限な気がしますので、1 回あたりの Solr に送る ドキュメント数を下げるのが良い気がします。 webapps/fess/WEB-INF/cmd/resources/app.dicon で <component name="indexUpdater" class="jp.sf.fess.solr.IndexUpdater" instance="prototype"> <property name="maxDocumentCacheSize">5</property> </component> というように maxDocumentCacheSize を下げることが できます。デフォルトでは 1 回で 10 ドキュメントを Solr に送ります。 shinsuke 2010年7月17日11:21 Sugano <ganosu0 @ gmail.com>: > お世話になってます。 > すがのです。 > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、SolrDBへ >> > 手動で登録する方法(機能など)はありませんでしょうか? >> >> 現状、ないです。クロールデータについては >> パフォーマンスに大きな影響を与えるので >> 消せるときに消す感じにしています。ただ >> 今回のように例外的にクロールを抜けるような >> 場合に残せるかどうかは検討してみます。 > 了解しました。 > 是非、お願いします。 > >> > ※少なくとも、catalina.outにはエラーメッセージなどは出力され >> > ていませんでした。他のログはこれから調べます。 >> >> 最新の環境であれば、fess_crawler.out が >> どうなっているかがポイントになるかと思います。 > fess_crawler.outを調べたところ、添付ファイル(fess_crawler. > outのログを一部抜粋、一部ファイルパスの修正有)のように > OutOfMemory エラーが発生していたことがわかりました。 > > 下記の設定は既にしているのですが、それでも発生するようです。 > http://fess.sourceforge.jp/ja/3.0/config/memory-config.html > > ちなみに、当方の環境・状況は以下のとおりです。 > > ●環境 > ・WindowsXP SP3に搭載して試用・検証中 > (CPU:Core 2 Duo 2GHz、メモリ:1.5GB) > ・JDK 6 Update 21 > ・fess-server-3.1.1 or 4.0.0SNAPSHOT > (どちらでも発生するようです) > ・メモリ関連設定:上記リンクと同じ設定 > > ●クロール設定 > ・対象ドキュメント: ファイルサーバ上のファイル 約6万件 > ・同時実行のクロール設定数:1 > ・ドキュメント数毎にコミット:500 > ・スレッド数:3 > ・間隔:1000ミリ秒 > > ●状況 > 約1万ドキュメントを処理したあたりで、メモリエラー発生 > ※エラー発生後は、延々とクロール処理のみが行われて、 > SolrDBへの登録処理が行われない状態 > ※かなり高い確率(現時点100%)で現象が再発。 > > > 上記、メモリ関連設定の再チューニングなどで回避は可能なのでし > ょうか? > > 以上、よろしくお願いします。 >> ----Original Message---- >> Fri, 16 Jul 2010 06:33:00 +0900 >> From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> >> Reply-To: fess-user @ lists.sourceforge.jp >> To: fess-user @ lists.sourceforge.jp >> Subject: [fess-user 290] Re:インデックスの作成が停止します >> > >> 菅谷です。 >> >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、SolrDBへ >> > 手動で登録する方法(機能など)はありませんでしょうか? >> >> 現状、ないです。クロールデータについては >> パフォーマンスに大きな影響を与えるので >> 消せるときに消す感じにしています。ただ >> 今回のように例外的にクロールを抜けるような >> 場合に残せるかどうかは検討してみます。 >> >> > ※少なくとも、catalina.outにはエラーメッセージなどは出力され >> > ていませんでした。他のログはこれから調べます。 >> >> 最新の環境であれば、fess_crawler.out が >> どうなっているかがポイントになるかと思います。 >> >> よろしくお願いいたします。 >> >> shinsuke >> >> >> 2010年7月16日1:17 Sugano <ganosu0 @ gmail.com>: >> > 初めまして、すがのと申します。 >> > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、SolrDBへ >> > 手動で登録する方法(機能など)はありませんでしょうか? >> > (クロール実行中もしくはクロール停止時に手動実行) >> > >> > というのも、私のところでも桑田さんとほぼ同様の現象が発生して >> > おり、 >> >> クローラープロセスが実行中にも関わらず、ドキュメント数が増 >> >> 加しなくなります。 >> >> システム設定画面で何度が停止->実行を繰り返しましたが状況が >> >> 変わりません。 >> > >> > 具体的には、以下2つの現象のいずれかが発生することが多く、 >> > >> > 事象1.クローラプロセスが稼働中にもかかわらず、クローラ側DB >> > (\webapp\fess\WEB-INF\db)やSolrDBへの登録が行われない。 >> > >> > 事象2.クローラ側DB(\webapp\fess\WEB-INF\db)への登録はされ >> > 続けるが、SolrDBへの登録が行われなず、クローラ側DBのみが増え >> > 続ける。 >> > >> > 上記の現象発生後に、クローラで収集したSolrDBへの未登録情報を >> > 破棄するのはもったいないので、収集した情報をSolrDBへ手動登録 >> > する手段を知りたいと考えております。 >> > (クロールを再度起動すると、前回収集した情報がすべて消えてし >> > まい、事象2で数万件分の情報が溜まっていたとしても全てクリア >> > されてしまうため、クリアされずにDB登録する方法が知りたいで >> > す。) >> > >> > ちなみに、本現象の原因については、下記を参考にして現在調査中 >> > ですが、現時点では原因は特定できていません。 >> >> おそらく crawler.out か catalina.out などに出力されて >> >> いるかと思います。以下を参照してみてください。 >> >> >> >> http://fess.sourceforge.jp/ja/3.0/config/logging.html >> >> >> > ※少なくとも、catalina.outにはエラーメッセージなどは出力され >> > ていませんでした。他のログはこれから調べます。 >> > ※ファイルパスの長さが260字以上(WindowsのMAX_PATH値以上)のデ >> > ィレクトリ・ファイルもあるため、それが原因の一つの可能性も有 >> > り? >> > ※上記、もう少し調べてわからないようであれば、再度詳細な情報 >> > をお知らせします。 >> > >> > 以上、よろしくお願い致します。 >> > >> >> 菅谷です。 >> >> >> >> おそらく crawler.out か catalina.out などに出力されて >> >> いるかと思います。以下を参照してみてください。 >> >> >> >> http://fess.sourceforge.jp/ja/3.0/config/logging.html >> >> >> >> よろしくお願いいたします。 >> >> >> >> shinsuke >> >> >> >> >> >> 2010年7月14日16:53 Tetsutomo Kuwata <fj.kuwata @ gmail. >> >> com>: >> >> 初めまして、桑田と申します。 >> >> >> >> この度始めてFessを導入しインデックス作成を実行しているとこ >> >> ろなのですが >> >> クローラープロセスが実行中にも関わらず、ドキュメント数が増 >> >> 加しなくなります。 >> >> システム設定画面で何度が停止->実行を繰り返しましたが状況が >> >> 変わりません。 >> >> どの辺を調べれば原因がわかりますでしょうか。 >> >> >> >> 環境 >> >> Windows Server 2003 R2 >> >> JDK 6 Update 20 >> >> fess-server-3.1.1(サービスとして登録) >> >> >> >> 対象ドキュメント: ファイルシステム 23万件 >> >> 現在のドキュメント数: 4万件 >> >> >> >> >> >> 以上、よろしくお願い致します。 >> >> >> >> _______________________________________________ >> >> Fess-user mailing list >> >> Fess-user @ lists.sourceforge.jp >> >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> >> >> > >> > _______________________________________________ >> > Fess-user mailing list >> > Fess-user @ lists.sourceforge.jp >> > http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > From shinsuke @ yahoo.co.jp Sun Jul 18 07:52:18 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Sun, 18 Jul 2010 07:52:18 +0900 Subject: [fess-user 298] Re: =?iso-2022-jp?b?RmVzcyA0LjAgGyRCJEs4fiQxJEYbKEI=?= In-Reply-To: <11CB254BF7EEEBganosu0@gmail.com> References: <FCB24478BDED5ganosu0@gmail.com> <AANLkTimohxGu_hLC1mh7kkAsD7l1mW-lFVkhEIilCfUW@mail.gmail.com> <11CB254BF7EEEBganosu0@gmail.com> Message-ID: <AANLkTikyoVlLb7zhetkB_m3wj-owueknQN6MUvAEXp8K@mail.gmail.com> 菅谷です。 情報をありがとうございます。 JSP などのデザイン回りの移行も今後の課題として 検討していきたいと思います。 shinsuke 2010年7月17日10:04 Sugano <ganosu0 @ gmail.com>: > お世話になってます。 > すがのです。 > >> application_ja.properties はただのメッセージなので >> ここに設定値を書くことは想定していなかったのですが、 >> どのような設定を記述されているのでしょうか? > 上記、ラベル名(「-- ラベル --」)やhtmlの<title>、ロゴのaltで > の文字変更などで、該当ファイルの修正(デザイン機能と併用)を行 > っていました。 > ※設定値というよりはメッセージ内容の修正でした。 > 誤解させてしまいすいませんでした。 > > ただ、該当ファイルの変更を想定していなかったということなので、 > できるだけデザイン機能側を使って、jspファイルの修正でメッ > セージ変更を行うほうが正しい方法なのかなとも認識しました。 >> ----Original Message---- >> Fri, 16 Jul 2010 10:21:09 +0900 >> From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> >> Reply-To: fess-user @ lists.sourceforge.jp >> To: fess-user @ lists.sourceforge.jp >> Subject: [fess-user 293] Re:Fess 4.0 に向けて >> > >> 菅谷です。 >> >> すいません、もう一つ…。 >> >> > また、ラベル名に限らず、いくつかの設定値は、 >> > application_ja.propertiesの内容を変更して対応していますが、 >> >> application_ja.properties はただのメッセージなので >> ここに設定値を書くことは想定していなかったのですが、 >> どのような設定を記述されているのでしょうか? >> >> shinsuke >> >> >> 2010年7月16日3:00 Sugano <ganosu0 @ gmail.com>: >> > お世話になっております。すがのです。 >> > >> > あれば便利だと思っている機能について、対応可能かどうかは別に >> > して一通り記載してみました。 >> > >> > ・フィールド指定検索やソート検索・検索結果の表示件数など >> > 現在、フィールド指定検索やソート検索は、「Fess sort: >> > contentLength」などの文字を検索フォームに直接入力することで >> > 行えますが、googleの検索オプションみたいな感じで、ユーザ側に >> > わかりやすいような感じで、オプション指定できればいいなと思い >> > ました。 >> > http://www.google.co.jp/advanced_search?hl=ja >> > >> > >> > ・ラベル名などのデフォルト値の変更について >> > 現在、ラベル名のデフォルト値が「-- ラベル --」ですが、Fess管 >> > 理画面からデフォルト値のラベル名を変更できるような機能があれ >> > ばと思いました。 >> > また、ラベル名に限らず、いくつかの設定値は、 >> > application_ja.propertiesの内容を変更して対応していますが、 >> > Fessのバージョンアップ対応のたびにこのファイルを変更するは面 >> > 倒な気もしますので、Fess管理画面側から内容の修正が行えるよう >> > にして、fessのバックアップ/リストア機能で設定値の移行ができ >> > れば便利だなと思いました。 >> > >> > >> > ・クローラープロセスの一時中止・再開機能 >> > クローラープロセスで大規模な処理を行っているときに、緊急で機 >> > 器の再起動などが必要になり、クローラープロセスを中断して1か >> > らやり直しになるケースなどもあります。 >> > そのため、プロセスの一時停止を可能にして、再開できるタイミン >> > グになったらクローラープロセスを再開するなどの機能があると、 >> > 便利だと思いました。 >> > >> > >> > ・ブラウザ種別判別による検索結果ページ(リンクなど)の変更 >> > 現在、検索結果で「file://XXXX」の形式のリンクは、IEで開くこと >> > ができますが、FireFoxなど他のブラウザでは、直接開くことができ >> > ないなど、IE用に最適化された状態です。 >> > これを、携帯用ページみたいにFirefoxなどの別ブラウザ用に最適化 >> > したページを出力するなど(Firefoxだと「file://XXXX」を「file: >> > /////XXXX」で出力するなど)の、ブラウザ種別判別の機能 >> > (UserAgentによる制御機能?)があればいいなと思いました。 >> > >> > >> > ・Fessバージョンアップ時の簡易設定移行機能 >> > Fessバージョンアップ時に、以前のバージョンのFess設定を移行で >> > きる機能があると便利だと思いました。 >> > 多分、バックアップ/リストア機能で実現できてるとは思いますが、 >> > バックアップ/リストア機能だと、旧バージョンしか対応していな >> > い情報を、新バージョン側に上書きして不具合を起こす可能性があ >> > るかもしれないなど、管理者側が不安になる点もあるので、公式な >> > 設定移行機能(手順)があると、安心できたりします。 >> > >> > >> > ……と、Fessを利用してみて思った要望(だけ)を、色々と多く述べ >> > てしまい恐縮ですが、今後の機能改善に役立つものがあるとすれば >> > 嬉しいです。。。 >> > >> >> 菅谷です。 >> >> >> >> ありがとうございます! >> >> ファイルの種類はmimetypeで検索条件が >> >> できるようにはなっているものの、登録されている >> >> mimetype がわからないと利用しにくいですね…。 >> >> いただいたものをチケット化して検討したいと思います。 >> >> >> >> shinsuke >> >> >> >> >> >> 2010年7月15日12:27 kazuto fukuda <kf96614 @ gmail.com>: >> >> お世話になっております。福田です。 >> >> >> >> 今のところは必要という訳ではないのですが、 >> >> >> >> ・ファイルの種類(拡張子?)毎にラベルを付けられるといいか >> >> もしれません。 >> >> >> >> ・検索結果画面で、ラベルをリストボックスではなくラジオボタ >> >> ンでも選択できる >> >> ようにする。(検索キーワードの欄の下辺りに表示) >> >> >> >> ・検索結果画面でキーワードは黒の太字で表示されますが、これ >> >> を変更できる >> >> と(色を赤にするとか)いいかも知れません。 >> >> >> >> ・検索結果画面を表示する時にパスマッピングする。 >> >> >> >> いつも注文ばかりですいません。よろしくお願いします。 >> >> >> >> 2010年7月15日9:42 Shinsuke Sugaya <shinsuke @ yahoo.co.jp>: >> >>> 菅谷です。 >> >>> >> >>> ありがとうございます! >> >>> 大変参考になりました。 >> >>> 対応するチケットとして登録されていないものは >> >>> チケット登録して検討したいと思います。 >> >>> >> >>> shinsuke >> >>> >> >>> 2010年7月15日9:32 Masayuki Shibata <mshibata @ shimadzu. >> >>> co.jp>: >> >>>> 柴田@亀岡市です。 >> >>>> >> >>>> ・ロールとラベルの連動。 >> >>>> 小技ですし、企業内イントラ利用独特の要求仕様かと思います >> >>>> が... >> >>>> >> >>>> ログインしないと検索できないようにしているのにラベルに >> >>>> 表示される >> >>>> と、見られない何かがあるかばれてしまいます。検索対象で >> >>>> ないラベル >> >>>> は隠していただくとありがたいです。 >> >>>> >> >>>> 開発関連文書なんかだと、置き場の名前 = 開発中の製品の仮 >> >>>> 名称だった >> >>>> りするので、特に外注さんにその存在が知られるのはコンプ >> >>>> ライアンス >> >>>> 上まずかったりします。 >> >>>> >> >>>> ・エラーメールの送信。 >> >>>> クローラーが止まるなど、状態変化があったときに管理者宛 >> >>>> にメールが >> >>>> 飛んで来てくれるとウレシイです。 >> >>>> >> >>>> ・自サイト、ページへの組み込み方 >> >>>> やればできるのかも知れないのですが、自分のサイトのペー >> >>>> ジの右肩上 >> >>>> とかに検索エディットボックスの形で置く方法が知りたいです。 >> >>>> >> >>>> Fess 4.0 ネタというより、マニュアル、ヘルプ系の充実の話 >> >>>> かも知れ >> >>>> ませんが。 >> >>>> >> >>>> ・ウェブ認証の追加 >> >>>> イメージだけなのですが、Basic/Digest 認証以外の認証越え >> >>>> もできる >> >>>> とよいのになと思ったことはあります。 >> >>>> >> >>>> file:/// でファイルサーバーを検索対象にできるので NTLM >> >>>> 認証など >> >>>> を越えられると使い途が広がります。 >> >>>> >> >>>> ・クロールがスキップされたものを知る方法 >> >>>> パスワードをかけたり、例えば Excel で開いたときにマクロを >> >>>> いき >> >>>> なり実行しないよう、問い合わせのダイアログが出るような >> >>>> ものも同 >> >>>> 様にエラーでクロールされずスキップしていますが、エラー >> >>>> ではなく >> >>>> 検索対象外 (= 仕様) ということだと思います。 >> >>>> >> >>>> ほかにサイズの大きいものもスキップされますが、そのよう >> >>>> なスキッ >> >>>> プされたファイルのエラー扱いではないログ... とか、管理 >> >>>> 画面でス >> >>>> キップされた数などがわかるとよいと思ったことはあります。 >> >>>> >> >>>> 強い要望ではありませんが... >> >>>> >> >>>> とりあえず、パッと思いついたものを書いてます。 >> >>>> 難易度は考慮していません (というかわかりません)。 >> >>>> >> >>>> _______________________________________________ >> >>>> Fess-user mailing list >> >>>> Fess-user @ lists.sourceforge.jp >> >>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> >>>> >> >>> >> >>> _______________________________________________ >> >>> Fess-user mailing list >> >>> Fess-user @ lists.sourceforge.jp >> >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> >>> >> >> >> >> _______________________________________________ >> >> Fess-user mailing list >> >> Fess-user @ lists.sourceforge.jp >> >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> >> >> > >> > _______________________________________________ >> > Fess-user mailing list >> > Fess-user @ lists.sourceforge.jp >> > http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From ganosu0 @ gmail.com Sun Jul 18 21:26:01 2010 From: ganosu0 @ gmail.com (Sugano) Date: Sun, 18 Jul 2010 21:26:01 +0900 Subject: [fess-user 299] Re: =?iso-2022-jp?b?GyRCJSQlcyVHJUMlLyU5JE46bkAuJCxEZDtfJDcbKEI=?= =?iso-2022-jp?b?GyRCJF4kORsoQg==?= In-Reply-To: <AANLkTiktDh1XBpjOJtDYEvSRNCyhNIdtHd0JkL-miV9k@mail.gmail.com> References: <DCB243932F5A7ganosu0@gmail.com> <AANLkTimbq1XcK9PfPhRElBxqN05f8aAh_DKZAhggLVq8@mail.gmail.com> <13CB2556CB5C6Fganosu0@gmail.com> <AANLkTiktDh1XBpjOJtDYEvSRNCyhNIdtHd0JkL-miV9k@mail.gmail.com> Message-ID: <14CB26746264FFganosu0@gmail.com> お世話になってます。 すがのです。 本件、了解です! 連休明けにでも試してみます! ご回答ありがとうございました! > ----Original Message---- > Sun, 18 Jul 2010 07:48:35 +0900 > From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> > Reply-To: fess-user @ lists.sourceforge.jp > To: fess-user @ lists.sourceforge.jp > Subject: [fess-user 297] Re:インデックスの作成が停止します > > 菅谷です。 > > > (CPU:Core 2 Duo 2GHz、メモリ:1.5GB) > > この環境ですと、Fess 的には mx を 512m くらいが > 上限な気がしますので、1 回あたりの Solr に送る > ドキュメント数を下げるのが良い気がします。 > webapps/fess/WEB-INF/cmd/resources/app.dicon > で > > <component name="indexUpdater" > class="jp.sf.fess.solr.IndexUpdater" instance="prototype"> > <property name="maxDocumentCacheSize">5</property> > </component> > > というように maxDocumentCacheSize を下げることが > できます。デフォルトでは 1 回で 10 ドキュメントを > Solr に送ります。 > > shinsuke > > 2010年7月17日11:21 Sugano <ganosu0 @ gmail.com>: > > お世話になってます。 > > すがのです。 > > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、SolrDB > >> > へ > >> > 手動で登録する方法(機能など)はありませんでしょうか? > >> > >> 現状、ないです。クロールデータについては > >> パフォーマンスに大きな影響を与えるので > >> 消せるときに消す感じにしています。ただ > >> 今回のように例外的にクロールを抜けるような > >> 場合に残せるかどうかは検討してみます。 > > 了解しました。 > > 是非、お願いします。 > > > >> > ※少なくとも、catalina.outにはエラーメッセージなどは出力さ > >> > れ > >> > ていませんでした。他のログはこれから調べます。 > >> > >> 最新の環境であれば、fess_crawler.out が > >> どうなっているかがポイントになるかと思います。 > > fess_crawler.outを調べたところ、添付ファイル(fess_crawler. > > outのログを一部抜粋、一部ファイルパスの修正有)のように > > OutOfMemory エラーが発生していたことがわかりました。 > > > > 下記の設定は既にしているのですが、それでも発生するようです。 > > http://fess.sourceforge.jp/ja/3.0/config/memory-config.html > > > > ちなみに、当方の環境・状況は以下のとおりです。 > > > > ●環境 > > ・WindowsXP SP3に搭載して試用・検証中 > > (CPU:Core 2 Duo 2GHz、メモリ:1.5GB) > > ・JDK 6 Update 21 > > ・fess-server-3.1.1 or 4.0.0SNAPSHOT > > (どちらでも発生するようです) > > ・メモリ関連設定:上記リンクと同じ設定 > > > > ●クロール設定 > > ・対象ドキュメント: ファイルサーバ上のファイル 約6万件 > > ・同時実行のクロール設定数:1 > > ・ドキュメント数毎にコミット:500 > > ・スレッド数:3 > > ・間隔:1000ミリ秒 > > > > ●状況 > > 約1万ドキュメントを処理したあたりで、メモリエラー発生 > > ※エラー発生後は、延々とクロール処理のみが行われて、 > > SolrDBへの登録処理が行われない状態 > > ※かなり高い確率(現時点100%)で現象が再発。 > > > > > > 上記、メモリ関連設定の再チューニングなどで回避は可能なのでし > > ょうか? > > > > 以上、よろしくお願いします。 > >> ----Original Message---- > >> Fri, 16 Jul 2010 06:33:00 +0900 > >> From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> > >> Reply-To: fess-user @ lists.sourceforge.jp > >> To: fess-user @ lists.sourceforge.jp > >> Subject: [fess-user 290] Re:インデックスの作成が停止します > >> > > > >> 菅谷です。 > >> > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、SolrDB > >> > へ > >> > 手動で登録する方法(機能など)はありませんでしょうか? > >> > >> 現状、ないです。クロールデータについては > >> パフォーマンスに大きな影響を与えるので > >> 消せるときに消す感じにしています。ただ > >> 今回のように例外的にクロールを抜けるような > >> 場合に残せるかどうかは検討してみます。 > >> > >> > ※少なくとも、catalina.outにはエラーメッセージなどは出力さ > >> > れ > >> > ていませんでした。他のログはこれから調べます。 > >> > >> 最新の環境であれば、fess_crawler.out が > >> どうなっているかがポイントになるかと思います。 > >> > >> よろしくお願いいたします。 > >> > >> shinsuke > >> > >> > >> 2010年7月16日1:17 Sugano <ganosu0 @ gmail.com>: > >> > 初めまして、すがのと申します。 > >> > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、SolrDB > >> > へ > >> > 手動で登録する方法(機能など)はありませんでしょうか? > >> > (クロール実行中もしくはクロール停止時に手動実行) > >> > > >> > というのも、私のところでも桑田さんとほぼ同様の現象が発生し > >> > て > >> > おり、 > >> >> クローラープロセスが実行中にも関わらず、ドキュメント数が > >> >> 増 > >> >> 加しなくなります。 > >> >> システム設定画面で何度が停止->実行を繰り返しましたが状況 > >> >> が > >> >> 変わりません。 > >> > > >> > 具体的には、以下2つの現象のいずれかが発生することが多く、 > >> > > >> > 事象1.クローラプロセスが稼働中にもかかわらず、クローラ側 > >> > DB > >> > (\webapp\fess\WEB-INF\db)やSolrDBへの登録が行われない。 > >> > > >> > 事象2.クローラ側DB(\webapp\fess\WEB-INF\db)への登録はさ > >> > れ > >> > 続けるが、SolrDBへの登録が行われなず、クローラ側DBのみが増 > >> > え > >> > 続ける。 > >> > > >> > 上記の現象発生後に、クローラで収集したSolrDBへの未登録情報 > >> > を > >> > 破棄するのはもったいないので、収集した情報をSolrDBへ手動登 > >> > 録 > >> > する手段を知りたいと考えております。 > >> > (クロールを再度起動すると、前回収集した情報がすべて消えて > >> > し > >> > まい、事象2で数万件分の情報が溜まっていたとしても全てクリ > >> > ア > >> > されてしまうため、クリアされずにDB登録する方法が知りたいで > >> > す。) > >> > > >> > ちなみに、本現象の原因については、下記を参考にして現在調査 > >> > 中 > >> > ですが、現時点では原因は特定できていません。 > >> >> おそらく crawler.out か catalina.out などに出力されて > >> >> いるかと思います。以下を参照してみてください。 > >> >> > >> >> http://fess.sourceforge.jp/ja/3.0/config/logging.html > >> >> > >> > ※少なくとも、catalina.outにはエラーメッセージなどは出力さ > >> > れ > >> > ていませんでした。他のログはこれから調べます。 > >> > ※ファイルパスの長さが260字以上(WindowsのMAX_PATH値以上)の > >> > デ > >> > ィレクトリ・ファイルもあるため、それが原因の一つの可能性も > >> > 有 > >> > り? > >> > ※上記、もう少し調べてわからないようであれば、再度詳細な情 > >> > 報 > >> > をお知らせします。 > >> > > >> > 以上、よろしくお願い致します。 > >> > > >> >> 菅谷です。 > >> >> > >> >> おそらく crawler.out か catalina.out などに出力されて > >> >> いるかと思います。以下を参照してみてください。 > >> >> > >> >> http://fess.sourceforge.jp/ja/3.0/config/logging.html > >> >> > >> >> よろしくお願いいたします。 > >> >> > >> >> shinsuke > >> >> > >> >> > >> >> 2010年7月14日16:53 Tetsutomo Kuwata <fj.kuwata @ gmail. > >> >> com>: > >> >> 初めまして、桑田と申します。 > >> >> > >> >> この度始めてFessを導入しインデックス作成を実行していると > >> >> こ > >> >> ろなのですが > >> >> クローラープロセスが実行中にも関わらず、ドキュメント数が > >> >> 増 > >> >> 加しなくなります。 > >> >> システム設定画面で何度が停止->実行を繰り返しましたが状況 > >> >> が > >> >> 変わりません。 > >> >> どの辺を調べれば原因がわかりますでしょうか。 > >> >> > >> >> 環境 > >> >> Windows Server 2003 R2 > >> >> JDK 6 Update 20 > >> >> fess-server-3.1.1(サービスとして登録) > >> >> > >> >> 対象ドキュメント: ファイルシステム 23万件 > >> >> 現在のドキュメント数: 4万件 > >> >> > >> >> > >> >> 以上、よろしくお願い致します。 > >> >> > >> >> _______________________________________________ > >> >> Fess-user mailing list > >> >> Fess-user @ lists.sourceforge.jp > >> >> http://lists.sourceforge.jp/mailman/listinfo/fess-user > >> >> > >> > > >> > _______________________________________________ > >> > Fess-user mailing list > >> > Fess-user @ lists.sourceforge.jp > >> > http://lists.sourceforge.jp/mailman/listinfo/fess-user > >> > > >> > >> _______________________________________________ > >> Fess-user mailing list > >> Fess-user @ lists.sourceforge.jp > >> http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > > > _______________________________________________ > > Fess-user mailing list > > Fess-user @ lists.sourceforge.jp > > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user From ganosu0 @ gmail.com Tue Jul 20 22:54:42 2010 From: ganosu0 @ gmail.com (Sugano) Date: Tue, 20 Jul 2010 22:54:42 +0900 Subject: [fess-user 300] Re: =?iso-2022-jp?b?GyRCJSQlcyVHJUMlLyU5JE46bkAuJCxEZDtfJDcbKEI=?= =?iso-2022-jp?b?GyRCJF4kORsoQg==?= In-Reply-To: <14CB26746264FFganosu0@gmail.com> References: <AANLkTimbq1XcK9PfPhRElBxqN05f8aAh_DKZAhggLVq8@mail.gmail.com> <13CB2556CB5C6Fganosu0@gmail.com> <AANLkTiktDh1XBpjOJtDYEvSRNCyhNIdtHd0JkL-miV9k@mail.gmail.com> <14CB26746264FFganosu0@gmail.com> Message-ID: <15CB28131AC421ganosu0@gmail.com> お世話になってます。 すがのです。 本件ですが、原因が判明して、特定の条件を満たしたExcelファイ ル(xlsx)が原因で、メモリエラーが発生していたことがわかりまし た。 経緯を説明しますと、まず、maxDocumentCacheSizeを10→5→2と変 更して何度か再実行しても現象は変わりませんでした。 しかし、毎回約1万ファイル程度処理した時点で、ほぼ同様のメモ リエラーが発生しているようだったので、特定のファイルが原因で はないかと想定して調査したところ、特定のExcelファイル(xlsx) を読み込んだときに、使用メモリが10秒程度で急増(1G以上増加)し て、メモリエラーが発生したことがわかりました。 その特定のExcelファイルですが、ファイルサイズは8MB程度なので すが、中のデータ量がDBみたいに多く(項目20列程度のデータが約7 万行)、このExcelファイルの中のデータを全て読み取ろうとして、 メモリが枯渇した可能性があると想定しております。 ※このファイル1つのみをピンポイントでクロールに読み込ませて  テストしたところ、使用メモリが急増してエラーが発生しました。 さしあたり、このファイル自体は、クロール対象から除外すること で、一時的な回避はできたのですが、同じファイルサーバの中に、 似たようなExcelファイルがいくつか存在している様で、本日3回ほ どメモリエラーで異常終了して、クロール処理を完了できない状態 となっております。 (20〜40列・6〜8万行・数MB程度のxlsxファイルを、現時点で3つほ どエラーの都度発見しており(※もっとある可能性大)、その度に、 原因xlsxファイルを検索除外対象にする作業を繰り返している状態 です) 上記、エラー発生する都度、検索除外対象とするのは効率が悪いの で、何とか回避したいと思っておりますが、何か良い方法などはあ りますでしょうか? (特定のファイルでメモリエラーが発生しても、クロール処理が継 続して正常稼動するのが理想ですが、プログラム改修による対応は 困難でしょうか?) 上記、アドバイスなどがありましたら、ご回答をお願いいたします。 以上、よろしくお願いします。 > ----Original Message---- > Sun, 18 Jul 2010 21:26:01 +0900 > From: Sugano <ganosu0 @ gmail.com> > To: fess-user @ lists.sourceforge.jp > Cc: > Subject: Re: [fess-user 297] Re:インデックスの作成が停止し > ます > > お世話になってます。 > すがのです。 > > 本件、了解です! > 連休明けにでも試してみます! > > ご回答ありがとうございました! > > ----Original Message---- > > Sun, 18 Jul 2010 07:48:35 +0900 > > From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> > > Reply-To: fess-user @ lists.sourceforge.jp > > To: fess-user @ lists.sourceforge.jp > > Subject: [fess-user 297] Re:インデックスの作成が停止します > > > > > 菅谷です。 > > > > > (CPU:Core 2 Duo 2GHz、メモリ:1.5GB) > > > > この環境ですと、Fess 的には mx を 512m くらいが > > 上限な気がしますので、1 回あたりの Solr に送る > > ドキュメント数を下げるのが良い気がします。 > > webapps/fess/WEB-INF/cmd/resources/app.dicon > > で > > > > <component name="indexUpdater" > > class="jp.sf.fess.solr.IndexUpdater" instance="prototype"> > > <property name="maxDocumentCacheSize">5</property> > > </component> > > > > というように maxDocumentCacheSize を下げることが > > できます。デフォルトでは 1 回で 10 ドキュメントを > > Solr に送ります。 > > > > shinsuke > > > > 2010年7月17日11:21 Sugano <ganosu0 @ gmail.com>: > > > お世話になってます。 > > > すがのです。 > > > > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、 > > >> > SolrDB > > >> > へ > > >> > 手動で登録する方法(機能など)はありませんでしょうか? > > >> > > >> 現状、ないです。クロールデータについては > > >> パフォーマンスに大きな影響を与えるので > > >> 消せるときに消す感じにしています。ただ > > >> 今回のように例外的にクロールを抜けるような > > >> 場合に残せるかどうかは検討してみます。 > > > 了解しました。 > > > 是非、お願いします。 > > > > > >> > ※少なくとも、catalina.outにはエラーメッセージなどは出力 > > >> > さ > > >> > れ > > >> > ていませんでした。他のログはこれから調べます。 > > >> > > >> 最新の環境であれば、fess_crawler.out が > > >> どうなっているかがポイントになるかと思います。 > > > fess_crawler.outを調べたところ、添付ファイル(fess_crawler. > > > outのログを一部抜粋、一部ファイルパスの修正有)のように > > > OutOfMemory エラーが発生していたことがわかりました。 > > > > > > 下記の設定は既にしているのですが、それでも発生するようです。 > > > http://fess.sourceforge.jp/ja/3.0/config/memory-config.html > > > > > > ちなみに、当方の環境・状況は以下のとおりです。 > > > > > > ●環境 > > > ・WindowsXP SP3に搭載して試用・検証中 > > > (CPU:Core 2 Duo 2GHz、メモリ:1.5GB) > > > ・JDK 6 Update 21 > > > ・fess-server-3.1.1 or 4.0.0SNAPSHOT > > > (どちらでも発生するようです) > > > ・メモリ関連設定:上記リンクと同じ設定 > > > > > > ●クロール設定 > > > ・対象ドキュメント: ファイルサーバ上のファイル 約6万件 > > > ・同時実行のクロール設定数:1 > > > ・ドキュメント数毎にコミット:500 > > > ・スレッド数:3 > > > ・間隔:1000ミリ秒 > > > > > > ●状況 > > > 約1万ドキュメントを処理したあたりで、メモリエラー発生 > > > ※エラー発生後は、延々とクロール処理のみが行われて、 > > > SolrDBへの登録処理が行われない状態 > > > ※かなり高い確率(現時点100%)で現象が再発。 > > > > > > > > > 上記、メモリ関連設定の再チューニングなどで回避は可能なので > > > し > > > ょうか? > > > > > > 以上、よろしくお願いします。 > > >> ----Original Message---- > > >> Fri, 16 Jul 2010 06:33:00 +0900 > > >> From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> > > >> Reply-To: fess-user @ lists.sourceforge.jp > > >> To: fess-user @ lists.sourceforge.jp > > >> Subject: [fess-user 290] Re:インデックスの作成が停止しま > > >> す > > >> > > > > > >> 菅谷です。 > > >> > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、 > > >> > SolrDB > > >> > へ > > >> > 手動で登録する方法(機能など)はありませんでしょうか? > > >> > > >> 現状、ないです。クロールデータについては > > >> パフォーマンスに大きな影響を与えるので > > >> 消せるときに消す感じにしています。ただ > > >> 今回のように例外的にクロールを抜けるような > > >> 場合に残せるかどうかは検討してみます。 > > >> > > >> > ※少なくとも、catalina.outにはエラーメッセージなどは出力 > > >> > さ > > >> > れ > > >> > ていませんでした。他のログはこれから調べます。 > > >> > > >> 最新の環境であれば、fess_crawler.out が > > >> どうなっているかがポイントになるかと思います。 > > >> > > >> よろしくお願いいたします。 > > >> > > >> shinsuke > > >> > > >> > > >> 2010年7月16日1:17 Sugano <ganosu0 @ gmail.com>: > > >> > 初めまして、すがのと申します。 > > >> > > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、 > > >> > SolrDB > > >> > へ > > >> > 手動で登録する方法(機能など)はありませんでしょうか? > > >> > (クロール実行中もしくはクロール停止時に手動実行) > > >> > > > >> > というのも、私のところでも桑田さんとほぼ同様の現象が発生 > > >> > し > > >> > て > > >> > おり、 > > >> >> クローラープロセスが実行中にも関わらず、ドキュメント数 > > >> >> が > > >> >> 増 > > >> >> 加しなくなります。 > > >> >> システム設定画面で何度が停止->実行を繰り返しましたが状 > > >> >> 況 > > >> >> が > > >> >> 変わりません。 > > >> > > > >> > 具体的には、以下2つの現象のいずれかが発生することが多く、 > > >> > > > >> > 事象1.クローラプロセスが稼働中にもかかわらず、クローラ > > >> > 側 > > >> > DB > > >> > (\webapp\fess\WEB-INF\db)やSolrDBへの登録が行われない。 > > >> > > > >> > 事象2.クローラ側DB(\webapp\fess\WEB-INF\db)への登録は > > >> > さ > > >> > れ > > >> > 続けるが、SolrDBへの登録が行われなず、クローラ側DBのみが > > >> > 増 > > >> > え > > >> > 続ける。 > > >> > > > >> > 上記の現象発生後に、クローラで収集したSolrDBへの未登録情 > > >> > 報 > > >> > を > > >> > 破棄するのはもったいないので、収集した情報をSolrDBへ手動 > > >> > 登 > > >> > 録 > > >> > する手段を知りたいと考えております。 > > >> > (クロールを再度起動すると、前回収集した情報がすべて消え > > >> > て > > >> > し > > >> > まい、事象2で数万件分の情報が溜まっていたとしても全てク > > >> > リ > > >> > ア > > >> > されてしまうため、クリアされずにDB登録する方法が知りたい > > >> > で > > >> > す。) > > >> > > > >> > ちなみに、本現象の原因については、下記を参考にして現在調 > > >> > 査 > > >> > 中 > > >> > ですが、現時点では原因は特定できていません。 > > >> >> おそらく crawler.out か catalina.out などに出力されて > > >> >> いるかと思います。以下を参照してみてください。 > > >> >> > > >> >> http://fess.sourceforge.jp/ja/3.0/config/logging.html > > >> >> > > >> > ※少なくとも、catalina.outにはエラーメッセージなどは出力 > > >> > さ > > >> > れ > > >> > ていませんでした。他のログはこれから調べます。 > > >> > ※ファイルパスの長さが260字以上(WindowsのMAX_PATH値以上) > > >> > の > > >> > デ > > >> > ィレクトリ・ファイルもあるため、それが原因の一つの可能性 > > >> > も > > >> > 有 > > >> > り? > > >> > ※上記、もう少し調べてわからないようであれば、再度詳細な > > >> > 情 > > >> > 報 > > >> > をお知らせします。 > > >> > > > >> > 以上、よろしくお願い致します。 > > >> > > > >> >> 菅谷です。 > > >> >> > > >> >> おそらく crawler.out か catalina.out などに出力されて > > >> >> いるかと思います。以下を参照してみてください。 > > >> >> > > >> >> http://fess.sourceforge.jp/ja/3.0/config/logging.html > > >> >> > > >> >> よろしくお願いいたします。 > > >> >> > > >> >> shinsuke > > >> >> > > >> >> > > >> >> 2010年7月14日16:53 Tetsutomo Kuwata <fj.kuwata @ gmail. > > >> >> com>: > > >> >> 初めまして、桑田と申します。 > > >> >> > > >> >> この度始めてFessを導入しインデックス作成を実行している > > >> >> と > > >> >> こ > > >> >> ろなのですが > > >> >> クローラープロセスが実行中にも関わらず、ドキュメント数 > > >> >> が > > >> >> 増 > > >> >> 加しなくなります。 > > >> >> システム設定画面で何度が停止->実行を繰り返しましたが状 > > >> >> 況 > > >> >> が > > >> >> 変わりません。 > > >> >> どの辺を調べれば原因がわかりますでしょうか。 > > >> >> > > >> >> 環境 > > >> >> Windows Server 2003 R2 > > >> >> JDK 6 Update 20 > > >> >> fess-server-3.1.1(サービスとして登録) > > >> >> > > >> >> 対象ドキュメント: ファイルシステム 23万件 > > >> >> 現在のドキュメント数: 4万件 > > >> >> > > >> >> > > >> >> 以上、よろしくお願い致します。 > > >> >> > > >> >> _______________________________________________ > > >> >> Fess-user mailing list > > >> >> Fess-user @ lists.sourceforge.jp > > >> >> http://lists.sourceforge.jp/mailman/listinfo/fess-user > > >> >> > > >> > > > >> > _______________________________________________ > > >> > Fess-user mailing list > > >> > Fess-user @ lists.sourceforge.jp > > >> > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > >> > > > >> > > >> _______________________________________________ > > >> Fess-user mailing list > > >> Fess-user @ lists.sourceforge.jp > > >> http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > > > > > > _______________________________________________ > > > Fess-user mailing list > > > Fess-user @ lists.sourceforge.jp > > > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > > > > > > > _______________________________________________ > > Fess-user mailing list > > Fess-user @ lists.sourceforge.jp > > http://lists.sourceforge.jp/mailman/listinfo/fess-user From ganosu0 @ gmail.com Wed Jul 21 00:24:16 2010 From: ganosu0 @ gmail.com (Sugano) Date: Wed, 21 Jul 2010 00:24:16 +0900 Subject: [fess-user 301] Re: =?iso-2022-jp?b?GyRCJSQlcyVHJUMlLyU5JE46bkAuJCxEZDtfJDcbKEI=?= =?iso-2022-jp?b?GyRCJF4kORsoQg==?= In-Reply-To: <15CB28131AC421ganosu0@gmail.com> References: <13CB2556CB5C6Fganosu0@gmail.com> <AANLkTiktDh1XBpjOJtDYEvSRNCyhNIdtHd0JkL-miV9k@mail.gmail.com> <14CB26746264FFganosu0@gmail.com> <15CB28131AC421ganosu0@gmail.com> Message-ID: <16CB281F9D6F9Dganosu0@gmail.com> お世話になってます。 すがのです。 先ほど1点気がついた点があったので、 とりあえず参考までに報告しておきます。 ご存知かもしれませんが、本現象の原因となっている「xlsx」は、 デフォルトでデータ圧縮機能(zip相当)があることを思い出しまし た。 (docx,pptxなど、他のOffice2007形式ファイルも対象) なので、今回のExcelファイルは、ほぼ全部テキストデータであり、 テキストデータの圧縮率は非常に高いため、8MB程度のExcelファイ ルでも、実質は数百MB相当のテキストデータを、クロール側で読み 込んでいる可能性があると思います。 上記、参考になれば幸いです。 > ----Original Message---- > Tue, 20 Jul 2010 22:54:42 +0900 > From: Sugano <ganosu0 @ gmail.com> > To: fess-user @ lists.sourceforge.jp > Cc: > Subject: Re: [fess-user 297] Re:インデックスの作成が停止し > ます > > お世話になってます。 > すがのです。 > > 本件ですが、原因が判明して、特定の条件を満たしたExcelファイ > ル(xlsx)が原因で、メモリエラーが発生していたことがわかりまし > た。 > > 経緯を説明しますと、まず、maxDocumentCacheSizeを10→5→2と変 > 更して何度か再実行しても現象は変わりませんでした。 > > しかし、毎回約1万ファイル程度処理した時点で、ほぼ同様のメモ > リエラーが発生しているようだったので、特定のファイルが原因で > はないかと想定して調査したところ、特定のExcelファイル(xlsx) > を読み込んだときに、使用メモリが10秒程度で急増(1G以上増加)し > て、メモリエラーが発生したことがわかりました。 > > その特定のExcelファイルですが、ファイルサイズは8MB程度なので > すが、中のデータ量がDBみたいに多く(項目20列程度のデータが約7 > 万行)、このExcelファイルの中のデータを全て読み取ろうとして、 > メモリが枯渇した可能性があると想定しております。 > ※このファイル1つのみをピンポイントでクロールに読み込ませて >  テストしたところ、使用メモリが急増してエラーが発生しました。 > > さしあたり、このファイル自体は、クロール対象から除外すること > で、一時的な回避はできたのですが、同じファイルサーバの中に、 > 似たようなExcelファイルがいくつか存在している様で、本日3回ほ > どメモリエラーで異常終了して、クロール処理を完了できない状態 > となっております。 > (20〜40列・6〜8万行・数MB程度のxlsxファイルを、現時点で3つほ > どエラーの都度発見しており(※もっとある可能性大)、その度に、 > 原因xlsxファイルを検索除外対象にする作業を繰り返している状態 > です) > > 上記、エラー発生する都度、検索除外対象とするのは効率が悪いの > で、何とか回避したいと思っておりますが、何か良い方法などはあ > りますでしょうか? > (特定のファイルでメモリエラーが発生しても、クロール処理が継 > 続して正常稼動するのが理想ですが、プログラム改修による対応は > 困難でしょうか?) > > 上記、アドバイスなどがありましたら、ご回答をお願いいたします。 > 以上、よろしくお願いします。 > > ----Original Message---- > > Sun, 18 Jul 2010 21:26:01 +0900 > > From: Sugano <ganosu0 @ gmail.com> > > To: fess-user @ lists.sourceforge.jp > > Cc: > > Subject: Re: [fess-user 297] Re:インデックスの作成が停止し > > ます > > > > > お世話になってます。 > > すがのです。 > > > > 本件、了解です! > > 連休明けにでも試してみます! > > > > ご回答ありがとうございました! > > > ----Original Message---- > > > Sun, 18 Jul 2010 07:48:35 +0900 > > > From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> > > > Reply-To: fess-user @ lists.sourceforge.jp > > > To: fess-user @ lists.sourceforge.jp > > > Subject: [fess-user 297] Re:インデックスの作成が停止します > > > > > > > > 菅谷です。 > > > > > > > (CPU:Core 2 Duo 2GHz、メモリ:1.5GB) > > > > > > この環境ですと、Fess 的には mx を 512m くらいが > > > 上限な気がしますので、1 回あたりの Solr に送る > > > ドキュメント数を下げるのが良い気がします。 > > > webapps/fess/WEB-INF/cmd/resources/app.dicon > > > で > > > > > > <component name="indexUpdater" > > > class="jp.sf.fess.solr.IndexUpdater" instance="prototype"> > > > <property name="maxDocumentCacheSize">5</property> > > > </component> > > > > > > というように maxDocumentCacheSize を下げることが > > > できます。デフォルトでは 1 回で 10 ドキュメントを > > > Solr に送ります。 > > > > > > shinsuke > > > > > > 2010年7月17日11:21 Sugano <ganosu0 @ gmail.com>: > > > > お世話になってます。 > > > > すがのです。 > > > > > > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、 > > > >> > SolrDB > > > >> > へ > > > >> > 手動で登録する方法(機能など)はありませんでしょうか? > > > >> > > > >> 現状、ないです。クロールデータについては > > > >> パフォーマンスに大きな影響を与えるので > > > >> 消せるときに消す感じにしています。ただ > > > >> 今回のように例外的にクロールを抜けるような > > > >> 場合に残せるかどうかは検討してみます。 > > > > 了解しました。 > > > > 是非、お願いします。 > > > > > > > >> > ※少なくとも、catalina.outにはエラーメッセージなどは出 > > > >> > 力 > > > >> > さ > > > >> > れ > > > >> > ていませんでした。他のログはこれから調べます。 > > > >> > > > >> 最新の環境であれば、fess_crawler.out が > > > >> どうなっているかがポイントになるかと思います。 > > > > fess_crawler.outを調べたところ、添付ファイル(fess_crawler. > > > > outのログを一部抜粋、一部ファイルパスの修正有)のように > > > > OutOfMemory エラーが発生していたことがわかりました。 > > > > > > > > 下記の設定は既にしているのですが、それでも発生するようで > > > > す。 > > > > http://fess.sourceforge.jp/ja/3.0/config/memory-config. > > > > html > > > > > > > > ちなみに、当方の環境・状況は以下のとおりです。 > > > > > > > > ●環境 > > > > ・WindowsXP SP3に搭載して試用・検証中 > > > > (CPU:Core 2 Duo 2GHz、メモリ:1.5GB) > > > > ・JDK 6 Update 21 > > > > ・fess-server-3.1.1 or 4.0.0SNAPSHOT > > > > (どちらでも発生するようです) > > > > ・メモリ関連設定:上記リンクと同じ設定 > > > > > > > > ●クロール設定 > > > > ・対象ドキュメント: ファイルサーバ上のファイル 約6万件 > > > > ・同時実行のクロール設定数:1 > > > > ・ドキュメント数毎にコミット:500 > > > > ・スレッド数:3 > > > > ・間隔:1000ミリ秒 > > > > > > > > ●状況 > > > > 約1万ドキュメントを処理したあたりで、メモリエラー発生 > > > > ※エラー発生後は、延々とクロール処理のみが行われて、 > > > > SolrDBへの登録処理が行われない状態 > > > > ※かなり高い確率(現時点100%)で現象が再発。 > > > > > > > > > > > > 上記、メモリ関連設定の再チューニングなどで回避は可能なの > > > > で > > > > し > > > > ょうか? > > > > > > > > 以上、よろしくお願いします。 > > > >> ----Original Message---- > > > >> Fri, 16 Jul 2010 06:33:00 +0900 > > > >> From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> > > > >> Reply-To: fess-user @ lists.sourceforge.jp > > > >> To: fess-user @ lists.sourceforge.jp > > > >> Subject: [fess-user 290] Re:インデックスの作成が停止し > > > >> ま > > > >> す > > > >> > > > > > > > >> 菅谷です。 > > > >> > > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、 > > > >> > SolrDB > > > >> > へ > > > >> > 手動で登録する方法(機能など)はありませんでしょうか? > > > >> > > > >> 現状、ないです。クロールデータについては > > > >> パフォーマンスに大きな影響を与えるので > > > >> 消せるときに消す感じにしています。ただ > > > >> 今回のように例外的にクロールを抜けるような > > > >> 場合に残せるかどうかは検討してみます。 > > > >> > > > >> > ※少なくとも、catalina.outにはエラーメッセージなどは出 > > > >> > 力 > > > >> > さ > > > >> > れ > > > >> > ていませんでした。他のログはこれから調べます。 > > > >> > > > >> 最新の環境であれば、fess_crawler.out が > > > >> どうなっているかがポイントになるかと思います。 > > > >> > > > >> よろしくお願いいたします。 > > > >> > > > >> shinsuke > > > >> > > > >> > > > >> 2010年7月16日1:17 Sugano <ganosu0 @ gmail.com>: > > > >> > 初めまして、すがのと申します。 > > > >> > > > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、 > > > >> > SolrDB > > > >> > へ > > > >> > 手動で登録する方法(機能など)はありませんでしょうか? > > > >> > (クロール実行中もしくはクロール停止時に手動実行) > > > >> > > > > >> > というのも、私のところでも桑田さんとほぼ同様の現象が発 > > > >> > 生 > > > >> > し > > > >> > て > > > >> > おり、 > > > >> >> クローラープロセスが実行中にも関わらず、ドキュメント > > > >> >> 数 > > > >> >> が > > > >> >> 増 > > > >> >> 加しなくなります。 > > > >> >> システム設定画面で何度が停止->実行を繰り返しましたが > > > >> >> 状 > > > >> >> 況 > > > >> >> が > > > >> >> 変わりません。 > > > >> > > > > >> > 具体的には、以下2つの現象のいずれかが発生することが多 > > > >> > く、 > > > >> > > > > >> > 事象1.クローラプロセスが稼働中にもかかわらず、クロー > > > >> > ラ > > > >> > 側 > > > >> > DB > > > >> > (\webapp\fess\WEB-INF\db)やSolrDBへの登録が行われない。 > > > >> > > > > >> > 事象2.クローラ側DB(\webapp\fess\WEB-INF\db)への登録 > > > >> > は > > > >> > さ > > > >> > れ > > > >> > 続けるが、SolrDBへの登録が行われなず、クローラ側DBのみ > > > >> > が > > > >> > 増 > > > >> > え > > > >> > 続ける。 > > > >> > > > > >> > 上記の現象発生後に、クローラで収集したSolrDBへの未登録 > > > >> > 情 > > > >> > 報 > > > >> > を > > > >> > 破棄するのはもったいないので、収集した情報をSolrDBへ手 > > > >> > 動 > > > >> > 登 > > > >> > 録 > > > >> > する手段を知りたいと考えております。 > > > >> > (クロールを再度起動すると、前回収集した情報がすべて消 > > > >> > え > > > >> > て > > > >> > し > > > >> > まい、事象2で数万件分の情報が溜まっていたとしても全て > > > >> > ク > > > >> > リ > > > >> > ア > > > >> > されてしまうため、クリアされずにDB登録する方法が知りた > > > >> > い > > > >> > で > > > >> > す。) > > > >> > > > > >> > ちなみに、本現象の原因については、下記を参考にして現在 > > > >> > 調 > > > >> > 査 > > > >> > 中 > > > >> > ですが、現時点では原因は特定できていません。 > > > >> >> おそらく crawler.out か catalina.out などに出力されて > > > >> >> いるかと思います。以下を参照してみてください。 > > > >> >> > > > >> >> http://fess.sourceforge.jp/ja/3.0/config/logging.html > > > >> >> > > > >> > ※少なくとも、catalina.outにはエラーメッセージなどは出 > > > >> > 力 > > > >> > さ > > > >> > れ > > > >> > ていませんでした。他のログはこれから調べます。 > > > >> > ※ファイルパスの長さが260字以上(WindowsのMAX_PATH値以 > > > >> > 上) > > > >> > の > > > >> > デ > > > >> > ィレクトリ・ファイルもあるため、それが原因の一つの可能 > > > >> > 性 > > > >> > も > > > >> > 有 > > > >> > り? > > > >> > ※上記、もう少し調べてわからないようであれば、再度詳細 > > > >> > な > > > >> > 情 > > > >> > 報 > > > >> > をお知らせします。 > > > >> > > > > >> > 以上、よろしくお願い致します。 > > > >> > > > > >> >> 菅谷です。 > > > >> >> > > > >> >> おそらく crawler.out か catalina.out などに出力されて > > > >> >> いるかと思います。以下を参照してみてください。 > > > >> >> > > > >> >> http://fess.sourceforge.jp/ja/3.0/config/logging.html > > > >> >> > > > >> >> よろしくお願いいたします。 > > > >> >> > > > >> >> shinsuke > > > >> >> > > > >> >> > > > >> >> 2010年7月14日16:53 Tetsutomo Kuwata <fj.kuwata @ > > > >> >> gmail. > > > >> >> com>: > > > >> >> 初めまして、桑田と申します。 > > > >> >> > > > >> >> この度始めてFessを導入しインデックス作成を実行してい > > > >> >> る > > > >> >> と > > > >> >> こ > > > >> >> ろなのですが > > > >> >> クローラープロセスが実行中にも関わらず、ドキュメント > > > >> >> 数 > > > >> >> が > > > >> >> 増 > > > >> >> 加しなくなります。 > > > >> >> システム設定画面で何度が停止->実行を繰り返しましたが > > > >> >> 状 > > > >> >> 況 > > > >> >> が > > > >> >> 変わりません。 > > > >> >> どの辺を調べれば原因がわかりますでしょうか。 > > > >> >> > > > >> >> 環境 > > > >> >> Windows Server 2003 R2 > > > >> >> JDK 6 Update 20 > > > >> >> fess-server-3.1.1(サービスとして登録) > > > >> >> > > > >> >> 対象ドキュメント: ファイルシステム 23万件 > > > >> >> 現在のドキュメント数: 4万件 > > > >> >> > > > >> >> > > > >> >> 以上、よろしくお願い致します。 > > > >> >> > > > >> >> _______________________________________________ > > > >> >> Fess-user mailing list > > > >> >> Fess-user @ lists.sourceforge.jp > > > >> >> http://lists.sourceforge.jp/mailman/listinfo/fess- > > > >> >> user > > > >> >> > > > >> > > > > >> > _______________________________________________ > > > >> > Fess-user mailing list > > > >> > Fess-user @ lists.sourceforge.jp > > > >> > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > >> > > > > >> > > > >> _______________________________________________ > > > >> Fess-user mailing list > > > >> Fess-user @ lists.sourceforge.jp > > > >> http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > > > > > > > > > _______________________________________________ > > > > Fess-user mailing list > > > > Fess-user @ lists.sourceforge.jp > > > > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > > > > > > > > > > > _______________________________________________ > > > Fess-user mailing list > > > Fess-user @ lists.sourceforge.jp > > > http://lists.sourceforge.jp/mailman/listinfo/fess-user From shinsuke @ yahoo.co.jp Wed Jul 21 08:44:31 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Wed, 21 Jul 2010 08:44:31 +0900 Subject: [fess-user 302] Re: =?iso-2022-jp?b?GyRCJSQlcyVHJUMlLyU5JE46bkAuJCxEZDtfJDcbKEI=?= =?iso-2022-jp?b?GyRCJF4kORsoQg==?= In-Reply-To: <16CB281F9D6F9Dganosu0@gmail.com> References: <13CB2556CB5C6Fganosu0@gmail.com> <AANLkTiktDh1XBpjOJtDYEvSRNCyhNIdtHd0JkL-miV9k@mail.gmail.com> <14CB26746264FFganosu0@gmail.com> <15CB28131AC421ganosu0@gmail.com> <16CB281F9D6F9Dganosu0@gmail.com> Message-ID: <AANLkTimOz7BRMnxkuYeppGk5zFDe5-9FeVHJvqWgOPPT@mail.gmail.com> 菅谷です。 情報をありがとうございます。 zipについては Apache Tika ではzipボム対策を していると思いますが、Office2007系のファイルも Apache Tika で何か対応してもらう必要があるかと 思います。Fess としてはOutOfMemoryになるような 場合は対象のファイルをブラックリストのようなところに 登録して除外できるようにする方向で考えたいと 思います。ですので、申し訳ありませんが、現状では 見つけたものを手動で除外するしかないと思います。 よろしくお願いいたします。 shinsuke 2010年7月21日0:24 Sugano <ganosu0 @ gmail.com>: > お世話になってます。 > すがのです。 > > 先ほど1点気がついた点があったので、 > とりあえず参考までに報告しておきます。 > > ご存知かもしれませんが、本現象の原因となっている「xlsx」は、 > デフォルトでデータ圧縮機能(zip相当)があることを思い出しまし > た。 > (docx,pptxなど、他のOffice2007形式ファイルも対象) > > なので、今回のExcelファイルは、ほぼ全部テキストデータであり、 > テキストデータの圧縮率は非常に高いため、8MB程度のExcelファイ > ルでも、実質は数百MB相当のテキストデータを、クロール側で読み > 込んでいる可能性があると思います。 > > 上記、参考になれば幸いです。 >> ----Original Message---- >> Tue, 20 Jul 2010 22:54:42 +0900 >> From: Sugano <ganosu0 @ gmail.com> >> To: fess-user @ lists.sourceforge.jp >> Cc: >> Subject: Re: [fess-user 297] Re:インデックスの作成が停止し >> ます >> > >> お世話になってます。 >> すがのです。 >> >> 本件ですが、原因が判明して、特定の条件を満たしたExcelファイ >> ル(xlsx)が原因で、メモリエラーが発生していたことがわかりまし >> た。 >> >> 経緯を説明しますと、まず、maxDocumentCacheSizeを10→5→2と変 >> 更して何度か再実行しても現象は変わりませんでした。 >> >> しかし、毎回約1万ファイル程度処理した時点で、ほぼ同様のメモ >> リエラーが発生しているようだったので、特定のファイルが原因で >> はないかと想定して調査したところ、特定のExcelファイル(xlsx) >> を読み込んだときに、使用メモリが10秒程度で急増(1G以上増加)し >> て、メモリエラーが発生したことがわかりました。 >> >> その特定のExcelファイルですが、ファイルサイズは8MB程度なので >> すが、中のデータ量がDBみたいに多く(項目20列程度のデータが約7 >> 万行)、このExcelファイルの中のデータを全て読み取ろうとして、 >> メモリが枯渇した可能性があると想定しております。 >> ※このファイル1つのみをピンポイントでクロールに読み込ませて >> テストしたところ、使用メモリが急増してエラーが発生しました。 >> >> さしあたり、このファイル自体は、クロール対象から除外すること >> で、一時的な回避はできたのですが、同じファイルサーバの中に、 >> 似たようなExcelファイルがいくつか存在している様で、本日3回ほ >> どメモリエラーで異常終了して、クロール処理を完了できない状態 >> となっております。 >> (20〜40列・6〜8万行・数MB程度のxlsxファイルを、現時点で3つほ >> どエラーの都度発見しており(※もっとある可能性大)、その度に、 >> 原因xlsxファイルを検索除外対象にする作業を繰り返している状態 >> です) >> >> 上記、エラー発生する都度、検索除外対象とするのは効率が悪いの >> で、何とか回避したいと思っておりますが、何か良い方法などはあ >> りますでしょうか? >> (特定のファイルでメモリエラーが発生しても、クロール処理が継 >> 続して正常稼動するのが理想ですが、プログラム改修による対応は >> 困難でしょうか?) >> >> 上記、アドバイスなどがありましたら、ご回答をお願いいたします。 >> 以上、よろしくお願いします。 >> > ----Original Message---- >> > Sun, 18 Jul 2010 21:26:01 +0900 >> > From: Sugano <ganosu0 @ gmail.com> >> > To: fess-user @ lists.sourceforge.jp >> > Cc: >> > Subject: Re: [fess-user 297] Re:インデックスの作成が停止し >> > ます >> > >> >> > お世話になってます。 >> > すがのです。 >> > >> > 本件、了解です! >> > 連休明けにでも試してみます! >> > >> > ご回答ありがとうございました! >> > > ----Original Message---- >> > > Sun, 18 Jul 2010 07:48:35 +0900 >> > > From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> >> > > Reply-To: fess-user @ lists.sourceforge.jp >> > > To: fess-user @ lists.sourceforge.jp >> > > Subject: [fess-user 297] Re:インデックスの作成が停止します >> > > >> > >> > > 菅谷です。 >> > > >> > > > (CPU:Core 2 Duo 2GHz、メモリ:1.5GB) >> > > >> > > この環境ですと、Fess 的には mx を 512m くらいが >> > > 上限な気がしますので、1 回あたりの Solr に送る >> > > ドキュメント数を下げるのが良い気がします。 >> > > webapps/fess/WEB-INF/cmd/resources/app.dicon >> > > で >> > > >> > > <component name="indexUpdater" >> > > class="jp.sf.fess.solr.IndexUpdater" instance="prototype"> >> > > <property name="maxDocumentCacheSize">5</property> >> > > </component> >> > > >> > > というように maxDocumentCacheSize を下げることが >> > > できます。デフォルトでは 1 回で 10 ドキュメントを >> > > Solr に送ります。 >> > > >> > > shinsuke >> > > >> > > 2010年7月17日11:21 Sugano <ganosu0 @ gmail.com>: >> > > > お世話になってます。 >> > > > すがのです。 >> > > > >> > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、 >> > > >> > SolrDB >> > > >> > へ >> > > >> > 手動で登録する方法(機能など)はありませんでしょうか? >> > > >> >> > > >> 現状、ないです。クロールデータについては >> > > >> パフォーマンスに大きな影響を与えるので >> > > >> 消せるときに消す感じにしています。ただ >> > > >> 今回のように例外的にクロールを抜けるような >> > > >> 場合に残せるかどうかは検討してみます。 >> > > > 了解しました。 >> > > > 是非、お願いします。 >> > > > >> > > >> > ※少なくとも、catalina.outにはエラーメッセージなどは出 >> > > >> > 力 >> > > >> > さ >> > > >> > れ >> > > >> > ていませんでした。他のログはこれから調べます。 >> > > >> >> > > >> 最新の環境であれば、fess_crawler.out が >> > > >> どうなっているかがポイントになるかと思います。 >> > > > fess_crawler.outを調べたところ、添付ファイル(fess_crawler. >> > > > outのログを一部抜粋、一部ファイルパスの修正有)のように >> > > > OutOfMemory エラーが発生していたことがわかりました。 >> > > > >> > > > 下記の設定は既にしているのですが、それでも発生するようで >> > > > す。 >> > > > http://fess.sourceforge.jp/ja/3.0/config/memory-config. >> > > > html >> > > > >> > > > ちなみに、当方の環境・状況は以下のとおりです。 >> > > > >> > > > ●環境 >> > > > ・WindowsXP SP3に搭載して試用・検証中 >> > > > (CPU:Core 2 Duo 2GHz、メモリ:1.5GB) >> > > > ・JDK 6 Update 21 >> > > > ・fess-server-3.1.1 or 4.0.0SNAPSHOT >> > > > (どちらでも発生するようです) >> > > > ・メモリ関連設定:上記リンクと同じ設定 >> > > > >> > > > ●クロール設定 >> > > > ・対象ドキュメント: ファイルサーバ上のファイル 約6万件 >> > > > ・同時実行のクロール設定数:1 >> > > > ・ドキュメント数毎にコミット:500 >> > > > ・スレッド数:3 >> > > > ・間隔:1000ミリ秒 >> > > > >> > > > ●状況 >> > > > 約1万ドキュメントを処理したあたりで、メモリエラー発生 >> > > > ※エラー発生後は、延々とクロール処理のみが行われて、 >> > > > SolrDBへの登録処理が行われない状態 >> > > > ※かなり高い確率(現時点100%)で現象が再発。 >> > > > >> > > > >> > > > 上記、メモリ関連設定の再チューニングなどで回避は可能なの >> > > > で >> > > > し >> > > > ょうか? >> > > > >> > > > 以上、よろしくお願いします。 >> > > >> ----Original Message---- >> > > >> Fri, 16 Jul 2010 06:33:00 +0900 >> > > >> From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> >> > > >> Reply-To: fess-user @ lists.sourceforge.jp >> > > >> To: fess-user @ lists.sourceforge.jp >> > > >> Subject: [fess-user 290] Re:インデックスの作成が停止し >> > > >> ま >> > > >> す >> > > >> >> > > > >> > > >> 菅谷です。 >> > > >> >> > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、 >> > > >> > SolrDB >> > > >> > へ >> > > >> > 手動で登録する方法(機能など)はありませんでしょうか? >> > > >> >> > > >> 現状、ないです。クロールデータについては >> > > >> パフォーマンスに大きな影響を与えるので >> > > >> 消せるときに消す感じにしています。ただ >> > > >> 今回のように例外的にクロールを抜けるような >> > > >> 場合に残せるかどうかは検討してみます。 >> > > >> >> > > >> > ※少なくとも、catalina.outにはエラーメッセージなどは出 >> > > >> > 力 >> > > >> > さ >> > > >> > れ >> > > >> > ていませんでした。他のログはこれから調べます。 >> > > >> >> > > >> 最新の環境であれば、fess_crawler.out が >> > > >> どうなっているかがポイントになるかと思います。 >> > > >> >> > > >> よろしくお願いいたします。 >> > > >> >> > > >> shinsuke >> > > >> >> > > >> >> > > >> 2010年7月16日1:17 Sugano <ganosu0 @ gmail.com>: >> > > >> > 初めまして、すがのと申します。 >> > > >> > >> > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、 >> > > >> > SolrDB >> > > >> > へ >> > > >> > 手動で登録する方法(機能など)はありませんでしょうか? >> > > >> > (クロール実行中もしくはクロール停止時に手動実行) >> > > >> > >> > > >> > というのも、私のところでも桑田さんとほぼ同様の現象が発 >> > > >> > 生 >> > > >> > し >> > > >> > て >> > > >> > おり、 >> > > >> >> クローラープロセスが実行中にも関わらず、ドキュメント >> > > >> >> 数 >> > > >> >> が >> > > >> >> 増 >> > > >> >> 加しなくなります。 >> > > >> >> システム設定画面で何度が停止->実行を繰り返しましたが >> > > >> >> 状 >> > > >> >> 況 >> > > >> >> が >> > > >> >> 変わりません。 >> > > >> > >> > > >> > 具体的には、以下2つの現象のいずれかが発生することが多 >> > > >> > く、 >> > > >> > >> > > >> > 事象1.クローラプロセスが稼働中にもかかわらず、クロー >> > > >> > ラ >> > > >> > 側 >> > > >> > DB >> > > >> > (\webapp\fess\WEB-INF\db)やSolrDBへの登録が行われない。 >> > > >> > >> > > >> > 事象2.クローラ側DB(\webapp\fess\WEB-INF\db)への登録 >> > > >> > は >> > > >> > さ >> > > >> > れ >> > > >> > 続けるが、SolrDBへの登録が行われなず、クローラ側DBのみ >> > > >> > が >> > > >> > 増 >> > > >> > え >> > > >> > 続ける。 >> > > >> > >> > > >> > 上記の現象発生後に、クローラで収集したSolrDBへの未登録 >> > > >> > 情 >> > > >> > 報 >> > > >> > を >> > > >> > 破棄するのはもったいないので、収集した情報をSolrDBへ手 >> > > >> > 動 >> > > >> > 登 >> > > >> > 録 >> > > >> > する手段を知りたいと考えております。 >> > > >> > (クロールを再度起動すると、前回収集した情報がすべて消 >> > > >> > え >> > > >> > て >> > > >> > し >> > > >> > まい、事象2で数万件分の情報が溜まっていたとしても全て >> > > >> > ク >> > > >> > リ >> > > >> > ア >> > > >> > されてしまうため、クリアされずにDB登録する方法が知りた >> > > >> > い >> > > >> > で >> > > >> > す。) >> > > >> > >> > > >> > ちなみに、本現象の原因については、下記を参考にして現在 >> > > >> > 調 >> > > >> > 査 >> > > >> > 中 >> > > >> > ですが、現時点では原因は特定できていません。 >> > > >> >> おそらく crawler.out か catalina.out などに出力されて >> > > >> >> いるかと思います。以下を参照してみてください。 >> > > >> >> >> > > >> >> http://fess.sourceforge.jp/ja/3.0/config/logging.html >> > > >> >> >> > > >> > ※少なくとも、catalina.outにはエラーメッセージなどは出 >> > > >> > 力 >> > > >> > さ >> > > >> > れ >> > > >> > ていませんでした。他のログはこれから調べます。 >> > > >> > ※ファイルパスの長さが260字以上(WindowsのMAX_PATH値以 >> > > >> > 上) >> > > >> > の >> > > >> > デ >> > > >> > ィレクトリ・ファイルもあるため、それが原因の一つの可能 >> > > >> > 性 >> > > >> > も >> > > >> > 有 >> > > >> > り? >> > > >> > ※上記、もう少し調べてわからないようであれば、再度詳細 >> > > >> > な >> > > >> > 情 >> > > >> > 報 >> > > >> > をお知らせします。 >> > > >> > >> > > >> > 以上、よろしくお願い致します。 >> > > >> > >> > > >> >> 菅谷です。 >> > > >> >> >> > > >> >> おそらく crawler.out か catalina.out などに出力されて >> > > >> >> いるかと思います。以下を参照してみてください。 >> > > >> >> >> > > >> >> http://fess.sourceforge.jp/ja/3.0/config/logging.html >> > > >> >> >> > > >> >> よろしくお願いいたします。 >> > > >> >> >> > > >> >> shinsuke >> > > >> >> >> > > >> >> >> > > >> >> 2010年7月14日16:53 Tetsutomo Kuwata <fj.kuwata @ >> > > >> >> gmail. >> > > >> >> com>: >> > > >> >> 初めまして、桑田と申します。 >> > > >> >> >> > > >> >> この度始めてFessを導入しインデックス作成を実行してい >> > > >> >> る >> > > >> >> と >> > > >> >> こ >> > > >> >> ろなのですが >> > > >> >> クローラープロセスが実行中にも関わらず、ドキュメント >> > > >> >> 数 >> > > >> >> が >> > > >> >> 増 >> > > >> >> 加しなくなります。 >> > > >> >> システム設定画面で何度が停止->実行を繰り返しましたが >> > > >> >> 状 >> > > >> >> 況 >> > > >> >> が >> > > >> >> 変わりません。 >> > > >> >> どの辺を調べれば原因がわかりますでしょうか。 >> > > >> >> >> > > >> >> 環境 >> > > >> >> Windows Server 2003 R2 >> > > >> >> JDK 6 Update 20 >> > > >> >> fess-server-3.1.1(サービスとして登録) >> > > >> >> >> > > >> >> 対象ドキュメント: ファイルシステム 23万件 >> > > >> >> 現在のドキュメント数: 4万件 >> > > >> >> >> > > >> >> >> > > >> >> 以上、よろしくお願い致します。 >> > > >> >> >> > > >> >> _______________________________________________ >> > > >> >> Fess-user mailing list >> > > >> >> Fess-user @ lists.sourceforge.jp >> > > >> >> http://lists.sourceforge.jp/mailman/listinfo/fess- >> > > >> >> user >> > > >> >> >> > > >> > >> > > >> > _______________________________________________ >> > > >> > Fess-user mailing list >> > > >> > Fess-user @ lists.sourceforge.jp >> > > >> > http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > >> > >> > > >> >> > > >> _______________________________________________ >> > > >> Fess-user mailing list >> > > >> Fess-user @ lists.sourceforge.jp >> > > >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > > >> > > > >> > > > _______________________________________________ >> > > > Fess-user mailing list >> > > > Fess-user @ lists.sourceforge.jp >> > > > http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > > >> > > > >> > > >> > > _______________________________________________ >> > > Fess-user mailing list >> > > Fess-user @ lists.sourceforge.jp >> > > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From ganosu0 @ gmail.com Wed Jul 21 20:28:53 2010 From: ganosu0 @ gmail.com (Sugano) Date: Wed, 21 Jul 2010 20:28:53 +0900 Subject: [fess-user 303] Re: =?iso-2022-jp?b?GyRCJSQlcyVHJUMlLyU5JE46bkAuJCxEZDtfJDcbKEI=?= =?iso-2022-jp?b?GyRCJF4kORsoQg==?= In-Reply-To: <AANLkTimOz7BRMnxkuYeppGk5zFDe5-9FeVHJvqWgOPPT@mail.gmail.com> References: <14CB26746264FFganosu0@gmail.com> <15CB28131AC421ganosu0@gmail.com> <16CB281F9D6F9Dganosu0@gmail.com> <AANLkTimOz7BRMnxkuYeppGk5zFDe5-9FeVHJvqWgOPPT@mail.gmail.com> Message-ID: <18CB28C7E64EC1ganosu0@gmail.com> お世話になります。 菅野です。 > zipについては Apache Tika ではzipボム対策を > していると思いますが、Office2007系のファイルも > Apache Tika で何か対応してもらう必要があるかと > 思います。Fess としてはOutOfMemoryになるような > 場合は対象のファイルをブラックリストのようなところに > 登録して除外できるようにする方向で考えたいと > 思います。ですので、申し訳ありませんが、現状では > 見つけたものを手動で除外するしかないと思います。 > よろしくお願いいたします。 上記、了解しました。 少し対策を考えてみたのですが、xlsx形式のファイルは、クロール 対象となるファイルサイズの上限を下げてみるのが良いかと考えた ので、(可能であれば)明日対応しようと思います。 対応としては、s2robot_contentlength.diconを以下のような感じ で修正すれば大丈夫でしょうか?(変更内容に自信は無いです) ※s2robot_contentlength.diconの修正内容 <component name="contentLengthHelper" class="org.seasar. robot.helper.ContentLengthHelper" instance="singleton" > <property name="defaultMaxLength">10485760L</property><! -- 10M --> <initMethod name="addMaxLength"> <arg>"text/html"</arg> <arg>2621440L</arg><!-- 2.5M --> <arg>"application/vnd.openxmlformats-officedocument. spreadsheetml.sheet"</arg> <arg>2621440L</arg><!-- 2.5M --> </initMethod> </component> 以上、よろしくお願いします。 > ----Original Message---- > Wed, 21 Jul 2010 08:44:31 +0900 > From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> > Reply-To: fess-user @ lists.sourceforge.jp > To: fess-user @ lists.sourceforge.jp > Subject: [fess-user 302] Re:インデックスの作成が停止します > > 菅谷です。 > > 情報をありがとうございます。 > zipについては Apache Tika ではzipボム対策を > していると思いますが、Office2007系のファイルも > Apache Tika で何か対応してもらう必要があるかと > 思います。Fess としてはOutOfMemoryになるような > 場合は対象のファイルをブラックリストのようなところに > 登録して除外できるようにする方向で考えたいと > 思います。ですので、申し訳ありませんが、現状では > 見つけたものを手動で除外するしかないと思います。 > よろしくお願いいたします。 > > shinsuke > > > 2010年7月21日0:24 Sugano <ganosu0 @ gmail.com>: > > お世話になってます。 > > すがのです。 > > > > 先ほど1点気がついた点があったので、 > > とりあえず参考までに報告しておきます。 > > > > ご存知かもしれませんが、本現象の原因となっている「xlsx」は、 > > デフォルトでデータ圧縮機能(zip相当)があることを思い出しまし > > た。 > > (docx,pptxなど、他のOffice2007形式ファイルも対象) > > > > なので、今回のExcelファイルは、ほぼ全部テキストデータであり、 > > テキストデータの圧縮率は非常に高いため、8MB程度のExcelファイ > > ルでも、実質は数百MB相当のテキストデータを、クロール側で読み > > 込んでいる可能性があると思います。 > > > > 上記、参考になれば幸いです。 > >> ----Original Message---- > >> Tue, 20 Jul 2010 22:54:42 +0900 > >> From: Sugano <ganosu0 @ gmail.com> > >> To: fess-user @ lists.sourceforge.jp > >> Cc: > >> Subject: Re: [fess-user 297] Re:インデックスの作成が停止し > >> ます > >> > > > >> お世話になってます。 > >> すがのです。 > >> > >> 本件ですが、原因が判明して、特定の条件を満たしたExcelファイ > >> ル(xlsx)が原因で、メモリエラーが発生していたことがわかりまし > >> た。 > >> > >> 経緯を説明しますと、まず、maxDocumentCacheSizeを10→5→2と変 > >> 更して何度か再実行しても現象は変わりませんでした。 > >> > >> しかし、毎回約1万ファイル程度処理した時点で、ほぼ同様のメモ > >> リエラーが発生しているようだったので、特定のファイルが原因で > >> はないかと想定して調査したところ、特定のExcelファイル(xlsx) > >> を読み込んだときに、使用メモリが10秒程度で急増(1G以上増加)し > >> て、メモリエラーが発生したことがわかりました。 > >> > >> その特定のExcelファイルですが、ファイルサイズは8MB程度なので > >> すが、中のデータ量がDBみたいに多く(項目20列程度のデータが約7 > >> 万行)、このExcelファイルの中のデータを全て読み取ろうとして、 > >> メモリが枯渇した可能性があると想定しております。 > >> ※このファイル1つのみをピンポイントでクロールに読み込ませて > >> テストしたところ、使用メモリが急増してエラーが発生しました。 > >> > >> さしあたり、このファイル自体は、クロール対象から除外すること > >> で、一時的な回避はできたのですが、同じファイルサーバの中に、 > >> 似たようなExcelファイルがいくつか存在している様で、本日3回ほ > >> どメモリエラーで異常終了して、クロール処理を完了できない状態 > >> となっております。 > >> (20〜40列・6〜8万行・数MB程度のxlsxファイルを、現時点で3つほ > >> どエラーの都度発見しており(※もっとある可能性大)、その度に、 > >> 原因xlsxファイルを検索除外対象にする作業を繰り返している状態 > >> です) > >> > >> 上記、エラー発生する都度、検索除外対象とするのは効率が悪いの > >> で、何とか回避したいと思っておりますが、何か良い方法などはあ > >> りますでしょうか? > >> (特定のファイルでメモリエラーが発生しても、クロール処理が継 > >> 続して正常稼動するのが理想ですが、プログラム改修による対応は > >> 困難でしょうか?) > >> > >> 上記、アドバイスなどがありましたら、ご回答をお願いいたします。 > >> 以上、よろしくお願いします。 > >> > ----Original Message---- > >> > Sun, 18 Jul 2010 21:26:01 +0900 > >> > From: Sugano <ganosu0 @ gmail.com> > >> > To: fess-user @ lists.sourceforge.jp > >> > Cc: > >> > Subject: Re: [fess-user 297] Re:インデックスの作成が停止 > >> > し > >> > ます > >> > > >> > >> > お世話になってます。 > >> > すがのです。 > >> > > >> > 本件、了解です! > >> > 連休明けにでも試してみます! > >> > > >> > ご回答ありがとうございました! > >> > > ----Original Message---- > >> > > Sun, 18 Jul 2010 07:48:35 +0900 > >> > > From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> > >> > > Reply-To: fess-user @ lists.sourceforge.jp > >> > > To: fess-user @ lists.sourceforge.jp > >> > > Subject: [fess-user 297] Re:インデックスの作成が停止し > >> > > ます > >> > > > >> > > >> > > 菅谷です。 > >> > > > >> > > > (CPU:Core 2 Duo 2GHz、メモリ:1.5GB) > >> > > > >> > > この環境ですと、Fess 的には mx を 512m くらいが > >> > > 上限な気がしますので、1 回あたりの Solr に送る > >> > > ドキュメント数を下げるのが良い気がします。 > >> > > webapps/fess/WEB-INF/cmd/resources/app.dicon > >> > > で > >> > > > >> > > <component name="indexUpdater" > >> > > class="jp.sf.fess.solr.IndexUpdater" instance="prototype > >> > > "> > >> > > <property name="maxDocumentCacheSize">5</ > >> > > property> > >> > > </component> > >> > > > >> > > というように maxDocumentCacheSize を下げることが > >> > > できます。デフォルトでは 1 回で 10 ドキュメントを > >> > > Solr に送ります。 > >> > > > >> > > shinsuke > >> > > > >> > > 2010年7月17日11:21 Sugano <ganosu0 @ gmail.com>: > >> > > > お世話になってます。 > >> > > > すがのです。 > >> > > > > >> > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、 > >> > > >> > SolrDB > >> > > >> > へ > >> > > >> > 手動で登録する方法(機能など)はありませんでしょう > >> > > >> > か? > >> > > >> > >> > > >> 現状、ないです。クロールデータについては > >> > > >> パフォーマンスに大きな影響を与えるので > >> > > >> 消せるときに消す感じにしています。ただ > >> > > >> 今回のように例外的にクロールを抜けるような > >> > > >> 場合に残せるかどうかは検討してみます。 > >> > > > 了解しました。 > >> > > > 是非、お願いします。 > >> > > > > >> > > >> > ※少なくとも、catalina.outにはエラーメッセージなど > >> > > >> > は出 > >> > > >> > 力 > >> > > >> > さ > >> > > >> > れ > >> > > >> > ていませんでした。他のログはこれから調べます。 > >> > > >> > >> > > >> 最新の環境であれば、fess_crawler.out が > >> > > >> どうなっているかがポイントになるかと思います。 > >> > > > fess_crawler.outを調べたところ、添付ファイル > >> > > > (fess_crawler. > >> > > > outのログを一部抜粋、一部ファイルパスの修正有)のように > >> > > > OutOfMemory エラーが発生していたことがわかりました。 > >> > > > > >> > > > 下記の設定は既にしているのですが、それでも発生するよう > >> > > > で > >> > > > す。 > >> > > > http://fess.sourceforge.jp/ja/3.0/config/memory-config. > >> > > > html > >> > > > > >> > > > ちなみに、当方の環境・状況は以下のとおりです。 > >> > > > > >> > > > ●環境 > >> > > > ・WindowsXP SP3に搭載して試用・検証中 > >> > > > (CPU:Core 2 Duo 2GHz、メモリ:1.5GB) > >> > > > ・JDK 6 Update 21 > >> > > > ・fess-server-3.1.1 or 4.0.0SNAPSHOT > >> > > > (どちらでも発生するようです) > >> > > > ・メモリ関連設定:上記リンクと同じ設定 > >> > > > > >> > > > ●クロール設定 > >> > > > ・対象ドキュメント: ファイルサーバ上のファイル 約6万件 > >> > > > ・同時実行のクロール設定数:1 > >> > > > ・ドキュメント数毎にコミット:500 > >> > > > ・スレッド数:3 > >> > > > ・間隔:1000ミリ秒 > >> > > > > >> > > > ●状況 > >> > > > 約1万ドキュメントを処理したあたりで、メモリエラー発生 > >> > > > ※エラー発生後は、延々とクロール処理のみが行われて、 > >> > > > SolrDBへの登録処理が行われない状態 > >> > > > ※かなり高い確率(現時点100%)で現象が再発。 > >> > > > > >> > > > > >> > > > 上記、メモリ関連設定の再チューニングなどで回避は可能な > >> > > > の > >> > > > で > >> > > > し > >> > > > ょうか? > >> > > > > >> > > > 以上、よろしくお願いします。 > >> > > >> ----Original Message---- > >> > > >> Fri, 16 Jul 2010 06:33:00 +0900 > >> > > >> From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> > >> > > >> Reply-To: fess-user @ lists.sourceforge.jp > >> > > >> To: fess-user @ lists.sourceforge.jp > >> > > >> Subject: [fess-user 290] Re:インデックスの作成が停止 > >> > > >> し > >> > > >> ま > >> > > >> す > >> > > >> > >> > > > > >> > > >> 菅谷です。 > >> > > >> > >> > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、 > >> > > >> > SolrDB > >> > > >> > へ > >> > > >> > 手動で登録する方法(機能など)はありませんでしょう > >> > > >> > か? > >> > > >> > >> > > >> 現状、ないです。クロールデータについては > >> > > >> パフォーマンスに大きな影響を与えるので > >> > > >> 消せるときに消す感じにしています。ただ > >> > > >> 今回のように例外的にクロールを抜けるような > >> > > >> 場合に残せるかどうかは検討してみます。 > >> > > >> > >> > > >> > ※少なくとも、catalina.outにはエラーメッセージなど > >> > > >> > は出 > >> > > >> > 力 > >> > > >> > さ > >> > > >> > れ > >> > > >> > ていませんでした。他のログはこれから調べます。 > >> > > >> > >> > > >> 最新の環境であれば、fess_crawler.out が > >> > > >> どうなっているかがポイントになるかと思います。 > >> > > >> > >> > > >> よろしくお願いいたします。 > >> > > >> > >> > > >> shinsuke > >> > > >> > >> > > >> > >> > > >> 2010年7月16日1:17 Sugano <ganosu0 @ gmail.com>: > >> > > >> > 初めまして、すがのと申します。 > >> > > >> > > >> > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、 > >> > > >> > SolrDB > >> > > >> > へ > >> > > >> > 手動で登録する方法(機能など)はありませんでしょう > >> > > >> > か? > >> > > >> > (クロール実行中もしくはクロール停止時に手動実行) > >> > > >> > > >> > > >> > というのも、私のところでも桑田さんとほぼ同様の現象 > >> > > >> > が発 > >> > > >> > 生 > >> > > >> > し > >> > > >> > て > >> > > >> > おり、 > >> > > >> >> クローラープロセスが実行中にも関わらず、ドキュメン > >> > > >> >> ト > >> > > >> >> 数 > >> > > >> >> が > >> > > >> >> 増 > >> > > >> >> 加しなくなります。 > >> > > >> >> システム設定画面で何度が停止->実行を繰り返しました > >> > > >> >> が > >> > > >> >> 状 > >> > > >> >> 況 > >> > > >> >> が > >> > > >> >> 変わりません。 > >> > > >> > > >> > > >> > 具体的には、以下2つの現象のいずれかが発生すること > >> > > >> > が多 > >> > > >> > く、 > >> > > >> > > >> > > >> > 事象1.クローラプロセスが稼働中にもかかわらず、ク > >> > > >> > ロー > >> > > >> > ラ > >> > > >> > 側 > >> > > >> > DB > >> > > >> > (\webapp\fess\WEB-INF\db)やSolrDBへの登録が行われ > >> > > >> > ない。 > >> > > >> > > >> > > >> > 事象2.クローラ側DB(\webapp\fess\WEB-INF\db)への > >> > > >> > 登録 > >> > > >> > は > >> > > >> > さ > >> > > >> > れ > >> > > >> > 続けるが、SolrDBへの登録が行われなず、クローラ側DB > >> > > >> > のみ > >> > > >> > が > >> > > >> > 増 > >> > > >> > え > >> > > >> > 続ける。 > >> > > >> > > >> > > >> > 上記の現象発生後に、クローラで収集したSolrDBへの未 > >> > > >> > 登録 > >> > > >> > 情 > >> > > >> > 報 > >> > > >> > を > >> > > >> > 破棄するのはもったいないので、収集した情報をSolrDB > >> > > >> > へ手 > >> > > >> > 動 > >> > > >> > 登 > >> > > >> > 録 > >> > > >> > する手段を知りたいと考えております。 > >> > > >> > (クロールを再度起動すると、前回収集した情報がすべて > >> > > >> > 消 > >> > > >> > え > >> > > >> > て > >> > > >> > し > >> > > >> > まい、事象2で数万件分の情報が溜まっていたとしても > >> > > >> > 全て > >> > > >> > ク > >> > > >> > リ > >> > > >> > ア > >> > > >> > されてしまうため、クリアされずにDB登録する方法が知 > >> > > >> > りた > >> > > >> > い > >> > > >> > で > >> > > >> > す。) > >> > > >> > > >> > > >> > ちなみに、本現象の原因については、下記を参考にして > >> > > >> > 現在 > >> > > >> > 調 > >> > > >> > 査 > >> > > >> > 中 > >> > > >> > ですが、現時点では原因は特定できていません。 > >> > > >> >> おそらく crawler.out か catalina.out などに出力さ > >> > > >> >> れて > >> > > >> >> いるかと思います。以下を参照してみてください。 > >> > > >> >> > >> > > >> >> http://fess.sourceforge.jp/ja/3.0/config/logging. > >> > > >> >> html > >> > > >> >> > >> > > >> > ※少なくとも、catalina.outにはエラーメッセージなど > >> > > >> > は出 > >> > > >> > 力 > >> > > >> > さ > >> > > >> > れ > >> > > >> > ていませんでした。他のログはこれから調べます。 > >> > > >> > ※ファイルパスの長さが260字以上(WindowsのMAX_PATH値 > >> > > >> > 以 > >> > > >> > 上) > >> > > >> > の > >> > > >> > デ > >> > > >> > ィレクトリ・ファイルもあるため、それが原因の一つの > >> > > >> > 可能 > >> > > >> > 性 > >> > > >> > も > >> > > >> > 有 > >> > > >> > り? > >> > > >> > ※上記、もう少し調べてわからないようであれば、再度 > >> > > >> > 詳細 > >> > > >> > な > >> > > >> > 情 > >> > > >> > 報 > >> > > >> > をお知らせします。 > >> > > >> > > >> > > >> > 以上、よろしくお願い致します。 > >> > > >> > > >> > > >> >> 菅谷です。 > >> > > >> >> > >> > > >> >> おそらく crawler.out か catalina.out などに出力さ > >> > > >> >> れて > >> > > >> >> いるかと思います。以下を参照してみてください。 > >> > > >> >> > >> > > >> >> http://fess.sourceforge.jp/ja/3.0/config/logging. > >> > > >> >> html > >> > > >> >> > >> > > >> >> よろしくお願いいたします。 > >> > > >> >> > >> > > >> >> shinsuke > >> > > >> >> > >> > > >> >> > >> > > >> >> 2010年7月14日16:53 Tetsutomo Kuwata <fj.kuwata @ > >> > > >> >> gmail. > >> > > >> >> com>: > >> > > >> >> 初めまして、桑田と申します。 > >> > > >> >> > >> > > >> >> この度始めてFessを導入しインデックス作成を実行して > >> > > >> >> い > >> > > >> >> る > >> > > >> >> と > >> > > >> >> こ > >> > > >> >> ろなのですが > >> > > >> >> クローラープロセスが実行中にも関わらず、ドキュメン > >> > > >> >> ト > >> > > >> >> 数 > >> > > >> >> が > >> > > >> >> 増 > >> > > >> >> 加しなくなります。 > >> > > >> >> システム設定画面で何度が停止->実行を繰り返しました > >> > > >> >> が > >> > > >> >> 状 > >> > > >> >> 況 > >> > > >> >> が > >> > > >> >> 変わりません。 > >> > > >> >> どの辺を調べれば原因がわかりますでしょうか。 > >> > > >> >> > >> > > >> >> 環境 > >> > > >> >> Windows Server 2003 R2 > >> > > >> >> JDK 6 Update 20 > >> > > >> >> fess-server-3.1.1(サービスとして登録) > >> > > >> >> > >> > > >> >> 対象ドキュメント: ファイルシステム 23万件 > >> > > >> >> 現在のドキュメント数: 4万件 > >> > > >> >> > >> > > >> >> > >> > > >> >> 以上、よろしくお願い致します。 > >> > > >> >> > >> > > >> >> _______________________________________________ > >> > > >> >> Fess-user mailing list > >> > > >> >> Fess-user @ lists.sourceforge.jp > >> > > >> >> http://lists.sourceforge.jp/mailman/listinfo/fess- > >> > > >> >> user > >> > > >> >> > >> > > >> > > >> > > >> > _______________________________________________ > >> > > >> > Fess-user mailing list > >> > > >> > Fess-user @ lists.sourceforge.jp > >> > > >> > http://lists.sourceforge.jp/mailman/listinfo/fess- > >> > > >> > user > >> > > >> > > >> > > >> > >> > > >> _______________________________________________ > >> > > >> Fess-user mailing list > >> > > >> Fess-user @ lists.sourceforge.jp > >> > > >> http://lists.sourceforge.jp/mailman/listinfo/fess- > >> > > >> user > >> > > > > >> > > > > >> > > > _______________________________________________ > >> > > > Fess-user mailing list > >> > > > Fess-user @ lists.sourceforge.jp > >> > > > http://lists.sourceforge.jp/mailman/listinfo/fess-user > >> > > > > >> > > > > >> > > > >> > > _______________________________________________ > >> > > Fess-user mailing list > >> > > Fess-user @ lists.sourceforge.jp > >> > > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > _______________________________________________ > > Fess-user mailing list > > Fess-user @ lists.sourceforge.jp > > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user From shinsuke @ yahoo.co.jp Thu Jul 22 09:38:04 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Thu, 22 Jul 2010 09:38:04 +0900 Subject: [fess-user 304] Re: =?iso-2022-jp?b?GyRCJSQlcyVHJUMlLyU5JE46bkAuJCxEZDtfJDcbKEI=?= =?iso-2022-jp?b?GyRCJF4kORsoQg==?= In-Reply-To: <18CB28C7E64EC1ganosu0@gmail.com> References: <14CB26746264FFganosu0@gmail.com> <15CB28131AC421ganosu0@gmail.com> <16CB281F9D6F9Dganosu0@gmail.com> <AANLkTimOz7BRMnxkuYeppGk5zFDe5-9FeVHJvqWgOPPT@mail.gmail.com> <18CB28C7E64EC1ganosu0@gmail.com> Message-ID: <AANLkTimYI7F_KWkMS7wiPzMGVpZUtRGLv4hF0NHr6HVD@mail.gmail.com> 菅谷です。 s2robot_contentlength.dicon は <component name="contentLengthHelper" class="org.seasar.robot.helper.ContentLengthHelper" instance="singleton" > <property name="defaultMaxLength">10485760L</property><!-- 10M --> <initMethod name="addMaxLength"> <arg>"text/html"</arg> <arg>2621440L</arg><!-- 2.5M --> </initMethod> <initMethod name="addMaxLength"> <arg>"application/vnd.openxmlformats-officedocument.spreadsheetml.sheet"</arg> <arg>2621440L</arg><!-- 2.5M --> </initMethod> </component> でお願いします。 shinsuke 2010年7月21日20:28 Sugano <ganosu0 @ gmail.com>: > お世話になります。 > 菅野です。 > >> zipについては Apache Tika ではzipボム対策を >> していると思いますが、Office2007系のファイルも >> Apache Tika で何か対応してもらう必要があるかと >> 思います。Fess としてはOutOfMemoryになるような >> 場合は対象のファイルをブラックリストのようなところに >> 登録して除外できるようにする方向で考えたいと >> 思います。ですので、申し訳ありませんが、現状では >> 見つけたものを手動で除外するしかないと思います。 >> よろしくお願いいたします。 > 上記、了解しました。 > > 少し対策を考えてみたのですが、xlsx形式のファイルは、クロール > 対象となるファイルサイズの上限を下げてみるのが良いかと考えた > ので、(可能であれば)明日対応しようと思います。 > > 対応としては、s2robot_contentlength.diconを以下のような感じ > で修正すれば大丈夫でしょうか?(変更内容に自信は無いです) > > ※s2robot_contentlength.diconの修正内容 > <component name="contentLengthHelper" class="org.seasar. > robot.helper.ContentLengthHelper" instance="singleton" > > <property name="defaultMaxLength">10485760L</property><! > -- 10M --> > <initMethod name="addMaxLength"> > <arg>"text/html"</arg> > <arg>2621440L</arg><!-- 2.5M --> > <arg>"application/vnd.openxmlformats-officedocument. > spreadsheetml.sheet"</arg> > <arg>2621440L</arg><!-- 2.5M --> > </initMethod> > </component> > > 以上、よろしくお願いします。 >> ----Original Message---- >> Wed, 21 Jul 2010 08:44:31 +0900 >> From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> >> Reply-To: fess-user @ lists.sourceforge.jp >> To: fess-user @ lists.sourceforge.jp >> Subject: [fess-user 302] Re:インデックスの作成が停止します >> > >> 菅谷です。 >> >> 情報をありがとうございます。 >> zipについては Apache Tika ではzipボム対策を >> していると思いますが、Office2007系のファイルも >> Apache Tika で何か対応してもらう必要があるかと >> 思います。Fess としてはOutOfMemoryになるような >> 場合は対象のファイルをブラックリストのようなところに >> 登録して除外できるようにする方向で考えたいと >> 思います。ですので、申し訳ありませんが、現状では >> 見つけたものを手動で除外するしかないと思います。 >> よろしくお願いいたします。 >> >> shinsuke >> >> >> 2010年7月21日0:24 Sugano <ganosu0 @ gmail.com>: >> > お世話になってます。 >> > すがのです。 >> > >> > 先ほど1点気がついた点があったので、 >> > とりあえず参考までに報告しておきます。 >> > >> > ご存知かもしれませんが、本現象の原因となっている「xlsx」は、 >> > デフォルトでデータ圧縮機能(zip相当)があることを思い出しまし >> > た。 >> > (docx,pptxなど、他のOffice2007形式ファイルも対象) >> > >> > なので、今回のExcelファイルは、ほぼ全部テキストデータであり、 >> > テキストデータの圧縮率は非常に高いため、8MB程度のExcelファイ >> > ルでも、実質は数百MB相当のテキストデータを、クロール側で読み >> > 込んでいる可能性があると思います。 >> > >> > 上記、参考になれば幸いです。 >> >> ----Original Message---- >> >> Tue, 20 Jul 2010 22:54:42 +0900 >> >> From: Sugano <ganosu0 @ gmail.com> >> >> To: fess-user @ lists.sourceforge.jp >> >> Cc: >> >> Subject: Re: [fess-user 297] Re:インデックスの作成が停止し >> >> ます >> >> >> > >> >> お世話になってます。 >> >> すがのです。 >> >> >> >> 本件ですが、原因が判明して、特定の条件を満たしたExcelファイ >> >> ル(xlsx)が原因で、メモリエラーが発生していたことがわかりまし >> >> た。 >> >> >> >> 経緯を説明しますと、まず、maxDocumentCacheSizeを10→5→2と変 >> >> 更して何度か再実行しても現象は変わりませんでした。 >> >> >> >> しかし、毎回約1万ファイル程度処理した時点で、ほぼ同様のメモ >> >> リエラーが発生しているようだったので、特定のファイルが原因で >> >> はないかと想定して調査したところ、特定のExcelファイル(xlsx) >> >> を読み込んだときに、使用メモリが10秒程度で急増(1G以上増加)し >> >> て、メモリエラーが発生したことがわかりました。 >> >> >> >> その特定のExcelファイルですが、ファイルサイズは8MB程度なので >> >> すが、中のデータ量がDBみたいに多く(項目20列程度のデータが約7 >> >> 万行)、このExcelファイルの中のデータを全て読み取ろうとして、 >> >> メモリが枯渇した可能性があると想定しております。 >> >> ※このファイル1つのみをピンポイントでクロールに読み込ませて >> >> テストしたところ、使用メモリが急増してエラーが発生しました。 >> >> >> >> さしあたり、このファイル自体は、クロール対象から除外すること >> >> で、一時的な回避はできたのですが、同じファイルサーバの中に、 >> >> 似たようなExcelファイルがいくつか存在している様で、本日3回ほ >> >> どメモリエラーで異常終了して、クロール処理を完了できない状態 >> >> となっております。 >> >> (20〜40列・6〜8万行・数MB程度のxlsxファイルを、現時点で3つほ >> >> どエラーの都度発見しており(※もっとある可能性大)、その度に、 >> >> 原因xlsxファイルを検索除外対象にする作業を繰り返している状態 >> >> です) >> >> >> >> 上記、エラー発生する都度、検索除外対象とするのは効率が悪いの >> >> で、何とか回避したいと思っておりますが、何か良い方法などはあ >> >> りますでしょうか? >> >> (特定のファイルでメモリエラーが発生しても、クロール処理が継 >> >> 続して正常稼動するのが理想ですが、プログラム改修による対応は >> >> 困難でしょうか?) >> >> >> >> 上記、アドバイスなどがありましたら、ご回答をお願いいたします。 >> >> 以上、よろしくお願いします。 >> >> > ----Original Message---- >> >> > Sun, 18 Jul 2010 21:26:01 +0900 >> >> > From: Sugano <ganosu0 @ gmail.com> >> >> > To: fess-user @ lists.sourceforge.jp >> >> > Cc: >> >> > Subject: Re: [fess-user 297] Re:インデックスの作成が停止 >> >> > し >> >> > ます >> >> > >> >> >> >> > お世話になってます。 >> >> > すがのです。 >> >> > >> >> > 本件、了解です! >> >> > 連休明けにでも試してみます! >> >> > >> >> > ご回答ありがとうございました! >> >> > > ----Original Message---- >> >> > > Sun, 18 Jul 2010 07:48:35 +0900 >> >> > > From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> >> >> > > Reply-To: fess-user @ lists.sourceforge.jp >> >> > > To: fess-user @ lists.sourceforge.jp >> >> > > Subject: [fess-user 297] Re:インデックスの作成が停止し >> >> > > ます >> >> > > >> >> > >> >> > > 菅谷です。 >> >> > > >> >> > > > (CPU:Core 2 Duo 2GHz、メモリ:1.5GB) >> >> > > >> >> > > この環境ですと、Fess 的には mx を 512m くらいが >> >> > > 上限な気がしますので、1 回あたりの Solr に送る >> >> > > ドキュメント数を下げるのが良い気がします。 >> >> > > webapps/fess/WEB-INF/cmd/resources/app.dicon >> >> > > で >> >> > > >> >> > > <component name="indexUpdater" >> >> > > class="jp.sf.fess.solr.IndexUpdater" instance="prototype >> >> > > "> >> >> > > <property name="maxDocumentCacheSize">5</ >> >> > > property> >> >> > > </component> >> >> > > >> >> > > というように maxDocumentCacheSize を下げることが >> >> > > できます。デフォルトでは 1 回で 10 ドキュメントを >> >> > > Solr に送ります。 >> >> > > >> >> > > shinsuke >> >> > > >> >> > > 2010年7月17日11:21 Sugano <ganosu0 @ gmail.com>: >> >> > > > お世話になってます。 >> >> > > > すがのです。 >> >> > > > >> >> > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、 >> >> > > >> > SolrDB >> >> > > >> > へ >> >> > > >> > 手動で登録する方法(機能など)はありませんでしょう >> >> > > >> > か? >> >> > > >> >> >> > > >> 現状、ないです。クロールデータについては >> >> > > >> パフォーマンスに大きな影響を与えるので >> >> > > >> 消せるときに消す感じにしています。ただ >> >> > > >> 今回のように例外的にクロールを抜けるような >> >> > > >> 場合に残せるかどうかは検討してみます。 >> >> > > > 了解しました。 >> >> > > > 是非、お願いします。 >> >> > > > >> >> > > >> > ※少なくとも、catalina.outにはエラーメッセージなど >> >> > > >> > は出 >> >> > > >> > 力 >> >> > > >> > さ >> >> > > >> > れ >> >> > > >> > ていませんでした。他のログはこれから調べます。 >> >> > > >> >> >> > > >> 最新の環境であれば、fess_crawler.out が >> >> > > >> どうなっているかがポイントになるかと思います。 >> >> > > > fess_crawler.outを調べたところ、添付ファイル >> >> > > > (fess_crawler. >> >> > > > outのログを一部抜粋、一部ファイルパスの修正有)のように >> >> > > > OutOfMemory エラーが発生していたことがわかりました。 >> >> > > > >> >> > > > 下記の設定は既にしているのですが、それでも発生するよう >> >> > > > で >> >> > > > す。 >> >> > > > http://fess.sourceforge.jp/ja/3.0/config/memory-config. >> >> > > > html >> >> > > > >> >> > > > ちなみに、当方の環境・状況は以下のとおりです。 >> >> > > > >> >> > > > ●環境 >> >> > > > ・WindowsXP SP3に搭載して試用・検証中 >> >> > > > (CPU:Core 2 Duo 2GHz、メモリ:1.5GB) >> >> > > > ・JDK 6 Update 21 >> >> > > > ・fess-server-3.1.1 or 4.0.0SNAPSHOT >> >> > > > (どちらでも発生するようです) >> >> > > > ・メモリ関連設定:上記リンクと同じ設定 >> >> > > > >> >> > > > ●クロール設定 >> >> > > > ・対象ドキュメント: ファイルサーバ上のファイル 約6万件 >> >> > > > ・同時実行のクロール設定数:1 >> >> > > > ・ドキュメント数毎にコミット:500 >> >> > > > ・スレッド数:3 >> >> > > > ・間隔:1000ミリ秒 >> >> > > > >> >> > > > ●状況 >> >> > > > 約1万ドキュメントを処理したあたりで、メモリエラー発生 >> >> > > > ※エラー発生後は、延々とクロール処理のみが行われて、 >> >> > > > SolrDBへの登録処理が行われない状態 >> >> > > > ※かなり高い確率(現時点100%)で現象が再発。 >> >> > > > >> >> > > > >> >> > > > 上記、メモリ関連設定の再チューニングなどで回避は可能な >> >> > > > の >> >> > > > で >> >> > > > し >> >> > > > ょうか? >> >> > > > >> >> > > > 以上、よろしくお願いします。 >> >> > > >> ----Original Message---- >> >> > > >> Fri, 16 Jul 2010 06:33:00 +0900 >> >> > > >> From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> >> >> > > >> Reply-To: fess-user @ lists.sourceforge.jp >> >> > > >> To: fess-user @ lists.sourceforge.jp >> >> > > >> Subject: [fess-user 290] Re:インデックスの作成が停止 >> >> > > >> し >> >> > > >> ま >> >> > > >> す >> >> > > >> >> >> > > > >> >> > > >> 菅谷です。 >> >> > > >> >> >> > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、 >> >> > > >> > SolrDB >> >> > > >> > へ >> >> > > >> > 手動で登録する方法(機能など)はありませんでしょう >> >> > > >> > か? >> >> > > >> >> >> > > >> 現状、ないです。クロールデータについては >> >> > > >> パフォーマンスに大きな影響を与えるので >> >> > > >> 消せるときに消す感じにしています。ただ >> >> > > >> 今回のように例外的にクロールを抜けるような >> >> > > >> 場合に残せるかどうかは検討してみます。 >> >> > > >> >> >> > > >> > ※少なくとも、catalina.outにはエラーメッセージなど >> >> > > >> > は出 >> >> > > >> > 力 >> >> > > >> > さ >> >> > > >> > れ >> >> > > >> > ていませんでした。他のログはこれから調べます。 >> >> > > >> >> >> > > >> 最新の環境であれば、fess_crawler.out が >> >> > > >> どうなっているかがポイントになるかと思います。 >> >> > > >> >> >> > > >> よろしくお願いいたします。 >> >> > > >> >> >> > > >> shinsuke >> >> > > >> >> >> > > >> >> >> > > >> 2010年7月16日1:17 Sugano <ganosu0 @ gmail.com>: >> >> > > >> > 初めまして、すがのと申します。 >> >> > > >> > >> >> > > >> > ご質問があるのですが、クロールで集めた情報(H2DB)を、 >> >> > > >> > SolrDB >> >> > > >> > へ >> >> > > >> > 手動で登録する方法(機能など)はありませんでしょう >> >> > > >> > か? >> >> > > >> > (クロール実行中もしくはクロール停止時に手動実行) >> >> > > >> > >> >> > > >> > というのも、私のところでも桑田さんとほぼ同様の現象 >> >> > > >> > が発 >> >> > > >> > 生 >> >> > > >> > し >> >> > > >> > て >> >> > > >> > おり、 >> >> > > >> >> クローラープロセスが実行中にも関わらず、ドキュメン >> >> > > >> >> ト >> >> > > >> >> 数 >> >> > > >> >> が >> >> > > >> >> 増 >> >> > > >> >> 加しなくなります。 >> >> > > >> >> システム設定画面で何度が停止->実行を繰り返しました >> >> > > >> >> が >> >> > > >> >> 状 >> >> > > >> >> 況 >> >> > > >> >> が >> >> > > >> >> 変わりません。 >> >> > > >> > >> >> > > >> > 具体的には、以下2つの現象のいずれかが発生すること >> >> > > >> > が多 >> >> > > >> > く、 >> >> > > >> > >> >> > > >> > 事象1.クローラプロセスが稼働中にもかかわらず、ク >> >> > > >> > ロー >> >> > > >> > ラ >> >> > > >> > 側 >> >> > > >> > DB >> >> > > >> > (\webapp\fess\WEB-INF\db)やSolrDBへの登録が行われ >> >> > > >> > ない。 >> >> > > >> > >> >> > > >> > 事象2.クローラ側DB(\webapp\fess\WEB-INF\db)への >> >> > > >> > 登録 >> >> > > >> > は >> >> > > >> > さ >> >> > > >> > れ >> >> > > >> > 続けるが、SolrDBへの登録が行われなず、クローラ側DB >> >> > > >> > のみ >> >> > > >> > が >> >> > > >> > 増 >> >> > > >> > え >> >> > > >> > 続ける。 >> >> > > >> > >> >> > > >> > 上記の現象発生後に、クローラで収集したSolrDBへの未 >> >> > > >> > 登録 >> >> > > >> > 情 >> >> > > >> > 報 >> >> > > >> > を >> >> > > >> > 破棄するのはもったいないので、収集した情報をSolrDB >> >> > > >> > へ手 >> >> > > >> > 動 >> >> > > >> > 登 >> >> > > >> > 録 >> >> > > >> > する手段を知りたいと考えております。 >> >> > > >> > (クロールを再度起動すると、前回収集した情報がすべて >> >> > > >> > 消 >> >> > > >> > え >> >> > > >> > て >> >> > > >> > し >> >> > > >> > まい、事象2で数万件分の情報が溜まっていたとしても >> >> > > >> > 全て >> >> > > >> > ク >> >> > > >> > リ >> >> > > >> > ア >> >> > > >> > されてしまうため、クリアされずにDB登録する方法が知 >> >> > > >> > りた >> >> > > >> > い >> >> > > >> > で >> >> > > >> > す。) >> >> > > >> > >> >> > > >> > ちなみに、本現象の原因については、下記を参考にして >> >> > > >> > 現在 >> >> > > >> > 調 >> >> > > >> > 査 >> >> > > >> > 中 >> >> > > >> > ですが、現時点では原因は特定できていません。 >> >> > > >> >> おそらく crawler.out か catalina.out などに出力さ >> >> > > >> >> れて >> >> > > >> >> いるかと思います。以下を参照してみてください。 >> >> > > >> >> >> >> > > >> >> http://fess.sourceforge.jp/ja/3.0/config/logging. >> >> > > >> >> html >> >> > > >> >> >> >> > > >> > ※少なくとも、catalina.outにはエラーメッセージなど >> >> > > >> > は出 >> >> > > >> > 力 >> >> > > >> > さ >> >> > > >> > れ >> >> > > >> > ていませんでした。他のログはこれから調べます。 >> >> > > >> > ※ファイルパスの長さが260字以上(WindowsのMAX_PATH値 >> >> > > >> > 以 >> >> > > >> > 上) >> >> > > >> > の >> >> > > >> > デ >> >> > > >> > ィレクトリ・ファイルもあるため、それが原因の一つの >> >> > > >> > 可能 >> >> > > >> > 性 >> >> > > >> > も >> >> > > >> > 有 >> >> > > >> > り? >> >> > > >> > ※上記、もう少し調べてわからないようであれば、再度 >> >> > > >> > 詳細 >> >> > > >> > な >> >> > > >> > 情 >> >> > > >> > 報 >> >> > > >> > をお知らせします。 >> >> > > >> > >> >> > > >> > 以上、よろしくお願い致します。 >> >> > > >> > >> >> > > >> >> 菅谷です。 >> >> > > >> >> >> >> > > >> >> おそらく crawler.out か catalina.out などに出力さ >> >> > > >> >> れて >> >> > > >> >> いるかと思います。以下を参照してみてください。 >> >> > > >> >> >> >> > > >> >> http://fess.sourceforge.jp/ja/3.0/config/logging. >> >> > > >> >> html >> >> > > >> >> >> >> > > >> >> よろしくお願いいたします。 >> >> > > >> >> >> >> > > >> >> shinsuke >> >> > > >> >> >> >> > > >> >> >> >> > > >> >> 2010年7月14日16:53 Tetsutomo Kuwata <fj.kuwata @ >> >> > > >> >> gmail. >> >> > > >> >> com>: >> >> > > >> >> 初めまして、桑田と申します。 >> >> > > >> >> >> >> > > >> >> この度始めてFessを導入しインデックス作成を実行して >> >> > > >> >> い >> >> > > >> >> る >> >> > > >> >> と >> >> > > >> >> こ >> >> > > >> >> ろなのですが >> >> > > >> >> クローラープロセスが実行中にも関わらず、ドキュメン >> >> > > >> >> ト >> >> > > >> >> 数 >> >> > > >> >> が >> >> > > >> >> 増 >> >> > > >> >> 加しなくなります。 >> >> > > >> >> システム設定画面で何度が停止->実行を繰り返しました >> >> > > >> >> が >> >> > > >> >> 状 >> >> > > >> >> 況 >> >> > > >> >> が >> >> > > >> >> 変わりません。 >> >> > > >> >> どの辺を調べれば原因がわかりますでしょうか。 >> >> > > >> >> >> >> > > >> >> 環境 >> >> > > >> >> Windows Server 2003 R2 >> >> > > >> >> JDK 6 Update 20 >> >> > > >> >> fess-server-3.1.1(サービスとして登録) >> >> > > >> >> >> >> > > >> >> 対象ドキュメント: ファイルシステム 23万件 >> >> > > >> >> 現在のドキュメント数: 4万件 >> >> > > >> >> >> >> > > >> >> >> >> > > >> >> 以上、よろしくお願い致します。 >> >> > > >> >> >> >> > > >> >> _______________________________________________ >> >> > > >> >> Fess-user mailing list >> >> > > >> >> Fess-user @ lists.sourceforge.jp >> >> > > >> >> http://lists.sourceforge.jp/mailman/listinfo/fess- >> >> > > >> >> user >> >> > > >> >> >> >> > > >> > >> >> > > >> > _______________________________________________ >> >> > > >> > Fess-user mailing list >> >> > > >> > Fess-user @ lists.sourceforge.jp >> >> > > >> > http://lists.sourceforge.jp/mailman/listinfo/fess- >> >> > > >> > user >> >> > > >> > >> >> > > >> >> >> > > >> _______________________________________________ >> >> > > >> Fess-user mailing list >> >> > > >> Fess-user @ lists.sourceforge.jp >> >> > > >> http://lists.sourceforge.jp/mailman/listinfo/fess- >> >> > > >> user >> >> > > > >> >> > > > >> >> > > > _______________________________________________ >> >> > > > Fess-user mailing list >> >> > > > Fess-user @ lists.sourceforge.jp >> >> > > > http://lists.sourceforge.jp/mailman/listinfo/fess-user >> >> > > > >> >> > > > >> >> > > >> >> > > _______________________________________________ >> >> > > Fess-user mailing list >> >> > > Fess-user @ lists.sourceforge.jp >> >> > > http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >> > _______________________________________________ >> > Fess-user mailing list >> > Fess-user @ lists.sourceforge.jp >> > http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From ganosu0 @ gmail.com Thu Jul 22 23:41:55 2010 From: ganosu0 @ gmail.com (Sugano) Date: Thu, 22 Jul 2010 23:41:55 +0900 Subject: [fess-user 305] Re: =?iso-2022-jp?b?GyRCJSQlcyVHJUMlLyU5JE46bkAuJCxEZDtfJDcbKEI=?= =?iso-2022-jp?b?GyRCJF4kORsoQg==?= In-Reply-To: <AANLkTimYI7F_KWkMS7wiPzMGVpZUtRGLv4hF0NHr6HVD@mail.gmail.com> References: <16CB281F9D6F9Dganosu0@gmail.com> <AANLkTimOz7BRMnxkuYeppGk5zFDe5-9FeVHJvqWgOPPT@mail.gmail.com> <18CB28C7E64EC1ganosu0@gmail.com> <AANLkTimYI7F_KWkMS7wiPzMGVpZUtRGLv4hF0NHr6HVD@mail.gmail.com> Message-ID: <1ACB29AC081B2Bganosu0@gmail.com> お世話になります。 菅野です。 本件、了解しました。 まずはこの設定で様子を見てみます。 以上、ご回答ありがとうございました。 > ----Original Message---- > Thu, 22 Jul 2010 09:38:04 +0900 > From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> > Reply-To: fess-user @ lists.sourceforge.jp > To: fess-user @ lists.sourceforge.jp > Subject: [fess-user 304] Re:インデックスの作成が停止します > > 菅谷です。 > > s2robot_contentlength.dicon は > > <component name="contentLengthHelper" > class="org.seasar.robot.helper.ContentLengthHelper" > instance="singleton" > > <property name="defaultMaxLength">10485760L</property><!-- > 10M --> > <initMethod name="addMaxLength"> > <arg>"text/html"</arg> > <arg>2621440L</arg><!-- 2.5M --> > </initMethod> > <initMethod name="addMaxLength"> > <arg>"application/vnd.openxmlformats-officedocument. > spreadsheetml.sheet"</arg> > <arg>2621440L</arg><!-- 2.5M --> > </initMethod> > </component> > > でお願いします。 > > shinsuke > > > 2010年7月21日20:28 Sugano <ganosu0 @ gmail.com>: > > お世話になります。 > > 菅野です。 > > > >> zipについては Apache Tika ではzipボム対策を > >> していると思いますが、Office2007系のファイルも > >> Apache Tika で何か対応してもらう必要があるかと > >> 思います。Fess としてはOutOfMemoryになるような > >> 場合は対象のファイルをブラックリストのようなところに > >> 登録して除外できるようにする方向で考えたいと > >> 思います。ですので、申し訳ありませんが、現状では > >> 見つけたものを手動で除外するしかないと思います。 > >> よろしくお願いいたします。 > > 上記、了解しました。 > > > > 少し対策を考えてみたのですが、xlsx形式のファイルは、クロール > > 対象となるファイルサイズの上限を下げてみるのが良いかと考えた > > ので、(可能であれば)明日対応しようと思います。 > > > > 対応としては、s2robot_contentlength.diconを以下のような感じ > > で修正すれば大丈夫でしょうか?(変更内容に自信は無いです) > > > > ※s2robot_contentlength.diconの修正内容 > > <component name="contentLengthHelper" class="org.seasar. > > robot.helper.ContentLengthHelper" instance="singleton" > > > <property name="defaultMaxLength">10485760L</property><! > > -- 10M --> > > <initMethod name="addMaxLength"> > > <arg>"text/html"</arg> > > <arg>2621440L</arg><!-- 2.5M --> > > <arg>"application/vnd.openxmlformats-officedocument. > > spreadsheetml.sheet"</arg> > > <arg>2621440L</arg><!-- 2.5M --> > > </initMethod> > > </component> > > > > 以上、よろしくお願いします。 > >> ----Original Message---- > >> Wed, 21 Jul 2010 08:44:31 +0900 > >> From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> > >> Reply-To: fess-user @ lists.sourceforge.jp > >> To: fess-user @ lists.sourceforge.jp > >> Subject: [fess-user 302] Re:インデックスの作成が停止します > >> > > > >> 菅谷です。 > >> > >> 情報をありがとうございます。 > >> zipについては Apache Tika ではzipボム対策を > >> していると思いますが、Office2007系のファイルも > >> Apache Tika で何か対応してもらう必要があるかと > >> 思います。Fess としてはOutOfMemoryになるような > >> 場合は対象のファイルをブラックリストのようなところに > >> 登録して除外できるようにする方向で考えたいと > >> 思います。ですので、申し訳ありませんが、現状では > >> 見つけたものを手動で除外するしかないと思います。 > >> よろしくお願いいたします。 > >> > >> shinsuke > >> > >> > >> 2010年7月21日0:24 Sugano <ganosu0 @ gmail.com>: > >> > お世話になってます。 > >> > すがのです。 > >> > > >> > 先ほど1点気がついた点があったので、 > >> > とりあえず参考までに報告しておきます。 > >> > > >> > ご存知かもしれませんが、本現象の原因となっている「xlsx」は、 > >> > デフォルトでデータ圧縮機能(zip相当)があることを思い出しま > >> > し > >> > た。 > >> > (docx,pptxなど、他のOffice2007形式ファイルも対象) > >> > > >> > なので、今回のExcelファイルは、ほぼ全部テキストデータであ > >> > り、 > >> > テキストデータの圧縮率は非常に高いため、8MB程度のExcelファ > >> > イ > >> > ルでも、実質は数百MB相当のテキストデータを、クロール側で読 > >> > み > >> > 込んでいる可能性があると思います。 > >> > > >> > 上記、参考になれば幸いです。 > >> >> ----Original Message---- > >> >> Tue, 20 Jul 2010 22:54:42 +0900 > >> >> From: Sugano <ganosu0 @ gmail.com> > >> >> To: fess-user @ lists.sourceforge.jp > >> >> Cc: > >> >> Subject: Re: [fess-user 297] Re:インデックスの作成が停止 > >> >> し > >> >> ます > >> >> > >> > > >> >> お世話になってます。 > >> >> すがのです。 > >> >> > >> >> 本件ですが、原因が判明して、特定の条件を満たしたExcelファ > >> >> イ > >> >> ル(xlsx)が原因で、メモリエラーが発生していたことがわかり > >> >> まし > >> >> た。 > >> >> > >> >> 経緯を説明しますと、まず、maxDocumentCacheSizeを10→5→2 > >> >> と変 > >> >> 更して何度か再実行しても現象は変わりませんでした。 > >> >> > >> >> しかし、毎回約1万ファイル程度処理した時点で、ほぼ同様のメ > >> >> モ > >> >> リエラーが発生しているようだったので、特定のファイルが原 > >> >> 因で > >> >> はないかと想定して調査したところ、特定のExcelファイル > >> >> (xlsx) > >> >> を読み込んだときに、使用メモリが10秒程度で急増(1G以上増 > >> >> 加)し > >> >> て、メモリエラーが発生したことがわかりました。 > >> >> > >> >> その特定のExcelファイルですが、ファイルサイズは8MB程度な > >> >> ので > >> >> すが、中のデータ量がDBみたいに多く(項目20列程度のデータが > >> >> 約7 > >> >> 万行)、このExcelファイルの中のデータを全て読み取ろうとし > >> >> て、 > >> >> メモリが枯渇した可能性があると想定しております。 > >> >> ※このファイル1つのみをピンポイントでクロールに読み込ま > >> >> せて > >> >> テストしたところ、使用メモリが急増してエラーが発生しまし > >> >> た。 > >> >> > >> >> さしあたり、このファイル自体は、クロール対象から除外する > >> >> こと > >> >> で、一時的な回避はできたのですが、同じファイルサーバの中 > >> >> に、 > >> >> 似たようなExcelファイルがいくつか存在している様で、本日3 > >> >> 回ほ > >> >> どメモリエラーで異常終了して、クロール処理を完了できない > >> >> 状態 > >> >> となっております。 > >> >> (20〜40列・6〜8万行・数MB程度のxlsxファイルを、現時点で3 > >> >> つほ > >> >> どエラーの都度発見しており(※もっとある可能性大)、その度 > >> >> に、 > >> >> 原因xlsxファイルを検索除外対象にする作業を繰り返している > >> >> 状態 > >> >> です) > >> >> > >> >> 上記、エラー発生する都度、検索除外対象とするのは効率が悪 > >> >> いの > >> >> で、何とか回避したいと思っておりますが、何か良い方法など > >> >> はあ > >> >> りますでしょうか? > >> >> (特定のファイルでメモリエラーが発生しても、クロール処理が > >> >> 継 > >> >> 続して正常稼動するのが理想ですが、プログラム改修による対 > >> >> 応は > >> >> 困難でしょうか?) > >> >> > >> >> 上記、アドバイスなどがありましたら、ご回答をお願いいたし > >> >> ます。 > >> >> 以上、よろしくお願いします。 > >> >> > ----Original Message---- > >> >> > Sun, 18 Jul 2010 21:26:01 +0900 > >> >> > From: Sugano <ganosu0 @ gmail.com> > >> >> > To: fess-user @ lists.sourceforge.jp > >> >> > Cc: > >> >> > Subject: Re: [fess-user 297] Re:インデックスの作成が停 > >> >> > 止 > >> >> > し > >> >> > ます > >> >> > > >> >> > >> >> > お世話になってます。 > >> >> > すがのです。 > >> >> > > >> >> > 本件、了解です! > >> >> > 連休明けにでも試してみます! > >> >> > > >> >> > ご回答ありがとうございました! > >> >> > > ----Original Message---- > >> >> > > Sun, 18 Jul 2010 07:48:35 +0900 > >> >> > > From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> > >> >> > > Reply-To: fess-user @ lists.sourceforge.jp > >> >> > > To: fess-user @ lists.sourceforge.jp > >> >> > > Subject: [fess-user 297] Re:インデックスの作成が停止 > >> >> > > し > >> >> > > ます > >> >> > > > >> >> > > >> >> > > 菅谷です。 > >> >> > > > >> >> > > > (CPU:Core 2 Duo 2GHz、メモリ:1.5GB) > >> >> > > > >> >> > > この環境ですと、Fess 的には mx を 512m くらいが > >> >> > > 上限な気がしますので、1 回あたりの Solr に送る > >> >> > > ドキュメント数を下げるのが良い気がします。 > >> >> > > webapps/fess/WEB-INF/cmd/resources/app.dicon > >> >> > > で > >> >> > > > >> >> > > <component name="indexUpdater" > >> >> > > class="jp.sf.fess.solr.IndexUpdater" instance= > >> >> > > "prototype > >> >> > > "> > >> >> > > <property name="maxDocumentCacheSize">5</ > >> >> > > property> > >> >> > > </component> > >> >> > > > >> >> > > というように maxDocumentCacheSize を下げることが > >> >> > > できます。デフォルトでは 1 回で 10 ドキュメントを > >> >> > > Solr に送ります。 > >> >> > > > >> >> > > shinsuke > >> >> > > > >> >> > > 2010年7月17日11:21 Sugano <ganosu0 @ gmail.com>: > >> >> > > > お世話になってます。 > >> >> > > > すがのです。 > >> >> > > > > >> >> > > >> > ご質問があるのですが、クロールで集めた情報(H2DB) > >> >> > > >> > を、 > >> >> > > >> > SolrDB > >> >> > > >> > へ > >> >> > > >> > 手動で登録する方法(機能など)はありませんでしょう > >> >> > > >> > か? > >> >> > > >> > >> >> > > >> 現状、ないです。クロールデータについては > >> >> > > >> パフォーマンスに大きな影響を与えるので > >> >> > > >> 消せるときに消す感じにしています。ただ > >> >> > > >> 今回のように例外的にクロールを抜けるような > >> >> > > >> 場合に残せるかどうかは検討してみます。 > >> >> > > > 了解しました。 > >> >> > > > 是非、お願いします。 > >> >> > > > > >> >> > > >> > ※少なくとも、catalina.outにはエラーメッセージな > >> >> > > >> > ど > >> >> > > >> > は出 > >> >> > > >> > 力 > >> >> > > >> > さ > >> >> > > >> > れ > >> >> > > >> > ていませんでした。他のログはこれから調べます。 > >> >> > > >> > >> >> > > >> 最新の環境であれば、fess_crawler.out が > >> >> > > >> どうなっているかがポイントになるかと思います。 > >> >> > > > fess_crawler.outを調べたところ、添付ファイル > >> >> > > > (fess_crawler. > >> >> > > > outのログを一部抜粋、一部ファイルパスの修正有)のよ > >> >> > > > うに > >> >> > > > OutOfMemory エラーが発生していたことがわかりました。 > >> >> > > > > >> >> > > > 下記の設定は既にしているのですが、それでも発生する > >> >> > > > よう > >> >> > > > で > >> >> > > > す。 > >> >> > > > http://fess.sourceforge.jp/ja/3.0/config/memory- > >> >> > > > config. > >> >> > > > html > >> >> > > > > >> >> > > > ちなみに、当方の環境・状況は以下のとおりです。 > >> >> > > > > >> >> > > > ●環境 > >> >> > > > ・WindowsXP SP3に搭載して試用・検証中 > >> >> > > > (CPU:Core 2 Duo 2GHz、メモリ:1.5GB) > >> >> > > > ・JDK 6 Update 21 > >> >> > > > ・fess-server-3.1.1 or 4.0.0SNAPSHOT > >> >> > > > (どちらでも発生するようです) > >> >> > > > ・メモリ関連設定:上記リンクと同じ設定 > >> >> > > > > >> >> > > > ●クロール設定 > >> >> > > > ・対象ドキュメント: ファイルサーバ上のファイル 約6 > >> >> > > > 万件 > >> >> > > > ・同時実行のクロール設定数:1 > >> >> > > > ・ドキュメント数毎にコミット:500 > >> >> > > > ・スレッド数:3 > >> >> > > > ・間隔:1000ミリ秒 > >> >> > > > > >> >> > > > ●状況 > >> >> > > > 約1万ドキュメントを処理したあたりで、メモリエラー発 > >> >> > > > 生 > >> >> > > > ※エラー発生後は、延々とクロール処理のみが行われて、 > >> >> > > > SolrDBへの登録処理が行われない状態 > >> >> > > > ※かなり高い確率(現時点100%)で現象が再発。 > >> >> > > > > >> >> > > > > >> >> > > > 上記、メモリ関連設定の再チューニングなどで回避は可 > >> >> > > > 能な > >> >> > > > の > >> >> > > > で > >> >> > > > し > >> >> > > > ょうか? > >> >> > > > > >> >> > > > 以上、よろしくお願いします。 > >> >> > > >> ----Original Message---- > >> >> > > >> Fri, 16 Jul 2010 06:33:00 +0900 > >> >> > > >> From: Shinsuke Sugaya <shinsuke @ yahoo.co.jp> > >> >> > > >> Reply-To: fess-user @ lists.sourceforge.jp > >> >> > > >> To: fess-user @ lists.sourceforge.jp > >> >> > > >> Subject: [fess-user 290] Re:インデックスの作成が > >> >> > > >> 停止 > >> >> > > >> し > >> >> > > >> ま > >> >> > > >> す > >> >> > > >> > >> >> > > > > >> >> > > >> 菅谷です。 > >> >> > > >> > >> >> > > >> > ご質問があるのですが、クロールで集めた情報(H2DB) > >> >> > > >> > を、 > >> >> > > >> > SolrDB > >> >> > > >> > へ > >> >> > > >> > 手動で登録する方法(機能など)はありませんでしょう > >> >> > > >> > か? > >> >> > > >> > >> >> > > >> 現状、ないです。クロールデータについては > >> >> > > >> パフォーマンスに大きな影響を与えるので > >> >> > > >> 消せるときに消す感じにしています。ただ > >> >> > > >> 今回のように例外的にクロールを抜けるような > >> >> > > >> 場合に残せるかどうかは検討してみます。 > >> >> > > >> > >> >> > > >> > ※少なくとも、catalina.outにはエラーメッセージな > >> >> > > >> > ど > >> >> > > >> > は出 > >> >> > > >> > 力 > >> >> > > >> > さ > >> >> > > >> > れ > >> >> > > >> > ていませんでした。他のログはこれから調べます。 > >> >> > > >> > >> >> > > >> 最新の環境であれば、fess_crawler.out が > >> >> > > >> どうなっているかがポイントになるかと思います。 > >> >> > > >> > >> >> > > >> よろしくお願いいたします。 > >> >> > > >> > >> >> > > >> shinsuke > >> >> > > >> > >> >> > > >> > >> >> > > >> 2010年7月16日1:17 Sugano <ganosu0 @ gmail.com>: > >> >> > > >> > 初めまして、すがのと申します。 > >> >> > > >> > > >> >> > > >> > ご質問があるのですが、クロールで集めた情報(H2DB) > >> >> > > >> > を、 > >> >> > > >> > SolrDB > >> >> > > >> > へ > >> >> > > >> > 手動で登録する方法(機能など)はありませんでしょう > >> >> > > >> > か? > >> >> > > >> > (クロール実行中もしくはクロール停止時に手動実行) > >> >> > > >> > > >> >> > > >> > というのも、私のところでも桑田さんとほぼ同様の現 > >> >> > > >> > 象 > >> >> > > >> > が発 > >> >> > > >> > 生 > >> >> > > >> > し > >> >> > > >> > て > >> >> > > >> > おり、 > >> >> > > >> >> クローラープロセスが実行中にも関わらず、ドキュ > >> >> > > >> >> メン > >> >> > > >> >> ト > >> >> > > >> >> 数 > >> >> > > >> >> が > >> >> > > >> >> 増 > >> >> > > >> >> 加しなくなります。 > >> >> > > >> >> システム設定画面で何度が停止->実行を繰り返しま > >> >> > > >> >> した > >> >> > > >> >> が > >> >> > > >> >> 状 > >> >> > > >> >> 況 > >> >> > > >> >> が > >> >> > > >> >> 変わりません。 > >> >> > > >> > > >> >> > > >> > 具体的には、以下2つの現象のいずれかが発生するこ > >> >> > > >> > と > >> >> > > >> > が多 > >> >> > > >> > く、 > >> >> > > >> > > >> >> > > >> > 事象1.クローラプロセスが稼働中にもかかわらず、 > >> >> > > >> > ク > >> >> > > >> > ロー > >> >> > > >> > ラ > >> >> > > >> > 側 > >> >> > > >> > DB > >> >> > > >> > (\webapp\fess\WEB-INF\db)やSolrDBへの登録が行わ > >> >> > > >> > れ > >> >> > > >> > ない。 > >> >> > > >> > > >> >> > > >> > 事象2.クローラ側DB(\webapp\fess\WEB-INF\db)へ > >> >> > > >> > の > >> >> > > >> > 登録 > >> >> > > >> > は > >> >> > > >> > さ > >> >> > > >> > れ > >> >> > > >> > 続けるが、SolrDBへの登録が行われなず、クローラ側 > >> >> > > >> > DB > >> >> > > >> > のみ > >> >> > > >> > が > >> >> > > >> > 増 > >> >> > > >> > え > >> >> > > >> > 続ける。 > >> >> > > >> > > >> >> > > >> > 上記の現象発生後に、クローラで収集したSolrDBへの > >> >> > > >> > 未 > >> >> > > >> > 登録 > >> >> > > >> > 情 > >> >> > > >> > 報 > >> >> > > >> > を > >> >> > > >> > 破棄するのはもったいないので、収集した情報を > >> >> > > >> > SolrDB > >> >> > > >> > へ手 > >> >> > > >> > 動 > >> >> > > >> > 登 > >> >> > > >> > 録 > >> >> > > >> > する手段を知りたいと考えております。 > >> >> > > >> > (クロールを再度起動すると、前回収集した情報がす > >> >> > > >> > べて > >> >> > > >> > 消 > >> >> > > >> > え > >> >> > > >> > て > >> >> > > >> > し > >> >> > > >> > まい、事象2で数万件分の情報が溜まっていたとして > >> >> > > >> > も > >> >> > > >> > 全て > >> >> > > >> > ク > >> >> > > >> > リ > >> >> > > >> > ア > >> >> > > >> > されてしまうため、クリアされずにDB登録する方法が > >> >> > > >> > 知 > >> >> > > >> > りた > >> >> > > >> > い > >> >> > > >> > で > >> >> > > >> > す。) > >> >> > > >> > > >> >> > > >> > ちなみに、本現象の原因については、下記を参考にし > >> >> > > >> > て > >> >> > > >> > 現在 > >> >> > > >> > 調 > >> >> > > >> > 査 > >> >> > > >> > 中 > >> >> > > >> > ですが、現時点では原因は特定できていません。 > >> >> > > >> >> おそらく crawler.out か catalina.out などに出力 > >> >> > > >> >> さ > >> >> > > >> >> れて > >> >> > > >> >> いるかと思います。以下を参照してみてください。 > >> >> > > >> >> > >> >> > > >> >> http://fess.sourceforge.jp/ja/3.0/config/ > >> >> > > >> >> logging. > >> >> > > >> >> html > >> >> > > >> >> > >> >> > > >> > ※少なくとも、catalina.outにはエラーメッセージな > >> >> > > >> > ど > >> >> > > >> > は出 > >> >> > > >> > 力 > >> >> > > >> > さ > >> >> > > >> > れ > >> >> > > >> > ていませんでした。他のログはこれから調べます。 > >> >> > > >> > ※ファイルパスの長さが260字以上(Windowsの > >> >> > > >> > MAX_PATH値 > >> >> > > >> > 以 > >> >> > > >> > 上) > >> >> > > >> > の > >> >> > > >> > デ > >> >> > > >> > ィレクトリ・ファイルもあるため、それが原因の一つ > >> >> > > >> > の > >> >> > > >> > 可能 > >> >> > > >> > 性 > >> >> > > >> > も > >> >> > > >> > 有 > >> >> > > >> > り? > >> >> > > >> > ※上記、もう少し調べてわからないようであれば、再 > >> >> > > >> > 度 > >> >> > > >> > 詳細 > >> >> > > >> > な > >> >> > > >> > 情 > >> >> > > >> > 報 > >> >> > > >> > をお知らせします。 > >> >> > > >> > > >> >> > > >> > 以上、よろしくお願い致します。 > >> >> > > >> > > >> >> > > >> >> 菅谷です。 > >> >> > > >> >> > >> >> > > >> >> おそらく crawler.out か catalina.out などに出力 > >> >> > > >> >> さ > >> >> > > >> >> れて > >> >> > > >> >> いるかと思います。以下を参照してみてください。 > >> >> > > >> >> > >> >> > > >> >> http://fess.sourceforge.jp/ja/3.0/config/ > >> >> > > >> >> logging. > >> >> > > >> >> html > >> >> > > >> >> > >> >> > > >> >> よろしくお願いいたします。 > >> >> > > >> >> > >> >> > > >> >> shinsuke > >> >> > > >> >> > >> >> > > >> >> > >> >> > > >> >> 2010年7月14日16:53 Tetsutomo Kuwata <fj.kuwata > >> >> > > >> >> @ > >> >> > > >> >> gmail. > >> >> > > >> >> com>: > >> >> > > >> >> 初めまして、桑田と申します。 > >> >> > > >> >> > >> >> > > >> >> この度始めてFessを導入しインデックス作成を実行 > >> >> > > >> >> して > >> >> > > >> >> い > >> >> > > >> >> る > >> >> > > >> >> と > >> >> > > >> >> こ > >> >> > > >> >> ろなのですが > >> >> > > >> >> クローラープロセスが実行中にも関わらず、ドキュ > >> >> > > >> >> メン > >> >> > > >> >> ト > >> >> > > >> >> 数 > >> >> > > >> >> が > >> >> > > >> >> 増 > >> >> > > >> >> 加しなくなります。 > >> >> > > >> >> システム設定画面で何度が停止->実行を繰り返しま > >> >> > > >> >> した > >> >> > > >> >> が > >> >> > > >> >> 状 > >> >> > > >> >> 況 > >> >> > > >> >> が > >> >> > > >> >> 変わりません。 > >> >> > > >> >> どの辺を調べれば原因がわかりますでしょうか。 > >> >> > > >> >> > >> >> > > >> >> 環境 > >> >> > > >> >> Windows Server 2003 R2 > >> >> > > >> >> JDK 6 Update 20 > >> >> > > >> >> fess-server-3.1.1(サービスとして登録) > >> >> > > >> >> > >> >> > > >> >> 対象ドキュメント: ファイルシステム 23万件 > >> >> > > >> >> 現在のドキュメント数: 4万件 > >> >> > > >> >> > >> >> > > >> >> > >> >> > > >> >> 以上、よろしくお願い致します。 > >> >> > > >> >> > >> >> > > >> >> _______________________________________________ > >> >> > > >> >> Fess-user mailing list > >> >> > > >> >> Fess-user @ lists.sourceforge.jp > >> >> > > >> >> http://lists.sourceforge.jp/mailman/listinfo/ > >> >> > > >> >> fess- > >> >> > > >> >> user > >> >> > > >> >> > >> >> > > >> > > >> >> > > >> > _______________________________________________ > >> >> > > >> > Fess-user mailing list > >> >> > > >> > Fess-user @ lists.sourceforge.jp > >> >> > > >> > http://lists.sourceforge.jp/mailman/listinfo/ > >> >> > > >> > fess- > >> >> > > >> > user > >> >> > > >> > > >> >> > > >> > >> >> > > >> _______________________________________________ > >> >> > > >> Fess-user mailing list > >> >> > > >> Fess-user @ lists.sourceforge.jp > >> >> > > >> http://lists.sourceforge.jp/mailman/listinfo/fess- > >> >> > > >> user > >> >> > > > > >> >> > > > > >> >> > > > _______________________________________________ > >> >> > > > Fess-user mailing list > >> >> > > > Fess-user @ lists.sourceforge.jp > >> >> > > > http://lists.sourceforge.jp/mailman/listinfo/fess- > >> >> > > > user > >> >> > > > > >> >> > > > > >> >> > > > >> >> > > _______________________________________________ > >> >> > > Fess-user mailing list > >> >> > > Fess-user @ lists.sourceforge.jp > >> >> > > http://lists.sourceforge.jp/mailman/listinfo/fess- > >> >> > > user > >> > > >> > _______________________________________________ > >> > Fess-user mailing list > >> > Fess-user @ lists.sourceforge.jp > >> > http://lists.sourceforge.jp/mailman/listinfo/fess-user > >> > > >> > >> _______________________________________________ > >> Fess-user mailing list > >> Fess-user @ lists.sourceforge.jp > >> http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > _______________________________________________ > > Fess-user mailing list > > Fess-user @ lists.sourceforge.jp > > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user From yskjd735 @ ybb.ne.jp Fri Jul 23 12:10:37 2010 From: yskjd735 @ ybb.ne.jp (yskjd735 @ ybb.ne.jp) Date: Fri, 23 Jul 2010 12:10:37 +0900 (JST) Subject: [fess-user 306] =?iso-2022-jp?b?GyRCQlAxfiVVJSElJCVrJEskRCQkJEYbKEI=?= In-Reply-To: <1ACB29AC081B2Bganosu0@gmail.com> Message-ID: <20100723031037.77834.qmail@web200012.mail.kks.yahoo.co.jp> 菅谷様 高橋と申します。 以前は、コンテンツ比較の機能要望をチケットにあげていただきありがとう ございました。 まだまだ、メーリングリストにて投稿される方々ほどには試験的な運用までには 至っておりませんが部内で下記質問がされたので投稿させていただこうかと 思いました。 質問 ------------------------------------------------------------------------- ・対応ファイルが多数とあるが、どのファイル形式も大丈夫なのかどうか 例えば、拡張子mmファイル(FreeMindにて生成されるファイル)、judeファイル (JUDE/Communityにて生成されるファイう)はどうか? ※マインドマップを結構扱う部署なのでそのような質問が出たのだと思います。 ------------------------------------------------------------------------- ご教授のほどよろしくお願い致します。 ※本来クロールした結果を記すべきだと思いますが、最近はなかなか時間が取れない ため先行して質問をさせていただきました。 From shinsuke @ yahoo.co.jp Fri Jul 23 12:35:58 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 23 Jul 2010 12:35:58 +0900 Subject: [fess-user 307] Re: =?iso-2022-jp?b?GyRCQlAxfiVVJSElJCVrJEskRCQkJEYbKEI=?= In-Reply-To: <20100723031037.77834.qmail@web200012.mail.kks.yahoo.co.jp> References: <1ACB29AC081B2Bganosu0@gmail.com> <20100723031037.77834.qmail@web200012.mail.kks.yahoo.co.jp> Message-ID: <AANLkTikkUnxlE-MmE7nofjolQuQNiVI-ePcFNF327hti@mail.gmail.com> 菅谷です。 Fess ではファイルからの文字列抽出に Apache Tika を 採用しています。ですので、Apache Tika が扱える形式で あれば、対応できます。Apache Tika の対応形式は 以下になります。 http://tika.apache.org/0.7/formats.html mm は XML だと思いますが、jude が XML などの Tika が処理できるものであれば読み込むことができます。 (judeファイルがどんなものかすぐ確認できないので ちょっとわからないですが…) また、Tika が扱えない 場合でも対象ファイルからの文字列の抽出方法が わかれば、Fess に Extractor インターフェースで 実装することで追加することは可能です(情報を いただければ検討します)。 shinsuke 2010年7月23日12:10 <yskjd735 @ ybb.ne.jp>: > 菅谷様 > > 高橋と申します。 > 以前は、コンテンツ比較の機能要望をチケットにあげていただきありがとう > ございました。 > > まだまだ、メーリングリストにて投稿される方々ほどには試験的な運用までには > 至っておりませんが部内で下記質問がされたので投稿させていただこうかと > 思いました。 > > 質問 > ------------------------------------------------------------------------- > ・対応ファイルが多数とあるが、どのファイル形式も大丈夫なのかどうか > 例えば、拡張子mmファイル(FreeMindにて生成されるファイル)、judeファイル > (JUDE/Communityにて生成されるファイう)はどうか? > > ※マインドマップを結構扱う部署なのでそのような質問が出たのだと思います。 > ------------------------------------------------------------------------- > > ご教授のほどよろしくお願い致します。 > ※本来クロールした結果を記すべきだと思いますが、最近はなかなか時間が取れない > ため先行して質問をさせていただきました。 > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From mshibata @ shimadzu.co.jp Fri Jul 23 13:52:40 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Fri, 23 Jul 2010 13:52:40 +0900 Subject: [fess-user 308] Re: =?iso-2022-jp?b?GyRCQlAxfiVVJSElJCVrJEskRCQkJEYbKEI=?= In-Reply-To: <20100723031037.77834.qmail@web200012.mail.kks.yahoo.co.jp> References: <20100723031037.77834.qmail@web200012.mail.kks.yahoo.co.jp> Message-ID: <201007230452.AA13193@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 Free Mind のファイルは、クロールできてます。 Jude のは、うちのサーバーにはないみたいで実績はありません。 >菅谷様 > >高橋と申します。 >以前は、コンテンツ比較の機能要望をチケットにあげていただきありがとう >ございました。 > >まだまだ、メーリングリストにて投稿される方々ほどには試験的な運用までには >至っておりませんが部内で下記質問がされたので投稿させていただこうかと >思いました。 > >質問 >------------------------------------------------------------------------- >・対応ファイルが多数とあるが、どのファイル形式も大丈夫なのかどうか >例えば、拡張子mmファイル(FreeMindにて生成されるファイル)、judeファイル >(JUDE/Communityにて生成されるファイう)はどうか? > >※マインドマップを結構扱う部署なのでそのような質問が出たのだと思います。 >------------------------------------------------------------------------- > >ご教授のほどよろしくお願い致します。 >※本来クロールした結果を記すべきだと思いますが、最近はなかなか時間が取れない >ため先行して質問をさせていただきました。 > >_______________________________________________ >Fess-user mailing list >Fess-user @ lists.sourceforge.jp >http://lists.sourceforge.jp/mailman/listinfo/fess-user > From yskjd735 @ ybb.ne.jp Fri Jul 23 14:42:26 2010 From: yskjd735 @ ybb.ne.jp (yskjd735 @ ybb.ne.jp) Date: Fri, 23 Jul 2010 14:42:26 +0900 (JST) Subject: [fess-user 309] Re: =?iso-2022-jp?b?GyRCQlAxfiVVJSElJCVrJEskRCQkJEYbKEI=?= In-Reply-To: <201007230452.AA13193@ea8055.shimadzu.co.jp> Message-ID: <929440.43915.qm@web200006.mail.kks.yahoo.co.jp> 菅谷様、柴田様 高橋と申します。 情報ありがとうございました。柴田様の実績の情報助かりました。 部内に展開したいと思います。ありがとうございます。 また菅谷様いつも迅速な対応ありがとうございます。 judeに関してですが、私の部署以外の開発部署でマインドマップを作成する際に 使用しているツールみたいです。 どうやら、zip形式のなかに独自のファイルを格納して固めているみたいです。 先ほど開発の方にヒアリングを実施してわかりました。 (拡張子judeをzipにリネームして解凍するとEntityStoreというファイルがありました) 私も有料版を持ち合わせていないので無料版にて作成したファイルを念のため 添付させていただきます(ウィルスチェック済)。 以上ご確認よろしくお願い致します。 --- Masayuki Shibata wrote: > 柴田@亀岡市です。 > > Free Mind のファイルは、クロールできてます。 > Jude のは、うちのサーバーにはないみたいで実績はありません。 > > >菅谷様 > > > >高橋と申します。 > >以前は、コンテンツ比較の機能要望をチケットにあげていただきありがとう > >ございました。 > > > >まだまだ、メーリングリストにて投稿される方々ほどには試験的な運用までには > >至っておりませんが部内で下記質問がされたので投稿させていただこうかと > >思いました。 > > > >質問 > >------------------------------------------------------------------------- > >・対応ファイルが多数とあるが、どのファイル形式も大丈夫なのかどうか > >例えば、拡張子mmファイル(FreeMindにて生成されるファイル)、judeファイル > >(JUDE/Communityにて生成されるファイう)はどうか? > > > >※マインドマップを結構扱う部署なのでそのような質問が出たのだと思います。 > >------------------------------------------------------------------------- > > > >ご教授のほどよろしくお願い致します。 > >※本来クロールした結果を記すべきだと思いますが、最近はなかなか時間が取れない > >ため先行して質問をさせていただきました。 > > > >_______________________________________________ > >Fess-user mailing list > >Fess-user @ lists.sourceforge.jp > >http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > -------------- next part -------------- テキスト形式以外の添付ファイルを保管しました... ファイル名: test.jude 型: application/zip サイズ: 8438 バイト 説明: 無し URL: http://lists.sourceforge.jp/mailman/archives/fess-user/attachments/20100723/c4f3451e/attachment.zip From mshibata @ shimadzu.co.jp Fri Jul 23 15:08:41 2010 From: mshibata @ shimadzu.co.jp (Masayuki Shibata) Date: Fri, 23 Jul 2010 15:08:41 +0900 Subject: [fess-user 310] Re: =?iso-2022-jp?b?GyRCQlAxfiVVJSElJCVrJEskRCQkJEYbKEI=?= In-Reply-To: <929440.43915.qm@web200006.mail.kks.yahoo.co.jp> References: <929440.43915.qm@web200006.mail.kks.yahoo.co.jp> Message-ID: <201007230608.AA13195@ea8055.shimadzu.co.jp> 柴田@亀岡市です。 微妙にウソを書いてしまいました。 半角英数では検索できますが、フリーマインドは、日本語がアウトです。 #以前行けたのを確認してそのままだったので、ちょっと心配になって... mm ファイルの中を見てみると、日本語部分は「っ」のように ASCII の文字コード String にエンコードされていますのでヒットしません。 クロールもできていて検索もできますが、入力した日本語とエンコードさ れた日本語の間ではマッチしません。 間に一発かまさないといけないようです。 >菅谷様、柴田様 > >高橋と申します。 >情報ありがとうございました。柴田様の実績の情報助かりました。 >部内に展開したいと思います。ありがとうございます。 > >また菅谷様いつも迅速な対応ありがとうございます。 >judeに関してですが、私の部署以外の開発部署でマインドマップを作成する際に >使用しているツールみたいです。 > >どうやら、zip形式のなかに独自のファイルを格納して固めているみたいです。 >先ほど開発の方にヒアリングを実施してわかりました。 >(拡張子judeをzipにリネームして解凍するとEntityStoreというファイルがありました) > >私も有料版を持ち合わせていないので無料版にて作成したファイルを念のため >添付させていただきます(ウィルスチェック済)。 > >以上ご確認よろしくお願い致します。 > > > > >--- Masayuki Shibata wrote: >> 柴田@亀岡市です。 >> >> Free Mind のファイルは、クロールできてます。 >> Jude のは、うちのサーバーにはないみたいで実績はありません。 >> >> >菅谷様 >> > >> >高橋と申します。 >> >以前は、コンテンツ比較の機能要望をチケットにあげていただきありがとう >> >ございました。 >> > >> >まだまだ、メーリングリストにて投稿される方々ほどには試験的な運用までには >> >至っておりませんが部内で下記質問がされたので投稿させていただこうかと >> >思いました。 >> > >> >質問 >> >------------------------------------------------------------------------- >> >・対応ファイルが多数とあるが、どのファイル形式も大丈夫なのかどうか >> >例えば、拡張子mmファイル(FreeMindにて生成されるファイル)、judeファイル >> >(JUDE/Communityにて生成されるファイう)はどうか? >> > >> >※マインドマップを結構扱う部署なのでそのような質問が出たのだと思います。 >> >------------------------------------------------------------------------- >> > >> >ご教授のほどよろしくお願い致します。 >> >※本来クロールした結果を記すべきだと思いますが、最近はなかなか時間が取れない >> >ため先行して質問をさせていただきました。 >> > >> >_______________________________________________ >> >Fess-user mailing list >> >Fess-user @ lists.sourceforge.jp >> >http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> >______________________________________________________________________ > >_______________________________________________ >Fess-user mailing list >Fess-user @ lists.sourceforge.jp >http://lists.sourceforge.jp/mailman/listinfo/fess-user From shinsuke @ yahoo.co.jp Fri Jul 23 15:17:08 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 23 Jul 2010 15:17:08 +0900 Subject: [fess-user 311] Re: =?iso-2022-jp?b?GyRCQlAxfiVVJSElJCVrJEskRCQkJEYbKEI=?= In-Reply-To: <929440.43915.qm@web200006.mail.kks.yahoo.co.jp> References: <201007230452.AA13193@ea8055.shimadzu.co.jp> <929440.43915.qm@web200006.mail.kks.yahoo.co.jp> Message-ID: <AANLkTik3DVLCdiAYBhxRD3EBVX6sk8iYF3ksuHfbeiTg@mail.gmail.com> 菅谷です。 情報をありがとうございます。 軽く調べた感じですと、jude はアクセスするための API を公開しているようなので対応できるように思いますが これは再配布できないので、Fess でオープンソースとしての 提供は難しいかと思います。 shinsuke 2010年7月23日14:42 <yskjd735 @ ybb.ne.jp>: > 菅谷様、柴田様 > > 高橋と申します。 > 情報ありがとうございました。柴田様の実績の情報助かりました。 > 部内に展開したいと思います。ありがとうございます。 > > また菅谷様いつも迅速な対応ありがとうございます。 > judeに関してですが、私の部署以外の開発部署でマインドマップを作成する際に > 使用しているツールみたいです。 > > どうやら、zip形式のなかに独自のファイルを格納して固めているみたいです。 > 先ほど開発の方にヒアリングを実施してわかりました。 > (拡張子judeをzipにリネームして解凍するとEntityStoreというファイルがありました) > > 私も有料版を持ち合わせていないので無料版にて作成したファイルを念のため > 添付させていただきます(ウィルスチェック済)。 > > 以上ご確認よろしくお願い致します。 > > > > > --- Masayuki Shibata wrote: >> 柴田@亀岡市です。 >> >> Free Mind のファイルは、クロールできてます。 >> Jude のは、うちのサーバーにはないみたいで実績はありません。 >> >> >菅谷様 >> > >> >高橋と申します。 >> >以前は、コンテンツ比較の機能要望をチケットにあげていただきありがとう >> >ございました。 >> > >> >まだまだ、メーリングリストにて投稿される方々ほどには試験的な運用までには >> >至っておりませんが部内で下記質問がされたので投稿させていただこうかと >> >思いました。 >> > >> >質問 >> >------------------------------------------------------------------------- >> >・対応ファイルが多数とあるが、どのファイル形式も大丈夫なのかどうか >> >例えば、拡張子mmファイル(FreeMindにて生成されるファイル)、judeファイル >> >(JUDE/Communityにて生成されるファイう)はどうか? >> > >> >※マインドマップを結構扱う部署なのでそのような質問が出たのだと思います。 >> >------------------------------------------------------------------------- >> > >> >ご教授のほどよろしくお願い致します。 >> >※本来クロールした結果を記すべきだと思いますが、最近はなかなか時間が取れない >> >ため先行して質問をさせていただきました。 >> > >> >_______________________________________________ >> >Fess-user mailing list >> >Fess-user @ lists.sourceforge.jp >> >http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > From shinsuke @ yahoo.co.jp Fri Jul 23 15:18:56 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Fri, 23 Jul 2010 15:18:56 +0900 Subject: [fess-user 312] Re: =?iso-2022-jp?b?GyRCQlAxfiVVJSElJCVrJEskRCQkJEYbKEI=?= In-Reply-To: <201007230608.AA13195@ea8055.shimadzu.co.jp> References: <929440.43915.qm@web200006.mail.kks.yahoo.co.jp> <201007230608.AA13195@ea8055.shimadzu.co.jp> Message-ID: <AANLkTilNBSf7V8W3U0YwRmOhdNADtpjfwD5W5lFU4UUV@mail.gmail.com> 菅谷です。 情報をありがとうございます。 XML 内の実体参照は読み込むときには実際の文字に なっていると思っていたので、ちょっと確認してみます。 ダメなら直しておきたいと思います。 shinsuke 2010年7月23日15:08 Masayuki Shibata <mshibata @ shimadzu.co.jp>: > 柴田@亀岡市です。 > 微妙にウソを書いてしまいました。 > > 半角英数では検索できますが、フリーマインドは、日本語がアウトです。 > #以前行けたのを確認してそのままだったので、ちょっと心配になって... > > mm ファイルの中を見てみると、日本語部分は「っ」のように ASCII > の文字コード String にエンコードされていますのでヒットしません。 > > クロールもできていて検索もできますが、入力した日本語とエンコードさ > れた日本語の間ではマッチしません。 > > 間に一発かまさないといけないようです。 > >>菅谷様、柴田様 >> >>高橋と申します。 >>情報ありがとうございました。柴田様の実績の情報助かりました。 >>部内に展開したいと思います。ありがとうございます。 >> >>また菅谷様いつも迅速な対応ありがとうございます。 >>judeに関してですが、私の部署以外の開発部署でマインドマップを作成する際に >>使用しているツールみたいです。 >> >>どうやら、zip形式のなかに独自のファイルを格納して固めているみたいです。 >>先ほど開発の方にヒアリングを実施してわかりました。 >>(拡張子judeをzipにリネームして解凍するとEntityStoreというファイルがありました) >> >>私も有料版を持ち合わせていないので無料版にて作成したファイルを念のため >>添付させていただきます(ウィルスチェック済)。 >> >>以上ご確認よろしくお願い致します。 >> >> >> >> >>--- Masayuki Shibata wrote: >>> 柴田@亀岡市です。 >>> >>> Free Mind のファイルは、クロールできてます。 >>> Jude のは、うちのサーバーにはないみたいで実績はありません。 >>> >>> >菅谷様 >>> > >>> >高橋と申します。 >>> >以前は、コンテンツ比較の機能要望をチケットにあげていただきありがとう >>> >ございました。 >>> > >>> >まだまだ、メーリングリストにて投稿される方々ほどには試験的な運用までには >>> >至っておりませんが部内で下記質問がされたので投稿させていただこうかと >>> >思いました。 >>> > >>> >質問 >>> >------------------------------------------------------------------------- >>> >・対応ファイルが多数とあるが、どのファイル形式も大丈夫なのかどうか >>> >例えば、拡張子mmファイル(FreeMindにて生成されるファイル)、judeファイル >>> >(JUDE/Communityにて生成されるファイう)はどうか? >>> > >>> >※マインドマップを結構扱う部署なのでそのような質問が出たのだと思います。 >>> >------------------------------------------------------------------------- >>> > >>> >ご教授のほどよろしくお願い致します。 >>> >※本来クロールした結果を記すべきだと思いますが、最近はなかなか時間が取れない >>> >ため先行して質問をさせていただきました。 >>> > >>> >_______________________________________________ >>> >Fess-user mailing list >>> >Fess-user @ lists.sourceforge.jp >>> >http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> > >>> >>> _______________________________________________ >>> Fess-user mailing list >>> Fess-user @ lists.sourceforge.jp >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>> >>______________________________________________________________________ >> >>_______________________________________________ >>Fess-user mailing list >>Fess-user @ lists.sourceforge.jp >>http://lists.sourceforge.jp/mailman/listinfo/fess-user > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From yskjd735 @ ybb.ne.jp Fri Jul 23 15:24:49 2010 From: yskjd735 @ ybb.ne.jp (yskjd735 @ ybb.ne.jp) Date: Fri, 23 Jul 2010 15:24:49 +0900 (JST) Subject: [fess-user 313] Re: =?iso-2022-jp?b?GyRCQlAxfiVVJSElJCVrJEskRCQkJEYbKEI=?= In-Reply-To: <AANLkTik3DVLCdiAYBhxRD3EBVX6sk8iYF3ksuHfbeiTg@mail.gmail.com> Message-ID: <582951.28417.qm@web200007.mail.kks.yahoo.co.jp> 菅谷様、柴田様 高橋です。 柴田様 早速の情報提供ありがとうございました。私の方でもファイルの中身を開いて 確認しました(そこまでの調査は私もできるようになりたいものです)。 菅谷様の回答を待って、社内のFAQに載せようかと思います。 菅谷様 調査していただいて大変恐縮です。 judeに関しては、オープンソースとしての提供は難しいとのこと了解致しました。 xmlに関しては、お忙しいとは思いますが調査のほどよろしくお願い致します。 また何かありましたら、質問させていただきたいと思います。 以上です。 --- Shinsuke Sugaya wrote: > 菅谷です。 > > 情報をありがとうございます。 > 軽く調べた感じですと、jude はアクセスするための > API を公開しているようなので対応できるように思いますが > これは再配布できないので、Fess でオープンソースとしての > 提供は難しいかと思います。 > > shinsuke > > > 2010年7月23日14:42 <yskjd735 @ ybb.ne.jp>: > > 菅谷様、柴田様 > > > > 高橋と申します。 > > 情報ありがとうございました。柴田様の実績の情報助かりました。 > > 部内に展開したいと思います。ありがとうございます。 > > > > また菅谷様いつも迅速な対応ありがとうございます。 > > judeに関してですが、私の部署以外の開発部署でマインドマップを作成する際に > > 使用しているツールみたいです。 > > > > どうやら、zip形式のなかに独自のファイルを格納して固めているみたいです。 > > 先ほど開発の方にヒアリングを実施してわかりました。 > > (拡張子judeをzipにリネームして解凍するとEntityStoreというファイルがありました) > > > > 私も有料版を持ち合わせていないので無料版にて作成したファイルを念のため > > 添付させていただきます(ウィルスチェック済)。 > > > > 以上ご確認よろしくお願い致します。 > > > > > > > > > > --- Masayuki Shibata wrote: > >> 柴田@亀岡市です。 > >> > >> Free Mind のファイルは、クロールできてます。 > >> Jude のは、うちのサーバーにはないみたいで実績はありません。 > >> > >> >菅谷様 > >> > > >> >高橋と申します。 > >> >以前は、コンテンツ比較の機能要望をチケットにあげていただきありがとう > >> >ございました。 > >> > > >> >まだまだ、メーリングリストにて投稿される方々ほどには試験的な運用までには > >> >至っておりませんが部内で下記質問がされたので投稿させていただこうかと > >> >思いました。 > >> > > >> >質問 > >> >------------------------------------------------------------------------- > >> >・対応ファイルが多数とあるが、どのファイル形式も大丈夫なのかどうか > >> >例えば、拡張子mmファイル(FreeMindにて生成されるファイル)、judeファイル > >> >(JUDE/Communityにて生成されるファイう)はどうか? > >> > > >> >※マインドマップを結構扱う部署なのでそのような質問が出たのだと思います。 > >> >------------------------------------------------------------------------- > >> > > >> >ご教授のほどよろしくお願い致します。 > >> >※本来クロールした結果を記すべきだと思いますが、最近はなかなか時間が取れない > >> >ため先行して質問をさせていただきました。 > >> > > >> >_______________________________________________ > >> >Fess-user mailing list > >> >Fess-user @ lists.sourceforge.jp > >> >http://lists.sourceforge.jp/mailman/listinfo/fess-user > >> > > >> > >> _______________________________________________ > >> Fess-user mailing list > >> Fess-user @ lists.sourceforge.jp > >> http://lists.sourceforge.jp/mailman/listinfo/fess-user > >> > > _______________________________________________ > > Fess-user mailing list > > Fess-user @ lists.sourceforge.jp > > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From yskjd735 @ ybb.ne.jp Tue Jul 27 21:24:34 2010 From: yskjd735 @ ybb.ne.jp (yskjd735 @ ybb.ne.jp) Date: Tue, 27 Jul 2010 21:24:34 +0900 (JST) Subject: [fess-user 314] Re: =?iso-2022-jp?b?GyRCQlAxfiVVJSElJCVrJEskRCQkJEYbKEI=?= In-Reply-To: <AANLkTilNBSf7V8W3U0YwRmOhdNADtpjfwD5W5lFU4UUV@mail.gmail.com> Message-ID: <66721.88609.qm@web200004.mail.kks.yahoo.co.jp> 菅谷様 高橋と申します。 下記の件、現状はmmファイル(xmlファイル)は検索対象としてOKと 判断してよろしいでしょうか。 > XML 内の実体参照は読み込むときには実際の文字に > なっていると思っていたので、ちょっと確認してみます。 お忙しいところ大変恐縮ですが、ご確認のほどよろしくお願い致します。 ♯まだ一部にしか公開してませんが、Fessの社内評判はかなりいいです。 周囲はNamazuしか知らない人が大半でした。。。 高橋 --- Shinsuke Sugaya wrote: > 菅谷です。 > > 情報をありがとうございます。 > XML 内の実体参照は読み込むときには実際の文字に > なっていると思っていたので、ちょっと確認してみます。 > ダメなら直しておきたいと思います。 > > shinsuke > > 2010年7月23日15:08 Masayuki Shibata <mshibata @ shimadzu.co.jp>: > > 柴田@亀岡市です。 > > 微妙にウソを書いてしまいました。 > > > > 半角英数では検索できますが、フリーマインドは、日本語がアウトです。 > > #以前行けたのを確認してそのままだったので、ちょっと心配になって... > > > > mm ファイルの中を見てみると、日本語部分は「っ」のように ASCII > > の文字コード String にエンコードされていますのでヒットしません。 > > > > クロールもできていて検索もできますが、入力した日本語とエンコードさ > > れた日本語の間ではマッチしません。 > > > > 間に一発かまさないといけないようです。 > > > >>菅谷様、柴田様 > >> > >>高橋と申します。 > >>情報ありがとうございました。柴田様の実績の情報助かりました。 > >>部内に展開したいと思います。ありがとうございます。 > >> > >>また菅谷様いつも迅速な対応ありがとうございます。 > >>judeに関してですが、私の部署以外の開発部署でマインドマップを作成する際に > >>使用しているツールみたいです。 > >> > >>どうやら、zip形式のなかに独自のファイルを格納して固めているみたいです。 > >>先ほど開発の方にヒアリングを実施してわかりました。 > >>(拡張子judeをzipにリネームして解凍するとEntityStoreというファイルがありました) > >> > >>私も有料版を持ち合わせていないので無料版にて作成したファイルを念のため > >>添付させていただきます(ウィルスチェック済)。 > >> > >>以上ご確認よろしくお願い致します。 > >> > >> > >> > >> > >>--- Masayuki Shibata wrote: > >>> 柴田@亀岡市です。 > >>> > >>> Free Mind のファイルは、クロールできてます。 > >>> Jude のは、うちのサーバーにはないみたいで実績はありません。 > >>> > >>> >菅谷様 > >>> > > >>> >高橋と申します。 > >>> >以前は、コンテンツ比較の機能要望をチケットにあげていただきありがとう > >>> >ございました。 > >>> > > >>> >まだまだ、メーリングリストにて投稿される方々ほどには試験的な運用までには > >>> >至っておりませんが部内で下記質問がされたので投稿させていただこうかと > >>> >思いました。 > >>> > > >>> >質問 > >>> >------------------------------------------------------------------------- > >>> >・対応ファイルが多数とあるが、どのファイル形式も大丈夫なのかどうか > >>> >例えば、拡張子mmファイル(FreeMindにて生成されるファイル)、judeファイル > >>> >(JUDE/Communityにて生成されるファイう)はどうか? > >>> > > >>> >※マインドマップを結構扱う部署なのでそのような質問が出たのだと思います。 > >>> >------------------------------------------------------------------------- > >>> > > >>> >ご教授のほどよろしくお願い致します。 > >>> >※本来クロールした結果を記すべきだと思いますが、最近はなかなか時間が取れない > >>> >ため先行して質問をさせていただきました。 > >>> > > >>> >_______________________________________________ > >>> >Fess-user mailing list > >>> >Fess-user @ lists.sourceforge.jp > >>> >http://lists.sourceforge.jp/mailman/listinfo/fess-user > >>> > > >>> > >>> _______________________________________________ > >>> Fess-user mailing list > >>> Fess-user @ lists.sourceforge.jp > >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user > >>> > >>______________________________________________________________________ > >> > >>_______________________________________________ > >>Fess-user mailing list > >>Fess-user @ lists.sourceforge.jp > >>http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > _______________________________________________ > > Fess-user mailing list > > Fess-user @ lists.sourceforge.jp > > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From shinsuke @ yahoo.co.jp Tue Jul 27 23:22:20 2010 From: shinsuke @ yahoo.co.jp (Shinsuke Sugaya) Date: Tue, 27 Jul 2010 23:22:20 +0900 Subject: [fess-user 315] Re: =?iso-2022-jp?b?GyRCQlAxfiVVJSElJCVrJEskRCQkJEYbKEI=?= In-Reply-To: <66721.88609.qm@web200004.mail.kks.yahoo.co.jp> References: <AANLkTilNBSf7V8W3U0YwRmOhdNADtpjfwD5W5lFU4UUV@mail.gmail.com> <66721.88609.qm@web200004.mail.kks.yahoo.co.jp> Message-ID: <AANLkTi=+3ywAK-6JYJZQN_6NK3s8sj4MgX6tsNnvqx23@mail.gmail.com> 菅谷です。 3.1.2 までは&#〜;の実体参照として登録されていました。 3.1.3-SNAPSHOT 以降では mm ファイルを 処理できると思います(4.0系はまだ不安定な感じですが)。 ウェブクロールで読み込んだ場合は、ウェブサーバが 返すコンテンツタイプを信じるので、mmファイルで application/xml を返すようにウェブサーバを設定する 必要があると思います。ファイルシステムでのクロールでは mm ファイルは XML として扱うので特に問題は ないと思います。 > ♯まだ一部にしか公開してませんが、Fessの社内評判はかなりいいです。 ありがとうございます。 引き続きがんばります! shinsuke 2010年7月27日21:24 <yskjd735 @ ybb.ne.jp>: > 菅谷様 > > 高橋と申します。 > 下記の件、現状はmmファイル(xmlファイル)は検索対象としてOKと > 判断してよろしいでしょうか。 > >> XML 内の実体参照は読み込むときには実際の文字に >> なっていると思っていたので、ちょっと確認してみます。 > > お忙しいところ大変恐縮ですが、ご確認のほどよろしくお願い致します。 > > ♯まだ一部にしか公開してませんが、Fessの社内評判はかなりいいです。 > 周囲はNamazuしか知らない人が大半でした。。。 > > 高橋 > > > --- Shinsuke Sugaya wrote: >> 菅谷です。 >> >> 情報をありがとうございます。 >> XML 内の実体参照は読み込むときには実際の文字に >> なっていると思っていたので、ちょっと確認してみます。 >> ダメなら直しておきたいと思います。 >> >> shinsuke >> >> 2010年7月23日15:08 Masayuki Shibata <mshibata @ shimadzu.co.jp>: >> > 柴田@亀岡市です。 >> > 微妙にウソを書いてしまいました。 >> > >> > 半角英数では検索できますが、フリーマインドは、日本語がアウトです。 >> > #以前行けたのを確認してそのままだったので、ちょっと心配になって... >> > >> > mm ファイルの中を見てみると、日本語部分は「っ」のように ASCII >> > の文字コード String にエンコードされていますのでヒットしません。 >> > >> > クロールもできていて検索もできますが、入力した日本語とエンコードさ >> > れた日本語の間ではマッチしません。 >> > >> > 間に一発かまさないといけないようです。 >> > >> >>菅谷様、柴田様 >> >> >> >>高橋と申します。 >> >>情報ありがとうございました。柴田様の実績の情報助かりました。 >> >>部内に展開したいと思います。ありがとうございます。 >> >> >> >>また菅谷様いつも迅速な対応ありがとうございます。 >> >>judeに関してですが、私の部署以外の開発部署でマインドマップを作成する際に >> >>使用しているツールみたいです。 >> >> >> >>どうやら、zip形式のなかに独自のファイルを格納して固めているみたいです。 >> >>先ほど開発の方にヒアリングを実施してわかりました。 >> >>(拡張子judeをzipにリネームして解凍するとEntityStoreというファイルがありました) >> >> >> >>私も有料版を持ち合わせていないので無料版にて作成したファイルを念のため >> >>添付させていただきます(ウィルスチェック済)。 >> >> >> >>以上ご確認よろしくお願い致します。 >> >> >> >> >> >> >> >> >> >>--- Masayuki Shibata wrote: >> >>> 柴田@亀岡市です。 >> >>> >> >>> Free Mind のファイルは、クロールできてます。 >> >>> Jude のは、うちのサーバーにはないみたいで実績はありません。 >> >>> >> >>> >菅谷様 >> >>> > >> >>> >高橋と申します。 >> >>> >以前は、コンテンツ比較の機能要望をチケットにあげていただきありがとう >> >>> >ございました。 >> >>> > >> >>> >まだまだ、メーリングリストにて投稿される方々ほどには試験的な運用までには >> >>> >至っておりませんが部内で下記質問がされたので投稿させていただこうかと >> >>> >思いました。 >> >>> > >> >>> >質問 >> >>> >------------------------------------------------------------------------- >> >>> >・対応ファイルが多数とあるが、どのファイル形式も大丈夫なのかどうか >> >>> >例えば、拡張子mmファイル(FreeMindにて生成されるファイル)、judeファイル >> >>> >(JUDE/Communityにて生成されるファイう)はどうか? >> >>> > >> >>> >※マインドマップを結構扱う部署なのでそのような質問が出たのだと思います。 >> >>> >------------------------------------------------------------------------- >> >>> > >> >>> >ご教授のほどよろしくお願い致します。 >> >>> >※本来クロールした結果を記すべきだと思いますが、最近はなかなか時間が取れない >> >>> >ため先行して質問をさせていただきました。 >> >>> > >> >>> >_______________________________________________ >> >>> >Fess-user mailing list >> >>> >Fess-user @ lists.sourceforge.jp >> >>> >http://lists.sourceforge.jp/mailman/listinfo/fess-user >> >>> > >> >>> >> >>> _______________________________________________ >> >>> Fess-user mailing list >> >>> Fess-user @ lists.sourceforge.jp >> >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> >>> >> >>______________________________________________________________________ >> >> >> >>_______________________________________________ >> >>Fess-user mailing list >> >>Fess-user @ lists.sourceforge.jp >> >>http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >> > _______________________________________________ >> > Fess-user mailing list >> > Fess-user @ lists.sourceforge.jp >> > http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > >> >> _______________________________________________ >> Fess-user mailing list >> Fess-user @ lists.sourceforge.jp >> http://lists.sourceforge.jp/mailman/listinfo/fess-user >> > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user > From yskjd735 @ ybb.ne.jp Wed Jul 28 02:32:38 2010 From: yskjd735 @ ybb.ne.jp (yskjd735 @ ybb.ne.jp) Date: Wed, 28 Jul 2010 02:32:38 +0900 (JST) Subject: [fess-user 316] Re: =?iso-2022-jp?b?GyRCQlAxfiVVJSElJCVrJEskRCQkJEYbKEI=?= In-Reply-To: <AANLkTi=+3ywAK-6JYJZQN_6NK3s8sj4MgX6tsNnvqx23@mail.gmail.com> Message-ID: <510368.12679.qm@web200007.mail.kks.yahoo.co.jp> 菅谷様 高橋です。 単に箇条書きにしただけですが、下記の件了解致しました。 ------------------------------------------------------------------------------------- ・3.1.2 までは&#〜;の実体参照として登録されていること ・3.1.3-SNAPSHOT 以降では mm ファイルを処理できるということ ・ファイルシステムでのクロールではmmファイルは XML として扱うので特に問題はないこと ・ウェブクロールで読み込んだ場合には、mmファイルでapplication/xml を返すようにウェ ブサーバを設定する必要があるということ ------------------------------------------------------------------------------------- いつもすばやいレスポンス感謝しています。 お忙しい中、確認作業ありがとうございました。 高橋 --- Shinsuke Sugaya wrote: > 菅谷です。 > > 3.1.2 までは&#〜;の実体参照として登録されていました。 > 3.1.3-SNAPSHOT 以降では mm ファイルを > 処理できると思います(4.0系はまだ不安定な感じですが)。 > ウェブクロールで読み込んだ場合は、ウェブサーバが > 返すコンテンツタイプを信じるので、mmファイルで > application/xml を返すようにウェブサーバを設定する > 必要があると思います。ファイルシステムでのクロールでは > mm ファイルは XML として扱うので特に問題は > ないと思います。 > > > ♯まだ一部にしか公開してませんが、Fessの社内評判はかなりいいです。 > > ありがとうございます。 > 引き続きがんばります! > > shinsuke > > 2010年7月27日21:24 <yskjd735 @ ybb.ne.jp>: > > 菅谷様 > > > > 高橋と申します。 > > 下記の件、現状はmmファイル(xmlファイル)は検索対象としてOKと > > 判断してよろしいでしょうか。 > > > >> XML 内の実体参照は読み込むときには実際の文字に > >> なっていると思っていたので、ちょっと確認してみます。 > > > > お忙しいところ大変恐縮ですが、ご確認のほどよろしくお願い致します。 > > > > ♯まだ一部にしか公開してませんが、Fessの社内評判はかなりいいです。 > > 周囲はNamazuしか知らない人が大半でした。。。 > > > > 高橋 > > > > > > --- Shinsuke Sugaya wrote: > >> 菅谷です。 > >> > >> 情報をありがとうございます。 > >> XML 内の実体参照は読み込むときには実際の文字に > >> なっていると思っていたので、ちょっと確認してみます。 > >> ダメなら直しておきたいと思います。 > >> > >> shinsuke > >> > >> 2010年7月23日15:08 Masayuki Shibata <mshibata @ shimadzu.co.jp>: > >> > 柴田@亀岡市です。 > >> > 微妙にウソを書いてしまいました。 > >> > > >> > 半角英数では検索できますが、フリーマインドは、日本語がアウトです。 > >> > #以前行けたのを確認してそのままだったので、ちょっと心配になって... > >> > > >> > mm ファイルの中を見てみると、日本語部分は「っ」のように ASCII > >> > の文字コード String にエンコードされていますのでヒットしません。 > >> > > >> > クロールもできていて検索もできますが、入力した日本語とエンコードさ > >> > れた日本語の間ではマッチしません。 > >> > > >> > 間に一発かまさないといけないようです。 > >> > > >> >>菅谷様、柴田様 > >> >> > >> >>高橋と申します。 > >> >>情報ありがとうございました。柴田様の実績の情報助かりました。 > >> >>部内に展開したいと思います。ありがとうございます。 > >> >> > >> >>また菅谷様いつも迅速な対応ありがとうございます。 > >> >>judeに関してですが、私の部署以外の開発部署でマインドマップを作成する際に > >> >>使用しているツールみたいです。 > >> >> > >> >>どうやら、zip形式のなかに独自のファイルを格納して固めているみたいです。 > >> >>先ほど開発の方にヒアリングを実施してわかりました。 > >> >>(拡張子judeをzipにリネームして解凍するとEntityStoreというファイルがありました) > >> >> > >> >>私も有料版を持ち合わせていないので無料版にて作成したファイルを念のため > >> >>添付させていただきます(ウィルスチェック済)。 > >> >> > >> >>以上ご確認よろしくお願い致します。 > >> >> > >> >> > >> >> > >> >> > >> >>--- Masayuki Shibata wrote: > >> >>> 柴田@亀岡市です。 > >> >>> > >> >>> Free Mind のファイルは、クロールできてます。 > >> >>> Jude のは、うちのサーバーにはないみたいで実績はありません。 > >> >>> > >> >>> >菅谷様 > >> >>> > > >> >>> >高橋と申します。 > >> >>> >以前は、コンテンツ比較の機能要望をチケットにあげていただきありがとう > >> >>> >ございました。 > >> >>> > > >> >>> >まだまだ、メーリングリストにて投稿される方々ほどには試験的な運用までには > >> >>> >至っておりませんが部内で下記質問がされたので投稿させていただこうかと > >> >>> >思いました。 > >> >>> > > >> >>> >質問 > >> >>> >------------------------------------------------------------------------- > >> >>> >・対応ファイルが多数とあるが、どのファイル形式も大丈夫なのかどうか > >> >>> >例えば、拡張子mmファイル(FreeMindにて生成されるファイル)、judeファイル > >> >>> >(JUDE/Communityにて生成されるファイう)はどうか? > >> >>> > > >> >>> >※マインドマップを結構扱う部署なのでそのような質問が出たのだと思います。 > >> >>> >------------------------------------------------------------------------- > >> >>> > > >> >>> >ご教授のほどよろしくお願い致します。 > >> >>> >※本来クロールした結果を記すべきだと思いますが、最近はなかなか時間が取れない > >> >>> >ため先行して質問をさせていただきました。 > >> >>> > > >> >>> >_______________________________________________ > >> >>> >Fess-user mailing list > >> >>> >Fess-user @ lists.sourceforge.jp > >> >>> >http://lists.sourceforge.jp/mailman/listinfo/fess-user > >> >>> > > >> >>> > >> >>> _______________________________________________ > >> >>> Fess-user mailing list > >> >>> Fess-user @ lists.sourceforge.jp > >> >>> http://lists.sourceforge.jp/mailman/listinfo/fess-user > >> >>> > >> >>______________________________________________________________________ > >> >> > >> >>_______________________________________________ > >> >>Fess-user mailing list > >> >>Fess-user @ lists.sourceforge.jp > >> >>http://lists.sourceforge.jp/mailman/listinfo/fess-user > >> > > >> > _______________________________________________ > >> > Fess-user mailing list > >> > Fess-user @ lists.sourceforge.jp > >> > http://lists.sourceforge.jp/mailman/listinfo/fess-user > >> > > >> > >> _______________________________________________ > >> Fess-user mailing list > >> Fess-user @ lists.sourceforge.jp > >> http://lists.sourceforge.jp/mailman/listinfo/fess-user > >> > > > > _______________________________________________ > > Fess-user mailing list > > Fess-user @ lists.sourceforge.jp > > http://lists.sourceforge.jp/mailman/listinfo/fess-user > > > > _______________________________________________ > Fess-user mailing list > Fess-user @ lists.sourceforge.jp > http://lists.sourceforge.jp/mailman/listinfo/fess-user >