[fess-user 556] Re: htmlとしてクロールして欲しいページがファイルとして処理されているよう

Back to archive index

Shinsuke Sugaya shins****@yahoo*****
2012年 4月 16日 (月) 22:48:13 JST


菅谷です。

http://fess.sourceforge.jp/ja/6.0/config/logging.html

ログレベルを debug などで確認するのが良いと思います。
org.apache.http 以下あたりを debug  にすると
HttpClient 関連のやり取りが確認できると思います。

よろしくお願いいたします。

shinsuke


2012年4月16日17:09 KOMINE Masako <Komin****@mss*****>:
> はじめまして。小峯と申します。
>
> サイトマップを使用して、サイトをクロールさせようとしているのですが、
> クロールはされるものの、webページとしてではなく、
> 何かのファイルとして処理されてしまいます。
>
> そのページに含まれるリンク先にクロールに行かず、
> 検索結果で表示されるコンテンツタイトルに
> URLの最後の部分が表示されるため、そう判断しました。
> また、このサイトには静的なページと動的に作成されるページとがあって
> 静的なページをサイトマップを使用せずにクロールさせると、
> こちらはhtmlとして処理されます。
> どちらの場合も「ウェブクロールの設定」で「深さ」は5に設定していました。
>
> クロール対象のページのURLは"http:"で始まり、
> wgetコマンドでアクセスすると、
> "Content-Type: text/html;charset=UTF-8"
> で応答があるため、s2robot_rule.diconのデフォルトの設定で
> htmlとして処理されそうな気がします。
>
> fess_crawler.outを見てもエラーらしき出力は見つけられません。
>
> どのような原因が考えられるか、お心当たりがありましたら
> お教え願えるでしょうか。
>
> よろしくお願いいたします。
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user




Fess-user メーリングリストの案内
Back to archive index