[fess-user 51] Re: クロール対象(外)URL と 検索対象(外)URL の使い方

Back to archive index

Shinsuke Sugaya shins****@yahoo*****
2009年 12月 21日 (月) 18:10:53 JST


菅谷です。

ややこしくなって申し訳ありません。その機能を
追加した動機は、クロールしていくけど、その中の
一部は検索対象にしたくないようなことから来てます。
たとえば、一覧と詳細ページがあったとして、一覧
ページをクロールの開始地点にして、検索結果には
詳細ページだけにしたいような場合です(一覧ページは
結果に表示しない)。このような場合は、「検索対象から
除外するURL」に一覧ページを指定します。

簡単ではありますが、
http://fess.sourceforge.jp/ja/1.2/admin/webCrawlingConfig-guide.html
にまとめてみました。

> クロール対象 URL とは...

クロールする対象 URL になります。検索対象 URLで何も
指定しなければ、今まで通り、検索対象としてSolr に投入
されます。

> 検索対象 URL とは...

検索対象として Solr に投入される URL になります。
クロール対象となった URL を Solr に投入するかどうか
(検索結果に入れるか) を制御します。

> ・クロール対象 URL に指定してあれば、検索するとヒットするように
>  思いますが、それで正解でしょうか?

検索対象 URL (除外も)で何も指定しなければ、Solr に投入
され、検索にヒットします。検索対象 URL が指定されていれば
それにマッチするかどうかで、検索にヒットするか決まります。

> ・クロール対象 URL 内のドキュメントにクロール対象外へのリンクが
>  ある場合、リンク先のドキュメントは検索対象になるでしょうか?

クロール対象外であれば、検索にはヒットしません。

> ・上記の場合、検索対象をクロール対象内に閉じ込めたいときは、検
>  索対象 URL にクロール対象 URL と同じ正規文字列検索式を入れて
>  おく必要がありますか?

検索対象はクロール対象に含まれます。
検索対象の URL はクロール対象の中での条件をしてすれば
OK です。同じものを指定する必要はありません。

たとえば、従来通り、クロール対象で指定して、ある部分の
ドキュメントだけ検索結果に表示したくない場合に、「検索対象から
除外するURL」にそれを指定するような使い方があると思います。

よろしくお願いいたします。

# ドキュメントに例を書いた方がよさそうですね…(反省)

shinsuke



2009年12月21日15:48 Masayuki Shibata <mshib****@shima*****>:
> 柴田@亀岡市です。
>
> 非常に基本的な質問で恐縮なのですが...
>
> クロール対象 URL とは...
> 対象 URL のドキュメント中にリンクがないか探しに行く。
>
> 検索対象 URL とは...
> 対象 URL のドキュメント中に検索文字がないか探しに行く。
>
> ...と思っているのですが、
>
> ・クロール対象 URL に指定してあれば、検索するとヒットするように
>  思いますが、それで正解でしょうか?
>
> ・クロール対象 URL 内のドキュメントにクロール対象外へのリンクが
>  ある場合、リンク先のドキュメントは検索対象になるでしょうか?
>
> ・上記の場合、検索対象をクロール対象内に閉じ込めたいときは、検
>  索対象 URL にクロール対象 URL と同じ正規文字列検索式を入れて
>  おく必要がありますか?
>
> ちょっと一番上の質問の部分で混乱しておりますので、とんちんかん
> な質問をしてしまっているのかも知れませんが、ご教示いただけると
> 助かります。
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>




Fess-user メーリングリストの案内
Back to archive index