[fess-user 963] クロール対象とするパスの取り扱いについて

Back to archive index

斎藤 nsait****@msk-w*****
2015年 2月 21日 (土) 17:32:07 JST


斎藤です。

 お世話になります。

 「クロール対象とするパス」の指定で、正規表現のパスパターンを指定してい 
るのですが、
クロール対象と認識してくれません。
 逆に、「クロール対象から除外するパス」に同じ内容を指定してみたら、対象 
外と認識してく れます。
 「クロール対象とするパス」の動作が思うように動作していない様に感じるの 
ですが、
なにか間違いがあるのでしょうか?

1)パターン1
 「クロール対象とするパス」に以下の設定を行いました。
 .*\.txt$

 この時のログは以下の通りです。

2015-02-21 17:02:40,431 [WebFsCrawler] INFO  Included Path: .*\.txt$
2015-02-21 17:03:40,544 [IndexUpdater] INFO  Processing 0/0 docs (DB: 19ms)
2015-02-21 17:04:40,528 [IndexUpdater] INFO  Processing 0/0 docs (DB: 3ms)
2015-02-21 17:05:40,528 [IndexUpdater] INFO  Processing 0/0 docs (DB: 2ms)

2)パターン2
 逆に、「クロール対象から除外するパス」に同じ内容の設定を入れました。
 .*\.txt$

2015-02-21 17:11:40,867 [WebFsCrawler] INFO  Excluded Path: .*\.txt$
2015-02-21 17:11:41,061 [Robot-20150221171137-1-3] INFO  Crawling URL: 
smb://hogehoge/share/P14/f/P_HDD/test/
2015-02-21 17:11:41,247 [Robot-20150221171137-1-3] INFO  Crawling URL: 
smb://hogehoge/share/P14/f/P_HDD/test/2-2.jpg


 その他気が付いたこととして、パターン1でクロール対象を指定した際に認識 
されなかった
訳ですが、対象となるパスが存在しない場合にも拘わらず、やたらと長い時間ク 
ロールを
行っていました。
 対象となるファイルが無いのに時間が掛かっている理由がよくわかりません。
 対象フォルダーに保存しているファイルは100KB程度の小さなファイル2本 
(jpgとtxt)だけです。

 正規表現が間違っているとしたら、パターン2が正しく動作している意味が解 
らず、
悩んでいます。

以上

-------------- next part --------------
HTML$B$NE:IU%U%!%$%k$rJ]4I$7$^$7$?(B...
Descargar 



Fess-user メーリングリストの案内
Back to archive index