Shinsuke Sugaya
shins****@gmail*****
2017年 6月 1日 (木) 10:04:43 JST
sitemap.xmlが開始URLとして指定されているので、 > 2017-04-24 00:00:35,767 [Crawler-20170424000000-1-2] INFO Crawling URL: http://testwww2.ドメイン名/sitemap.xml を参照して、クロール対象のURLを取得して > 2017-04-24 00:00:38,286 [Crawler-20170424000000-1-1] INFO Crawling URL: http://testwww2.ドメイン名/calendar/ をクロールしていると思います。 > 自動的に「クロール対象とするURL: http://ドメイン/.*」で指定した はクロール時のフィルタ的な設定になります。 > また、<loc><priority><changefreq>の順に記載している事が問題なのでしょうか。 特に問題ないと思います。 shinsuke 2017年4月24日 10:43 松宮 あすか <matsu****@idaj*****>: > shinsuke様 > > 返信をありがとうございます。 > fess-crawler.logを見ると以下の記載がありました。 > クロールするターゲットのURLがない(sitemap.xmlがない)ので、 > 自動的に「クロール対象とするURL: http://ドメイン/.*」で指定した > HTMLファイルからリンクを辿って検索結果を出しているという認識でよろしいで > しょうか。 > > sitemap.xmlの書き方についてですが<lastmod>を記載していません。 > また、<loc><priority><changefreq>の順に記載している事が問題なのでしょうか。 > > -------------- > 2017-04-24 00:00:34,824 [DataStoreCrawler] INFO No crawling target urls. > 2017-04-24 00:00:35,017 [WebFsCrawler] INFO [Tattletale] modules [], > plugins [], sites [] > 2017-04-24 00:00:35,218 [WebFsCrawler] INFO Connected to localhost:0001 > 2017-04-24 00:00:35,516 [WebFsCrawler] INFO Target URL: > http://testwww2.ドメイン名/sitemap.xml > 2017-04-24 00:00:35,767 [Crawler-20170424000000-1-2] INFO Crawling URL: > http://testwww2.ドメイン名/sitemap.xml > 2017-04-24 00:00:36,042 [Crawler-20170424000000-1-2] INFO Checking URL: > http://testwww2.ドメイン名/robots.txt > 2017-04-24 00:00:38,286 [Crawler-20170424000000-1-1] INFO Crawling URL: > http://testwww2.ドメイン名/calendar/ > ・ > ・ > ・ > 2017-04-24 00:53:54,282 [IndexUpdater] INFO Processing no docs > (Doc:{access 3ms, cleanup 194ms}, Mem:{used 24MB, heap 46MB, max 505MB}) > 2017-04-24 00:53:54,282 [IndexUpdater] INFO [EXEC TIME] index update > time: 49847ms > 2017-04-24 00:53:54,416 [main] INFO Finished Crawler > 2017-04-24 00:53:54,625 [main] INFO [CRAWL INFO] > DataCrawlEndTime=2017-04-24T00:00:34.842+0900,CrawlerEndTime=2017-04-24T00:53:54.417+0900,WebFsCrawlExecTime=3189904,CrawlerStatus=true,CrawlerStartTime=2017-04-24T00:00:34.612+0900,WebFsCrawlEndTime=2017-04-24T00:53:54.416+0900,WebFsIndexExecTime=49847,WebFsIndexSize=26,CrawlerExecTime=3199805,DataCrawlStartTime=2017-04-24T00:00:34.741+0900,WebFsCrawlStartTime=2017-04-24T00:00:34.733+0900 > 2017-04-24 00:53:54,879 [main] INFO Disconnected to > elasticsearch:localhost:0001 > 2017-04-24 00:54:02,961 [main] INFO Destroyed LaContainer. > -------------- > > よろしくお願いいたします。 > > > > ------------------- Replied Message ------------------- > Date: 2017/04/23 20:58:30 > From: Shinsuke Sugaya <shins****@gmail*****> > To: fess-user <fess-****@lists*****> > Cc: > Subject: [fess-user 1009] Re:サイトマップ sitemap.xmlをクロール対象とす > る設定 > > https://www.sitemaps.org/ の形式を > サポートしています。クロールしている内容は > fess-crawler.logで確認することができます。 > 問題の再現方法をいただければ確認してみます。 > > shinsuke > > > 2017年4月17日 14:18 松宮 あすか <matsu****@idaj*****>: >> はじめましてkoronaです。 >> >> ウェブクロールの設定で最初はWebサイトの階層を指定して検索結果に出してい >> たのですが、 >> sitemap.xmlの方がページの除外や検索順序に都合良いと思い、sitemap.xmlを指 >> 定したのですが >> 検索結果に望むページが表示されません。 >> >> 「ウェブを対象としたクロールに関する設定」の箇所で、以下のように入力すれば >> sitemap.xmlで指定したリンクを検索対象になるという認識なのですが間違って >> いるでしょうか。 >> >> URL欄: http://ドメイン/sitemap.xml >> クロール対象とするURL: http://ドメイン/.* >> >> よろしくお願いします。 >> >> _______________________________________________ >> Fess-user mailing list >> Fess-****@lists***** >> http://lists.osdn.me/mailman/listinfo/fess-user > _______________________________________________ > Fess-user mailing list > Fess-****@lists***** > http://lists.osdn.me/mailman/listinfo/fess-user > > > > > > _______________________________________________ > Fess-user mailing list > Fess-****@lists***** > http://lists.osdn.me/mailman/listinfo/fess-user >