Shinsuke Sugaya
shins****@yahoo*****
2010年 5月 31日 (月) 12:06:34 JST
菅谷です。 s2robot_transformer.dicon で fessXpathTransformer の htmlUrlRuleMap を 以下のような感じで htmlUrlRuleMap2 に 置きかえるとできそうな気がします。以下の htmlUrlRuleMap2 は s2robot_transformer.dicon に記述します。ただし、すべての OPTION に対して適用されるので、//OPTION の部分を XPath の記述で絞る必要があるかと思います。 <component name="htmlUrlRuleMap2" class="java.util.LinkedHashMap"> <initMethod name="put"> <arg>"//A"</arg> <arg>"href"</arg> </initMethod> <initMethod name="put"> <arg>"//AREA"</arg> <arg>"href"</arg> </initMethod> <initMethod name="put"> <arg>"//FRAME"</arg> <arg>"src"</arg> </initMethod> <initMethod name="put"> <arg>"//IFRAME"</arg> <arg>"src"</arg> </initMethod> <initMethod name="put"> <arg>"//OPTION"</arg> <arg>"value"</arg> </initMethod> </component> shinsuke 2010年5月31日11:39 kazuto fukuda <kf966****@gmail*****>: > 菅谷様 > > お世話になります。福田です。 > クロール対象としたいページでリンク先をselect boxで選ぶようになっている > 物があります。 > > <select name="select" size="1" > onchange="location=this.options[this.selectedIndex].value; "> > <option selected>機種を選択して下さい</option> > <option value="http://10.224.32.250/seihinA.htm">seihinA</option> > <option value="http://10.224.32.250/seihinB.htm">seihinB</option> > <option value="http://10.224.32.250/seihinC.htm">seihinC</option> > > このリンク先も検索対象にする事は出来るでしょうか? > > 以上です。よろしくお願いします。 > > 2010年5月31日11:22 kazuto fukuda <kf966****@gmail*****>: >> 菅谷様 >> >> お世話になります。福田です。 >> 調べましたところ、以下の事がわかりました。 >> URLに指定したフォルダには、検索の始点となるいわばリンク集になる >> ようなページがあるのですが、拡張子がhtmlではなくhtmで、 >> どんなファイルか見てみると、MicrosoftWordで作成されたWebページ >> でした。 >> これはクロールの対象にはならないですよね。 >> 検索ルールのファイル「s2robot_rule.dicon?」を変更すれば対象には >> 出来そうな感じですが、単純なテキストファイルではないので、リンク先 >> を取得するのは難しいでしょうか? >> >> 以上です。よろしくお願いします。 >> >> 2010年5月28日21:54 kazuto fukuda <kf966****@gmail*****>: >>> 菅谷様 >>> >>> 福田です。 >>> >>>> robots.txt で除外するルールが記述されているか >>> >>> すいません。この部分見落としてました。 >>> 月曜日に調べてみます。 >>> >>> よろしくお願いします。 >>> >>> 2010年5月28日18:16 Shinsuke Sugaya <shins****@yahoo*****>: >>>> 菅谷です。 >>>> >>>> 情報をありがとうございます。 >>>> ログを見ると、3 ドキュメントでインデックスを >>>> 作られていると思われます。他にもクロール対象と >>>> なるドキュメントがあるとすると、robots.txt で >>>> 除外するルールが記述されているか、"No credentials >>>> available for DIGEST" と言われているので、 >>>> DIGEST 認証でブロックされているかな気がします。 >>>> よろしくお願いします。 >>>> >>>> shinsuke >>>> >>>> 2010年5月28日16:26 kazuto fukuda <kf966****@gmail*****>: >>>>> 菅谷様 >>>>> >>>>> 回答有難うございます。 >>>>> >>>>>> まず、システム設定のSolrの設定でSolrグループが >>>>>> 有効になっていますでしょうか?あとは、 >>>>> 有効になっています。 >>>>> >>>>>> logs/catalina.out と webapps/fess/WEB-INF/logs/fess.out >>>>>> はクロール時にどのような出力になっているでしょうか? >>>>> >>>>> 2010-05-28 09:59:05,453 [main] INFO >>>>> org.seasar.struts.validator.S2ValidatorPlugIn - Loading validation >>>>> rules file from '/WEB-INF/validator-rules.xml' >>>>> 2010-05-28 09:59:06,281 [main] INFO >>>>> org.seasar.framework.container.factory.SingletonS2ContainerFactory - >>>>> s2-frameworkのバージョンは2.4.39です。 >>>>> 2010-05-28 09:59:06,281 [main] INFO >>>>> org.seasar.framework.container.factory.SingletonS2ContainerFactory - >>>>> s2-extensionのバージョンは2.4.39です。 >>>>> 2010-05-28 09:59:06,281 [main] INFO >>>>> org.seasar.framework.container.factory.SingletonS2ContainerFactory - >>>>> s2-tigerのバージョンは2.4.39です。 >>>>> 2010-05-28 09:59:10,046 [main] INFO >>>>> jp.sf.fess.db.allcommon.DBFluteInitializer - ...Initializing DBFlute >>>>> components! >>>>> 2010-05-28 09:59:10,062 [main] INFO >>>>> org.seasar.dbflute.s2dao.extension.TnSqlLogRegistry - ...Closing the >>>>> sqlLogRegistry. >>>>> 2010-05-28 09:59:10,093 [main] INFO >>>>> jp.sf.fess.db.allcommon.DBFluteConfig - ...Locking the configuration >>>>> of DBFlute! >>>>> 2010-05-28 09:59:18,031 [main] INFO >>>>> org.seasar.framework.container.factory.SingletonS2ContainerFactory - >>>>> Running on [ENV]product, [DEPLOY MODE]Cool Deploy >>>>> 2010-05-28 10:00:02,421 [Thread-16] INFO >>>>> jp.sf.fess.helper.SystemHelper - Crawler: >>>>> Directory=C:\fess\fess-server-3.0.0\webapps\fess >>>>> Options=[java, -cp, >>>>> WEB-INF\cmd\resources;WEB-INF\classes;WEB-INF\lib\antlr-2.7.2.jar;WEB-INF\lib\aopalliance-1.0.jar;WEB-INF\lib\args4j-2.0.12.jar;WEB-INF\lib\asm-3.1.jar;WEB-INF\lib\bcmail-jdk16-1.44.jar;WEB-INF\lib\bcprov-jdk16-1.44.jar;WEB-INF\lib\commons-beanutils-1.7.0.jar;WEB-INF\lib\commons-codec-1.3.jar;WEB-INF\lib\commons-collections-3.2.jar;WEB-INF\lib\commons-compress-1.0.jar;WEB-INF\lib\commons-digester-1.6.jar;WEB-INF\lib\commons-el-1.0.jar;WEB-INF\lib\commons-fileupload-1.2.1.jar;WEB-INF\lib\commons-httpclient-3.1.jar;WEB-INF\lib\commons-io-1.4.jar;WEB-INF\lib\commons-lang-2.3.jar;WEB-INF\lib\commons-logging-1.0.3.jar;WEB-INF\lib\commons-validator-1.2.0.jar;WEB-INF\lib\dbflute-runtime-0.9.5.1.jar;WEB-INF\lib\dom4j-1.6.1.jar;WEB-INF\lib\fontbox-1.0-20091008.jar;WEB-INF\lib\geronimo-annotation_1.0_spec-1.0.jar;WEB-INF\lib\geronimo-ejb_3.0_spec-1.0.jar;WEB-INF\lib\geronimo-interceptor_3.0_spec-1.0.jar;WEB-INF\lib\geronimo-jpa_3.0_spec-1.0.jar;WEB-INF\lib\geronimo-jta_1.1_spec-1.0.jar;WEB-INF\lib\geronimo-stax-api_1.0_spec-1.0.1.jar;WEB-INF\lib\h2-1.2.128.jar;WEB-INF\lib\icu4j-3.8.jar;WEB-INF\lib\javassist-3.4.ga.jar;WEB-INF\lib\jcl-over-slf4j-1.5.6.jar;WEB-INF\lib\jempbox-0.8.0-20091008.jar;WEB-INF\lib\jstl-1.1.2.jar;WEB-INF\lib\log4j-1.2.14.jar;WEB-INF\lib\lucene-analyzers-2.9.1.jar;WEB-INF\lib\lucene-core-2.9.1.jar;WEB-INF\lib\lucene-highlighter-2.9.1.jar;WEB-INF\lib\lucene-memory-2.9.1.jar;WEB-INF\lib\lucene-misc-2.9.1.jar;WEB-INF\lib\lucene-queries-2.9.1.jar;WEB-INF\lib\lucene-snowball-2.9.1.jar;WEB-INF\lib\lucene-spellchecker-2.9.1.jar;WEB-INF\lib\mobylet-charset-1.0.2.jar;WEB-INF\lib\mobylet-core-1.0.2.jar;WEB-INF\lib\mobylet-s2extension-1.0.2.jar;WEB-INF\lib\mobylet-taglibs-1.0.2.jar;WEB-INF\lib\nekohtml-1.9.13.jar;WEB-INF\lib\ognl-2.6.9-patch-20070908.jar;WEB-INF\lib\ooxml-schemas-1.0.jar;WEB-INF\lib\org.codehaus.woodstox-wstx-asl-3.2.7.jar;WEB-INF\lib\oro-2.0.8.jar;WEB-INF\lib\pdfbox-0.8.0-20091008.jar;WEB-INF\lib\poi-3.5-FINAL.jar;WEB-INF\lib\poi-ooxml-3.5-FINAL.jar;WEB-INF\lib\poi-scratchpad-3.5-FINAL.jar;WEB-INF\lib\s2-extension-2.4.39.jar;WEB-INF\lib\s2-framework-2.4.39.jar;WEB-INF\lib\s2-robot-0.4.0.jar;WEB-INF\lib\s2-robot-db-0.4.0.jar;WEB-INF\lib\s2-robot-db-h2-0.4.0.jar;WEB-INF\lib\s2-robot-dbflute-runtime-0.9.6.jar;WEB-INF\lib\s2-tiger-2.4.39.jar;WEB-INF\lib\s2chronos-core-1.0.0.jar;WEB-INF\lib\s2chronos-extension-1.0.0.jar;WEB-INF\lib\sa-struts-1.0.4-sp7.jar;WEB-INF\lib\serializer-2.7.1.jar;WEB-INF\lib\slf4j-api-1.5.6.jar;WEB-INF\lib\slf4j-log4j12-1.5.6.jar;WEB-INF\lib\solr-commons-csv-1.4.0.jar;WEB-INF\lib\solr-core-1.4.0.jar;WEB-INF\lib\solr-solrj-1.4.0.jar;WEB-INF\lib\standard-1.1.2.jar;WEB-INF\lib\stax-api-1.0.1.jar;WEB-INF\lib\struts-1.2.9.jar;WEB-INF\lib\tika-core-0.5-20091008.jar;WEB-INF\lib\tika-parsers-0.5-20091008.jar;WEB-INF\lib\woodstox-wstx-asl-3.2.7.jar;WEB-INF\lib\xalan-2.7.1.jar;WEB-INF\lib\xercesImpl-2.8.1.jar;WEB-INF\lib\xmlbeans-2.3.0.jar;WEB-INF\cmd\lib\geronimo-servlet_2.4_spec-1.0.jar, >>>>> -Dfess.crawler.process=true, >>>>> -Dsolr.solr.home=C:\fess\fess-server-3.0.0\solr, >>>>> -Dsolr.data.dir=C:\fess\fess-server-3.0.0\solr\core1\data, >>>>> -Dfess.log.file=C:\fess\fess-server-3.0.0\webapps\fess\WEB-INF\logs\fess.out, >>>>> -Djava.awt.headless=true, -server, -XX:+UseGCOverheadLimit, >>>>> -XX:+UseConcMarkSweepGC, -XX:+CMSIncrementalMode, -XX:+UseTLAB, >>>>> -Dpdfbox.cjk.support=true, -Xmx512m, -XX:MaxPermSize=128m, >>>>> jp.sf.fess.exec.Crawler, --sessionId, 20100528100002] >>>>> 2010-05-28 10:00:05,000 [main] INFO >>>>> org.seasar.framework.container.factory.SingletonS2ContainerFactory - >>>>> s2-frameworkのバージョンは2.4.39です。 >>>>> 2010-05-28 10:00:05,000 [main] INFO >>>>> org.seasar.framework.container.factory.SingletonS2ContainerFactory - >>>>> s2-extensionのバージョンは2.4.39です。 >>>>> 2010-05-28 10:00:05,000 [main] INFO >>>>> org.seasar.framework.container.factory.SingletonS2ContainerFactory - >>>>> s2-tigerのバージョンは2.4.39です。 >>>>> 2010-05-28 10:00:08,640 [main] INFO >>>>> jp.sf.fess.db.allcommon.DBFluteInitializer - ...Initializing DBFlute >>>>> components! >>>>> 2010-05-28 10:00:08,640 [main] INFO >>>>> org.seasar.dbflute.s2dao.extension.TnSqlLogRegistry - ...Closing the >>>>> sqlLogRegistry. >>>>> 2010-05-28 10:00:08,671 [main] INFO >>>>> jp.sf.fess.db.allcommon.DBFluteConfig - ...Locking the configuration >>>>> of DBFlute! >>>>> 2010-05-28 10:00:08,765 [main] INFO >>>>> org.seasar.robot.db.allcommon.DBFluteInitializer - ...Initializing >>>>> DBFlute components! >>>>> 2010-05-28 10:00:08,812 [main] INFO >>>>> org.seasar.robot.db.allcommon.DBFluteConfig - ...Locking the >>>>> configuration of DBFlute! >>>>> 2010-05-28 10:00:13,109 [main] INFO >>>>> org.seasar.framework.container.factory.SingletonS2ContainerFactory - >>>>> Running on [ENV]product, [DEPLOY MODE]Cool Deploy >>>>> 2010-05-28 10:00:13,812 [main] INFO jp.sf.fess.exec.Crawler - >>>>> Starting Crawler.. >>>>> 2010-05-28 10:00:14,796 [Robot-20100528100002-1-3] INFO >>>>> org.seasar.robot.helper.impl.LogHelperImpl - Crawling URL: >>>>> http://10.nnn.nn.nnn/ >>>>> 2010-05-28 10:00:14,921 [Robot-20100528100002-1-3] INFO >>>>> org.seasar.robot.client.http.CommonsHttpClient - Checking URL: >>>>> http://10.nnn.nn.nnn/robots.txt >>>>> 2010-05-28 10:00:19,359 [Robot-20100528100002-2-4] INFO >>>>> org.seasar.robot.helper.impl.LogHelperImpl - Crawling URL: >>>>> http://10.nnn.nn.nnn/ >>>>> 2010-05-28 10:00:19,406 [Robot-20100528100002-2-4] INFO >>>>> org.seasar.robot.client.http.CommonsHttpClient - Checking URL: >>>>> http://10.nnn.nn.nnn/robots.txt >>>>> 2010-05-28 10:00:24,468 [Robot-20100528100002-3-4] INFO >>>>> org.seasar.robot.helper.impl.LogHelperImpl - Crawling URL: >>>>> http://150.nn.nn.nnn/oks.htm >>>>> 2010-05-28 10:00:24,500 [Robot-20100528100002-3-4] INFO >>>>> org.seasar.robot.client.http.CommonsHttpClient - Checking URL: >>>>> http://150.nn.nn.nnn/robots.txt >>>>> 2010-05-28 10:00:24,625 [Robot-20100528100002-3-4] INFO >>>>> org.apache.commons.httpclient.HttpMethodDirector - No credentials >>>>> available for DIGEST 'Digest'@150.16.97.150:80 >>>>> 2010-05-28 10:01:14,375 [IndexUpdater] INFO >>>>> jp.sf.fess.solr.IndexUpdater - The number of a crawled document is 3. >>>>> The processing size is 3. The execution time is 16ms. >>>>> 2010-05-28 10:01:14,406 [IndexUpdater] INFO >>>>> jp.sf.fess.solr.IndexUpdater - The number of a crawled document is 0. >>>>> The processing size is 0. The execution time is 0ms. >>>>> 2010-05-28 10:02:14,359 [IndexUpdater] INFO >>>>> jp.sf.fess.solr.IndexUpdater - The number of a crawled document is 0. >>>>> The processing size is 0. The execution time is 0ms. >>>>> 2010-05-28 10:02:19,703 [main] INFO jp.sf.fess.helper.WebIndexHelper >>>>> - [EXEC TIME] crawling time: 125641ms >>>>> 2010-05-28 10:03:14,359 [IndexUpdater] INFO >>>>> jp.sf.fess.solr.IndexUpdater - The number of a crawled document is 0. >>>>> The processing size is 0. The execution time is 0ms. >>>>> 2010-05-28 10:03:14,359 [IndexUpdater] INFO >>>>> jp.sf.fess.solr.IndexUpdater - [EXEC TIME] index update time: 47ms >>>>> 2010-05-28 10:03:14,531 [main] INFO >>>>> jp.sf.fess.helper.FileSystemIndexHelper - No crawling target urls. >>>>> 2010-05-28 10:03:14,562 [main] INFO jp.sf.fess.helper.DataIndexHelper >>>>> - No crawling target data. >>>>> 2010-05-28 10:03:14,750 [main] INFO jp.sf.fess.exec.Crawler - [EXEC >>>>> TIME] index optimize time: 188ms >>>>> 2010-05-28 10:03:14,750 [main] INFO jp.sf.fess.exec.Crawler - Finished Crawler >>>>> 2010-05-28 10:03:17,812 [Thread-16] INFO >>>>> jp.sf.fess.helper.SystemHelper - Crawler: Exit Code=0 - Crawler >>>>> Process Output: >>>>> Processed: C:\fess\fess-server-3.0.0\webapps\fess\WEB-INF\db\robot.h2.db >>>>> WARN: The method class >>>>> org.apache.commons.logging.impl.SLF4JLogFactory#release() was invoked. >>>>> WARN: Please see http://www.slf4j.org/codes.html#release for an explanation. >>>>> >>>>> 以上です。よろしくお願いします。 >>>>> >>>>> 2010年5月28日15:21 Shinsuke Sugaya <shins****@yahoo*****>: >>>>>> 菅谷です。 >>>>>> >>>>>> まず、システム設定のSolrの設定でSolrグループが >>>>>> 有効になっていますでしょうか?あとは、 >>>>>> logs/catalina.out と webapps/fess/WEB-INF/logs/fess.out >>>>>> はクロール時にどのような出力になっているでしょうか? >>>>>> よろしくお願いいたします。 >>>>>> >>>>>> shinsuke >>>>>> >>>>>> >>>>>> 2010年5月28日11:12 kazuto fukuda <kf966****@gmail*****>: >>>>>>> はじめまして、福田と申します。 >>>>>>> >>>>>>> Fessの導入テスト中です。 >>>>>>> イントラネットのサイトが対象なのですが、インデックスが作成されません。 >>>>>>> >>>>>>> ウェブクロールの設定で >>>>>>> URL >>>>>>> http://10.nnn.nn.nnn/ >>>>>>> クロール対象とするURL >>>>>>> http://10.nnn.nn.nnn/.* >>>>>>> >>>>>>> としております。 >>>>>>> 昨日は一度この設定で、一度はインデックスが作成されたのですが、 >>>>>>> 今日、システム設定のSolrアクションで削除してから、クローラープロセスを >>>>>>> 実行したところ、何も作成されませんでした。 >>>>>>> ログファイルも見ましたが、特にエラーは出ていないようです。 >>>>>>> 何が問題なのでしょうか? >>>>>>> >>>>>>> 以上です。よろしくお願いします。 >>>>>>> >>>>>>> _______________________________________________ >>>>>>> Fess-user mailing list >>>>>>> Fess-****@lists***** >>>>>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>>>> >>>>>> >>>>>> _______________________________________________ >>>>>> Fess-user mailing list >>>>>> Fess-****@lists***** >>>>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>>> >>>>> _______________________________________________ >>>>> Fess-user mailing list >>>>> Fess-****@lists***** >>>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>>> >>>> _______________________________________________ >>>> Fess-user mailing list >>>> Fess-****@lists***** >>>> http://lists.sourceforge.jp/mailman/listinfo/fess-user >>>> >>> >> > _______________________________________________ > Fess-user mailing list > Fess-****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/fess-user >