[Tep-j-general] Re: Slurpにインデックスされるには?

Back to archive index

"茅野泰明@DB" chino****@desig*****
2004年 10月 12日 (火) 17:09:58 JST


はまださん、こんにちは。

> ホントそうですよね〜。わざわざ別にクロールする理由としては
>
> ・存在確認
> ・(トップページの)更新頻度確認
>
> あたり(←そしてこれを表示順位に反映させる??)なんじゃないかな〜、とか
> 思うんですが、この辺はあくまでも当方の想像に過ぎません。

きっとそういう理由なのでしょうね。存在確認をしているとすると、もし何かの
理由でしばらくトップページにアクセスできないでいると、「登録サイト」から
も抹消されてしまうのですかねぇ?

> ぜんぜん違いますね〜。当方は
>
> > #!/bin/sh
> >
> > LANG=C
> > export LANG
> >
> > GOOGLE=`grep -i -c 'Googlebot' /var/log/httpd/access_log`
> > SLURP=`grep -i -c 'Slurp' /var/log/httpd/access_log`
> > UPTIME=`uptime | awk '{print $3$4}' | sed -e "s/,//g"`
> >
> > echo $GOOGLE
> > echo $SLURP
> > echo $UPTIME
> > echo Robots Access Count
>
> ↑こんなスクリプトをMRTGから呼び出して各クローラーの動向をグラフ化してる
> んすけども、GooglebotとSlurpのグラフは全然カタチが違います。

実はMRTGは名前だけは知っていたのでうすが、使ったことがなかったので、今度
試してみようかと思います。そのときには、このスクリプトを参考にさせてもら
おうかと思います。

> Googlebotは、1〜2週間ごとくらいに集中して来訪するする「崖」「山」の時
> 期と、傾きのゆるやかな「坂」や、クロール頻度が極端に下がる「平原」の時期
> が交互に挟まるといった感じで、かなり違った挙動を示してます。

やはりグラフで見ると、単にログを眺めているよりは大局的な動向がつかめるの
ですね。特にosCommerceは、その性格上、検索エンジンに登録されるかどうかが
重要なポイントでしょうね。

ところで、ずっと気になっていたのですが、SpiderKillerは、アクセスしてきた
エージェントがスパイダーかブラウザかに応じて出力するページ(といってもセッ
ションですが)を変えますよね。その程度であれば、いわゆるGoogleとかが警告
している「人が見るページとスパイダーが見る(?)ページが異なる」というこ
とにはならないのでしょうか?

--
デザイナーバンク株式会社
 東京都新宿区百人町1-23-23コウギンビルB-A

 茅野泰明 <chino****@desig*****>
 tel:03-3363-6233





Tep-j-general メーリングリストの案内
Back to archive index