Linuxからアホ話まで、何でもありでござる

2009年02月16日

Yahoo!ブログ検索を成敗

[サイト運営]
先日もちょっと言及したYahoo!ブログ検索のものと思われるクローラだが、とにかく性質が悪い。一定時間内に複数のIPアドレスのクローラが大挙押し寄せてくるものだから、サーバは毎日悲鳴を上げてしまっている。

このクローラ、なぜかサーバのレスポンスが悪くなるとますます大挙して押し寄せてくるようで、その挙動はまさに嫌がらせである。それもひとつのエントリに数十個のアドレスから一気に来るものだから、さらにレスポンスが悪くなるという悪循環を見事に引き起こしてくれている。あまりにひどいのでYahoo!ブログ検索ヘルプを参考にrobots.txtでアクセスタイムを制御してみたのだが全く効果がない。ディレイタイムで押さえ込むのじゃなくてクロール拒否にしてもいいのだが、それだけではなんだか腹の虫が収まらない。というか、あの百度の時でさえこういうクロールはされたことがなく、全く持って意味不明だ。こうなればこっちも意地である。たかがクローラ、それもYahooが検索からBlogを排除しようとして作られたであろうBlog検索なるもので、ただでさえ少ないリソースを食いつぶされるような仕打ちをされるのは納得がいかん。

一つ人のサーバリソースを奪い、二つ不埒なクロール三昧、三つ醜いクロールの鬼を、退治てくれよう桃太郎。

調べてみるとこのクローラはcrwl***.bsearch.ogk.yahoo.co.jpというURLで、その***の部分は100~194の範囲内であるようだ。さらに詳しく調べるとこのようになっている模様。
 IPアドレス      クローラ番号
124.83.190.034 - 056  crwl172 - 194
124.83.191.136 - 143  crwl164 - 171
124.83.191.144 - 207  crwl100 - 163

ここまでくれば反応させるのさえ気分が悪いので、これをすべてDENYしてやろうと思ったのだが、そこは太平洋より広く日本海溝より深い心の持ち主である俺。すべて拒否はやめて一部を開放し、今後の挙動を見ることにした。ということで124.83.191.***のアクセスをDENYしてやることに決定。これでかなりクローラ被害は防げるはずだ。お前には半殺しがお似合いだぜ。

それにしてもなんでこういうことが起こるのかよくわからない。MSNのクローラも同じような挙動をするが、こちらはひとつのエントリに集中アクセスすることはない。Yahoo!ブログ検索って、なにか仕様がおかしいんじゃないのかにゃ?退治したからもういいけど。

こんなYahoo!がなぜ日本でもてはやされているのか、俺には全く理解できないんだけどね。







ブログランキング・にほんブログ村へ
posted by oyajiman at 2009年02月16日 22:30:00



コメント

ぷえる

>お前には半殺しがお似合いだぜ。
糞わろた、桃太郎侍もわらったw

違法業者のSPAMも困りものですが、こういうネット専業企業の振る舞いも時としてこういう事が起こるんですね。
クロールする時に相手サーバのスペック確認して苛めにならない程度に加減してアクセスするとかのスクリプト組めばいいのに
2009年02月17日 07:26:59

oyajiman

そうそう、Googleはその昔、これと同じようなことで結構たたかれたせいか、ものすごくサーバにやさしい仕様になっているような感じがして好感度大です。

そもそもサーバのレスポンスが悪かったら次々よこしたってダメに決まっているじゃん。Yahoo!って何なの?バカなの?
2009年02月17日 16:42:06

トラックバック

トラックバック
このエントリにトラックバックはありません
このトラックバックURLを使ってこの記事にトラックバックを送ることができます。 もしあなたのブログがトラックバック送信に対応していない場合にはこちらのフォームからトラックバックを送信することができます。.

コメントする