MSNのクローラ行儀悪杉

以前一念発起してURLをごっそり整理した。

URLを整理する 序章
URLを整理する rssフィードの修正
URLを整理する pluginのhack

このサイトはNucleusをブログツールとして使用しており、URLでパラメタを渡してやってページを生成する、いわゆる動的生成のサイトだ。だからそのままではhttp://www.oyajiman.net/oyaji/?itemid=2086みたいなURLになっている。フォーマットを統一した理由は上記エントリにも書いているが、そのほかにWebalizerでのアクセス解析がうまくいかないという理由もあった。だからhttp://www.oyajiman.net/oyaji/item-2086.htmlというフォーマットに統一したのだが、パラメータを渡してのページ生成も当然可能だ。多少の労力を払ってフォーマットを統一したが、クローラが引き続きパラメータつきURLでクロールしていく可能性は高いのである。いずれ集約されていくとは思ったのだが、その集約を短時間で済ませてみようと思い少々荒療治してみた。

具体的にはrobots.txtに

Disallow: /index.php?
Disallow: /?

を書き加えたのである。これで、ほぼパラメタ付きURLでのクロールは抑制出来るはずだ。ただ、この設定は、ある意味ではトップページのクロールを拒んでいるようなものだ。アクセス数を犠牲にした手法であるが、その結果、ロボットが拾っていく絶対回数も格段に減ったがパラメータつきでのアクセスやクロールも格段に減った。時間が経過するにつれ、検索エンジンでインデックスされたURLもほぼ一つのURLに統一された。統一されたURLで拾ってもらうという目的はほぼ達成できたのだ。やったね。

我慢すること約3カ月。そろそろいいだろうということで、制限を外したのが8/1である。その直後、驚くべき事実が発覚する。MSNのクローラが、パラメータつきのURLでガンガンクロールしているのだ。その回数は日に日に増え、8/3ではパラメタつきでのクロールがほとんどになっている。現在は変更後のURLに落ち着いて来ているが、これまでの拾い方は異常だ。

これは他のクローラにはまったく見られない現象である。そもそもこのサイトにはすでにパラメータのついたURLはトラックバック以外存在しない。このパラメタ付きURLをどこから拾ってきたのか小一時間問い詰めたい。また、無差別電話勧誘のようにスクリプトで変数を変えつつクロールしていくのがお前のところの正式なやり方なのか、明確に答えてほしい。

なんなんだよ、このクローラは。存在しないはずのURLでクロールするなんて、一時期の百度よりよっぽど行儀が悪い。

MSNには猛省を促したい。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください