以前一念発起してURLをごっそり整理した。
URLを整理する 序章
URLを整理する rssフィードの修正
URLを整理する pluginのhack
このサイトはNucleusをブログツールとして使用しており、URLでパラメタを渡してやってページを生成する、いわゆる動的生成のサイトだ。だからそのままでは
http://www.oyajiman.net/oyaji/?itemid=2086みたいなURLになっている。フォーマットを統一した理由は上記エントリにも書いているが、そのほかにWebalizerでのアクセス解析がうまくいかないという理由もあった。だから
http://www.oyajiman.net/oyaji/item-2086.htmlというフォーマットに統一したのだが、パラメータを渡してのページ生成も当然可能だ。多少の労力を払ってフォーマットを統一したが、クローラが引き続きパラメータつきURLでクロールしていく可能性は高いのである。いずれ集約されていくとは思ったのだが、その集約を短時間で済ませてみようと思い少々荒療治してみた。
具体的にはrobots.txtに
Disallow: /index.php?
Disallow: /?
を書き加えたのである。これで、ほぼパラメタ付きURLでのクロールは抑制出来るはずだ。ただ、この設定は、ある意味ではトップページのクロールを拒んでいるようなものだ。アクセス数を犠牲にした手法であるが、その結果、ロボットが拾っていく絶対回数も格段に減ったがパラメータつきでのアクセスやクロールも格段に減った。時間が経過するにつれ、検索エンジンでインデックスされたURLもほぼ一つのURLに統一された。統一されたURLで拾ってもらうという目的はほぼ達成できたのだ。やったね。
我慢すること約3カ月。そろそろいいだろうということで、制限を外したのが8/1である。その直後、驚くべき事実が発覚する。MSNのクローラが、パラメータつきのURLでガンガンクロールしているのだ。その回数は日に日に増え、8/3ではパラメタつきでのクロールがほとんどになっている。現在は変更後のURLに落ち着いて来ているが、これまでの拾い方は異常だ。
これは他のクローラにはまったく見られない現象である。そもそもこのサイトにはすでにパラメータのついたURLはトラックバック以外存在しない。このパラメタ付きURLを
どこから拾ってきたのか小一時間問い詰めたい。また、無差別電話勧誘のようにスクリプトで
変数を変えつつクロールしていくのがお前のところの正式なやり方なのか、明確に答えてほしい。
なんなんだよ、このクローラは。
存在しないはずのURLでクロールするなんて、一時期の百度よりよっぽど行儀が悪い。
MSNには猛省を促したい。