J-CASTニュース : 「非公開」でも「拒否設定」しないと グーグル・ロボットで「情報流出」
この記事の言わんとしていることはわかるのだけれど、クローラ(ロボット)の拒否設定はクローラが読み込める形にしなきゃならないのは言うまでもないよね。このあたりの設定は「クローラ 拒否」なんかのキーワードで検索してもらえば一発でわかるけど、クローラの制御はrobots.txtってファイルやるんだよね。つまり、「ここは巡回していくなよな」と書いてあるのがrobots.txtなんだよ。
で、このrobots.txt、当然だけどクローラが読めるわけよ。だからブラウザでも見ることができるのは言うまでもないんだよなぁ。だからこのファイルを見ると、見られたくないフォルダがあることが逆にバレたりしちゃう。ここが痛し痒しなところで、クローラ対策しても人間には一目瞭然だったりして、あまり笑えない話になったりするわけなんだよね。
ま、ディレクトリがわかってもファイル名がわからないと見れない場合がほとんどだから、さほど気にすることはないとは思うよ。だけど俺みたいな自宅サーバだと設定をチョンボしてディレクトリのファイル一覧が見れるようになっていたりするから注意しないとだめだよ。
ディレクトリ丸見えにしてた経験者の注意はきちんと覚えておくように。