robots.txtや.htaccessで検索エンジンクローラーの巡回を拒否する方法

WEBサイトを色々と作成していると、検索エンジンにインデックスさせたくないページも出てくるかと思います。そんな時には、メタタグにnoindexを追加するのもいいですが、robots.txtや.htaccessを使えば、そもそもクローラーの巡回を拒否することができます。

優先度としては、.htaccess > robots.txt > メタタグの順になっています。

.htaccessによる主要検索エンジンの拒否

.htaccessで検索エンジンのクローラーを拒否する場合、以下のように記述します。


SetEnvIf User-Agent "Googlebot" shutout
SetEnvIf User-Agent "Slurp" shutout
SetEnvIf User-Agent "msnbot" shutout

order Allow,Deny
Allow from all
Deny from env=shutout

GooglebotはGoogle、SlurpはYahoo、msnbotはBingのクローラーです。

.htaccessは、サーバーのルートディレクトリに設置します。

robots.txtによるクローラーの拒否

robots.txtもルートディレクトリに設置してください。

robots.txtで検索エンジンのクローラーを拒否する場合、以下のように記述します。

すべての検索エンジンを拒否する


User-agent: *
Disallow: /

このように記述すると、すべての検索エンジンからの巡回を全ページで拒否します。

一部のページだけで拒否したい場合は、以下のようにディレクトリを指定します。

一部のディレクトリでだけ拒否する


User-agent: *
Disallow: /test
Allow: /

検索エンジンを指定したい場合は、User-agentに記述します。

Googleだけ拒否する


User-agent: Googlebot
Disallow: /

Yahooだけ拒否する


User-agent: Slurp
Disallow: /

Bingだけ拒否する


User-agent: msnbot
Disallow: /

上記を組み合わせることで、拒否したい部分だけで拒否するようにしましょう。

あとがき

robots.txtや.htaccessって、触ったことがない人にとっては難しいイメージがあるかもしれませんが、ちょっと修正するくらいなら簡単です。

ただ、設定を間違えてしまうと、検索エンジンにインデックスされなくなったり、サイトにアクセスできなくなったりしてしまうので、作業前にバックアップを取って十分に気をつけましょう。

.htaccessによる主要検索エンジンの拒否

robots.txtによるクローラーの拒否

あとがき

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル