WEBサイトを色々と作成していると、検索エンジンにインデックスさせたくないページも出てくるかと思います。そんな時には、メタタグにnoindexを追加するのもいいですが、robots.txtや.htaccessを使えば、そもそもクローラーの巡回を拒否することができます。
優先度としては、.htaccess > robots.txt > メタタグの順になっています。
.htaccessによる主要検索エンジンの拒否
.htaccessで検索エンジンのクローラーを拒否する場合、以下のように記述します。
SetEnvIf User-Agent "Googlebot" shutout SetEnvIf User-Agent "Slurp" shutout SetEnvIf User-Agent "msnbot" shutout order Allow,Deny Allow from all Deny from env=shutout
GooglebotはGoogle、SlurpはYahoo、msnbotはBingのクローラーです。
.htaccessは、サーバーのルートディレクトリに設置します。
robots.txtによるクローラーの拒否
robots.txtもルートディレクトリに設置してください。
robots.txtで検索エンジンのクローラーを拒否する場合、以下のように記述します。
- すべての検索エンジンを拒否する
User-agent: * Disallow: /
このように記述すると、すべての検索エンジンからの巡回を全ページで拒否します。
一部のページだけで拒否したい場合は、以下のようにディレクトリを指定します。
- 一部のディレクトリでだけ拒否する
User-agent: * Disallow: /test Allow: /
検索エンジンを指定したい場合は、User-agentに記述します。
- Googleだけ拒否する
User-agent: Googlebot Disallow: /
- Yahooだけ拒否する
User-agent: Slurp Disallow: /
- Bingだけ拒否する
User-agent: msnbot Disallow: /
上記を組み合わせることで、拒否したい部分だけで拒否するようにしましょう。
あとがき
robots.txtや.htaccessって、触ったことがない人にとっては難しいイメージがあるかもしれませんが、ちょっと修正するくらいなら簡単です。
ただ、設定を間違えてしまうと、検索エンジンにインデックスされなくなったり、サイトにアクセスできなくなったりしてしまうので、作業前にバックアップを取って十分に気をつけましょう。