TechMemo

robots.txtや.htaccessで検索エンジンクローラーの巡回を拒否する方法

2013/11/09

2016年1月16日

WEBサイトを色々と作成していると、検索エンジンにインデックスさせたくないページも出てくるかと思います。そんな時には、メタタグにnoindexを追加するのもいいですが、robots.txtや.htaccessを使えば、そもそもクローラーの巡回を拒否することができます。

優先度としては、.htaccess > robots.txt > メタタグの順になっています。

.htaccessによる主要検索エンジンの拒否

.htaccessで検索エンジンのクローラーを拒否する場合、以下のように記述します。


SetEnvIf User-Agent "Googlebot" shutout
SetEnvIf User-Agent "Slurp" shutout
SetEnvIf User-Agent "msnbot" shutout

order Allow,Deny
Allow from all
Deny from env=shutout

GooglebotはGoogle、SlurpはYahoo、msnbotはBingのクローラーです。

.htaccessは、サーバーのルートディレクトリに設置します。

robots.txtによるクローラーの拒否

robots.txtもルートディレクトリに設置してください。

robots.txtで検索エンジンのクローラーを拒否する場合、以下のように記述します。

すべての検索エンジンを拒否する


User-agent: *
Disallow: /

このように記述すると、すべての検索エンジンからの巡回を全ページで拒否します。

一部のページだけで拒否したい場合は、以下のようにディレクトリを指定します。

一部のディレクトリでだけ拒否する


User-agent: *
Disallow: /test
Allow: /

検索エンジンを指定したい場合は、User-agentに記述します。

Googleだけ拒否する


User-agent: Googlebot
Disallow: /

Yahooだけ拒否する


User-agent: Slurp
Disallow: /

Bingだけ拒否する


User-agent: msnbot
Disallow: /

上記を組み合わせることで、拒否したい部分だけで拒否するようにしましょう。

あとがき

robots.txtや.htaccessって、触ったことがない人にとっては難しいイメージがあるかもしれませんが、ちょっと修正するくらいなら簡単です。

ただ、設定を間違えてしまうと、検索エンジンにインデックスされなくなったり、サイトにアクセスできなくなったりしてしまうので、作業前にバックアップを取って十分に気をつけましょう。

投稿者

himecas

慢性鼻炎のhimecasですヽ(^o^)丿誰か一人でも役に立ったと思ってもらえたら本望です。プロフィール詳細やお問い合わせについてはAboutページをご覧ください。

robots.txtや.htaccessで検索エンジンクローラーの巡回を拒否する方法

.htaccessによる主要検索エンジンの拒否

robots.txtによるクローラーの拒否

あとがき

新着記事

Contact Form 7の「空のメールタグを含む行を出力から除外する」にチェックを入れてもメールか除外されない場合の対処法

Gmailのメールアドレスを変更する方法

PCの壁紙をWindowsスポットライトにした時に追加される「この写真についての詳しい情報」のアイコンを非表示にする方法

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル