ファイルをやり取りするだけのFTPサイトは、検索結果には表示させたくない場合ってあると思います。
認証が必要なサイトならそもそもクローラがアクセスできませんが、誰でもアクセスできるようなサイトの場合はクロールされてしまいます。
表題の通りですが、FTPサイトでもrobots.txtでクロールをブロックできるって知ってました?恥ずかしながら私は知りませんでした。。。
知らなかった人もいると思いますので、FTPサイトにrobots.txtを設置する方法(といってもrobots.txtを作成してアップするだけですが)をご紹介いたします。
robots.txtとは
robots.txtとは、検索エンジンのクローラに対して、各ページのクロールを拒否・許可することができるファイルです。
検索エンジンはクローラと呼ばれるプログラムで各WEBサイトの情報を収集していきます。その行為をクロールといいます。クロールした結果から、検索エンジンにWEBサイトを登録していくのですが、このクロール自体を拒否したい場合、robots.txtに拒否する旨を記述しておきます。
クローラはまずrobots.txtを見て、そのサイトをクロールするかどうかを判断しますので、robots.txtに記述してある通りにクロールしてくれるというわけです。
FTPサイトにrobots.txtを設置する方法
1. クロールを拒否するディレクトリやファイルをdisallowで指定してrobots.txtを作成する。
2. FTPサイトのルートディレクトリにrobots.txtをアップロードする。
はい、これだけです。HTTPと同じですね。
例えば、FTPサイト全体のクロールを拒否したい場合は、以下のように記述します。
User-Agent: * Disallow: /