robots.txtの効果的な使い方と書き方について
昔と比べ、検索エンジンはユーザーにとって“良質なコンテンツ”を上位表示するようになりつつあります。検索エンジンから評価を獲得することを目的としてSEO対策が行われますが、SEO対策は内部施策と外部施策と大きく2つに分けることができます。 内部施策の中でも、robots.txtへの記述は、SEOな観点から見て効果的な手法として昔から行われてきました。 今回はrobots.txtがSEO的な観点から効果的な理由と設定方法について詳しく解説していきたいと思います。
AI要約
そもそもrobots.txtとは
まず、robots.txtについて理解するためには、クローラーの最適化について理解しなければなりません。クローラーの最適化とは、いかにしてwebサイトの情報をクローラーに効率よく巡回してもらうかを検討することを指します。クロール最適化を行うことによって、サイト内の重要なページのクロール頻度が向上しSEO的な効果が期待できるのです。
なぜSEO的に効果があるのか
クローラーの巡回性とサイトへの流入数には相関関係があります。こちらのサイトは下記を選定条件として、クローラーの巡回性とサイトの検索順位に関して検証を行ったそうです。一日のクロール頻度と訪問数の関係を調べたものです。
参考サイトの選定条件
1. 同一のクロール最適化を行っており、かつ直近のクライアント様サイトを対象とする
2. 定期的に良質なコンテンツを更新しているサイトを対象とする
3. 自動生成された重複コンテンツの量が格段に多くなるためECサイトは対象外とする
検証の結果、一日当たりのクロール数が多ければ多いほど訪問数は増加する上、安定するとのことです。つまり、クローラーの巡回性は検索順位を向上させるだけではなく、安定な流入も見込めるということです。
そして、robots.txtの役割は大きく下の二つに分けることができます。
・不要なページとクロールするべきページを指定して、クローリングの無駄を防ぐ
・クローラーにsitemap.xmlの場所を知らせる
クローラーはwebサイトの情報を一度で見る訳ではありません。したがって、robots.txtを使って一度に見るページを制御するということです。
robots.txtの書き方・読み方について
書き方に関してはとてもシンプルで、必要な要素は下の4つしかありません。
・User-agent
全てのクローラーを制御する際は“*”と記述してください。
・Disallow
全てのページを制御する際は“/”と記述し、特定のディレクトリ以下を制御するときは“/directory/”の形で親となるディレクトリを指定してください。
・Allow
全てのページのクローラーからの訪問を許可する際は“/”と記述し、特定のディレクトリ以下を許可する場合は“/directory/”の形で親となるディレクトリを指定してください。書き方はDisallowのときと同じです。
・Sitemap
ここで、robots.txtの実際の使われ方を紹介します。
検索エンジンといってもGoogle検索エンジンもあればYahoo検索エンジンもあります。
例1では全てのページに対してgoogleのクローラーをブロックする際の記述例を紹介します。
例1
User-agent: Googlebot
Disallow: /directory/
Sitemap: http://example.co.jp/sitemap.xml
記述の読み方としては、
“User-agent(Googlebot)のDisallow(/directory/)へのクロールを制御する。”
ここではUser-agentのところにgooglebotが記載されているのが分かります。次に例2では、全てのクローラーから特定のディレクトリへのクロールをブロックする際の記述例を紹介します。
例2
User-agent: *
Disallow: /directory/
Sitemap: http://example.co.jp/sitemap.xml
冒頭で紹介しましたが、user-agentの部分はクローラーの種類を記述するということでした。即ち、上の記述の読み方としては、
“User-agent(全てのクローラー)のDisallow(/directory/)へのクロールを制御する。”
ということになります。
もう一つ紹介しておきます。
特定のディレクトリへのクロールをブロックしつつ、他のディレクトリをクロールしたい場合。
例3
User-agent: *
Disallow: /directory1 /
Allow: /directory2/
Sitemap: http://example.co.jp/sitemap.xml
こちらも冒頭で紹介したのと同じ考え方です。
読み方としては、
“User-agent(全てのクローラー)のDisallow(/directory1/)へのクロールを制御し、Allow(/directory2/)へのクロールを行う。”
ということになります。
robots.txtを扱うときの注意点
robots.txtを扱うときは注意しなければならないことがあります。そのうちの一つに、必ずルートディレクトリにアップしなければならない点があげられます。何故なら、せっかく記述を行ってもディレクトリが異なってしまったらrobots.txtが動作しなくなるからです。
最後に
では、最後にrobots.txtを扱う上で必要な要素についてまとめておきます。
User-agent:制御するクローラーの種類を指す
Disallow:制御するディレクトリを指す
Allow:クロールを許可するディレクトリを指す
Sitemap:sitemap.xmlの位置をクローラーに伝える
まとめ
昔と比べてコンテンツの質・内容が重視されるようになった今、施策を行ったところですぐに成果が出ることのほうが少ないです。しかし、コンテンツの質・量が同じレベルのサイト間であれば、より内部施策を行っているサイトに軍配があがります。
今回紹介したrobots.txtに関して、忘れかけている人は是非もう一度見直してみてください。