【東証プライム企業も多数利用!】最先端のSNSマーケティングツール「Tofu Analytics」、「InstantWin」とは?

Webサイトは無限にあるのに対して、Googleが行うクロールには能力の限界があります。そのためWebサイトのすべてのページをクロールしてもらえないこともあります。

これが俗に言う「クロールバジェット」です。「クロールバジェット」に対して過剰に反応する人たちもいますが、公式でも発表があるようにほとんどではこれの影響を受けることはありません。

今回は、分かりそうで分からないクロールバジェットの正体に迫っていきます。後半では最適化の方法にも触れているので、クロールバジェットの影響が気になる人は試してみてください。

1.クロールバジェットとは

クロールバジェットとは、GoogleのクローラーであるGooglebotが、クローリングする際の上限値や許容量のことをいいます。

インターネット上には膨大な数のWebサイトがあるため、クローラーはさまざまな評価要素から各Webサイトにおけるクロールバジェットを定めています。ここでは、クロールの仕組みからクロールバジェットの評価要素について詳しく解説していきます。

ちなみにGoogle社内ではこうした言葉は使用されていませんが、外部で使用されていることから2017年の公式サイトではクロールバジェットについて以下のように定義づけています。

クロールの割り当ては、Googlebot によるクロールが可能であり、かつクロールが必要な URL の数であると定義できます。

引用元:Google検索セントラル

1-1.クローラーとは

クローラーとは、インターネット上に存在するサイトを巡回し、「検索順位を決める要素を収集する」ロボットプログラムのことです。Webサイトを這い回る(crawl)に由来しています。

クローラーはすでにデータベース化されている膨大なリンクを辿り、WebサイトからWebサイトを渡り歩き、各ページの解析を行います。その解析結果をもってして、検索結果として最適な順位付けを行います。

そのため、クローラーがサイトに訪れたことがないWebサイトは、検索エンジン上に表示されることはありません。つまり、この状態でいくらSEO対策を行ったとしても、何の意味もないことになります。

1-2.Googlebotとは

Googlebotとは、Googleのクローラーの総称です。短縮して「クローラー」、もしくは這い回るという特徴から「スパイダー」、またはロボットプログラムであることから「ロボット」と呼ばれることもあります。Googlebotには下記の2種類が存在します。

・デスクトップクローラー

・モバイルクローラー

通常Webサイトは、上記の2つによりクロールされます。

従来はデスクトップ版のWebページにおいて、クロールやインデックス、ランク付けが行われていましたが、モバイル機器の流行により、Googleは2018年にモバイルファーストインデックスを開始。サイト内をモバイル機器に最適化するよう設計している場合のクロールリクエストにおいては、ほとんどがモバイルクローラーで行われ、一部はデスクトップクローラーで行われるようになっています。

2.クロールバジェットの目的

先述したとおり、クロームはサイトに訪れるユーザーの利便性を優先します。それにより「サイト速度が速い」、「人気で新しい」サイトへのクロームが、「サイト速度が遅い」、「人気度が低く古い」サイトよりも多くなる仕組みになっています。

クロームバジェットは、この「サイトの速度が遅い」「人気度の低い」サイトにおいて、「クロームの上限が設定されているのでは?」と言われているだけであって、Google社が正式にこうした機能があると言及しているものではありません。

そのため、この現象にこれといった目的は存在しないというのが正しい認識でしょう。強いていうのであれば、はじめにいった「ユーザーの利便性を優先すること」を目的として据えることはできるかもしれません。

3.クロールバジェットはSEOに影響する?

結論から言うと、ほとんどのWebサイトにとってクロールバジェットとSEOは無関係です。

なぜなら、影響を受けるサイトはごく一部に限られているから。

下記の条件のどちらかに当てはまるサイトは、特別なSEO対策は必要ないと考えて良いでしょう。

〇対策が不要なサイトの特徴

・10,000ページ以内で、コンテンツの新規投稿や更新の頻度が緩やか

・100万ページ以内で、更新頻度が週1回以下

4.クロールバジェットに対するGoogleの見解

Googleは付加価値の低いURLが多数あるとサイトのクロールやインデックス登録において、悪影響を及ぼす可能性があると発表しています。付加価値の低いURLの例として挙げられているのが以下のようなものです。

【付加価値の低いURL一例】

・サイト内の重複コンテンツ

・ソフトエラーページ

・質の低いコンテンツ

・ハッキングされたページ

上記のようなURLがサーバーのリソースを浪費していると、価値の高いページへのクローラーの巡回を妨害することになります。クローラーが、サイト内の価値あるコンテンツを見逃す要因となるので注意しておきましょう。

5.クロールバジェットを意識すべきサイトの規模は?

まず大前提として、クロールバジェットという単語はWeb上で自然発生的に生まれた造語であり、Google内部には存在しません。

昨今、「クロール バジェット(クロールの割り当て)」についてさまざまな定義を耳にします。しかし、外部的に「クロール バジェット」と言われているものを一言で説明できるような言葉はGoogle内部にはありません。

引用:Googleウェブマスター向け公式ブログ

その一方で、Googleは公式サイト上でURL数が数千以内に納まっている大部分のWebサイトは考慮する必要がないものの、下記のような特徴を持つサイトにとっては何等かの対策を講じるべきだと指摘しています。

〇対策を講じるべきサイトの特徴

・ページが数千、数万を超える大規模サイト

・URLパラメータの使用により、ページが自動生成されるサイト

・ここからは、具体的な対策を講じるべきサイトの特徴について見ていきましょう。

〇対策を講じるべきサイトの一例

・低品質ページがクロールリソースを圧迫しているサイト

・超大規模ECサイトやCGMサイト

5-1.低品質ページがクロールリソースを圧迫しているサイト

クロールバジェットに特化した対策を講じるケースの大前提となるのは、ページが数千、数万を超える大規模サイトです。

尚且つ、下記のような特徴を持つサイトはクロールやサーバーのリソースが無駄に消費されないよう、後述する対処法が必要となります。

サーバーのリソースが無駄に消費されている

〇対策が必要なサイト

・大量の「重複ページ」がある

・リンク切れなど、エラーページが多い

・スパムコンテンツを対処してしない

・スペースが無限に入っているページが存在する

・ページがハッキングされている

・ページを自動生成しているサイト

・URL構造が複雑なサイト

中でも注意したいのが、付随しているパラメータが多すぎてURL構造が極めて複雑になっているサイトです。

URLが無限に生成されるため、クローラーボットが無限ループのように巡回を繰り返しても、本当にインデックスして欲しいコンテンツがスルーされ兼ねません。

5-2.超大規模ECサイトやCGMサイト

もう一つは、下記のような「超」が付く大規模サイトです。

〇大規模サイトの一例

・超大規模ECサイト:「アマゾン」や「楽天」など

・超大規模CGMサイト:「はてなブログ」や「アメーバブログ」など

中でも日常的に数百、数千ページが無尽蔵に生成されるECサイトでは、「本当に必要なのか?」「重複しているのでは?」と疑われるコンテンツが増えやすい分、本来クロールされるべきページが埋もれがちなのです。

〇ECサイトで増えやすい低品質ページ

・同じ商品なのに、サイズや色違いごとにページを分けている

・バージョン変更後、新商品ページと差し替えていない

・終了したキャンペーン情報が残っている

・すでに販売が終了した商品ページが残っている

6.クロールバジェットを最適化する方法

クロールバジェットの影響を受けないためには、以下のような点を意識しておくと良いでしょう。

  • robots.txtで最適化する
  • 401、410エラーを修正する
  • 低品質なコンテンツの修正・削除
  • リダイレクトチェーンを対処する
  • XMLサイトマップを更新する

何度もいうように、クロールバジェットは多くのWebサイトで気にする必要はありません。むしろ、上記は通常行っておきたいWeb施策でもあるため、健全な運営を行っている限りは、クロールバジェットを意識することも不要と言えます。

6-1.robots.txtで最適化する

robots.txtとは、クローラーに特定のページをクロールさせないように設定できるファイルのことです。クローラーは特に指示がなければ、すべてのページをクロールしようとします。このすべてのページのなかには先に紹介した低品質なページや、クロールさせる必要のないページも含まれており、これらのページをクロールしてもらうのは無駄にしかなりません。

「低品質なページ」と「クロールの必要性がないページ」はrobots.txtで除外すれば、その分、価値のあるページをクロールしてもらいやすくなります。

6-2.404、410エラーを修正する

ステータスコード404、410はそれぞれ「ページが存在しない」ことを意味します。これらが設定されている場合、対象のURLをクローラーがクロールしないようになっているため、クロールバジェットを消費する心配はありません。しかし、ユーザービリティにおいては評価が低くなる、つまり質の低いページとして認識されてしまう可能性があるので注意が必要です。

また、ソフト404(ページが存在しないはずなのに存在しているとサーバーが返してくるエラー)においてはクロールの対象となるため、ページが存在しない場合は削除しておきましょう。

6-3.低品質なコンテンツの修正・削除

クロールは「人気度」と「古さ」において、クロールの必要性を判断するとされています。人気度の高いページとはつまり、質の高いコンテンツを掲載しているページとも言えます。そのため、低品質なコンテンツは人気がないページとみなされ、クロールの必要性が低いページと判断されるでしょう。

低品質なコンテンツの例としては、下記のようなものが挙げられます。

  • リンク切れ
  • スパムコンテンツ
  • 重複ページ

また、これらは404、410ページと同じくユーザービリティも低くなるため、できるだけ発生しないように注意しておきましょう。

6-4.リダイレクトチェーンを対処する

少し古いですが2011年に公開された映像のなかで、Google社のMatt Cutts(マットカッツ)氏は「リダイレクト(旧ページから新ページへ移行させる)が4~5回程度続くとクロールの処理がストップするかもしれない」と語っています。つまり、リダイレクトチェーンを複数設置している場合、インデックスしてほしいページにクローラーが行き着く前に、クロールを止めてしまう可能性があるのです。

そのため、リダイレクトチェーンを複数設置している場合は注意が必要です。リダイレクトチェーンの設定は多くても1〜2つ程度に抑えられるようにしておくのが良いでしょう。

6-5.XMLサイトマップを更新する

XMLサイトマップを更新することで、追加したコンテンツや更新したページを効率良くクロールしてもらえます。更新時にはURLエントリに更新日を知らせる「lastmod」(last modifiedの略)を追加しておくのがおすすめです。lastmodを記載しておくことで、更新したページを優先的にクロールしてくれるようになります。

7.まとめ

クロールバジェットは100万ページ以上を有する大規模サイトか、1万ページ以上を持ち、かつ頻繁に更新を行う中規模サイトでない限りは気にする必要はない現象です。そのため不必要に気にすることもありません。

ただし、今回紹介したクロールバジェット最適化対策は、ユーザー体験を高めるためにも実施しておきたい対策なので、日頃から取り組んでおきましょう。

【東証プライム企業も多数利用!】最先端のSNSマーケティングツール「Tofu Analytics」、「InstantWin」とは?