クローラー は、すべての URL をクロールするわけではない

クローラー は、すべての URL をクロールするわけではない

2022年3月20日 Reddit ( レディット )で、 ahrefs のような SEO ツールですべての バックリンク が表示されないという投稿がありました。

Google サーチコンソール でも外部リンク数( バックリンク数 )を検出しますが、 実際の バックリンク 数とは異なります。

ほとんどの場合 SEO ツールの バックリンク カウントと Google サーチコンソール の バックリンク カウントも異なりますが、なぜ バックリンク が表示されなかったり、乖離があったりするのか?

クローラー は「すべての URL をクロールするわけではない 」ことを John Mueller 氏が回答しています。

クローラー は、どのページが役に立つのか見極めてクロールする

今回の質問者の内容は以下のようなものでした。

I makes lot of backlinks but SEO tools like ahref don’t show all backlink.

多くの バックリンク を作成しても、ahrefs( エイチレフス )のような SEO ツールですべてのバックリンクが表示されないといった内容です。

このことについて、 John 氏は以下のように回答しました。

There’s no objective way to crawl the web properly.

さらに以下のように続けています。

It’s theoretically impossible to crawl it all, since the number of actual URLs is effectively infinite.
Since nobody can afford to keep an infinite number of URLs in a database, all web crawlers make assumptions, simplifications, and guesses about what is realistically worth crawling.

ウェブ上に URL は事実上無限にあるため、 クローラー がすべてのサイトをクロールすることは不可能。

そのため、すべての クローラー はクロールする価値のあるものを仮定 / 単純化 / 推測してクロールしているようですね。

クローラー は、更新すると思われるページに焦点を当てている

多くのページに定期的にアクセスすると クローラー に負荷がかかるため、クローリングの優先順位を定めていることを前提とした上で、以下のことを話していました。

Past that, some pages change quickly, others haven’t changed for 10 years — so crawlers try to save effort by focusing more on the pages that they expect to change, rather than those that they expect not to change.

変化しないと思われるページよりも、変化すると思われるページに焦点を当てることで労力を節約するとしています。更新頻度の少ないページよりも、定期的に更新されているコンテンツがクロールされやすいということですね。

どの程度の頻度で「変化する」と思われるかは不明ですが、ページを定期的にチェックして最新情報を保つよう気をつけていきたいところです。

クロール / インデックス する水準に達していないサイトが多くなっている

バックリンク からは少し話がそれますが、 John氏は以下のような気になる発言をしていました。

More & more, sites are technically ok, but just don’t reach “the bar” from a quality point of view to merit being crawled more.

技術的には問題ないが、 クロールするに値する水準に達していないサイトが “ますます”多くなっていると話しています。

最近では「インデックスされない」という声もよく耳にしますが、技術的な問題がないとしても必ず クロール / インデックス されるわけではありません。

John 氏の回答を鑑みると、更新したコンテンツが「クロールする水準に至っていない品質」と考えられている可能性もあるということではないでしょうか。

コンテンツの質については Google 公式ドキュメントもいくつかあるので、いくらページを更新しても インデックス未登録 になるという方は、以下のドキュメントに目を通しておくことをお勧めします。

どのくらいの頻度で、どの URL をクロールするかは クローラー の独自判断

SEO ツールですべてのバックリンクが表示されないことや、 Google サーチコンソールの表示する外部リンク( バックリンク )と乖離があることについては以下のように話しています。

Therefore, all crawlers (including SEO tools) work on a very simplified set of URLs, they have to work out how often to crawl, which URLs to crawl more often, and which parts of the web to ignore.

There are no fixed rules for any of this, so every tool will have to make their own decisions along the way.

すべての クローラー は、どのくらいの頻度で、どの URL をクロールして、どの部分を無視するのかを考える必要があり、決まったルールもないため独自に判断をする必要があるようです。

That’s why search engines have different content indexed, why SEO tools list different links, why any metrics built on top of these are so different.

検索エンジンによってインデックスするコンテンツが異なることも、SEOツールが異なるリンクをリストアップするのも、構築される指標がまったく異なるのも、すべての クローラー の独自判断によるもののようです。

Google / Yahoo! / Bing と言った検索エンジンや、ahrefs / SEMrush / Moz / Google サーチコンソール といったツールで異なるリンクを返す理由がわかりましたね。

以上のことから、よく言われるように「 バックリンク 数 」はあまり重要視されておらず「 バックリンク の質 」が大切ということが伺えるため、 バックリンク もコンテンツも質にこだわっていきましょう。

役に立った!と思ったら他の人にシェアしてね
  • URLをコピーしました!

コメント

コメントする