- Googleなどの検索エンジンのクローラーは、どのくらいの頻度で巡回してくるのか?
- ブログのアクセス数の何%くらいがクローラーボットのアクセスによるものなのか?
最近、これらを調べる機会があったので、解析してみた。
結論的には、アクセス統計の取り方によっては、表示されるアクセスの大半がボットによるアクセスであるということもありうるということだ。
解析は、本ブログがワードプレスに引っ越す前の、Gooブログでのアクセス数データについて行った。
解析結果を紹介する。
クローラーボットとは
検索結果のリスティングの順序付けはどう決めている?
Googleなどの検索エンジンは、検索語を含むウェブページをリストアップしてくれるサービスである。
たとえば、「ラスベガス バフェ」と検索すると、ラスベガスのバフェ(バイキングレストラン)に関するホームページがリストアップされる。
ただし、ラスベガスのバフェについてのホームページと言っても、レストラン・ランキングのページもあれば、1軒だけレビューするブログ記事もある。たまたま文章中に「ラスベガスではバフェ・レストランで食事した。」という一文が入ったページもあるだろう。
その中で、どのページが検索したユーザーに有用であるかを見極め、役立ちそうなページを上位に表示するのがよい。
そういう意味では、上の例でいえば、たまたま「ラスベガス」と「バフェ」という言葉を含む1文が出て来るだけのページよりは、ランキングやレビュー記事のホームページの方が、上位に表示されるべきである。
クローラーボットとはインターネットを巡回するAIソフトウェア
こうした判断をするために、Googleではボット(たぶんロボットが語源なのだろう。AI(人工知能)を使ったソフトウェア)にホームページを読ませ、そのページの内容を評価させているということである。
ボットが評価した結果を比べながら、「ラスベガス バフェ」を記述している複数のホームページに優劣をつけ、その順に並べて検索結果を表示するわけである。
これを実現するためには、ボットはインターネット上のいろいろなホームページを、くまなく読んでおく必要がある。
時には、新しいホームページに秀逸な記事が出るかもしれないし、旧記事も書き足されて前よりもずっと優れた記事にアップデートされるかもしれない。
だから、ボットはインターネット上の、新旧記事の動向を見張る必要がある。
実際に、ひっきりなしにインターネット上の記事を巡回して読み、評価を頻繁に更新し続けているわけだ。
クローラーは英語でcrawler。這い回る爬虫類を指す言葉だが、ボットが巡回しているのを這い回っているとイメージしたのだろう。
というわけで、ネット上を巡回し、いろいろなホームページを読んで評価し続けているのがクローラーボットである。
Googleアナリティクスでのボットの扱い
アクセス解析は、Googleアナリティクスを使用する人が多いと思う。
アナリティクスでのデフォルト設定では、以下スクリーンショットの右欄のように、ボットのアクセスは除外してアクセス解析する。
除外しないように変更できるが、私はやったことがない。
ボット巡回に関する解析
ここでは、本ブログの前身であるGooブログのアクセス解析をし、同ブログにどれだけクローラーボットが来ていたのかを考察する。
解析には、Gooブログ編集画面のアクセス解析のデータを使用する。
本サイト前身のGooブログについて
私は、本サイトを立ち上げる前までは、Gooでブログを書いていた。
以下のサイトである。
本サイトは、このGooブログから現在、記事を一個一個移転しながら書き続けている。
Gooブログからワードプレスへ記事を移転するやり方については、以下の記事に書いたので、興味があったら参考にしていただけると幸いです。
そして、この記事でも述べたが、移転のためにGooブログの記事をバックアップするにあたり、Gooブログを一時的に有料会員にアップグレードした。
Gooの有料会員になると、これまで使用できなかったアクセス解析を利用でき、アクセス元の情報なども取得できたため、ボット巡回の頻度を解析することができるようになった。
ブログへのユーザーアクセス数とPV数
私のGooブログの2021年1月のアクセス数を以下に示す。
集計期間 | 2021年1月 |
閲覧数(PV) | 8,838 |
訪問者数(UU) | 5,319 |
UU(Unique User)は期間内にアクセスしたユーザー数。
PV(Page View)は同じユーザーが複数のページを閲覧しても複数としてカウントする場合のページ閲覧数である。
数字はGooブログのレポートから取ったものだ。
このアクセス状況は無料会員のままで見ることが出来た。引っ越しの直前には毎月、月間PVが1万ほどあったので、結構人気ブログになっていると思い込んでいたのだったが...。
クローラーボットによるアクセス数の解析
2021年のブラウザ別アクセス数
今度は、同じ2021年1月のPVを、閲覧者のブラウザごとにまとめたのが次の表である。
前節で8,838だった総PVがこちらでは7,186と、2割近く少なく集計されている理由は、わからなかった。集計の条件が多少異なるのかもしれない。
7,186 PVのうち、63%の4,519 PVがGooglebot、17%にあたる1,190 PVがAppleボットによるアクセスである。
私が気が付く限りのクローラーボットを表では赤い文字背景で示しているが、実に80%がボットによるPVだったことが判明した。
順位 | ブラウザ | 閲覧数(PV) | 割合(%) |
1 | Googlebot | 4519 | 62.88617 |
2 | Applebot | 1190 | 16.55998 |
3 | iPhone/iPod | 418 | 5.816866 |
4 | Chrome | 400 | 5.566379 |
5 | Android | 194 | 2.699694 |
6 | Safari | 145 | 2.017812 |
7 | NAVER | 131 | 1.822989 |
8 | Firefox | 79 | 1.09936 |
9 | Internet Explorer 11.x | 32 | 0.44531 |
10 | Microsoft Edge | 28 | 0.389647 |
11 | Bingbot | 22 | 0.306151 |
12 | iPad | 13 | 0.180907 |
13 | Yahoo! Slurp | 9 | 0.125244 |
14 | Internet Explorer 8.x | 2 | 0.027832 |
15 | Internet Explorer 10.x | 1 | 0.013916 |
16 | Twitterbot | 1 | 0.013916 |
17 | Internet Explorer 9.x | 1 | 0.013916 |
18 | Sleipnir | 1 | 0.013916 |
Total | 7186 | 100 |
ボットアクセス頻度の月ごとの違い
前小節では、2021年1月のデータを解析した。
2020年12月のデータも見ることが出来たので、それぞれの月のボットPVを次表にまとめた。
2020年12月 | 2021年1月 | |||
PV(閲覧数) | 割合(%) | PV(閲覧数) | 割合(%) | |
BOT | 6068 | 77.2 | 5741 | 79.9 |
ユーザー | 1797 | 22.8 | 1445 | 20.1 |
Total | 7865 | 100.0 | 7186 | 100.0 |
12月も1月も、まだ移転作業を開始する前のことだったから、ブログ自体は普段の月と大きく変わった状況はなかったと思う。
解析結果の方もあまり大きく変化はなく、ユーザーによるPVが1,500前後で2割ほど変動し、全体のPV数も1割ほど変化したものの、ボットのPVが80%ほどで安定していた。
ユーザーのPVと比べてボットによるPVは4倍もあった。
また、ボットによるPVは月間6,000回だったから、一日当たりだと200回ページも巡回していたことになる。
まとめ
検索エンジンのクローラーボットについて、その巡回頻度について解析してみた。
- 本サイトの前身のGooブログのアクセス解析をした。
- ユーザーによる月間PVは1,500前後なのに対し、ボットのPVは6,000ほど。ユーザーの閲覧の4倍もボットが巡回していた!!
ボットによるPVは、一日当たり200もあった。 - ボットによるPVの内訳は、Googlebotが80%、Applebotが20%ほど。これらボットのほかに、PV数ははるかに少ないがBingbot、YahooSlurp、Twitterbotも巡回していた。
もちろん、サイトによってボットPVの割合が大きく異なるかもしれない。
ただ、アクセス統計の取り方によっては、表示されるアクセスの大半がボットによるアクセスであるということもあるのだということは、意外な結論だった。
コメント