SEO

流出したGoogleドキュメントから読み取れる検索エンジンアルゴリズム:暴かれたSEOのブラックボックス

2024年5月、Googleの検索エンジンアルゴリズムに密に関係すると考えられるドキュメントが誤って流出していたことが明らかになりました。Google検索エンジンが登場して以来の大きなリーク、大事件です。

そのドキュメントから読み取れるGoogle検索エンジンのアルゴリズムに関する対応ポイントについて解説いたします。

流出したGoogleアルゴリズム文書について

流出した文書はGoogleのAPIに関するものです。APIというのは、システム間でデータのやり取りを行いやすくするための技術です。特定のポイントにアクセスすると、特定の情報に関するデータが得られるといったもので、流出した文書からは、GoogleがどのようなデータをAPIでやり取りできるようにしているか、ということが読み取れます。

つまり、Googo検索エンジンアルゴリズムのランキング要素そのものが書かれた文書ではない、ということには注意が必要です。

流出元はGithubです。Githubというのはエンジニアが社内外でやり取りを行うのに用いられているシステムで、公開範囲が設定できます。Googleが本来、開示範囲を社内に限定してなければいけなかった文書が、誤って2024年3月~5月の間に外部にも公開されてしまっていた模様です。

すでにGoogleによりその状態は解消されていますが、Githubで公開されてしまった情報の拡散については止める術はありません。そして、次のURLで現在も流出した文書を見ることができます。

流出したGoogleのAPIに関する文書

なお、Googleはこの文書が本物であることを認めたとThe Vergeが報じています

流出したGoogleアルゴリズムから読み取れるランキング要素

この文書のリークに関して、真っ先に記事にされたと思われるのが2024年5月27日付(米国時間)の次の2つです。

この2つの記事と、実際のAPIドキュメントを参照したうえでの主なポイントを私の考察も交えながら解説します。
一部は、Googleがこれまでランキング要素として否定してきたものが含まれますが、Googleが否定してきているものの実際には直接的にランキングに影響しているだろうというのがSEO専門家の見解だったものがほとんどではあります。私自身も、そうでした。一方で、少なくとも私にとっては意外だったものも一部あります。

もう今後、Googleの「ランキング要素と関係ない」という発言を信じる人はいないでしょう。そもそも、ランキングは現在においてAIが決めているはずで、APIでやり取りされているデータは、機械学習のためにAIに放り込むデータでしかないはずです。実際にどの要素がどの程度ランキングに効いているかはGoogleの人であっても、ほとんどの人は知らないはずだと私個人的には思っています。

Googleは、「ランキング要素と関係ない」と言うのではなく「明かすことはできない」とだけ言うべきだ、と上記の記事の中でMike King氏が述べていて、「ほんとそれ」なわけですが、実際のところでは、「明かすことはできない」でもなく、「分からない」なのじゃないかと、思う次第です。

ドメインパワー(ドメインオーソリティ)の存在

siteAuthority

というデータが定義されていました。これが何に使われているのか(あるいは、使われていたのか)は、繰り返し強調すると「限定はできない」のですが、検索エンジンのアルゴリズムに使われていたのだろう、という推測は誰しもが行うところとなります。

Googleは「ドメインオーソリティのようなものは存在しない」と発言してきていました。

という発言はおいておくとして、ドメインパワーに大きく影響するのは、まず第一にはコンテンツの品質です。また、そのサイトのテーマとの関連性が高いサイトからの被リンクが多いほど高まります。リンク先のサイトのドメインパワーが大きいほど効果があります。ドメイン年齢とも関係があるのではないか、と思われがちですが、そこは直接的には関係ありません。ただし、次の節でも述べるように、新しいドメインの最初の頃だけは特別扱いされてしまうという現象は認められています。
ドメインパワーに関して詳しくは次の記事で解説しています。

ドメインパワーとは?SEOとの関係について

新しいドメインを特別扱いするためのサンドボックスの存在

hostAge

というデータが定義されていました。サンドボックス化するために使用されていることも明らかになっています。Googleはサンドボックスの存在について否定していました。

新しいドメインは、公開されて数カ月の間は上位に表示されにくいことが知られています。逆に、最初だけ上位に表示されるケースもあります。そのようなケースをGoogleハネムーンと呼びます。

ドメイン年齢とドメインパワーとの間に相関関係はないですが、このような特別な期間がサンドボックス化によって実現されているということがほぼ明白になったと言えます。

ドメイン年齢に関する詳細は次の記事をご参照ください。

ドメイン年齢とSEO・検索順位の関係性

クリックデータなど活用したNavBoost

badClicks
goodClicks
lastLongestClicks
unsquashedClicks
unsquashedlmpressions

というデータが定義されていました。Impressionsは「表示」の意味です。Googleは、NavBoostと名付けられている指標を重要視しています。ユーザーのサイトに対しての行動です。

これらのデータは、ユーザーがどの程度サイトを参考にしているかを図る指標として重要となることは容易に想像がつくところでありますが、Googleはランキング要素に用いていることを否定してきました。何故なら意図的にクリックを行うというサービスが横行する可能性があるからだと思いますので、必ずしも責められることではないとは思ってますが、やはり機械学習の要素としては使っていることがほぼ明白になったと言えます。

ただし、不正なクリックもカウントしていることも同時に明らかになりました。なんにせよ、Googleをダマそうとしても結果的にコスパは悪いです。いずれにせよ、美徳に欠けることは私はしませんが。やるべきことは、UXの向上です。UXを向上させることでページの滞在時間は伸びて、サイトの回遊性も高まります。

本件の流出ドキュメントとは関係ありませんが、以下はGA4で取得できるデータの例です。
このようなデータをGoogleが得ているのは分かっているので、検索アルゴリズムにも利用しているものとして考えています。

以下はGoogleアナリティクスの最新バージョン「GA4」で取得できる情報*の例です。

エンゲージメント数
user_engagement
ウェブページが1秒以上フォーカスされたときにカウントされる
エンゲージメント時間
engagement_time
ページの滞在時間
スクロール数
scroll
そのウェブページの90%までスクロールしたときにカウントされる
離脱クリック
click
別のサイトに移動したときにカウントされる
ページビュー
page_view
ウェブページが読み込まれる度にカウントされる
動画
video_progress
その動画が再生時間の所定の割合まで進んだときにカウントされる
リピーター
first_visit
最初の訪問か、リピーターか

*参照例:[GA4] 自動的に収集されるイベント

ブランド

Rand Fishkin氏は、ブランドは何よりも重要だと述べています。サイト以外での発信が大事になるということです。例えばX(旧Twitter)、インスタグラムなどで注目を浴びるということも大事ですし、注目を浴びている著書があるということも重要になるかもしれません。

Chromeのデータ

chrome_trans_clicks
chromeInTotal

chrome_trans_clicksはChromeブラウザでクリックされたかどうかを示すデータです。chromeInTotalは、サイト全体におけるChromeブラウザによる表示回数です。

このようなデータを何かしらに用いていることがほぼ明白となりました。サイト内で良くクリックされているページをGoogleは抽出しており、次の画像で示すようなサイトリンクはこのデータが活用されている可能性も考えられます。

著者情報

author
isAuthor

authorisAuthorという指標を扱っていることが明らかになりました。Googleは、記事ページに著者情報を書くことに意味はないと説明しています。しかし、何かしらの方法によって、その記事が信頼できる著者が書いたものかどうかを推測していることはほぼ明白です。そのためにできることの一つとして、記事ページ内に簡略的に著者プロフィールを載せ、そこから詳細プロフィールページへのリンクを張る、ということを私は推奨します。

また、著者情報のマークアップ手法として、以下の2つあります。

メタタグのname属性

<meta name="author" content="著者名">

構造化マークアップ

構造化マークアップについては次の記事を参照ください。
構造化マークアップでSEOの強化

ページの鮮度

sourceLink

ニュースサイトやトレンドに関するものなど、ジャンルによっては、ページの鮮度が高い方が上位に表示されやすいというのは、フレッシュネスアルゴリズムによって明らかにされてきています。

SEOは更新頻度高くないとダメ?フレッシュネスアルゴリズムとは?

sourceLinkという名前で扱われている指標で判別しているのかもしれません。

フォントサイズ

avgTremWeight
fontsize

フォントサイズについて、通常文字とリンクテキストの両方について把握しようとしていることが分かりました。これを踏まえて小手先のことをやろうとすることはおすすめしませんが、以下が言えます。

  • 見出しは通常より大きなフォントサイズにし、適切に使う
  • フォントサイズを小さくしている被リンクの有効性は小さいかもしれない

オリジナリティ

OriginalContentScore

オリジナリティを計測していることが明白となりました。オリジナリティは、以前より重要とみなされていますが、その比重が高まっています。AIにより記事の数が増えていく中で、似たような記事ばかりが上位に並ぶとユーザーにとっての有用性が下がってしまうため、今後益々オリジナリティが重要性されることが予想されます。

AIライティングツールを利用する際は、文字数を最重要視するようなツールではなく、品質の高さを重視するとともに、オリジナリティある内容を書くためのポイントまで示すBringRitera(リテラ)をお勧めします。ウェブマーケ会社の方にも利用いただいています。

オリジナリティの重要性は次の記事で詳細にご紹介しています。
SEOで重要なオリジナリティー(独自性)/オリジナルコンテンツ

タイトル(title属性値)

titlematchScore

title属性値と検索クエリ(キーワード)の一致度が依然として重要であることは元より明白ですが、titlematchScoreという指標で計測していることが分かりました。

タイトルについては次の記事を参照ください。
SEO対策で重要なtitleタグとmeta descriptionとは?WordPressプラグインの「SIMPLE SEO PACK」を使った設定方法も解説

日付

bylineDate
syntacticDate
semanticDate

ページ上で明示的に示された日付(bylineDate)、URLやタイトルから抽出できる日付(syntacticDate)、ページ中のコンテンツから確認できる日付(semanticDate)の3つの指標が明らかになりました。

タイトルに【2024年最新】と入れるなどといったことは、ユーザーにクリックしてもらいやすくするためにも重要であるとして通常やられていることですが、依然として小手先のテクニックとしても重要である可能性は考えられます。
URLは基本的に変更するものではないので、URLに日付を入れると、内容を更新していたとしても、その内容の鮮度とURLの日付が一致しないがために不利になる可能性が考えられます。

また、日付を示す部分はHTMLのtimeタグという仕様があります。timeタグは使われてないサイトも多く、使ってなくてもGoogleが勝手に解釈してくれそうな気はしてますが、きちんと仕様を正しく使用しておくに越したことはないでしょう。

timeタグとは?SEOにおける重要性と使い方

YMYL

ymylHealthScore
ymylNewsScore
encodedChardXlqmylPrediction

健康関連と、ニュースに分けてYMYL分野であるかどうかの指標が定義されています。YMYLの周辺キーワードについて予測する指標も持っています。
YMYLはYour Money Your Lifeの略で、お金や、人生に大きく関わるような内容の場合は特にE-E-A-Tを重視して評価するというGoogleのポリシーです。

YMYLのジャンルにおけるSEOの考え方と6つのポイント

新型コロナと政治

isCovidLocalAuthority
isElectionAuthority

これらの指標によって、新型コロナや政治に関する情報発信は慎重に扱う姿勢が感じられます。

検索品質評価ガイドラインの採点

humanRatings

Googleは検索品質評価ガイドラインを定め、そのガイドラインに従っての第3者によるウェブページの有用性評価を行っています。これとランキング要素とは関係ないとGoogleは説明していましたが、humanRatingsという指標を機械学習に使わずして、何に使うというのでしょうか。そもそもランキングに関係ないならそんな評価しないよね、という話ですが。

検索品質ガイドラインに関しては次の記事でご紹介しています。

Googleの検索品質評価ガイドラインとは?最新版の更新内容についても解説

サイトのテーマとページとの関連性

pageEmbedding
siteFocusScore
siteRadius
versionId

Googleはサイトのテーマが何であるかを評価し、そのテーマに沿ったコンテンツが上位に表示されやすくなります。それに使われているであろう指標が見つかりました。
ページに外部サイトを埋め込んで表示する場合、そのページとの関連性が重要となります。

小規模サイト

smallPersonalSite

小規模な個人的なサイトであるかどうかを判別しています。物議を醸しそうな指標ですね。

マイナスになる要素

以下がマイナスになる要素として言及されています。

  • リンク先との関連性の不一致
  • 検索結果画面(SERP)におけるユーザー行動によるもの、おそらくはクリックが主
  • ページ間のナビゲーションのUXが悪いケース
  • 完全一致ドメインであるからと言って特別扱いしない
  • アダルト関連

まとめ

これを見たからと言って、私個人的にはやることはこれまでとほとんど変わりません。ただ意外なこともありました。最も意外だったのは、URLを見ているというところです。これまでも、URLを見ている可能性は一応考えて、ある程度配慮してますが、注意を払うべきですね。とはいえ単純な連番などにしてもランキングへの影響は認められないですし、日本語文字を使うことは推奨されないので、英単語を使うのが面倒な場合は、日付などにはせず、意味をなさない連番などにしておくのが無難とは言えます。
また、著者情報と日付を注視していることがわかったことと、その判断方法が思ったよりも今のところ単純そうであるということが分かったことから、それらに対してかける労力の比重を多少高めるかもしれませんが、変わると言えばその程度です。

Googleがこれまで、ランキング要素として使ってないと発言していたものが含まれているため、Googleは世界的に批判をされています。Googleがそのような発言をしている背景には、ユーザーにとって有用なコンテンツを上位に表示したいということがあり、そのためにアルゴリズムの悪用を防ぐことが目的としてはあると考えられますので、一概に責められるべきものでもないとは思います。

SEO対策は、ユーザーにとって有用なものとなるようにすることを第一に考えるべきである、というのは「あるべき論」であり「正論」なので、これからも変わりませんし、アルゴリズムの精度が高まれば高まるほど、そういう方向性に向かうはずです。

著者のイメージ画像

株式会社BringFlower
稲田 高洋(Takahiro Inada)

2003年から大手総合電機メーカーでUXデザインプロセスの研究、実践。UXデザイン専門家の育成プログラム開発。SEOにおいても重要なW3Cが定めるWeb標準仕様策定にウェブアクセシビリティの専門家として関わる。2010~2018年に人間中心設計専門家を保有、数年間ウェブアクセシビリティ基盤委員も務める。その後、不動産会社向けにSaaSを提供する企業の事業開発部で複数サービスを企画、ローンチ。CMSを提供し1000以上のサイトを分析。顧客サポート、サイト運営にも関わる。
2022年3月に独立後、2024年4月に株式会社BringFlowerを設立。SEOコンサルを活動の軸に据えつつ、AIライティングツールの開発と運営を自ら行う。グッドデザイン賞4件、ドイツユニバーサルデザイン賞2件、米国IDEA賞1件の受賞歴あり。