編集長ブログ―安田英久

Googleは情報の正しさを判断するようになるのか? 偽ニュース対策で検索アルゴリズムを更新したGoogleのベン・ゴメス氏に聞く

グーグルのベン・ゴメス氏とパンデュ・ナイアック氏に、今回のアルゴリズム改善の内容とともに、その背景にある考え方や、グーグルの検索アルゴリズムについて聞いた。

グーグル検索で「不正確」「暴力的」「集団や個人に対して差別的」といった内容の「フェイクニュース(偽ニュース)」が検索結果に表示されないように、グーグルは検索アルゴリズムに大きな改善を行った。

この対策に加えて、「強調スニペット」や「オートコンプリート」などに不適切なものが表示された際に、検索ユーザーがその場でグーグルにフィードバックを送る機能も、同時に追加されている。

グーグルはこれまで「検索結果に表示される情報が正確かどうかについては、保証していない」としていた。

実際には、正確な内容が表示されるようにするための仕組みを一切設けていないわけではないのだが、「ホロコーストはなかった」「オバマ氏はクーデターを企んでいる」といった情報が検索結果に表示されてしまっていたのは事実だ。

そうした「フェイクニュース問題」を解決するための「プロジェクト・アウル(Project Owl)」をグーグルは進めていた。今回のアルゴリズム改善は、その成果だ

具体的には、「検索アルゴリズム改善」と「検索品質評価ガイドラインの改訂」を行ったのだ。検索結果に表示するべきではない内容として「不正確なコンテンツ」を明確に定め、「健康」「お金」「法律」などに加えて「ニュース」の情報も、特にコンテンツの質に関するチェックを強化している。

今回のアルゴリズム改善は偽ニュースへの対策が中心であるため、修正の影響を受けるのは、検索トラフィック全体の0.25%程度だ。しかし、グーグルの検索エンジンがページを評価するやり方を、「より信頼できる正当なコンテンツが検索結果ページに表示されるようにする」ために改善する動きが、大きな一歩を踏み出した。

記事の後半では、グーグルのベン・ゴメス氏とパンデュ・ナイアック氏への1問1答インタビュー形式で、今回のアルゴリズム改善の背景にある考え方、「情報の正確さ」についてのグーグルの考え方、そしてグーグルの検索アルゴリズムについてもお届けする。

ゴメス氏とナイアック氏へのインタビューはビデオ会議を通じて行った

新たな検索エンジンスパム「フェイクニュース」には新たな対応が必要だった

Ben Gomes氏(VP Search Engineering, Google Inc.)

検索結果の上位に自分のページを表示させるためにグーグル検索の仕組みを悪用する人たちへの対策として、グーグルはこれまで、さまざまなアルゴリズム改善を行ってきた。古いところでは隠しテキストやキーワードの詰め込みへの対策、少し前ならば低品質コンテンツ(コンテンツファームなど)や質の低いリンクなどへの対策などだ。

グーグル検索の歴史には、常にこうした「ウェブスパム」や「ブラックハットSEO」との戦いがあった。

しかし昨今、これまでとは異なる方向性でグーグルの検索システムを悪用する手法が出てきた。そのなかで最も目立つのが「フェイクニュース(偽ニュース)」、つまり、事実ではない情報や差別的な情報が書かれた低品質なコンテンツで、明らかに誤った方向へと世間を惑わせるものだ(こうしたページは、主にユーザーを集めて広告売上を獲得する目的で作られる)。

当然のことながら、グーグルにとって、こうした情報は検索ユーザーに提示したいものではない。

しかし、こうした情報を検索結果の上位に表示させようとする行為への対策は、SEO手法への対処としてグーグルがこれまで行ってきたやり方とは異なる。グーグルはそれも進めてきており、今回の発表に至った。

今回発表された内容は、検索結果に順次反映されていく。グーグルは、「可能な限り信頼できる、関連性の高い情報を、検索ユーザーに提供する」という動きを始めているのだ。

アルゴリズム改善・評価ガイドライン改定・フィードバックの強化

グーグルが今回行った対策は、次の3点に整理される。

  • 検索順位決定アルゴリズムの変更
  • 検索品質評価ガイドラインの改訂
  • 強調スニペットやオートコンプリート内容のフィードバック機能強化

検索順位決定アルゴリズムの変更

Pandu Nayak氏(Member of Technical Staff, Google Inc.)

今回、検索アルゴリズムを変更することで、「検索結果ページにおいて、信頼できる正当なコンテンツがより上位に表示され、低品質なサイトが表示されないようにする」ようにした。

これによって、ホロコーストを否定するサイトが検索結果に表示されるといったことが起こらないようにした。

グーグルで「どのような検索が行われたときに、どのようなページを検索結果に表示するか」は、単純に決められているものではない。200以上の判断材料(シグナル)を組み合わせて使っているという。

今回の変更は、特定のカテゴリの情報に関して、複数の判断材料を組み合わせるうえで「品質」に関する判断材料をより重視し、質の高いページがより表示されるようにしたものだ。

具体的には、グーグルの内部用語で言う「YMYL(Your Money, Your Life、つまりお金・健康・安全・法律など)」に加えて「ニュース」の情報に関して、品質に関するシグナルの重み付けを上げる組み合わせに変えた。

YMYL(お金・健康・安全・法律)とニュースにおいて、品質に関するシグナルを重視するアルゴリズムにした。

これによって、後述する検索品質評価ガイドラインのアップデートに沿った、質の高いページが検索結果に出るようにしているという。グーグルでは実際に、そうした「センシティブな」検索に関して大きな改善を確認しているという。

また、How Search Worksもこれにあわせて改善し、SEOや検索エンジンに詳しくないふつうの人にも、グーグル検索の仕組みについて理解してもらえるようにするという。

検索品質評価ガイドラインの改訂

グーグルは、「検索品質評価ガイドライン」というドキュメントを2017年3月に改訂し、情報の正当性に問題のあるページ関連の評価を大幅に追加した。

「検索品質評価ガイドライン」は、グーグルの検索結果が適切になっているかどうかをチェックする人間の「評価者」のためのマニュアルだ。

グーグルは、アルゴリズム改善を行う際には、その改善で意図したように検索結果が変わっているかどうかを、評価者を対象にテストしている。

グーグルは、2016年に人の評価者によるテストを15万件弱、実際の検索結果ページでのテストを1万件弱行い、結果として1653件の変更を検索に反映している。

評価者によるテストでは、「以前のアルゴリズムによる検索結果」と「新しいアルゴリズムによる検索結果」が並べて表示され、どちらの検索結果が適切かを評価者が答える(2つの検索結果のどちらが新しいものでどちらが古いものかは示されない)。

評価者は、検索結果に表示されるページそれぞれの内容を目視で確認し、「ページの品質」や「検索意図に応えているか」などをガイドラインに沿って評価する。

グーグルは、その評価フィードバックをもとに、検索アルゴリズムが意図したとおりの検索結果を作り出しているかをチェックし、必要に応じてアルゴリズムをさらに改善していくのだ。

そのため、グーグルの考える「良いページ」、言い換えれば「高品質だと判断するページ」「検索結果に表示したいと考えるページ」を最も表しているのが、このガイドラインだと言える。

2017年3月に改訂された検索品質評価ガイドラインでは、「明らかに嘘」「人を欺く」「集団や個人に対して差別的」といったページは評価を下げるように評価者に指示している。

この改訂については、Web担の過去記事「グーグル、不正確・攻撃的・ヘイトなどのページを低品質とみなすように」で、次のように解説している。

本来このガイドラインは、グーグルに委託された品質評価者だけに与えられるのだが、2015年12月にグーグルは一般公開している。

以前のガイドラインでも、低品質なページだと判断するポイントとして同様の項目はあった。しかし、「攻撃的・悪意的」という項目は主にフィッシング詐欺などへの対応が中心だったし、「不正確」という項目は主にお金や健康に関するコンテンツを中心にしたものだった。

しかし今回の改訂版では、それに加えて、次のようなことのチェックも明示されている。

  • 人種差別につながる内容
  • なりすまし・フェイクニュース的なもの
  • 広告売上だけのために作られた情報

実際にガイドラインでは、ユーザーの検索ニーズにまったく応えていないコンテンツの例として、「製品の偽レビュー」「明らかに不正確なニュース」「事実と異なるコンテンツ」「不正確な医療情報」といった表現が使われている。

特に、攻撃的だったり怒りを引き起したりするようなコンテンツのチェックに関しては、検索クエリに関係なく評価する仕組みが評価システムにあり、どのように判断するかを4ページにわたって詳細に解説している。

検索品質評価ガイドラインに記載されている「Upsetting-Offensive」フラグ設定の解説

強調スニペットやオートコンプリート内容のフィードバック機能強化

今回のアルゴリズムで対策されたような不適切なコンテンツは、必ずしも検索結果のページ一覧だけに表示されるわけではない。グーグル検索の

  • 強調スニペット(検索に対する答えが検索結果の最上部にダイレクトに表示される枠)
  • オートコンプリート(入力した検索キーワードに関連する他の検索フレーズをサジェストする機能)

にも、同様の情報が表示される可能性がある。検索結果と同様に、これらの機能も「グーグルが適切だと判断したコンテンツや検索フレーズ」を検索ユーザーに提示する仕組みだ。

いずれも検索ユーザーが検索結果をクリックしてページに移動しなくてもそのコンテンツを目にするものだ。そのため、不適切な内容が表示されてしまうと、本来のものから注意をそらしたり、不快にさせたりする可能性が高いし、不適切なサジェストは不適切な検索結果につながる。

そうした「グーグルが見つけられていない問題」があった際に、ユーザーが簡単に「問題あり」としてフィードバックを送れる仕組みを検索結果ページに追加したのだ。

強調スニペットのダイレクトフィードバック(画面は英語版、Googleウェブマスター向け公式ブログより
オートコンプリートのダイレクトフィードバック(画面は英語版、Googleウェブマスター向け公式ブログより

これまでもオートコンプリートに関するフィードバックは、ヘルプページから送信できていた。しかし今回の修正で、検索結果ページから移動せずに同じことができるようになっている。

ここからは筆者の考えなのだが、グーグルのデザイン方針として、ページに表示する内容はできるだけシンプルに、かつ、何らかの情報を求めている検索ユーザーがその目的を達成するために有益であるようにというものがあったと感じている。

しかし、今回追加された「ダイレクトフィードバック」の仕組みは、少なくともそのデザイン方針に完全に沿っているとは、筆者には思えない。

そうしてまでも「不適切なコンテンツに関するフィードバック」を追加した背景には、フェイクニュースに対してこれまでよりも積極的に対処していくというグーグルの判断が見えるように感じる。

ベン・ゴメス氏&パンデュ・ナイアック氏インタビュー

今回のアップデートと「情報の正確さ・信頼性」について

このアップデートの背景にある考え方や仕組みについて、ベン・ゴメス氏&パンデュ・ナイアック氏に直接聞いた。

グーグルらしい「質問の内容に直接Yes/Noでは答えずに、その背景や関連することを解説する」回答が多いが、グーグルが検索で目指す方向性や、いまグーグルが考えていることなどを把握するヒントとして、行間を読んでほしい。

●このアルゴリズムアップデートは、使い方によっては政治的な扇動にも利用されかねない印象があるが、どういう対策をしているのか?

そういうことは決してないと判断しているし、今回の変更は政治的なものではない。

意図としてはあくまでも「高品質な結果」を表示するためのもので、政治的な観点はそこに入っていない。評価者への指示も、あくまでも品質ベースで判断するようにというものだ。

今回、例として「ホロコースト」や「オバマ」などを挙げているが、今回のアルゴリズム更新がカバーしているトピックは、もっと幅広い。

●これまでグーグルは検索結果に何を表示するかにおいて、「情報の正確さ」は判断していないという認識だ。その方向が変わったと考えていいのか?

情報の正確さを「検索品質評価ガイドライン」に明示するようにした。つまり、検索結果に表示される各ページの質が高いかどうかの基準のなかに、情報の正確さを明確に含めている。

これまでも、情報の正確さを無視していたわけではない。しかし、ページの内容が正しいかどうかは、評価者の判断としてあくまでも暗黙のものであって、ガイドラインに明示はしていなかった。それを明示するようにしたということだ。

とはいうものの、「情報の正確さをチェックする」そのもののアルゴリズムを含めているわけではない。あくまでも、評価者のフィードバックに応じて、不適切なページやサイトをチェックし、除外する判断材料として使うなどによって、高品質な検索結果をつくるというものだ。

また、評価者がすべての検索結果をチェックしているわけではない。あくまでも、サンプルを見ているだけだ。

●つまり、「1. ガイドラインに情報の正確さの判断を明示」して、「2. それに従って評価者が情報の正確さをチェック」し、「3. そのフィードバックを活用してアルゴリズムを改善する」ことで、結果として検索結果に正確ではない情報が出ないようになっていくということか。

考え方としては、そういうことだ。

知っておいてほしいのは、評価者が低い評価をつけたからといって、必ずしもそのページの順位が落ちるというものではないということ。また、評価者のフィードバックだけでアルゴリズムが決まるわけでもない。

順位を決定するのは、あくまでもアルゴリズムだ。

それが想定したとおりに動いているか、検索結果に高品質なページが表示されているかを評価者がチェックし、そのフィードバックをもとにわれわれがアルゴリズムを改善するという仕組みだ。

●健康・医療系メディアへの対応が強化されている印象があるが、これはYMYLトピックに関する検索結果の品質強化として進んでいるという認識で正しいか?

そのとおり。まさに「YMYL」のことだ。

●しかし一部には、医療に関する情報は、医学に関する正しい知識をもった人によるコンテンツしか検索結果に出すべきではないという声もある。

まず、日本で問題になっていたようなキュレーションサイトに関してはすでに対応しており、検索結果は大きく変わっている。

医療や健康のトピックに関しては特に厳しくするべきではないかという点に関しては、前述のように「YMYL」では特に高品質な情報を検索結果に表示するように進めている。

これは世界的に求められていることなので、真剣にとらえて対策している。

今回のアップデート後も、高品質な検索結果に向けての取り組みは続ける。グーグルが生まれて19年たっており、検索はすでに仕組みとして成熟していると思われているかもしれない。しかし検索というものは、決して「(問題は)解決済み」となるものではない。

検索品質の評価を行う人に日本人は?

●その「評価者」は世界に何人ぐらいいて、そのなかに日本人はいるのか?

全世界で1万人いる。日本人も複数いる

●しかし、検索品質評価ガイドラインは英語版しか存在しない。つまり、英語がわかる比較的リテラシーが高い人しかグーグル検索品質の評価者になれない。これによって評価結果に偏りがでることはないか。

偏りは多少あるかもしれない。しかし、今のところ各国語版の検索品質評価ガイドラインを作る予定はない。

というのも、このガイドラインはそれなりにボリュームがあるので、各国向けにローカライズするのは時間がかかってしまい、改善のスピードが落ちてしまう。また、ローカライズに時間がかかることによって、タイミングによって内容の食い違いが起きることもある。

そういう問題を避けるために、今のところは英語版だけにしている。

●以前は評価者しか入手できなかった検索品質評価ガイドラインを一般公開するようにした理由は?

透明性のため。その検索に対してその検索結果をグーグルが表示している理由や背景を、よりオープンにし、検索という仕組みの透明性を確保したかった。

特に最近のアルゴリズムのアップデートに関しては、単純な技術的なものだけでなく、複雑な背景がある。そのため、そうしたことを積極的にオープンにしていっている。

ブランド・サイト・発言者・ユーザー行動は、品質評価にどう影響するのか

●情報の信頼性の判断に、グーグルは「ブランド」の観点を含んでいるのか? たとえば、オンラインでのブランド露出やそのブランド名に対する情報ニーズなどだ。

そうした情報は、判断基準としてはもっていない。

あくまでもページごとに情報を見て、しっかりした内容をもとにした正当なものであるかを判断している。

そのため、ブランドという観点はそこには含まれていない。

●では、「サイト」という単位は、コンテンツの品質評価には何も影響を与えていないのか。

あくまでも、われわれの評価基準は「この検索クエリに対して、このページは関連性があるのか」というもの。

そのため、サイトという単位は影響しない。

●「だれが書いた情報か」の観点は、コンテンツの品質評価には?

われわれが評価者に指示している内容には、「だれの発言か」ということは含まれていない。

そうではなく、ページに書かれている内容が「他の人たちの言っている内容と一致しているか」という観点から見て品質を評価するようにという指示だ。

●グーグルでは、検索ユーザーの行動はどれぐらい検索順位に影響しているのか? たとえば、検索結果の項目をクリックしてページに移動し、すぐに検索結果に戻ってくるなどの行為。

検索結果に表示する内容を決めるための判断材料(シグナル)としては非常に多くのものを複雑に組み合わせて使っている。そうしたユーザー行動も、その情報だけで何かの結論を出せるわけではない。あくまでも、多くの判断材料の1つだ。

たとえば、検索結果ページにすぐ戻ってくる場合というのも、目的のものをすぐに見つけて戻っている場合もあるだろうし、ぱっと見て違うと思って戻ってきた場合もある。そのため、単純にそのユーザー行動をデータとしてみても、良いのか悪いのかの判断は難しい。

そうした行動データを利用してはいるが、それだけでなく、評価者によるページ品質の判断を含めたさまざまな情報を組み合わせている。

●検索結果をより良いものにするために、グーグル社内で最も見ている指標は何か?

検索チームが最も重視している内容は、検索品質評価ガイドラインに書かれている

つまり、ガイドラインに書かれている内容こそが、われわれが重視している指標だと考えて問題ない。

それが、グーグルの求めるものだ。

この記事が役に立ったらシェア!
tweet240はてなブックマークに追加
みんなが読んでるWeb担メルマガで、あなたも最新情報をチェック
  • SEOやアクセス解析のなどノウハウをゲット
  • 事例やインタビューも見逃さない
  • 要チェックのセミナー情報も届く
  • 編集長コラムを一足先に読める

日本赤十字社 東日本大震災 義援金募集
みんなが読んでるWeb担メルマガで、あなたも最新情報をチェック
  • SEOやアクセス解析のなどノウハウをゲット
  • 事例やインタビューも見逃さない
  • 要チェックのセミナー情報も届く
  • 編集長コラムを一足先に読める

今日の用語

JavaScript
主にWebブラウザ上で動作するスクリプト言語(プログラミング言語)。 We ... →用語集へ

連載/特集コーナーから探す

インフォメーション

Web担のメルマガを購読しませんか?
Web担の記事がコンパクトに毎週届くメールマガジン「Web担ウィークリー」は、10万人が読んでいる人気メルマガ。忙しいあなたの情報収集力をアップさせる強い味方で、お得な情報もいち早く入手できます。

Web担に広告を掲載しませんか?
購読者数10万人のメールマガジン広告をはじめとする広告サービスで、御社の認知向上やセミナー集客を強力にお手伝いいたします。

サイトマップ
RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]