Moz - SEOとインバウンドマーケティングの実践情報
検索エンジンの意味解析能力を考える

Moz(旧SEOmoz) 2007/5/14(月) 11:30 tweet0このエントリーをはてなブックマークに追加 印刷用

検索エンジンは、僕らが思っているよりかなり賢いことが多いのだけれど、検索エンジンがこれほどまでの「知能」をもったのは、1つには、何億ページものウェブページを巡回してデータを集めているからなんだ。

そこで今日は、検索エンジンのビジュアルツアーを開催して、意味論的な解析や理解の方面で検索エンジンが行っている処理や機能について見ていこう。

Google's Spider Crawling Billions of Web Pages

GoogleのクローラであるGooglebotは、ウェブ上に広がる膨大な数のページを巡回して、膨大な量のテキストコンテンツをインデックス化していく。その量は、世界中の図書館をすべて一緒にしたものの数千倍にも匹敵するんだ。

こうしてインデックスに収められた大量のデータを元にして、Googleは単語やフレーズの出現率や使用頻度を推計している。

Googlebot Finding Spain & Iberia on Many Pages

単純な例を1つあげると、Googleは2つ以上の単語あるいはフレーズの関係を計算できる。上の図の例で、Googleは「Spain」(スペイン)と「Iberia」(イベリア)が意味的に結びつくのではないかと認識している。

Garcia博士による「語の共起」のレッスンを思い出してみよう。関係がどのように計算されるのか、ごく大ざっぱだけど理解できるだろう。

Co-Occurrence Calculation

もちろん、Googleのやり方はもっと高度で、各ページやページ内のセクションを細かく分けて分析している。たとえばGoogleは、文や段落の中で非常に接近して現れる頻度が高い語やフレーズに対し、より強い関係を設定するということができる。

こうした技術がもっと洗練されてもっと高度になれば、Googleは意味の連関に関して、ほとんど人工知能(AI)と呼べる域にまで達するかもしれないね。

Google's Powers of Semantic Analysis
※Stephen Colbertはコメディアン。この記事の発表時期に「最も影響力がある100人」の投票が行われていた。

ロボットと怖そうな機械グモだけど、よく頑張っていると思わない? それで知りたいのは、SEOやコンテンツの立案やウェブサイトの構築といった作業に、これがどのように関係してくるかということだよね?

ここまでのことを踏まえて、いかに最適化すればいいのか僕なりに仮説を立てたので、それを挙げていこう。

  • サイトの構成は意味的に整理されたものに
    検索エンジンが、どの語とどの語が互いに関連するというデータを活用しているのだから、サイト内のコンテンツの見取り図を作る際は、できる限り論理的に分類しておいて損はない。普通は、常識にしたがってやればうまくいくのだけど、いざというときはいつだって3つ目の図にある共起計算を利用できる。たとえば、このチキンストックのレシピは果たして「フランス料理」なのか「アメリカの伝統料理」なのか、なんてときには、すかさず共起計算をやってみよう。

  • 関連する語/フレーズを使ったコンテンツを作成する
    たとえば、「住宅ローン」という語をターゲットにしてサイトを作っている。ところが、コンテンツの大半は賃貸物件に関するものだ。そんなときには、より関連度の高いコンテンツと結びつくように変えてみるのが有益だってわかるよね。

  • 意味的に関連したページからリンクを獲得する
    スノーボードを扱う自分のページにとってサーフィンに関するページからのリンクが、意味的な関連性の面で有益かどうか確かめたければ、単語の共起を計算するというすばらしい方法がある。

  • ページがランクされる理由を理解する
    ページのランクを見て、それからドメインや被リンクを確認してみて、頭を掻きむしりたくなることがあるだろう。「なんでまたこんなページが僕のページよりランクが上なんだ?」ってね。そんなムカツク思いを何度となく繰り返しているうちに、僕は次のことがわかった。詳しく分析してみると、僕のドメインやページにリンクしているページは多くの場合、ライバルページににリンクしているページよりも、「関連性」が大幅に低かったみたいなんだ。被リンクの総数やドメインの権威がもつ影響力は大きいけど、意味的なつながりやトピックとの関連性もまた、ページランクに反映されていることは間違いない。

  • 検索エンジンの未来像を感じとる
    Googleは数年間で、リンクの「意図」を割り出せるほど優秀になると思う? リンク付近の文や段落から心理的な「きっかけ」を抽出できるほどまで、意味に関する処理能力を獲得する可能性はあるだろうか? そしてそれを、リンクの重要度や信用度を決定する際に活用するようになるだろうか? たぶんそうなるよ。

僕自身、たいていの仕事では共起計算を多用していないし、コンサルティング契約のなかでその話題が出ることは、実はまれな話だ。だけど、検索エンジンについて深く知れば知るほど、そして、検索結果を見たときに裏にある仕組みのことがわかるようになるほど、優れたSEOを施せるようになるのだと確信している。

この手のデータや関連する意味解析についてほかに何か知っていれば、ぜひ聞かせてほしい。僕自身、まだ疑問に思っていることが1つあるんだ。検索エンジンはランクを決める際に、語やフレーズの共起に関する統計的な確率をどんなふうに反映させているのだろう。これについては、リンク先のページでGarcia博士が具体的に取り上げている。

tweet0このエントリーをはてなブックマークに追加
日本赤十字社 東日本大震災 義援金募集
Web担メルマガでラクラク情報ライフを
注目記事が毎週手もとに届いて見逃さない
要チェックのセミナー情報もゲットできる
編集長コラムを一足先に読める
―― 10万人が読んでいる、Web担必読メルマガです

今日の用語

GRP
テレビCMにおいて、広告出稿回数ごとの視聴率を足した数値。 放送局が定めた ... →用語集へ

連載/特集コーナーから探す

インフォメーション

Web担のメルマガを購読しませんか?
Web担の記事がコンパクトに毎週届くメールマガジン「Web担ウィークリー」は、10万人が読んでいる人気メルマガ。忙しいあなたの情報収集力をアップさせる強い味方で、お得な情報もいち早く入手できます。

Web担に広告を掲載しませんか?
購読者数10万人のメールマガジン広告をはじめとする広告サービスで、御社の認知向上やセミナー集客を強力にお手伝いいたします。

サイトマップ
RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]

GOLD SPONSOR
さくらインターネット株式会社株式会社KDDI ウェブコミュニケーションズ株式会社日本レジストリサービスHP Softwareトランスコスモス株式会社株式会社ハイパーボックスDomain Keeperアドビ システムズ 株式会社
SPONSOR
株式会社キノトロープ株式会社アイレップ株式会社ニューズ・ツー・ユーシックス・アパート株式会社ウェブアンテナ株式会社サイバーエージェント富士通株式会社SitecoreYahoo!プロモーション広告Oracle