Moz - SEOとインバウンドマーケティングの実践情報

Googleの補足インデックス地獄を抜け出す11の方法

Moz 2007/5/11 11:25 SEO | 解説／ノウハウ

この記事はもともとSEOmozのYOUmozセクションに掲載したものですが、非常に優れているのでこちらのブログに格上げしました。

私は左に飛び退いたが、遅すぎた。目の前に炎の壁ができあがり、私の行く手をふさいでいる。仕方なしに振り返ると、そこに奴がいた。我が宿敵にして検索界の影の支配者Googlebotだ。炎が私を包み込み、補足インデックス地獄の釜の蓋が開いたそのとき、奴の冷たい金属質の笑い声に私は心底凍りついた……

Vanessa Fox氏は、Google Webmaster Centralの製品マネージャを務める女性のこと。

いや、ちょっとやり過ぎたね。でも、Googleの補足インデックスを煉獄にたとえて表現すれば、わかりやすいかなと思って。その煉獄の世界とは、道徳的に怪しいページが行き着く場所で、永遠にさまよい続ける所なんだ。

僕は、Eコマース関係のクライアントの仕事の中で、優に1年以上もこの煉獄にはまっていたことがある。そのクライアントは、大体1999年ごろからデータ主体のサイトを持っていて、正直なところ、僕らがSEOの最良事例に細心の注意を払い始めたのは、ごく最近のことだった。約半年前、Googleがインデックス化していた僕らの3万2000ページの内、7つのページを除いてみんな補足インデックスに入っているって気づいたんだ。

※Web担編注

補足結果（補足インデックスとも呼ばれる）とは、Googleの検索結果上での現象。メインの検索データベースにではなく、補足的な（supplemental）情報であるとページがみなされた状態をいう。補足結果にあるページは通常のページよりも下位に表示されるとされている。SEO業界でも以前から話題にされており、大筋では上記のようなものだとらえられている。

補足インデックスに入っているページは、Google検索結果画面での「補足結果」と表示される。

ページが補足結果に入る理由としては、コンテンツの量が足りない、複数ページの記事の2ページ目以降である、タイトルにキーワードを詰め込みすぎ、複製コンテンツである、などだと言われている。Googleウェブマスター向けヘルプセンターに、"補足結果" とは何ですか。という解説がある。

ちなみに、自分のサイトで補足インデックス入りしているページを調べられるようにフォームを用意したので使ってみてほしい。

あなたのサイトの補足インデックス状況は？
補足インデックス検索ツール

入力ボックスにあなたのサイトのドメイン名（例：web-tan.forum.impressrd.jp）を入力してボタンをクリックすると、あなたのサイトのページで補足インデックスに入ってしまっているページが表示されます。

2007年7月9日追記：現時点では、この検索フォームを使っても、必ずしも補足インデックス入りしているページを正しくリストアップできなくなっている。詳しい情報がわかり次第お伝えする。

2007年7月13日追記：Googleはこのフォームで利用していた補足インデックス検索の機能を停止した。詳しくはサヨウナラ補足結果抽出クエリ。でもGoogleは絶対にこれを復活させるべきだを参照してほしい。

さて、GoogleのMattとVanessaの機嫌を損ねる前に、1つ付け加えておこう。彼らが補足インデックスは「ペナルティーボックス」じゃないと言うのなら、僕は君たちを信じると。残念ながら、みんなのページの99.98％が補足インデックスにはまり込んでいるなら、僕の経験では、Googleのランキングとものすごく現実的な因果関係がある。

昨日、僕はGoogleのウェブマスターツールにログインして、ついに魔法の言葉を見た。「約2万4700件中の1-10位」ってね。これを翻訳すると、ついに僕らのコンテンツが検索結果に表われることになったって意味だ。そこでお祝いと言っちゃなんだけど、僕がこの半年もの間、ダンテの「神曲」のような地獄の世界をさまよって学んだことを、ここでみんなと共有したいと思う。

まず細かい点にちょっと触れておくと、地獄をさまよったサイトは基本的にトレーニング・イベントの検索エンジンで、ColdFusionとSQLで運用していた。僕たちの問題点の多くは、構造的なものだった。またそのサイトは、確かなコンテンツを持った良質のサイトで、僕らは悪質な戦術なんて使ったことがなかったから、どんな形であれ、Googleが僕らにペナルティを科したわけではないと思う。僕らは単に、たくさんの小さなミスを犯して、スパイダーが嫌がる環境を作ってしまっただけなんだ。

以下に、僕が試したことをずらずらと並べてみよう。ただし、これは提案を並べたものじゃない。何が機能して、何が機能しなかったかということについて、僕なりの説明をしてみよう。とにかく、全部のプロセスをさらってみることが、役に立つんじゃないかと思ったんだ。

XML形式のサイトマップを作成
シカゴで開催されたSEOイベントSES Chicagoで、お披露目があった後すぐに、僕は夢中で主要ページをサンプリングし、Sitemap形式のXMLファイルを作成した。このファイルは害にならなかったけど、効果もほとんどなかった。
ページタイトルを個別化
ダントツで最悪だったのが、メタタグも含めて、サイト全体で共通のヘッダーとフッターを使っていたことだ。このやり方が間違いだと気づいて、主な検索結果ページとイベント詳細ページについて、個別のtitleタグを作成し始めた。
メタタグの説明属性を個別化
タイトルの個別化が奏功しなかったので、次にメタタグの説明属性（description）を個々のページに加えることにした。まずは、データベースで運用しているページから始め、サイトの大半のページに書き加えるには1か月から2か月ほどかかった。
404ヘッダーを修正
ここでもう1つ技術的な問題。それは、僕らのサイトでは、404エラー処理（ページが見つからなかった場合の動作）で、Googleが普通のコンテンツページ（ステータスコード200）と見なすようにリダイレクトしていたことだ。インデックスからダメなページを間引いていくことから始めて、僕はこの問題を修正した。問題のあるページを抜いていくと、約2週間以内で成果が出始めた。これは、僕が直接確認できた最初の変化だった。
合致データがなかったときの404エラーページを作成
これはある程度僕らのサイト固有の話だけど、僕らのサイトの場合、もう済んでしまった、あるいはもはや存在しないイベントに対して、エラーページというものが存在するんだ。これをインデックス化しても無駄でしょ。なので、こうした場合に404エラーページを表示するよう修正した。ユーザー体験的には独自性（個別のエラーと検索オプションを表示）を残したんだけど、スパイダーはそのページを無視してくれる。
サイトマップファイルを作り直し
Googleが検索結果に施す厳しい規制の話を読んで、イベント案内のページ（該当サイトの「本質」部分）全部に対する直接リンクが入るように、サイトマップファイルを作り直した。
robots.txtファイルを追加
そうなんだ。それまではrobots.txtを作ってなかったんだ。率直に言って、何かをブロックしなきゃいけないなんて思わなかったからね。けど残念ながら、僕らのサイトの動的要素がとても多かったことから、同じ内容のものが10ページ程度（たとえば、同じページでURLがわずかに異なるとか）インデックスに入っていた。僕は、印刷用ページ（たとえば「?print=1」みたいなリンクのページ）をすべて削除し、インデックスから外れるようにしていった。404エラーの場合とほぼ同じように、2週間も経つうちに見違えるような成果が上がった。
NOODPタグとNOYDIRタグを追加
Yahoo!ディレクトリから古い要約文をひっぱらないように、メタタグにNOYDIRを設定したものの、これはGoogleに通用しない。そこで同じメタタグに、NOODPを書き加えた。こうすることで、GoogleがDMOZディレクトリの要約文を使わないように指示できるんだ。
URLを短くて親しみやすいものに
この効果は大きかった。僕らのサイトは動的なColdFusionサイトだったから、URLに付随するパラメータが多すぎたんだ（たとえば「/event.cfm?search=seomoz&awesomeness=1000&whitehat=on」みたいに）。そこで、システムの組み直しは避けつつ、最も重要なイベント案内のページが「/event/seomoz」のような形になるよう簡素化することに決めた。
スパイダーにより多くのデータを見せるように
僕が気にかかっていたことの1つは、スパイダーが1度に10個の検索結果しか見ず、その「先」にある多くのリンクは放ったらかして帰ってないかということだった。そこで僕は、スパイダーの注意を引く特別なコードを加えて、100個以上の塊でスパイダーの目にとまるようにした。
ホームページのタイトルを変更
インデックスを眺めていて、ほぼすべての主要ページが、「同じ単語＋前置詞」という組み合わせで始まっていることに気がついた。たとえば、「Events on」とか「Events by」という風にね。そこで、ホームページのタイトルタグの語順を入れ替えて、大改装することに決めた。

ごめん。ちょっと長くなっちゃったな。でも、全体のプロセスを網羅することに価値があると思うんだ。

ステップ9から11は、どれも補足インデックスを抜け出す直前にやったことだから、影響を切り分けるのは少々難しいけれど、ステップ9で大きな違いが生まれたと僕は考えている。

それから、ダメなデータを除去（ステップ5とステップ7）したことも、大きな効果があったと思う。理想的には、3万2000ページもインデックス化したページを持つんじゃなくて、2500ページかそこらだったらよかったと思う。インデックスから頻繁にページを削除するなんて、やっぱりヘンだからね。でも僕の意見では、Googleにより高い品質の結果を与えて、こまめに複製情報を取り除いたことが、僕らの成功の大きな部分を占めたんじゃないかと思うよ。僕らはインデックス化ページをおよそ2万4000ページまで削り、今後もスリム化を続ける予定だ。

もちろん、補足インデックスを脱出したことが、検索ランキングにどのような変化を与えるのかまだわからない。でも僕は楽観視している。

結局、過去3年から5年にかけて適切でなかったスパイダーとの付き合い方から生まれたダメージを、今回ゆっくりと回復していったため、このプロセスにはすごく時間がかかって（そしてとんでもなくイライラが溜まって）しまった。でもこうして地獄から抜け出した今、これからは僕らの検索結果を、Googleにも、エンドユーザーにも、僕らの業績にとっても良いものにして、僕らは実際に有利になると思う。この情報が、みんなの役に立ちますように。

ほかにも同じような苦労を経験をした人がいれば、ぜひ教えてほしい。