Moz - SEOとインバウンドマーケティングの実践情報
検索エンジンからコンテンツを隠す12の方法

SEOmozでよく話題にするのは、いかにして、コンテンツを検索エンジンに見つけてもらえるようにするかという話だ。でも今回は、違った角度から見てみよう。

検索エンジンにコンテンツをインデックスしてほしくない理由

ちょっと普通じゃないように思えるかもしれないが、ウェブサイトのコンテンツをインデックス化やキャッシュ化してほしくない場面は、案外多いものなんだ。それはなぜだろう?

  • プライバシー
    直接的な検索トラフィックからコンテンツを保護したい理由はいくらでもある。個人的な書簡とか、アルファ版の製品とか、登録や証明が必要なコンテンツだとか。
  • 複製コンテンツの問題
    コンテンツをさまざまな形式で複数バージョン用意している場合(印刷用ページとかPDFバージョンとか)、検索エンジンから見えるコンテンツは、1つだけにする方がいい。
  • キーワードの共食い(カニバリゼーション)
    以前、キーワードカニバリゼーションの解消法について書いたけれど、場合によっては、特定のページやある種のページにスパイダーがアクセスしないよう防ぐことで、関連性とコンバージョン頻度の最も高いページが、あるキーワードでの検索で上位に入る役に立つので、有効なこともある。
  • 無関係なページを作成するとき
    検索エンジン用に、ほとんどコンテンツのないページを多数作るというのは、基本的に問題だ。これについては前にも書いたことがある。「ページ数膨張病と余計なページを削除しなければならない理由」だね。SiがPageRankについて投稿した記事も、インデックスに価値の低いページがあると問題が起こる理由をうまく説明している。ナビゲーションだけのページや内容が非常に薄いページには、インデックス化を拒否しクロールは許可するやり方が現実的だ。これはあとで説明しよう。
  • 使用帯域
    使用帯域が大きすぎることへの心配から、サイト所有者の中には検索エンジンの活動を阻止しようとする人もいる。使い方を間違えると、検索トラフィックを遮断してしまいかねないが、検索トラフィックを引き込まない巨大なファイルに適用するなら、悪くない考えだ。

検索エンジンからコンテンツを隠す12の方法

で、うるさいスパイダーを自分のページに近付けないようにするには、どうすれば良いだろう? 実は、非常に非常にたくさんの方法がある。これから12種類ほど紹介するけど、もっともっと山のようにあるんだ。

  1. robots.txt

    スパイダーのアクセスを排除するには、たぶん一番シンプルで最短の方法だ。robots.txtファイルは、ドメインのルートに置く(www.nytimes.com/robots.txtのように)。これでスパイダーのアクセスを無効化できる。robots.txtの書き方と各要素についての詳細は、Google Sitemapsブログのrobots.txtファイルを使うという記事に書いてあるし、イアン・ミキャナリンのrobots.txt生成ツールを使えば、手作業で作る手間を節約できる。

    追加:Sebastianのとてもいい投稿があるから付け足しておこう。それは、検索ロボット制御の入門記事(英語記事)だ。検索エンジンロボットの行動制御について、技術的かつより深く知ることができる。

    ※Web担編注:robots.txtの日本語の解説としては、Googleのウェブマスター向けヘルプセンターの情報などがある。

  2. metaタグによるロボット制御

    metaタグでも、ページごとにスパイダーの行動を制御できる。「<meta name="robots" content="noindex" />」と書けば、検索エンジンにそのページのコンテンツをインデックス化しないように指示できる。

    便利な豆知識――metaタグを使ったロボット制御は、検索エンジンとスパイダーにページのリンクを辿らせたいけど、コンテンツのインデックス化はしてほしくない、という場合に特に便利だ。そのときは、「<meta name="robots" content="noindex, follow" />」と書く。こうすれば、検索エンジンはリンクを辿るけれどもコンテンツは無視するんだ。

  3. iframeタグ

    ページの特定部分(またはサイト内で繰り返し用いる特定のコンテンツ)を検索エンジンから隠したいことが度々ある。この場合、iframe(アイフレーム)をうまく使うといい。下の図で説明しよう。

    robots.txtでブロックしたiframeで、個々のページのコンテンツを検索エンジンから守る

    考え方は単純だ。iframeを使うことで、任意のページに別のURLからコンテンツを埋め込むことができる。それから、robots.txtでスパイダーがiframeにアクセスしないよう設定すれば、ページのその部分は検索エンジンから「見えなく」なる。

    ウェブサイトでこういうことをするには、理由がいろいろある。複製コンテンツの問題を回避したいとか、検索エンジンに渡るページサイズを小さくしたいとか、ページ上のクロールできるリンク数を減らし(それでリンクジュースの流れを制御し)たいなどなど。

  4. 画像内テキスト

    大手検索エンジンには、まだ画像内のテキストを読む力がほとんどない(必要となる処理能力も大きな壁だ)。だから、この記事にGoogleやYahoo!やLiveのスパイダーがやってきても、次の言葉で検索結果に表れることは決してないはずだ。

    変な言葉

    コンテンツを画像内に隠してしまうのは、一般的には妥当じゃない。他の機器(特に携帯電話など)には向かないかもしれないし、画像テキストを読めないユーザー環境(スクリーンリーダーなど)もあるからだ。

  5. Javaアプレット

    画像内テキストと同様に、Javaアプレット内のコンテンツも検索エンジンでは解析しにくい。ただし、テキストを隠すためにJavaアプレットを使うというのは、あまり普通なことじゃないのも確かだ。

  6. フォーム送信を求める

    検索エンジンは、HTMLフォームで送信しなければ得られない情報には基本的にアクセスできない。したがって、必ずフォーム送信しなければアクセスできないようにし、外部からの直接リンクをなくせば、そのコンテンツは検索エンジンのインデックスに入らない(下のイラストのように)。

    コロンビア大学のウェブサイト・データベースを検索しようとするGooglebot

    もちろん問題は、フォームの向こう側のコンテンツに、手出しのできないところからリンクを張られた場合、つまりブロガーやジャーナリストや研究者があなたの知らぬ間にアーカイブ内部のページにリンクを張ったような場合だ。したがって、フォーム登録を用意すれば検索エンジンを寄せ付けないとはいえ、細心の注意を払うべきコンテンツには別の防御手段を足した方が良い(robots.txtとかmetaタグなど)。

  7. ログインおよびパスワードによる保護

    パスワード保護は、どんなものでも検索エンジンのコンテンツアクセスを排除するのに使える。人間が目で見て確認する必要があるCAPTCHA(キャプチャ)と呼ばれるフォームも同じだ(ゆがんだ形の数字や文字で書かれている内容を読み取って入力するよう求めるボックスなど)。主要な検索エンジンは、パスワードを推測したり認証システムをかいくぐろうと試みたりしない。

  8. ユーザーエージェント名による排除またはクローキング

    サーバーレベルでユーザーエージェント名を識別し、向こうが伝えてくる名前でページやサイトへのアクセスを制限できる。たとえば、twicelerというならず者のロボットを見つけたら、アクセスを許可する前に正体をよくチェックしよう。

    ※Web担編注:ユーザーエージェント名とは、アクセスしてきたのがどういうソフトウェアなのかわかるように判別する名前。たとえばIE 6では、「Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)」というユーザーエージェント名が自動的にサーバーに通知される。ここで説明しているのは、サーバー側のプログラムでアクセスごとにユーザーエージェント名を調べて、たとえばGoogleがクロールに使うユーザーエージェント名である「Googlebot」ならばアクセスを拒否するといった方法。

  9. IPアドレス範囲による排除またはクローキング

    ユーザーエージェント名と同様に、IPアドレスやその範囲を利用して特定のロボットを排除できる。主要な検索エンジンは、限られたIPアドレス範囲からクロールしているから、それを利用してこれらのロボットを特定し、アクセスを遮断できる。

    皮肉なことに、検索エンジンロボットはコンテンツを盗もうとするスパマーだと誤解しているウェブマスターが、この技術を好んで使う。彼らはそのIPアドレス範囲をブロックしてアクセスを遮断するから、きっと帯域を節約できてるに違いないよ(笑)。

  10. URLの登録解除

    検索インデックスに入ってしまった後の二次的な方法として、ほとんどの主要検索エンジンでは、サイトを確認してから検索エンジンのツールを使い、URL登録の解除ができる。たとえばYahoo!では、Yahoo! Site Explorerを使ってURLを削除できる。GoogleでもWebmaster Centralで、ウェブページ削除リクエストツールが使える。

    ※Web担編注 Yahoo! JAPANでは個別ページの削除リクエストは受け付けていないので、上記のSite Explorerを使うことになる。

  11. nofollow付きリンク

    次の12番目の方法に比べて、辛うじて少し役立つという程度だが、技術的にはrel="nofollow"付きリンクを使えば、検索エンジンに特定のリンクを辿らないよう仕向けられる。ただ、他の方法でもそうなんだけど、見せたくないURLに外部リンクがつながっている場合、そのページは検索エンジンに見えてしまう。個人的な意見としては、コンテンツからスパイダーを遠ざけるために、nofollow付きリンクを使うというのは止めた方がいい。スパイダーは別の経路でページに入ってくることの方が多いからね。

  12. ピッグ・ラテン語で書く

    どの主要検索エンジンも、ピッグ・ラテン語の翻訳機能を実装していないのは驚きに値するかも。だから、検索結果にコンテンツを出したくなければ、ピッグ・ラテン語で暗号化して公開しよう(笑)。たとえば、ピッグ・ラテン語「Elcomeway otay Eomozsay Istermay Orgelsprockenmay!」を英語に戻したフレーズで検索してみよう。何も出てこないはずだ(誰かがコメントで訳さない限りね!)。

    ※Web担編注 「ピッグ・ラテン」とは、最初の文字を取って語尾に付け、さらに語尾に「ay」をつけるというルールで作られる冗談言語(wikipediaより)。たとえば、「welcome→elcomew→elcomeway」となる。

ここに挙げた方法の中で、検索エンジンからコンテンツを隠すのに一番自分に合ったものが見つかれば幸いだ。いつものとおり、コメント、質問、意見は大歓迎。

この記事が役に立ったらシェア!
tweet3このエントリーをはてなブックマークに追加
みんなが読んでるWeb担メルマガで、あなたも最新情報をチェック
SEOやアクセス解析のなどノウハウをゲット
事例やインタビューも見逃さない
要チェックのセミナー情報も届く
編集長コラムを一足先に読める
日本赤十字社 東日本大震災 義援金募集
みんなが読んでるWeb担メルマガで、あなたも最新情報をチェック
SEOやアクセス解析のなどノウハウをゲット
事例やインタビューも見逃さない
要チェックのセミナー情報も届く
編集長コラムを一足先に読める

今日の用語

グーパス
鉄道の改札機を通ったときに、地域情報などの情報を携帯電話にメールで送信するサービ ... →用語集へ

連載/特集コーナーから探す

インフォメーション

Web担のメルマガを購読しませんか?
Web担の記事がコンパクトに毎週届くメールマガジン「Web担ウィークリー」は、10万人が読んでいる人気メルマガ。忙しいあなたの情報収集力をアップさせる強い味方で、お得な情報もいち早く入手できます。

Web担に広告を掲載しませんか?
購読者数10万人のメールマガジン広告をはじめとする広告サービスで、御社の認知向上やセミナー集客を強力にお手伝いいたします。

サイトマップ
RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]

GOLD SPONSOR
さくらインターネット株式会社株式会社KDDI ウェブコミュニケーションズ株式会社日本レジストリサービスオープンテキスト株式会社トランスコスモス株式会社株式会社ハイパーボックスDomain Keeper
SPONSOR
株式会社キノトロープ株式会社アイレップ株式会社ニューズ・ツー・ユーシックス・アパート株式会社ウェブアンテナ株式会社サイバーエージェント富士通株式会社Sitecore