Moz - SEOとインバウンドマーケティングの実践情報
検索エンジンの動きを制御する方法とツール - 『検索エンジン最適化の初心者ガイド』改訂版#8-1

robots.txtやmetaタグを使って、検索エンジンのクロールなどを制御する方法を解説する。
Moz(旧SEOmoz) 2009/1/29(木) 9:00 このエントリーをはてなブックマークに追加 印刷用
この記事を読むのにかかる時間: 約 7.5

検索エンジンが提供しているウェブマスター用ツールの紹介

アクセスしやすいサイトやコンテンツをウェブマスターに作成してもらおうと、各主要検索エンジンは、サポートや参考資料に重点をおいたサービスの拡充に努めてきた。検索マーケターにとっての価値はサービスによってさまざまに異なるが、どれもみな理解しておく価値はある。これらのツールが提供してくれるデータポイント、および検索エンジンと情報をやり取りできる機会は、他では絶対に入手できないものだ。

この記事では、主要な検索エンジンが対応している一般的なロボット制御要素を挙げ、それらが役に立つ理由を概説する。これらの各要素については、それぞれのブログ記事の根拠となる詳細な説明がふんだんに存在するが、このガイドの目的に沿うよう、最も重要で価値ある部分だけを説明していこう。

一般的な検索エンジン制御プロトコル

  • サイトマップ

    サイトマップは、あるWebサイト上にあるすべてのページを、一定の形式に則って表わしたリストだ。サイトマップは、検索エンジンがそのサイト上にある全Webページを簡単に見つけ出すのに役立てたり、各ページに相対的な重要度を割り当てたりする目的で使われる。

    サイトマップのプロトコル(sitemaps.orgで詳細に説明されている)は、3種類のファイル形式で記述できる。

  • XML:「Extensible Markup Language」の略(推奨フォーマット)

    長所これはサイトマップで最も広く採用されているフォーマットだ。XMLは検索エンジンにとって構文解析が非常にしやすく、これを生成してくれるサイトマップ生成ツールはたくさんある。さらに、ページに対するパラメータを最も細かく調整できる。

    短所ファイルサイズが比較的大きいこと。XMLでは、要素すべてに開始タグと終了タグを必要とするから、その分ファイルサイズも大きくなる。

  • RSS:「Really Simple Syndication」または「Rich Site Summary」の略

    長所メインテナンスがやりやすい。RSS形式のサイトマップでは、簡単なコード記述により、コンテンツが新しく追加された際に自動アップデートできる。

    短所管理が困難。RSSはXMLをベースにしたフォーマットだが、アップデート機能という特性を持つために、実際にはXMLよりも管理がはるかに困難だ。

  • Txt:テキストファイル

    長所非常に扱いやすい。テキスト形式のサイトマップは、1行につき1つのURLという形式で、5万行まで扱える。

    短所メタデータをページに追加する能力がない。

サイトマップは、主な検索エンジンに直接送信することも、その所在を「robots.txt」で指定しておくこともできる。

robots.txt

robots.txtファイル(ロボット排除プロトコルの一種)は、Webサイトのルートディレクトリ(例:サイトが「www.google.com」ならば「http://www.google.com/robots.txt」でアクセスできる場所)に保存しておかなければならない。robots.txtファイルは、自動化された訪問者(Webロボット、ボット)のためのアクセスガイドとして機能する。これを用いると、ウェブマスターは、ボットにクロールしてほしくないサイトのエリアを指定できるほか、サイトマップファイルの所在(後述)やcrawl-delayパラメータを示すことができる。使えるのは、以下のコマンドだ。

  • Disallow

    robots.txtに従うロボットが特定のページまたはフォルダにアクセスしないようにする。

  • Sitemap

    Webサイトのサイトマップの所在を示す。

  • Crawl-delay:

    ロボットがサーバーをクロールできる速度を(ミリ秒で)示す。

    ※Web担編注 実際には、liveでは秒単位Yahoo! JAPANでは分単位、そしてGoogleではCrawl-delayには対応しておらずWebmaster Toolsで設定することになる。

robots.txtの記述例:


#Robots.txt www.example.com/robots.txt
User-agent: * 
Disallow:  

# 「spambot」というユーザーエージェント名のロボットには
# どのページもクロールさせない
User-agent: spambot 
Disallow: /

sitemap:www.example.com/sitemap.xml

※注意:非常に重要な留意点がある。すべてのウェブロボットがrobots.txtの内容に従うわけではないということだ。悪意のある人物(たとえばメールアドレスをかき集めるスパム業者)が、このプロトコルに従わないボットを作成し、極端な場合、それを使って個人情報の所在を突きとめることもある。したがって、管理セクションや、だれでもアクセスできるWebサイトの非公開セクションの所在は、robots.txtに記述しないことをお薦めする。その代わりに、これらのページは、メタタグ(meta要素)によるロボット制御(次項で説明)を利用して、注意が必要なコンテンツをインデックス化しないよう、主な検索エンジンに指示できる。

メタタグによるロボット制御

meta robotタグは、検索ロボットにページレベルで指示を与え、各ページのインデックス化からスニペット(検索エンジンが提供する抜粋)使用まで、さまざまなことを制御できる。

メタロボットタグは、HTMLドキュメントのヘッダー部(head要素内)に置かなければならない。

メタロボットタグの記述例:


<html>
    <head>
        <title>The Best Webpage on the Internet</title>
        <meta name="ロボット名を指定" content="属性値を指定" />
    </head>
    <body>
        <h1>Hello World</h1>
    </body>
</html>

ロボット名を指定」の部分にウェブロボットのユーザーエージェント名(例:Googlebot)を指定するか、あるいはすべてのロボットを対象とするためにはアスタリスク(*)を指定する。「属性値を指定」には下表のmeta列にある属性値のいずれかを指定する。

使用するケース robots.txt meta その他 対応している検索エンジン
コンテンツへのアクセスを許可する Allow FOLLOW
INDEX
グーグル
ヤフー1 2 米ヤフー
マイクロソフト
コンテンツへのアクセスを禁止する Disallow
NOINDEX
NOFOLLOW
グーグル
ヤフー1 2 米ヤフー
マイクロソフト
ページ上にある画像のインデックス化を禁止する NOIMAGEINDEX グーグル
検索結果にコンテンツのキャッシュを表示しないようにする NOARCHIVE グーグル
ヤフー 米ヤフー
マイクロソフト
検索結果にコンテンツの説明文を表示しないようにする NOSNIPPET グーグル
ヤフー 米ヤフー
マイクロソフト
コンテンツが検索エンジンの翻訳ツールで他言語に翻訳されないようにする NOTRANSLATE グーグル
コンテンツ内にあるリンクをたどる(評価する)ことを禁止する NOFOLLOW a要素の属性として
rel="nofollow"を指定
グーグル
ヤフー 米ヤフー
マイクロソフト
Open Directory Project(DMOZ)にあるコンテンツの説明文を検索結果に表示させないようにする NOODP グーグル
ヤフー 米ヤフー
マイクロソフト
Yahoo Directoryにあるコンテンツの説明文を検索結果に表示させないようにする NOYDIR ヤフー 米ヤフー
HTMLページ内の特定の要素について、インデックス化を禁止する class="robots-nocontent" ヤフー 米ヤフー
指定日以降、コンテンツのインデックスを中止する UNAVAILABLE_AFTER グーグル1 2
サイトマップファイルあるいはサイトマップのインデックスファイルを指定する Sitemap グーグル
ヤフー 米ヤフー
マイクロソフト
Webサイトに対するクローラーのアクセス頻度を指定する Crawl-delay Googleウェブマスターツール ヤフー 米ヤフー
マイクロソフト
クローラーが本物であることを確認する DNS逆ルックアップ グーグル
ヤフー 米ヤフー
マイクロソフト
検索エンジンのインデックスからの自分のコンテンツを削除するようリクエストする Googleウェブマスターツール
Yahoo! サイトエクスプローラー 米ヤフー
Microsoft Webmaster Tools
グーグル
ヤフー 米ヤフー
マイクロソフト
出典:jane and robot:自分のWebサイトに対するロボットのアクセスを制御する方法
※meta要素で指定できる内容は、HTTPレスポンスヘッダーに「X-Robots-Tag」として含められる。ただし、HTTPヘッダーを使う場合はロボット名を指定できない。

rel="nofollow"

nofollowは、主な検索エンジンすべてがサポートしている一般的なインラインパラメータだ。これをリンクに追加すると、リンクジュース(ランキング決定の要素になる)を他に渡さないようにできる。

nofollowの記述例:

<a href="http://www.example.com" rel="nofollow">リンク例</a>

jane and robotにはrobots.txtに関して、さらに広範なすばらしい情報ページ「自分のWebサイトに対するロボットのアクセスを制御する方法」がある。また、プリントアウトして手元に置いておくのなら、SEOmozの「SEO基本技術のチートシート(トラの巻)を作ってみた」がお薦めだ。

このエントリーをはてなブックマークに追加
日本赤十字社 東日本大震災 義援金募集
Web担メルマガでラクラク情報ライフを
注目記事が毎週手もとに届いて見逃さない
要チェックのセミナー情報もゲットできる
編集長コラムを一足先に読める
―― 10万人が読んでいる、Web担必読メルマガです

今日の用語

EDI
紙の伝票で行ってきた企業間の注文情報や出荷情報などを電子化する仕組み。 こ ... →用語集へ

連載/特集コーナーから探す

インフォメーション

Web担のメルマガを購読しませんか?
Web担の記事がコンパクトに毎週届くメールマガジン「Web担ウィークリー」は、10万人が読んでいる人気メルマガ。忙しいあなたの情報収集力をアップさせる強い味方で、お得な情報もいち早く入手できます。

Web担に広告を掲載しませんか?
購読者数10万人のメールマガジン広告をはじめとする広告サービスで、御社の認知向上やセミナー集客を強力にお手伝いいたします。

サイトマップ
RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]

さくらインターネット株式会社株式会社KDDI ウェブコミュニケーションズ株式会社日本レジストリサービスオートノミー株式会社
トランスコスモス株式会社株式会社ハイパーボックスDomain Keeperアドビ システムズ 株式会社
株式会社キノトロープ株式会社アイレップ株式会社ニューズ・ツー・ユーシックス・アパート株式会社ウェブアンテナ
株式会社サイバーエージェント富士通株式会社SitecoreYahoo!プロモーション広告