Moz - SEOとインバウンドマーケティングの実践情報

検索エンジンの動きを制御する方法とツール - 『検索エンジン最適化の初心者ガイド』改訂版#8-1

robots.txtやmetaタグを使って、検索エンジンのクロールなどを制御する方法を解説する。

Moz 2009/1/29 9:00 SEO | 解説／ノウハウ

0 5 101

この記事は、『検索エンジン最適化の初心者ガイド』をセクションごとに書き直していく過程のエントリだ。この構想については、概要を見てもらえば、もっとよくわかるだろう。

『検索エンジン最適化の初心者ガイド』改訂版関連のエントリ：

検索エンジンが提供しているウェブマスター用ツールの紹介

アクセスしやすいサイトやコンテンツをウェブマスターに作成してもらおうと、各主要検索エンジンは、サポートや参考資料に重点をおいたサービスの拡充に努めてきた。検索マーケターにとっての価値はサービスによってさまざまに異なるが、どれもみな理解しておく価値はある。これらのツールが提供してくれるデータポイント、および検索エンジンと情報をやり取りできる機会は、他では絶対に入手できないものだ。

この記事では、主要な検索エンジンが対応している一般的なロボット制御要素を挙げ、それらが役に立つ理由を概説する。これらの各要素については、それぞれのブログ記事の根拠となる詳細な説明がふんだんに存在するが、このガイドの目的に沿うよう、最も重要で価値ある部分だけを説明していこう。

一般的な検索エンジン制御プロトコル

サイトマップ
サイトマップは、あるWebサイト上にあるすべてのページを、一定の形式に則って表わしたリストだ。サイトマップは、検索エンジンがそのサイト上にある全Webページを簡単に見つけ出すのに役立てたり、各ページに相対的な重要度を割り当てたりする目的で使われる。
サイトマップのプロトコル（sitemaps.orgで詳細に説明されている）は、3種類のファイル形式で記述できる。
XML：「Extensible Markup Language」の略（推奨フォーマット）
長所これはサイトマップで最も広く採用されているフォーマットだ。XMLは検索エンジンにとって構文解析が非常にしやすく、これを生成してくれるサイトマップ生成ツールはたくさんある。さらに、ページに対するパラメータを最も細かく調整できる。
短所ファイルサイズが比較的大きいこと。XMLでは、要素すべてに開始タグと終了タグを必要とするから、その分ファイルサイズも大きくなる。
RSS：「Really Simple Syndication」または「Rich Site Summary」の略
長所メインテナンスがやりやすい。RSS形式のサイトマップでは、簡単なコード記述により、コンテンツが新しく追加された際に自動アップデートできる。
短所管理が困難。RSSはXMLをベースにしたフォーマットだが、アップデート機能という特性を持つために、実際にはXMLよりも管理がはるかに困難だ。
Txt：テキストファイル
長所非常に扱いやすい。テキスト形式のサイトマップは、1行につき1つのURLという形式で、5万行まで扱える。
短所メタデータをページに追加する能力がない。

サイトマップは、主な検索エンジンに直接送信することも、その所在を「robots.txt」で指定しておくこともできる。

robots.txt

robots.txtファイル（ロボット排除プロトコルの一種）は、Webサイトのルートディレクトリ（例：サイトが「www.google.com」ならば「http://www.google.com/robots.txt」でアクセスできる場所）に保存しておかなければならない。robots.txtファイルは、自動化された訪問者（Webロボット、ボット）のためのアクセスガイドとして機能する。これを用いると、ウェブマスターは、ボットにクロールしてほしくないサイトのエリアを指定できるほか、サイトマップファイルの所在（後述）やcrawl-delayパラメータを示すことができる。使えるのは、以下のコマンドだ。

Disallow：
robots.txtに従うロボットが特定のページまたはフォルダにアクセスしないようにする。
Sitemap：
Webサイトのサイトマップの所在を示す。
Crawl-delay：
ロボットがサーバーをクロールできる速度を（ミリ秒で）示す。
※Web担編注　実際には、liveでは秒単位、Yahoo! JAPANでは分単位、そしてGoogleではCrawl-delayには対応しておらずWebmaster Toolsで設定することになる。

robots.txtの記述例：


#Robots.txt www.example.com/robots.txt
User-agent: * 
Disallow:  

# 「spambot」というユーザーエージェント名のロボットには
# どのページもクロールさせない
User-agent: spambot 
Disallow: /

sitemap:www.example.com/sitemap.xml

※注意：非常に重要な留意点がある。すべてのウェブロボットがrobots.txtの内容に従うわけではないということだ。悪意のある人物（たとえばメールアドレスをかき集めるスパム業者）が、このプロトコルに従わないボットを作成し、極端な場合、それを使って個人情報の所在を突きとめることもある。したがって、管理セクションや、だれでもアクセスできるWebサイトの非公開セクションの所在は、robots.txtに記述しないことをお薦めする。その代わりに、これらのページは、メタタグ（meta要素）によるロボット制御（次項で説明）を利用して、注意が必要なコンテンツをインデックス化しないよう、主な検索エンジンに指示できる。

メタタグによるロボット制御

meta robotタグは、検索ロボットにページレベルで指示を与え、各ページのインデックス化からスニペット（検索エンジンが提供する抜粋）使用まで、さまざまなことを制御できる。

メタロボットタグは、HTMLドキュメントのヘッダー部（head要素内）に置かなければならない。

メタロボットタグの記述例：


<html>
    <head>
        <title>The Best Webpage on the Internet</title>
        <meta name="ロボット名を指定" content="属性値を指定" />
    </head>
    <body>
        <h1>Hello World</h1>
    </body>
</html>

「ロボット名を指定」の部分にウェブロボットのユーザーエージェント名（例：Googlebot）を指定するか、あるいはすべてのロボットを対象とするためにはアスタリスク（*）を指定する。「属性値を指定」には下表のmeta列にある属性値のいずれかを指定する。

使用するケース	robots.txt	meta^※	その他	対応している検索エンジン
コンテンツへのアクセスを許可する	Allow	FOLLOW INDEX		グーグルヤフー1 2 米ヤフーマイクロソフト
コンテンツへのアクセスを禁止する	Disallow	NOINDEX NOFOLLOW		グーグルヤフー1 2 米ヤフーマイクロソフト
ページ上にある画像のインデックス化を禁止する		NOIMAGEINDEX		グーグル
検索結果にコンテンツのキャッシュを表示しないようにする		NOARCHIVE		グーグルヤフー米ヤフーマイクロソフト
検索結果にコンテンツの説明文を表示しないようにする		NOSNIPPET		グーグルヤフー米ヤフーマイクロソフト
コンテンツが検索エンジンの翻訳ツールで他言語に翻訳されないようにする		NOTRANSLATE		グーグル
コンテンツ内にあるリンクをたどる（評価する）ことを禁止する		NOFOLLOW	a要素の属性として rel="nofollow"を指定	グーグルヤフー米ヤフーマイクロソフト
Open Directory Project（DMOZ）にあるコンテンツの説明文を検索結果に表示させないようにする		NOODP		グーグルヤフー米ヤフーマイクロソフト
Yahoo Directoryにあるコンテンツの説明文を検索結果に表示させないようにする		NOYDIR		ヤフー米ヤフー
HTMLページ内の特定の要素について、インデックス化を禁止する			class="robots-nocontent"	ヤフー米ヤフー
指定日以降、コンテンツのインデックスを中止する		UNAVAILABLE_AFTER		グーグル1 2
サイトマップファイルあるいはサイトマップのインデックスファイルを指定する	Sitemap			グーグルヤフー米ヤフーマイクロソフト
Webサイトに対するクローラーのアクセス頻度を指定する	Crawl-delay		Googleウェブマスターツール	ヤフー米ヤフーマイクロソフト
クローラーが本物であることを確認する			DNS逆ルックアップ	グーグルヤフー米ヤフーマイクロソフト
検索エンジンのインデックスからの自分のコンテンツを削除するようリクエストする			Googleウェブマスターツール Yahoo! サイトエクスプローラー米ヤフー Microsoft Webmaster Tools	グーグルヤフー米ヤフーマイクロソフト

出典：jane and robot：自分のWebサイトに対するロボットのアクセスを制御する方法
※meta要素で指定できる内容は、HTTPレスポンスヘッダーに「X-Robots-Tag」として含められる。ただし、HTTPヘッダーを使う場合はロボット名を指定できない。

rel="nofollow"

nofollowは、主な検索エンジンすべてがサポートしている一般的なインラインパラメータだ。これをリンクに追加すると、リンクジュース（ランキング決定の要素になる）を他に渡さないようにできる。

nofollowの記述例：

<a href="http://www.example.com" rel="nofollow">リンク例</a>

jane and robotにはrobots.txtに関して、さらに広範なすばらしい情報ページ「自分のWebサイトに対するロボットのアクセスを制御する方法」がある。また、プリントアウトして手元に置いておくのなら、SEOmozの「SEO基本技術のチートシート（トラの巻）を作ってみた」がお薦めだ。

この記事が役に立ったらシェア!5 101

※記事へのコメント機能は2021年11月をもって終了しました。編集部へのご連絡は、問い合わせフォーム・メール・Twitterなどをご利用ください。

検索エンジンの動きを制御する方法とツール - 『検索エンジン最適化の初心者ガイド』改訂版#8-1

検索エンジンが提供しているウェブマスター用ツールの紹介

一般的な検索エンジン制御プロトコル

robots.txt

メタタグによるロボット制御

rel="nofollow"

必見！ Facebookいいね! 人気記事

最新のニュース

Web担は、企画広告も役立つ情報バッチリ！

人気記事トップ10（過去7日間）

今日の用語

連載/特集コーナーから探す

編集部からのお知らせ

インフォメーション

Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]

検索フォーム

検索エンジンの動きを制御する方法とツール - 『検索エンジン最適化の初心者ガイド』改訂版#8-1

検索エンジンが提供しているウェブマスター用ツールの紹介

一般的な検索エンジン制御プロトコル

robots.txt

メタタグによるロボット制御

rel="nofollow"

必見！ Facebookいいね! 人気記事

最新のニュース

Web担は、企画広告も役立つ情報バッチリ！

人気記事トップ10（過去7日間）

今日の用語

連載/特集コーナーから探す

編集部からのお知らせ

インフォメーション

Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]