Moz - SEOとインバウンドマーケティングの実践情報
グーグルが収集しているユーザーデータの秘密/グーグルのダークサイド?(前編)

グーグルは、何といってもデータ企業だ。グーグルはかつて、公平な競争の場で、一般に公開されているデータを競合相手よりも巧みに利用することを武器として戦った。そうすることで、空前の大成功を収めたんだ。

Web 2.0の時代に入ると、ハードディスク、プロセッサ、通信帯域、果ては労働力まで、比較的安価に入手できるようになった。そのおかげで、検索分野への参入障壁は急激に低くなった。競合相手がグーグルに追い付き始め(MSN画像検索とか)、新規参入者も現れる(Cuill)に至って、グーグルは、何らかの優位性を探し求めている。

インターネット上のコンテンツについては、誰もがほぼ対等にアクセスできるようになったから、先行している企業はあの手この手で個人データを入手しようとしている。検索エンジンにとっていちばん費用効率がいいのは、すでに自社のサービスを利用しているユーザーからデータを集めることだ。グーグルは、公開されているデータをユーザーに合わせて加工するために、ユーザーの個人データを利用している。そういうやり方で、ユーザーにとってますます役立つものになってきたんだ。このような手法は、必要な個人データがなければ真似できない。

グーグルがデータを入手するのに用いている6つの方法

  • クリック追跡
    グーグルはすべてのサービスで、すべてのユーザーのナビゲーションに関わるすべてのクリック(広告、アクション、機能のクリックなど)を記録している。

  • 入力フォーム
    ユーザーがフォームに直接入力したデータ(ユーザー名、パスワードなど)とともに、グーグルは入力した日時と場所を記録している。

    Googleのフォーム
    グーグルアカウントへの新規登録で使用されているコード
    1. input要素のtype属性が「hidden(非表示)」になっているので、ユーザーはこのフィールド内のデータを目にしたり、そこにデータを入力したりすることはできない。
    2. データ送信後、ユーザーに表示されるURL(非表示)
    3. input要素のtype属性が「hidden」になっているので、ユーザーはこのフィールド内のデータを目にしたり、そこにデータを入力したりすることはできない。
    4. このフォームでは、ユーザーの参照元データが送信されるので、ユーザーがどのサービスで「登録」ボタンをクリックしたかがグーグルにわかる。
  • Cookie
    グーグルはすべてのウェブ資産でCookieを使用している。さらに、広告(Doubleclick)用のCookieも残し、ユーザーがウェブ上をどう動き回っているかを追跡している。これにより、グーグルはDoubleclickかAdSenseの広告のあるページで、つまり、自分のウェブ資産ではないページでも、個々のユーザーを追跡できる。そういうページは膨大な数にのぼる。

    グーグルのCookie
    グーグルのさまざまなウェブ資産がユーザーのコンピュータに送ったCookie
  • サーバーログファイルに保存されているサーバーリクエスト
    グーグルのサーバーに送られたリクエストは、ログファイルに保存される。保存される内容はリクエストのタイプによって違う。

    ログファイルの例
    ログファイルの例

    URL - "http://www.google.com/search?hl=en&q=seomoz&ie=UTF-8"

    1. リクエストを送ったユーザーのIPアドレス。これからユーザーの居場所がわかる
    2. ユーザーがリクエストを出した日時や時間帯
    3. リクエストされた検索結果の表示言語(この場合は英語)
    4. 検索クエリ
    5. ユーザーのOS
    6. ユーザーのブラウザ
    その他、重要性は低いが、リクエストの種類、サーバーの応答も記録されているし、レンダリングエンジンなどの情報が含まれる場合もある。
  • JavaScript
    グーグルは、インターネット上のグーグル関連サイトに小さなJavaScriptを仕込んでいる。ユーザーのブラウザはバックグラウンドでそのスクリプトを自動的に実行し、グーグルは、ユーザー個人のインターネット利用動向(居場所、オペレーティングシステム、ブラウザの種類やバージョンなど)について重要な情報を得られる。

  • ウェブビーコン
    グーグルは小さな(1×1ピクセルの)透過GIFファイルを、確認画面や操作完了画面の多くに埋め込んでいる。JavaScriptと同じように、ブラウザはその目に見えない画像を自動的にダウンロードし、その際にコンピュータに関する情報がグーグルに送信される。

グーグルはデータを何に使っているのか

  • 保存
    グーグルはBigTableという、100万台近いサーバーに分散した独自のデータベースを使っている。

    グーグルが保管しているデータ量(2006年)
    データ サイズ(単位:テラバイト)
    検索インデックス 800
    Google Analytics 200
    Google Base 2
    Google Earth 70
    Orkut 9
    パーソナライズド検索 4

    (出典:Bigtable:構造化データのための分散型ストレージシステム

    これは、テラバイト単位(1テラバイト=1024ギガバイト)で表した圧縮済みデータのサイズだ。グーグルがここで明らかにしているデータのサイズは合計1ペタバイト(100万ギガバイト)を超えている。こいつぁすげえや!

    ここには、AdSenseやGmail、グーグルマップ、ストリートビュー、グーグルイメージ検索といった非公開のデータベースは入っていない。今やそのデータ量は膨大なものになっていると考えられる。何しろこの数字は、Web 2.0によってデータが急増し始める以前の2年前の統計からとったものだからね。

  • 大量データの解析
    これはちょっと「チャーリーとチョコレート工場」みたいな話だ。データが大量にグーグルに渡っていて、そこから加工された便利なデータが出てきているは周知のとおり。その途中がどうなっているのかはわからない。

    ウンパルンパ
    グーグルで一生懸命「原色」のを書くウンパルンパ

    グーグルには、自分が持つデータを並べ替えて整理するアルゴリズムがたくさんあることも知られている。中でも有名なのはPageRankだ。その上、複雑なスパムフィルタや、重複コンテンツフィルタ、パターン検出アルゴリズム、自然言語解析、画像認識ソフトウェア、その他複雑なソフトウェアが多数ある。

  • 恒久的なバックアップ
    グーグルが取ったデータが最終的に行き着く先は恒久的ストレージらしい。グーグルのプライバシーポリシーを読むと、この恒久的なバックアップがあるために、一部のユーザーデータは完全に削除されることがないことがわかる。

グーグルがどんな風にユーザーのデータを集めているのかわかっただろうか。次回は、グーグルがユーザーから集めているデータの全リストを公開する。→後編を読む

tweet13このエントリーをはてなブックマークに追加
日本赤十字社 東日本大震災 義援金募集
Web担メルマガでラクラク情報ライフを
注目記事が毎週手もとに届いて見逃さない
要チェックのセミナー情報もゲットできる
編集長コラムを一足先に読める
―― 10万人が読んでいる、Web担必読メルマガです

今日の用語

APIA
アジア太平洋地域のISPやEC関連サービス会社、コンテンツプロバイダーなどのイン ... →用語集へ

連載/特集コーナーから探す

インフォメーション

Web担のメルマガを購読しませんか?
Web担の記事がコンパクトに毎週届くメールマガジン「Web担ウィークリー」は、10万人が読んでいる人気メルマガ。忙しいあなたの情報収集力をアップさせる強い味方で、お得な情報もいち早く入手できます。

Web担に広告を掲載しませんか?
購読者数10万人のメールマガジン広告をはじめとする広告サービスで、御社の認知向上やセミナー集客を強力にお手伝いいたします。

サイトマップ
RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]

GOLD SPONSOR
さくらインターネット株式会社株式会社KDDI ウェブコミュニケーションズ株式会社日本レジストリサービスHP Softwareトランスコスモス株式会社株式会社ハイパーボックスDomain Keeperアドビ システムズ 株式会社
SPONSOR
株式会社キノトロープ株式会社アイレップ株式会社ニューズ・ツー・ユーシックス・アパート株式会社ウェブアンテナ株式会社サイバーエージェント富士通株式会社SitecoreYahoo!プロモーション広告Oracle