衣袋宏美のデータハックス

偏差値は改善のためのアクセス解析には役に立たない!? [アクセス解析tips]

人気ページを偏差値で表してみると改善に役立つ結果が見えてくるか
衣袋宏美のデータハックス

統計用語で「平均値」の次に親しみのある指標は「偏差値」かもしれない。全体の「平均値」を偏差値で表すと50になる。また、どんな形の分布でもある程度数値の範囲が限られるように標準化されているので、イメージが付きやすい。偏差値で表すと、ほとんどのデータは偏差値40~60の間に収まるので、試験などで偏差値が80もあったら「天才」と称されるかもしれない。ということで、前回、前々回の「ロングテール」「平均」に続いて、今回は「偏差値」とアクセス解析の関係を取り上げてみたい。

人気ページランキングを「偏差値」で表してみる

URL別ページビュー数分布を例にとって解説してみよう。これはいわゆる人気ページランキングのPV数を並べたものと考えてほしい(「ロングテールデータ」の回でもご紹介したものだ)。トップ10のURLの合計ページビュー数だけで過半数を占めるが、こういったサイトは特別ではない。

URL別ページビュー数の分布
図1:URL別ページビュー数の分布

さてここで、各URLの貢献度を偏差値で表してみよう。評価軸はページビュー数とする。偏差値は平均が50になるような、ある統計式から算出される。ここでは細かい話は省く。このケースではURLが500個程度あるので、月次データなら、月間の総ページビュー数をページ数で割ったのが、URLあたりの平均のページビュー数ということになる。

各ページ(URL)に対して、そのページの評価として偏差値を付与してその値の分布をみたのが下図である。そもそもこういったヒストグラムでは、各グループの値の幅を同じにしなければいけないが、あまりにも分布が極端なので、グルーピングは厳密にしているわけではないことに注意していただきたい。

人気ページランキングで偏差値を計算し、その分布数を示したもの
図2:人気ページランキングで偏差値を計算し、その分布数を示したもの

ご覧のとおり、ばらつきが極端でもそれなりにならすための手法である偏差値ですら、「ごくわずかの超優秀なページ」と、「大多数の普通のページ」に分かれてしまう。このロングテールの極端なデータの前では、偏差値も無力であるということがおわかりいただけるだろう。サイトの規模によって絶対値は異なるが、このケースでは月間ページビュー数が10以下のページが過半数を占めているため、1PVしかなかったページですら偏差値は48.8だ。

「偏差値」は改善活動には役に立たない

サイトのトップページなど常に上位にあるページはそんなに変わるものではない。まして団子状態の偏差値になっている中位以降のページで人気度を競わせて偏差値競争しても、何の意味もないことがおわかりだろう。データの分析自体が目的となるようなアクセス解析ならば、解析すること自体が無意味である。どういう改善施策が取り得るのか、取るべきかといった議論の元になる分析データを提供しなければ、解析には意味がないのだ。

アクセス解析の目的はサイトの改善だ。統計のお遊びはやめよう。最頻値や中央値や偏差値などをやたらと引っ張り出してくるのは、アクセス解析が少しわかってきたときに陥る罠の1つだが、現実的にも、偏差値などを得意満面に会議で発表しても、面白がってもらえるのは最初の1回だけだ。偏差値というよく知っているつもりの統計指標を持ち出してみたところで、何の意味もないのだ。

実際にアクセス解析で偏差値を使っている人はほとんどいないとは思うが、もし統計を知ったかぶりする上司から「それでうちのサイトのページ別偏差値はどうなっているんだ?」と言われたときには、本稿を参考にしながら、上司のプライドを傷つけないようにその無意味さをじっくりと説明してあげるといいだろう。

まとめ

  • 人気ページランキングで偏差値を計算しても、分布はいびつになる
  • 「偏差値」はサイトの改善活動には役に立たない
この記事が役に立ったらシェア!
メルマガの登録はこちら Web担当者に役立つ情報をサクッとゲット!

人気記事トップ10(過去7日間)

今日の用語

robots.txt
ロボット型の検索エンジンが自分のページを登録しないようにするためにサイト管理者が ...→用語集へ

インフォメーション

RSSフィード


Web担を応援して支えてくださっている企業さま [各サービス/製品の紹介はこちらから]