アクセス解析に限らず、様々なデータを分析する上で統計を使うことは外せません。ただ、統計という言葉だけでハードルが上がるのもまた事実であり、いかにその言葉を身近に感じることができるかが鍵となるでしょう。
今回は統計を学ぶ上で外すことができない「分散」と「標準偏差」についてまとめます。
- 分散とは
- 標準偏差とは
- 分散と標準偏差をウェブでどう使う
[目次]
分散とは
データ分析を行なっていく上で、データがどのように散らばっているかを見ることがあります。
例えば以下の表のようなデータがあるとします。
グループA | グループB | |
---|---|---|
15 | 9 | |
17 | 22 | |
16 | 3 | |
13 | 6 | |
15 | 24 | |
14 | 26 | |
合計値 | 90 | 90 |
平均値 | 15 | 15 |
平均値はグループAが15、グループBも15と同じになります。データが少ないのでぱっと見グループBにバラツキがあるがわかりますが、データ量が多くなった場合にはわかりにくくなります。
このバラツキを表す指標を分散(Variance)といいます。
個々のデータが平均値からどのくらい離れているのかを知るために偏差を使用します。
偏差 = (データの値 – データの平均値)
そしてこの偏差を元に3つの形でバラツキを見てみます。
1・データと平均値の差の合計の「平均値」で見ると・・・
グループA | 平均値との差(偏差) | グループB | 平均値との差(偏差) | |
---|---|---|---|---|
15 | 0 | 9 | -6 | |
17 | 2 | 22 | 7 | |
16 | 1 | 3 | -12 | |
13 | -2 | 6 | -9 | |
15 | 0 | 24 | 9 | |
14 | -1 | 26 | 11 | |
合計値 | 90 | 0 | 90 | 0 |
平均値 | 15 | 0 | 15 | 0 |
この場合、平均値は0となります。つまりデータと平均値の差の合計の「平均値」ではバラツキの確認に使うことができません。
2・データと平均値の差の絶対値の合計の「平均値」で見ると・・・
グループA | 平均値との差(偏差) | グループB | 平均値との差(偏差) | |
---|---|---|---|---|
15 | 0 | 9 | 6 | |
17 | 2 | 22 | 7 | |
16 | 1 | 3 | 12 | |
13 | 2 | 6 | 9 | |
15 | 0 | 24 | 9 | |
14 | 1 | 26 | 11 | |
合計値 | 90 | 6 | 90 | 54 |
平均値 | 15 | 1 | 15 | 9 |
この場合、平均値に差が出ておりグループBの方がバラツキがあります。
ただ、絶対値による符号の処理が発生し、場合分けで数学的にも大変手間がかかるため、データと平均値の差の絶対値の合計の「平均値」は使いません。
3・データと平均値の差の2乗の合計の「平均値」で見ると・・・
グループA | 平均値との差(偏差) | グループB | 平均値との差(偏差) | |
---|---|---|---|---|
15 | 0 | 9 | 36 | |
17 | 4 | 22 | 49 | |
16 | 1 | 3 | 144 | |
13 | 4 | 6 | 81 | |
15 | 0 | 24 | 81 | |
14 | 1 | 26 | 121 | |
合計値 | 90 | 10 | 90 | 512 |
平均値 | 15 | 1.66 | 15 | 85.33 |
この場合も平均値に差が出ています。また符号処理が発生しないのでこちらの処理が行われます。
つまり「分散V」とは、データと平均値の差の2乗の合計の「平均値」のことです。
(Xはデータの値でiは何番目かを表す数字。nがデータの個数。Xの上にーがあるエックスバーは平均値を、∑が総和を表しています。)
「分散」が小さい方が各データが平均値により近く集約されているので、よりバラツキが小さいということになります。
標準偏差とは
「分散」は上記の形でバラツキをみることに使います。ただ2乗しているので数学的に単位が変わってしまいます。
例えばデータが身長だった場合、身長はcmですが分散の場合はcmの2乗となってしまいます。そのため分散同士の比較はできますが、平均との計算や比較をすることができません。
そこで計算や比較ができるように「分散」の平方根を算出しものが標準偏差(Standard Division)です。
記号は小文字のσ(シグマ)で表されます。σを2乗したものが分散であることから、分散はと表記されることもあります。
(Xはデータの値でiは何番目かを表す数字。nがデータの個数。Xの上にーがあるエックスバーは平均値を、∑が総和を表しています。)
分散を標準偏差にすることで元のデータや平均値と同列でみることができるためわかりやすくなります。
グループA | 平均値との差(偏差) | グループB | 平均値との差(偏差) | |
---|---|---|---|---|
15 | 0 | 9 | 36 | |
17 | 4 | 22 | 49 | |
16 | 1 | 3 | 144 | |
13 | 4 | 6 | 81 | |
15 | 0 | 24 | 81 | |
14 | 1 | 26 | 121 | |
合計値 | 90 | 10 | 90 | 512 |
分散 | 1.66 | 85.33 | ||
標準偏差 | 1.29 | 9.23 |
上記の評価ら標準偏差でみてみるとグループAは1.29、グループBは9.23というバラツキ具合になりました。
分散と標準偏差をウェブでどう使う
「分散」と「標準偏差」がバラツキを表すということはわかったと思います。では実際それがどう役に立つのか。
例えば、複数のバナーで毎日のクリック率を集計して分散や標準偏差を見てみてはどうでしょうか。分散や標準偏差が小さいものほどバラツキのない安定したものと考えることができます。もしそのクリックが高ければ高め安定ということですし、低ければ安定してクリックされていないということも考えれれます。
(ただし、ABテストでの比較の場合は「検定」を行なって判断する方が良いでしょう。)
また製造の現場なら、A社が作ったものの方がB社のものより重量にバラツキがなく安定している、だといった評価にも使うことができます。
分散や標準偏差はあくまでもバラツキを表す指標ですが、今後これらを使うことばかりなので、統計を理解していく上でもとても重要なものです。
Leave a Reply