よくアンケート結果などデータを整理するときに集計表を作ることがあります。「男性」「女性」といった性別ごとにカレー好きかを訪ねて「はい」と「いいえ」で集計したりなどよく見かけることでしょう。アンケートはマーケティングに欠かせませんが、その結果を集計するクロス集計表とそのカテゴリーの関連性をみる連関係数について説明します。
クロス集計表とは
クロス集計表とは2つのカテゴリーを縦軸と横軸で集計したものです。右端と最下段にはその合計値になります。
例えば「はい」「いいえ」といった二項のカテゴリーにもう一つの二項のカテゴリーを掛け合わせたもの、つまり2×2の4パターンを集計したものです。
例えば以下の表が2×2クロス集計表となります。
性別 | 購入 | 非購入 | 合計人数 |
男性 | 100 | 340 | 440 |
女性 | 105 | 55 | 160 |
合計 | 205 | 395 |
これを文章で表現するなら、男女総数600人の中で男性440人のうち購入した人は100人で非購入が340人、女性160人のうち購入した人が105人、非購入が55人。また男女問わず購入した人数は205人、非購入は395人、といったものになります。
文章だとわかりにくいですがこのようにクロス集計表を使うとわかりやすくなります。
購入数では男性100・女性105とあまり変わらないのですが、購入の比率で見ると男性22.7%・女性65.6%と女性の方が購入しやすいことがわかります。
関連性を表す連関係数 ファイ係数
二つの値を持つデータ群で直線的な関連を持つ場合、その関連性を調べるものとして散布図や相関係数(ピアソンの積率相関係数)があります。
(別記事:メイン商品Aと一緒に売りたい商品B、この2つの数量から相関関係を調べる)参照
このような2×2クロス集計表の場合、ピアソンの積率相関係数を適用したものをファイ係数φとして定義しているので、「縦軸のカテゴリー(今回であれば性別)」と「横軸のカテゴリー(今回であれば購入の有無)」の関連性を調べるにはファイ係数やを使います。
それぞれの値の関連を表すために便宜上、以下の記号で表します。
性別 | 購入 | 非購入 | 合計人数 |
男性 | A | B | W |
女性 | C | D | X |
合計 | Y | Z |
ファイ係数の公式は
ファイ係数 φ = (A×D-B×C)/(W×X×Y×Z)の平方根 = (A×D-B×C)/√(W×X×Y×Z)
となります。
前述の男女の購入の関連性をファイ係数で表すと
φ = (100 × 55 – 340 × 105)/√(440 × 160 × 205 × 395) = -30200 / 75502.5… = -0.399…
ファイ係数はピアソンの相関係数と同じで−1≦φ≦1の値を取り、絶対値が大きいほど関連性が高くなります。
よって今回の例であげている「性別」と「購入の有無」については負の相関関係にある、と言えます。つまり女性の方がやや購入しやすいとなります。
2×2クロス集計表を使うコツ
ファイ係数をわざわざ出さなくても2×2であればクロス集計表だけでも傾向を掴むことは可能です。実際、クロス集計表はマーケティングでは活躍します。コインの裏表のように何かを行ったときに起こる結果が2つしかない試行(ベルヌーイ試行)の組み合わせを集計する場面でよく使うことができます。
例をあげるのであれば、コンバージョン率。これはユーザー総数がわかっていれば、「コンバージョンした人」と「コンバージョンしていない人」の二項に分けることができすのです。さらに言えば、「テスト前」と「テスト後」で、「コンバージョンした人」と「コンバージョンしていない人」を2×2のクロス集計表にまとめることができます。
そしてクロス集計表はカイ二乗検定を行い、統計的有意性を知ることができます。
実際の業務でこれまで行っていなかったものでクロス集計を行って見ると良いでしょう。
Leave a Reply