クロス集計で何がわかるの?〜知っておきたいクロス集計の基礎知識④~
こんにちは、ライターの田原です。
クロス集計に関する記事の第4弾です。
今回の記事は第2回の記事(クロス集計だけでものを言うのは危ない!~知っておきたいクロス集計の基礎知識②~)と第3回の記事(関係があるように見えるだけ? 〜知っておきたいクロス集計の基礎知識③〜)のまとめのような記事となります。
今回の内容は、“サンプリング調査において”という前提で紹介していきます。
何がわかるのか①(検定なしのクロス集計)
検定を行っていないクロス集計でわかることは、
「回収したデータの2つの変数の関係はわかるけれど、その結果が母集団において当てはまるかどうかはわからない」
です。
第2回の記事で書いたように、サンプリング調査で得られたデータで2つの変数の間に関連性があるように見えても、母集団においても関連性があるとは言い切れません。
検定をしない場合にわかるのは、回収したデータ内でどんな傾向があるのかというところまでです。
仮に5万人の自治体を対象にアンケートを行って、500件回収したとします。
検定を行わず、この500件を対象にクロス集計を行ってわかることは、このデータにどんな傾向があるかどうかまでです。
その結果が5万人全体(いわゆる母集団)においても当てはまる傾向であるかどうかまではわかりません。
何がわかるのか②(検定ありのクロス集計)
検定を行ったクロス集計でわかることは、
「統計的に有意であった2変数においては、母集団でも差があると考えられるが、疑似相関の可能性は否定できない」
です。
検定を行って、母集団でも差があるかどうかを確認しても、第3回の記事で紹介したように、疑似相関の可能性は否定できません。
そして、この“検定”が行えるデータは、ランダムサンプリング(無作為抽出)されたものが大前提です。
ランダムサンプリング(無作為抽出)の重要性は、また別の機会で紹介しますが、ランダムサンプリング(無作為抽出)されていないものをいくら分析してもほとんど意味はありません。
ある自治体の在住者を母集団として調査を行う際に、若年層の意見を聞きたいから若年層のみ多く発送するなんてことをした調査をたまに見かけますが、一部だけ恣意的に多く発送するようなことは、ランダムサンプリングになっていないので、その結果は参考程度にもならないと思います。
何がわかるのか(まとめ)
きちんとランダムサンプリング(無作為抽出)を行って集計したデータに検定を行ったとしても、クロス集計で分かることは2つの変数に差があるかもしれないというところまでです。
このように書くと、クロス集計に意味はないのかということを言われそうですが、クロス集計は分析を行う事前準備としては非常に有用です。
データの傾向を何も把握せずに分析することは、闇夜に針の穴を通すような作業です。
まず、クロス集計を行って、データの傾向を把握することが、分析を行う際にはとても重要です。
そういった意味では、クロス集計は非常に大切なステップといえます。
また、クロス集計の利点は、「2つの変数の間に関係があるかもしれない」という気付きを得られることにもあります。
アンケート調査の集計結果だけですべてがわかるわけではありません。
クロス集計結果で「2つの変数の間に関係があるかもしれない」と分かったことを、様々な手段でさらに調べていくことが大切です。
この視点から見ても、クロス集計の結果はさらに分析を進める際のきっかけとして極めて重要な役割を果たすと考えられます。
この記事を書いた人
田原 歩
最強の男