統計調査・分析で勘違いしがちな言葉

2020.05.21

10

統計のおはなし

こんにちは、ライターの田原です。
久しぶりの投稿となりますが、今回はちょっとした言葉の使い方についてのお話です。
本当ならバランス的に3つくらい紹介できれば良いのですが、今回は代表的だと個人的に思う2つをご紹介します。
きちんとした意味を理解して言葉を使う事が大事ですよという記事です。

ダミー変数

統計解析をしていると、よく「ダミー変数」という言葉を使います。
統計調査に関わる方なら誰でも知っているレベルの言葉なのですが、初学者だと勘違いするかもしれない言葉です。

Wikipediaでダミーと調べてみると

ダミー(dummy)は、一般的に、本物に似せて偽装した、実際には機能を持たないもの。(https://ja.wikipedia.org/wiki/ダミー

と出てきます。

“実際には機能を持たないもの”とあるので、機能を持たなくする変数?なんて思ってしまうかもしれません。

しかし、実際に統計調査におけるダミーは上記とは意味が異なります(語源的に共通するところもあるのかもしれませんが、由来までは今回は踏み込みません)。

統計解析では、数値的には意味を持たない情報を0と1で数値化するような用い方をするのがダミー変数です。

具体的な例を見てみましょう。

例えば、学生と学生でない人の違いを分析する際に、学生を1、学生でない人を0と数値に置き換える事を意味します。

アンケート調査のデータは、カテゴリー変数であることが多いので、アンケート調査の分析をしているリサーチャーはダミー変数を多用します。

知らない人に、「ダミー変数にしてみてはどうですか?」みたいに言うと、理解されないことがあるので、専門的な用語はできるだけ使わずに、わかりやすい説明をするように日々気を付けるようにしています。

サンプル数

これは、誤用がかなり多いと個人的には思う言葉です。
以下の2つの表現には、誤用があると思いますか?

A:市内2000人を対象としたアンケート調査を実施します。
B:サンプル数が2000だと少ないのではないのか?

これは完全にBが誤用しています。

サンプル数とは、調査する対象者数ではないです。
調査する対象者数を表すのであれば、サンプル数ではなく、サンプルサイズという言葉を使いましょう。

サンプルは「標本」を示しており、Bの表現では2000回標本抽出を行ったことになります。2000回標本抽出行うなんて現実的には莫大な予算がかかりますね。

サンプル数とサンプルサイズについては色々な方が問題点を指摘していますので、インターネットで検索してみると良いと思います。

終わりに

今回は、僕が個人的に考える、勘違いされたり誤用されたりする可能性がある言葉を紹介しました。
勘違いしたまま、間違えた意味で言葉を使うと恥ずかしいので、注意しましょう。
わからなかったり、疑問に思ったりしたことはきちんと知っている人に聞くことで、こういった言葉の誤用は避けられます。
今後も勘違いしがちな言葉を見つけたら紹介しますね。

 

この記事を書いた人

田原 歩

最強の男

スポンサードリンク