平均値だけを見るな!

2024-02-26

代表値とは

代表値とは、平均値や中央値などの、データの特徴を掴むために使われる数値のことです。代表値という名前の通り、データ全体を代表するような値です。主要な 3 つの代表値の定義から見ていきましょう。

平均値

足して 2 で割る、なんて言い回しが日常的にも使われるほど、平均値は代表値の代表格ですね。データ全体を足し合わせて、データの個数で割ったものです。とりあえず平均値を計算しておけば良い、という思考になりがちですが、外れ値の影響を受けやすいという特徴があります。

例えば以下のようなデータに対して平均年収を計算すると 520 万円となります。E さんの影響により少し高めに出てしまうため、だいたいみんなこれくらい貰ってんでしょ、という相場感が知りたい場合には適さないかもしれません。

名前A さんB さんC さんD さんE さん
年収400万円400万円400万円400万円1000万円

中央値

データを小さい順 (大きい順でも同じ) に並べて、ちょうど真ん中に位置する値が中央値です。

例えば以下のようなデータなら、22 が中央値です。

{1,1,1,2,2,2,2,3,3}\{1, 1, 1, 2, 2, 2, 2, 3, 3\}

細かい話をしておくと、データが偶数個の場合は、中央の 2 つの値の平均値となります。つまり以下のようなデータの場合、3355 の平均値である 44 が中央値です。

{1,1,1,1,3,5,7,7,7,7}\{1, 1, 1, 1, 3, 5, 7, 7, 7, 7\}

先ほど挙げた年収の例では、中央値は 400 万円ですね。

最頻値

その名の通り、最も多く登場した値のことです。年収の例では中央値と同じ 400 万円です。場合によっては最頻値は複数得られることもあります。

使い方

代表値の使い方の注意点として、代表値だけを見るのはやめておきましょう。代表値はデータ全体を単一の値に要約したものなので、大部分の情報が欠落していることになります。そのため代表値だけを見てしまうと、データの解釈を間違う可能性があります。

要約した値だけではなく、データ全体を見るのが良いです。ヒストグラム等のグラフに起こすことで、データ全体の傾向が把握できます。まずはグラフを描画して全体的な傾向を把握したあと、代表値を計算してさらなる分析に活用する、というフローが良いでしょう。

例えば以下のような山がひとつ (単峰) で左右対称に近いデータを考えましょう。この場合は平均値も中央値も似たような値になり、どちらもデータ全体を代表すると言って差し支えないでしょう。

単峰分布の例

最初に年収の例を出しましたが、実際のデータを見てみましょう。厚生労働省が調査した所得の相対度数分布は以下の通りです (ref. 2022(令和4)年 国民生活基礎調査の概況)。

高所得帯の人に引きずられて、中央値よりも平均値のほうが大きくなっているようですね。なにをもって実情とするかは考え方によりますが、中央値のほうがより参考になる値かもしれません。

一方で前年と比較する際には、高所得帯の変化を過敏に反映してくれる平均値のほうが適していることもあるでしょう。もちろん中央値を前年と比較するのも有効な分析です。

またグラフからは、200 万から 300 万が一番のボリュームゾーン (= 最頻値) であることも読み取れます。

所得の相対度数分布

次は山が 2 つあるような (多峰) の分布を考えてみます。この場合は平均値も中央値もデータの特徴を反映しているとはいい難いですね。どうしても平均値付近にデータが集まっていることを想像しがちですから、分布形状を確認せずに代表値だけを見てしまうことがいかに危険かが分かるでしょう。

多峰分布の例

まとめ

代表値だけを見るのではなくデータ全体の傾向をグラフで確認しよう、というのが伝えたいことでした。表計算ツールや、Tableau のような BI ツールでグラフを描画できるように練習しておくことをおすすめします。