2014年09月21日

中央値についてまとめてみた(平均値と何がちがう?)/データ分析の解説

中央値ってのは
データを小さい順から並べた時にちょうど真ん中にくる値のことです。
20140920_00中央値.jpg

いわゆる平均値では極端に大きいデータや極端に小さいデータ(外れ値)が1個でもあるとその値によって平均値が大きく変わってしまいます。
データが正規分布に近い場合はデータの集団の特徴を平均値で代表させる(代表値)ことができますが、正規分布から外れてしまっている場合は平均値では集団の特徴を代表させるには適当ではありません。
なのに、“平均値”は老若男女を問わず広く知れ渡っているため、かなりの割合で正規分布から大きく外れてしまっていてもその集団の代表値に“平均値”が使われています。
中央値は、そのような場合に平均値に代わって集団の代表値として使用することができます。

中央値の求め方
データの数が奇数の時は、真中にくるデータがありますが、偶数の時は真中のデータはありません。
その時は、まんなかの2つのデータの平均値を中央値とします。
例えば、10人の子供が並んだ時は5番目と6番目の子供の身長の平均値が中央値になります。
式で書くとこうなります。
ちなみに記号は“χ”の上に“~”(チルダ記号)をつけて“エックスチルダ”と呼びます。
20140920_01中央値の式.jpg

よく、スポーツの採点で体操、フィギュアスケートやシンクロ等の採点では採点の最大値と最小値を除いてから平均する“トリム平均(調整平均)”が採用されています。これは平均値が外れ値の影響を受けやすいためにそのようにしているのですが、このトリム平均の取り除く幅をどんどん増やしていって残った最後のデータが1つ(または2つ)になった時の値が中央値ということになります。

中央値と平均値を比べてみると
外れ値がある時は間違いなく中央値を用いるのが妥当です。
20150210_04.JPG

では、分布が左右対称ではなく偏っている場合は?
20150210_03.JPG
この場合、平均値は明らかに右寄りの値になります。
よく、給与所得者の平均賃金が非常に高く感じられるのは間違いなくこの為です。
中央値だとそれが緩和されて、実情に近い値になるでしょう。しかし山のピーク(最頻値)よりは右側になります。この場合は最頻値が最も多くの人が実感できる値になります。

例えば、テストがあって5人の生徒の点数(@〜D)が、
@10点、A10点、B30点、C70点、D80点だったとします。
前回の算術平均と加重平均の話に出てきた天秤の釣り合いを考えてみると、
平均値は(10+10+30+70+80)÷5=40点で重心になり天秤は釣り合います。
中央値はB番目の値、30点になり天秤は釣り合いません。
またこの3番目の順番さえ変わらなければ、他の@、A、C、Dの点数がいくつであろうが中央値は変わりません。
20160410_11.jpg

というわけで、データの代表値として"平均値"を使うか"中央値"か"最頻値"何が妥当かを判断するには度数分布図(ヒストグラム)をまず作るようにしましょう!

Excelでは、中央値を求める“MEDIAN関数”が用意されているため、データの数が奇数か偶数かとかを気にすることはありませんよ。。

次回は中央値に対応するばらつきの代表値"四分位範囲"、"四分位偏差"について説明しましょう!
20150307_02.jpg


バックナンバー
1.平均値と代表値(特性値)
2.算術平均(相加平均)と加重平均の違いは?「重み」ってナニ!?

関連ページ
QUARTILE関数で四分位点を求めてみた
統計分析の基本中の基本、度数分布表についてまとめてみた
数値データの分布をみるヒストグラムについてまとめてみた
正規分布について
中央値を求めるMEDIAN関数
データ分析の解説/メニュー
posted by haku1569 at 00:30| データ分析の解説 | このブログの読者になる | 更新情報をチェックする