2016年08月27日

異常値を除外するトリム平均とは? / データ分析の解析

平均値の説明でもあったように、平均値(算術平均)は外れ値(極端に大きい/小さいデータ)の影響を受けてしまいます。測定ミスや、入力ミス等の人為的な誤ったデータや、明らかに平均値で代表させようとする集団には本来含めていけないようなデータ等が混入する可能性がある場合は、測定データ等から平均値を求める時、意図しない最小値や最大値を取り除いて平均値をもとめる場合があります。そうやって求めた平均値をトリム平均(調整平均)と言います。
取り除くデータの数は%(データの個数の%)で表示します。
例えば100個のデータの「10%トリム平均」は最小値側、最大値側からそれぞれ10個のデータを除いた80個のデータの平均になります。
20160827_01.jpg

25%トリム平均のことを中央平均と言います。
この除外件数を増やして最後の1件のデータが中央値になります。
この除外件数の%表示は計算ソフトによって定義が分かれています。ExcelのTRIMMEAN関数では10%と言うと除外データの合計が10%つまり上下5%ずつ除外します。

関連ページ
平均値と代表値(特性値)
中央値についてまとめてみた(平均値と何がちがう?)
TRIMMEAN関数で最大値、最小値から指定の範囲を除いた平均値を求めてみた

データ分析の解説/メニュー
posted by haku1569 at 22:14| データ分析の解説 | このブログの読者になる | 更新情報をチェックする