データ分析の解説: (2) haku1569　Excel でらくらくデータ分析！

TOP / データ分析の解説

2016年08月27日

異常値を除外するトリム平均とは？ / データ分析の解析

平均値の説明でもあったように、平均値（算術平均）は外れ値（極端に大きい/小さいデータ）の影響を受けてしまいます。測定ミスや、入力ミス等の人為的な誤ったデータや、明らかに平均値で代表させようとする集団には本来含めていけないようなデータ等が混入する可能性がある場合は、測定データ等から平均値を求める時、意図しない最小値や最大値を取り除いて平均値をもとめる場合があります。そうやって求めた平均値をトリム平均（調整平均）と言います。
取り除くデータの数は%（データの個数の%）で表示します。
例えば100個のデータの「10%トリム平均」は最小値側、最大値側からそれぞれ10個のデータを除いた80個のデータの平均になります。

25%トリム平均のことを中央平均と言います。
この除外件数を増やして最後の1件のデータが中央値になります。
この除外件数の%表示は計算ソフトによって定義が分かれています。ExcelのTRIMMEAN関数では10%と言うと除外データの合計が10%つまり上下5%ずつ除外します。

関連ページ
平均値と代表値（特性値）
中央値についてまとめてみた（平均値と何がちがう？）
TRIMMEAN関数で最大値、最小値から指定の範囲を除いた平均値を求めてみた

データ分析の解説/メニュー

posted by haku1569 at 22:14| データ分析の解説 |

データの変動と分散についてまとめてみた /データ分析の解説

データのばらつきの大きさをみる一つの方法に、平均値との差をとってみる方法があります。

平均値との差が大きい方がばらつきが大きい。平均値との差が小さい方がばらつきが小さいと言うことができます。

ただ、この平均値との差を足し合わせてしまうとどんな場合も"0"になってしまいます。

そこで、データと平均値の差がマイナスの符号をプラスにしてやれば差の合計が0にならず大きさを比較することができます。
差がマイナスにならないようにするには、2つの方法があって、1つは絶対値をとる方法ともう一つは差を二乗してしまう方法です。ここで、差を二乗して足し合わせたものを"データの変動"と言います。

絶対値の和にしても差の二乗和にしてもデータの数が異なると比較できないので、データの個数で割った平均値をばらつきとします。
ここで、絶対値の和の平均を平均偏差、差の二乗和の平均を分散といいます。

ExcelではVARP関数で分散を求めることが出来ます。

次回は標準偏差についてまとめてみました。

ラベル：分散データの変動ばらつき

posted by haku1569 at 18:28| データ分析の解説 |

2016年04月29日

調和平均とは？ / データ分析の解説

普通に「平均」というと「算術平均（相加平均とも言います）」の事を言いますが、他に「幾何平均（相乗平均）」と「調和平均」と言うのがあります。
今回は「調和平均」についてみてみしょう。

例えば、自宅から会社ままで自動車通勤をしていて、行きは時速40km/h、帰りは時速60km/hだったとき、平均時速は？

これを、単に算術平均で、
（40＋60）÷2=50km/h
でいいかと言うと。。。？

実際に計算してみましょう。
自宅から会社までの距離を30kmとします。
行きにかかった時間は、
30km÷40km/h=0.75h（45分）
帰りにかかった時間は、
30km÷60km/h=0.5h（30分）
なので、
往復の平均時速は、
30x2÷(0.75+0.5)=48km/h
になります。

とこのような時に調和平均 harmonic meanを用います。
調和平均とは、逆数の算術平均の逆数になります。
式で書くとこうなります。

この式で先ほどの例題を解いてみると、
2÷（1÷40+1÷60）=48km/h
になりました！

算術平均と調和平均は間違いやすい時があります。
例えば、車で30分間時速40km/hで走り次の30分を60km/hで走った時の平均速度は？
算術平均の(40+60)÷2=50km/hになります。
最初の30分（0.5h）間で走った距離は40x0.5=20km、
次の30分（0.5h）間で走った距離は60x0.5=30kmなので、
平均時速は（20+30）÷（0.5+0.5）=50km/h
となります。

という訳で、、、
「算術平均」以外の「幾何平均」、「調和平均」についてまとめてみました。
ではいよいよ本題の、統計的に集団の特性を表す平均値以外の代表値の１つである「中央値」について平均値と比較しながらまとめてみました。
20140920_00中央値.jpg

バックナンバー
1．平均値と代表値（特性値）
2．算術平均（相加平均）と加重平均の違いは？「重み」ってナニ！？
3．幾何平均（相乗平均）とは？

関連ページ
データ分析の解説/メニュー
算術平均（相加平均）と加重平均の違いは？「重み」ってナニ！？
中央値（median / メジアン）についてまとめてみた

ラベル：平均調和平均

posted by haku1569 at 17:53| データ分析の解説 |

2016年04月10日

算術平均（相加平均）と加重平均の違いは？「重み」ってナニ！？ / データ分析の解説

普通に「平均」というと「算術平均（相加平均とも言います）」の事をいって、
値の総和（合計）を値の個数で割った値のことを言います。

例えば、5人のテストの点数が
40点、50点、70点、80点、60点の時の平均は
（40+50+70+80+60)=300
300÷5=60
60点になります。

で、この平均値はそれぞれの点数との差、つまり「距離」が平均値の左側の距離の合計と右側の距離の合計が同じになる、つまり釣り合う「重心」と言うことができます。
この場合、左側、右側の距離の合計は10+20=30で釣り合っています。

この釣り合いの天秤をイメージする時、間違えてはいけないことは、天秤の長さ（横軸）は値、つまりここでは点数です。天秤に乗っている錘の重さが点数なのではありません。錘は値（点数）の個数です。ここでは、それぞれ1個です。

数式で書くと算術平均は

釣り合いの式は、平均値の左側はマイナス、右側はプラスになるので合計が0（左右が釣り合う）になります。

加重平均
では、加重平均とは何かというと、、
一般的にこんな説明をよくみかけます。
「それぞれの値に重みがある場合、その重みを付けて求めた平均値」。。。
例えば、5人のテストの点数が、
40点が3人、90点が2人の時、各点数をとった人数（"3"と"2"）を「重み（ウェイト：w）」として、
加重平均は
40x3+90x2=300
300÷（3+2）=60
60点となります。

と言う説明が一般的にされています。
元々「平均」と言うのは、
「値の総和を値の個数で割った値」ですから、この加重平均って算術平均と何が違うの？
（40+40+40+90+90）÷5=60を
（40x3+90x2）÷(3+2)
って書き換えただけじゃないの？って思う。「重み」って何だ！？と単純に疑問が湧く。

あと、こんな説明
1学年で2つのクラスがあってテストの結果、
1組の平均値が40点、2組の平均値が60点だった時、この学年のテストの平均値は？という例題、
比較的これは「重み」の意味が理解しやすい例題です。

算術平均では、
(40+60)÷2=50？
これは学年のクラスの平均値ですよね。分母の"2"はクラスの数ですから、、
では、「この学年のテストの平均値」と言う問いは何を求めたいか？
生徒1人当たりの平均値ですよね、普通。
すると、「値の総和を値の個数で割る」のだから、各組の生徒の人数を加味しなければなりません。
1組の生徒の数は20人、2組は30人なので、
値の総和は、40x20+60x30=2600点
値の個数は、20+30=50人
で、生徒1人当たりのテストの平均値は
2600÷50=52点　になります。
この場合、各クラスの生徒数を「重み」として
加重平均は、(40x20+60+30)÷(20+30)=52
となります。
式で書くとこうなります。

算術平均と加重平均の違いは？
んで、根本的に算術平均と加重平均の違いは何かと言うと、、、
同じなんです！
加重平均の重みが全て"1"の特殊なケースが算術平均と言うわけなんです。

最初の例題、5人のテストの算術平均の式は、実はそれぞれの重み"1"が省略されているだけなんです。
つまり、
40点が1人、50点が1人、70点が1人、80点が1人、60点が1人の時の加重平均は
（40x1+50x1+70x1+80x1+60x1)÷(1+1+1+1+1)=300÷5=60
と言うわけです。
んで、算術平均は平均値の左側と右側の距離が釣り合う「重心」という説明をしましたが、
加重平均の「重み」とは正に天秤に置く「錘（おもり）」そのものなんです。
中学の理科で習う「力の釣り合い」や「重心」の計算そのもの。
高校物理では「モーメント」として定義されます。
「腕の長さとその錘の重さの積が釣り合う場所が重心」その「重心」が「加重平均」
「錘の重さ」こそが加重平均でいう「重み」になるわけです。

最初の加重平均の例題の
「5人のテストに点数が、40点が3人、90点が2人の時」というのは、言い換えると
40点の位置に錘が3つ、90点の位置に錘が2つある時の重心位置はどこか？になります。

ちなみに、物理の重心位置を求める式は、

加重平均の式と同じです。
んで、これって数学の内分点の式なんです。
線分A、Bがあって点Pがm:nの位置にある時に「点Pは線分A、Bをm:nに内分する」と言い
内分点の位置はこのように求められます。

これまた、加重平均の式と同じです。
ところで、この内分点は「四分位数」（データ分布のばらつきを表す指標）を求める時も登場します。

ところで、Excelでは加重平均を直接求める関数はないのですが、配列の積（掛け算）の合計を求める「SUMPRODUCT関数」と言うのがあり、いわゆる"重み付けの合計"を求めることができます。この結果を重みの合計で割れば加重平均を算出することが可能です。

さて「平均」と言うのは「値を足して個数で割る」算術平均だけではありません、掛け算をしたり逆数を足したり、色々な平均があります。それらを良く理解していないと、なんでもかんでも算術平均で平均が求められると勘違いしてしまいます。
次回はそんな色々な平均の１つ「幾何平均（相乗平均）」についてみてみましょう！

バックナンバー
1.平均値と代表値（特性値）

関連ページ
配列の掛け算の合計を求るSUMPRODUCT関数で加重平均を求めてみた
QUARTILE関数で四分位点を求めてみた
統計分析の基本中の基本、度数分布表についてまとめてみた
数値データの分布をみるヒストグラムについてまとめてみた
正規分布について
中央値を求めるMEDIAN関数
データ分析の解説/メニュー

ラベル：相加平均算術平均平均加重平均重心内分点重み

posted by haku1569 at 01:11| データ分析の解説 |

2015年06月06日

ローレンツ曲線とジニ係数についてまとめてみた /データ分析の解説

ローレンツ曲線（Lorenz curve）というのは、所得や貯蓄の格差つまり分配の不公平さの状態を視覚化させるグラフで、ジニ係数（Gini coefficient）とは、それを代表値として数値で表したものです。
ところで、格差（Differential）とは、、「同類のものの間における価格、資格、等級、水準等の格付け上の差」と定義されています。。。

もう少し具体的に説明すると、ローレンツ曲線は横軸に人数の累積構成比、縦軸に分配金額（所得や貯蓄額）の累積構成比をとったグラフの曲線のことで、全ての人に格差なく平等に分配されていると直線になりこれを"均等分配線"と呼びます。これに対し分配に格差あると下方向に膨らんだ凹の曲線になります。
　
ジニ係数は、均等分配線とローレンツ曲線に囲まれた面積を均等分配線の下（三角形）の面積で割った値で、格差が無いと"0"、格差が大きいと"1"に近付きます。

それでは、簡単な例で実際にローレンツ曲線、ジニ係数を求めてみましょう。
100万円を5人に分配します。
2万円、5万円、8万円、15万円、20万円、50万円と格差をつけて不平等に5人に分配します。
そして、分配額を小さい順に並べ、人数の累積値、分配額の累積値を求め、それらを合計値で割った人数の累積構成比、分配金額の累積構成比を求めます。

これらの点をプロットしたのがローレンツ曲線になります。
また、均等分配線は5人に20万円づつ一律に分配されることなので、原点（0,0）と（1,1）を結ぶ直線になります。

この場合、格差が最大になる場合は、4人は分配されず1人にだけ100万円が分配される時で、その時のローレンツ曲線はこうなります。

では次に、ジニ係数を求めてみましょう。
分母の均等分配線の三角形の面積は縦軸、横軸とも最大値が"1"なので、分母は"0.5"になります。
で、問題は分子の面積です。
これは、均等分配線の下の面積から、ローレンツ曲線の下の面積引けば求められます。

余談ですが、この分子の様な形を"弓形"と言い、直線部分を"弦"、曲線部分を"弧"と言います。

では、ローレンツ曲線の下の面積をどうやって求めるかですが、、
曲線と言っても実際は点をプロットして直線でつないでいるので、台形の集合になっているわけです。
ということで、それぞれの台形の面積を計算して合計すれば、求めることができるわけです。
ちなみに、台形の面積は、（上底＋下底）×高さ÷2です。。。

ここで、
上底：ひとつ前の分配額の累積構成比
下底：その個所の分配額の累積構成比
高さ：その個所の人数の累積構成比とひとつ前の人数の累積構成比の差
になります。

んで、さっきの100万円の分配のローレンツ曲線の下の面積を計算すると。。。

面積は"0.257"になって、求める弓形の面積は"0.5-0.257=0.243"になります。
で、ジニ係数は"0.243÷0.5=0.487"となりました。

例えば、国税庁が公表している"民間給与実態統計調査"のデータから、H15年とH25年のローレンツ曲線を画いて格差が広がったかどうか見てみましょう。

100万円の分配の時は各分配金額がすべて1人づつでしたので、分配額を単純に足せば100万円になりましたが、このデータは給与の階級毎に多くの人数が存在します。なので一旦、"人数×金額"で階級毎の総額を求めてから総額の累積構成比を求めなければなりません。

で、ローレンツ曲線はこうなりました。

かなり下に膨らんでいて格差が大きいことがわかります。
ですが、H15から10年後のH25で格差が広がっているかと思いきや、ほとんど変わっていないようです、
ただ、ジニ係数はH15年が"0.352"、H25年が"0.362"と僅かに増加しているのがわかります。
このデータは「1年を通じて勤務した」人なので、いわゆる「定職に就いている人」と解釈することもできます。
「1年未満勤務者」なども確認してみる必要がありそうです。
因みにジニ係数0.4が警戒ラインだとか。。。

関連ページ
データ分析の解説/メニュー

ラベル：ローレンツ曲線ジニ係数格差

posted by haku1569 at 23:42| データ分析の解説 |

2015年05月06日

箱ひげ図についてまとめてみた /データ分析の解説

データの分布の様子を見える化して確認する為にまずヒストグラムを描いてみるのが大切なのですが、比較するデータのグループがたくさんある時はいちいちヒストグラムを描くのはめんどくさい。。。
そこで便利なのが"箱ひげ図（Box Plot）"です。

箱ひげ図は"四分位数（点）"から作る事ができます。
"最小値"、"第1四分位数"（25％点）、"第2四分位数"（中央値）、"第3四分位数"（75%点）、"最大値"から作成します。

複数のデータのグループの分布を比較する時は縦型の箱ひげ図を使うと便利です。

箱ひげ図をみてヒストグラムをイメージできるようになるのが肝だ。

箱ひげ図では単峰性（山が1つ）か多峰性（山が2つ以上）かどうかは分かりません。
箱が長くてひげが短いような形の場合はヒストグラムを描いて多峰性かどうかの確認が必要です。

では、次回はこの箱ひげ図をExcelのグラフで実際に描いてみましょう。

バックナンバー
1．平均値と代表値（特性値）
2．中央値についてまとめてみた（平均値と何がちがう？）
3．四分位点、四分位範囲、四分位偏差についてまとめてみた

関連ページ
統計分析の基本中の基本、度数分布表についてまとめてみた
数値データの分布をみるヒストグラムについてまとめてみた
正規分布について
中央値を求めるMEDIAN関数
データ分析の解説/メニュー

ラベル：箱ひげ図四分位数

posted by haku1569 at 15:37| データ分析の解説 |

2015年03月15日

パーセント点（パーセンタイル）についてまとめてみた/データ分析の解説

パーセント点（パーセンタイル/Percentile）と言うのは、データを最小値から最大値まで順に並べた時、全体（100%）の指定した割合（%）の順位の値のことです。
四分位点の第１四分位点が25パーセント点、第２四分位点（中央値）が50パーセント点、第３四分位点が75パーセント点になります。
つまり、qパーセント点=q/100分位点ということです。
なので、四分位点より自由な位置（割合）での評価ができます。

正規分布の場合？
って、この○○分位点による評価は外れ値等がある正規分布ではない場合に有効な評価方法なので、正規分布の場合って言うのは場違いなのだけど、分かりやすく説明する為にあえて言うと。。。
いわゆる、2σの範囲に全体のデータの95.4%が含まれると言うことは、
95.4+(4.6/2)=97.7パーセント点の値は平均値+2σということになります。。。
詳しくは正規分の解説をご覧ください。。

また、"1-qパーセント点"を"上側qパーセント点"といいます。
つまり、97.7パーセント点は上側2.3パーセント点ともいいます。
Excelでは"NORMINV関数"で求めることが出来ます。

バックナンバー
1．平均値と代表値（特性値）
2．中央値についてまとめてみた（平均値と何がちがう？）
3．四分位点、四分位範囲、四分位偏差についてまとめてみた

関連ページ
統計分析の基本中の基本、度数分布表についてまとめてみた
数値データの分布をみるヒストグラムについてまとめてみた
正規分布について
中央値を求めるMEDIAN関数
データ分析の解説/メニュー

ラベル：パーセンタイルパーセント点分位点

posted by haku1569 at 21:28| データ分析の解説 |

2015年03月07日

四分位数（点）、四分位範囲、四分位偏差についてまとめてみた。Excelと数学Ⅰの違いは？ / データ分析の解説

平均値が外れ値等の影響を受けてしまう場合、平均値よりも中央値の方が代表値として適当であることを前回説明しましたが、それではばらつきについてはどうでしょうか？
ばらつきの代表値"標準偏差"も平均値と同じく集団のデータ分布が正規分布に近い場合に有効な値になります。と言うのも、標準偏差も平均値とデータの差をばらつきとしているためです。

そこで、データの分布が正規分布でないような場合でも簡単にばらつきの状態を評価するのが、"四分位数（Quartile）"または"四分位点（Quartile point）"、"四分位範囲（Interquartile range / IQR）"、"四分位偏差（Quartile deviation）"になります。
なので、中央値を代表値とする場合は、ばらつきは四分位偏差を代表値とします。

四分位数はデータを最小値から最大値まで順に並べて4分割（25%ずつ）した時、
第１四分位数（Q1）：25%の値
第２四分位数（Q2）：50%の値（中央値）
第３四分位数（Q3）：75%の値
とします。

四分位数（点）の求め方
四分位数（点）の求め方は実は色々あるのですが、このサイトはExcelを実行手段としたサイトなのでExcelのQUARTILE関数をベースとした求め方で説明します。
内分点（線の長さの分割）を求める方法を使用しています。
これは、高校の数学Ⅰで教えられている四分位数とは異なります。数学Ⅰの四分位数は後ほど説明いたします。。

内分点と言うのは全体（データの個数：n）をa：bに分割する時、その分割点qは
q=（bx1＋axn)/(a＋b)
で求められます。
つまり四分位数の場合は全体を4分割するので、第1四分位点q1は1:3に分割する点、第2四分位点は2:2に分割する点、第3四分位点は3:1に分割する点ということになります。

データの個数が偶数の場合
データの数を8個の場合を求めてみます。
第1四分位数（点）はデータの個数を1:3に分割する内分点になるので
q1=（3x1＋1x8)/(1＋3)=2.75
最小値から2.75番目のデータ

第2四分位数（点）はデータの個数を2:2に分割する内分点なので
q2=（2x1＋2x8)/(2＋2)=4.5
最小値から4.5番目のデータ

第3四分位数（点）はデータの個数を3:1に分割する内分点なので
q3=（1x1＋3x8)/(3＋1)=6.25
最小値から6.25番目のデータ
となります。
分かりやすく図にしてみると、1から8の間、つまり7を4等分する点となるのがわかります。

q1=1+1.75=2.75
q2=2.75＋1.75=4.5
q3=4.5+1.75=6.25
となるわけです。。。

さて、この8つのデータが
１、２、７、１０、１１、１５、１８、２０とすると、

まずQ1の2.75番目の値ですが、2番目のデータが"2"、3番目のデータが"7"なので
Q1=2＋(7-2)ｘ0.75＝5.75

Q2の4.5番目の値は、4番目のデータが"10"、5番目のデータが"11"なので
Q2=10+(11-10)ｘ0.5＝10.5

Q3の6.25番目の値は、6番目のデータが"15"、７番目のデータが"18"なので
Q3=15+(18-15)ｘ0.25＝15.75
となります。

データの個数が奇数の場合
今度はデータの個数が奇数の7個の場合です。
第1四分位数（点）はデータの個数を1:3に分割する内分点になるので
q1=（3x1＋1x7)/(1＋3)=2.5
最小値から2.5番目のデータ

第2四分位数（点）はデータの個数を2:2に分割する内分点なので
q2=（2x1＋2x7)/(2＋2)=4
最小値から4番目のデータ

第3四分位数（点）はデータの個数を3:1に分割する内分点なので
q3=（1x1＋3x7)/(3＋1)=6.25
最小値から5.5番目のデータ
となります。
分かりやすく図にしてみると、1から7の間、つまり6を4等分する点になるのがわかります。

q1=1+1.5=2.5
q2=2.5＋1.5=4
q3=4+1.5=5.5
となるわけです。。。

さて、この8つのデータが
１、２、７、１０、１１、１５、１８とすると、

まずQ1の2.5番目の値ですが、2番目のデータが"2"、3番目のデータが"7"なので
Q1=2＋(7-2)ｘ0.5＝4.5

Q2の4番目の値は、小数点は付かないのでそのまま
Q2=10

Q3の5.5番目の値は、5番目のデータが"11"、6番目のデータが"15"なので
Q3=11+(15-11)ｘ0.5＝13
となります。

これが、Excelの"QUARTILE関数"での内分点（線の長さの分割）を用いた四分位数（点）の求め方になります。
さて、一般的に知られている高校の"数学Ⅰ"で教えられている方法は内分点用いる方法とは異なっています。簡単に説明しておきましょう。。

高校数学Ⅰで教わる四分位数（点）
高校の数学Ⅰで教えられている四分位数（点）の定義はこうです。
第1四分位数：最小値から中央値の1つ前までの値の中央値
第2四分位数：中央値
第3四分位数：中央値の後から最大値までの値の中央値
となります。

データの個数が偶数の場合（8個）
これも、図にしてみると、

q1=1+1.5=2.5
q2=1+3.5=4.5
q3=8-1.5=6.5
となります。
で、この8個のデータが同じく１、２、７、１０、１１、１５、１８、２０とすると、
Q1=2+(7-2)x0.5=4.5
Q2=10+(11-10)x0.5=10.5
Q3=15+(18-15)x0.5=16.5
となって、Excelでの値とは異なる事がわかります。

データの個数が奇数の場合（7個）
図にしてみると、

q1=1+1=2
q2=1+3=4
q3=7-1=6
となります。
で、この7個のデータが同じく１、２、７、１０、１１、１５、１８とすると、
Q1=2
Q2=10
Q3=15
となります。

尚、QUARTILE関数で実際に値を求めてみましたのでご覧ください。

四分位範囲とは
四分位範囲と言うのは第３四分位数（点）から第１四分位数（点）を引いた値です。
つまり第２四分位数（点）（中央値）を挟んだ50%のデータの数の範囲と言うことになります。

四分位偏差とは
四分位範囲を2で割った値で、中央値と共にばらつきを代表する値になります。
但し、四分位数（点）はデータの個数での分割なので、第３四分位数（点）－中央値と、中央値－第１四分位数（点）は一致するわけではありません。
また、標準偏差とは違って、もともと左右対称の正規分布ではない分布に対する代表値なので、中央値±四分位偏差と言う捉え方は適当ではありません。
なので、むしろ四分位範囲を見た方が良いと思います。。

外れ値と特異点の目安
外れ値の目安として一般的に
外れ値<第1四分位数-1.5x四分位範囲
外れ値>第3四分位数+1.5x四分位範囲
とされている。
また、更にそれより外れているデータの事を"特異点"といって
特異点<第1四分位数-3x四分位範囲
特異点>第3四分位数+3x四分位範囲
とされています。

箱ひげ図
それから、四分位数（点）を図にしたのを"箱ひげ図"といいます。
箱ひげ図を描くといちいちヒストグラムを描かなくてもデータの分布の様子がある程度分かるようになります。詳しくはコチラを見てください。

さて、次回は四分位数（点）ではなく自由な○○分位数（点）で評価するパーセント点について解説します。

バックナンバー
1．平均値と代表値（特性値）
2．算術平均（相加平均）と加重平均の違いは？「重み」ってナニ！？
3．中央値についてまとめてみた（平均値と何がちがう？）

関連ページ
QUARTILE関数で四分位点を求めてみた
統計分析の基本中の基本、度数分布表についてまとめてみた
数値データの分布をみるヒストグラムについてまとめてみた
正規分布について
中央値を求めるMEDIAN関数
データ分析の解説/メニュー

ラベル：四分位点四分位範囲四分位偏差ばらつき中央値内分点四分位数

posted by haku1569 at 23:29| データ分析の解説 |

2015年03月01日

ばらつきを比較する変動係数についてまとめてみた/データ分析の解説

集団のばらつきは標準偏差で代表されますが、異なる集団（データ）でばらつきを比較するにはどうしたらいいでしょーか。。。
平均値が異なる場合、平均値が大きいと標準偏差も大きくなってしまい、標準偏差だけではどちらがばらつきが大きいか比較できません。
そこで、変動係数（CV：Coefficient of variation）を使用します。

変動係数とは標準偏差を平均値で割った値で、ばらつきの平均値が集団の平均値の何倍あるかという値で、無次元（単位がない）の値になります。
平均値の異なる集団（データ）、または単位が異なる集団（データ）でもばらつきの大小を比較することができます。

バックナンバー

関連ページ
分散と標準偏差（ばらつき）についてまとめてみた
統計分析の基本中の基本、度数分布表についてまとめてみた

ラベル：ばらつき標準偏差変動係数 CV

posted by haku1569 at 18:09| データ分析の解説 |

2015年02月11日

ヒストグラムを層別にしてみると！？/データ分析の解説

前回のヒストグラムの分布型で多峰性や非対称の場合、単峰性の別の集団が混在している可能性が考えられるわけなのですが、その要因をどうやって見つけるか。。。
それは、ヒストグラムを層別にしてみるということです。
"層別"というのは、それぞれのデータを要因毎に分けるということで、それらの要因がデータとして記録されていることが当然の前提になります。

例えば、このような機械加工品の検査データのヒストグラムがあります。
よく見ると全体的に右裾が長く"59-60"のところで2つ目のピークがあります。

よくデータを分析したところ、加工する機械が2台だったことが分かりました。
機械Aのヒストグラムはこうなりました。

機械Bのヒストグラムはこうなりました。

で、2つの単峰性のヒストグラムが混在した状態で層別にしてみるとこのようになります。

因みに、一番最初のヒストグラムは、この機械Aと機械Bの度数を足したものとなります。
と、このように層別にする要因を見つけだすことが肝になります。
まぁ、このサンプルは非常に分かりやすくなっていますが、現実はバラつきを発生させる要因はもっと沢山あったり、それらが複雑に影響しあったりします。
いずれにしても、要因分析できるように様々なデータを記録しておくのが肝心です。

おまけ。。。層別のもう一つの見方
さて、この機械Aと機械Bで加工された加工品の寸法ですが、今まで見てきたのは"L寸法"で、実は他に"H寸法"もあります。
で、この"H寸法"を層別のヒストグラムにしてみると、こうなりました。

つまり、"L寸法"よりも"H寸法"の方が、機械のバラつきを大きく反映してることが分かります。
このように要因を探すのも、1つのデータだけでなく、もし複数のデータがある場合は、他のデータがどうなっているのかも分析する必要があります。
ちなみに、Excelではピボットーブルを使うと層別のヒストグラムも簡単に作ることができます。

バックナンバー
統計分析の基本中の基本、度数分布表についてまとめてみた
数値データの分布をみるヒストグラムについてまとめてみた

関連ページ

FREQUENCY関数で度数分布を求めてみた

ピボットテーブルで度数分布表、ヒストグラムを作ってみた

データ分析ツールでヒストグラムを作ってみた

正規分布についてまとめてみた

データ分析の解説/メニュー

ラベル：ヒストグラム層別多峰

posted by haku1569 at 22:47| データ分析の解説 |

<< 1 2 3 4 >>