基本統計量


それではさっそく統計の基礎用語について勉強していきましょう。
本日扱うのが、
基本統計量という項目です。


基本統計量とは、
「データの基本的な特性を表す値」です。
それは主に2種類に区別されます。代表値散布度というものです。
それぞれどういうものか、以下に示します。


● 代表値・・・分布全体を一つの数で表しているもの
ex) 平均値(average)、中央値(median)、最頻値(mode)、最大値(maximum)、最小値(minimum) etc.

● 散布度・・・データのばらつきの大きさを示したもの
ex) 分散(variance)、標準偏差(standard deviation)、変動係数(coefficient of variation) etc.



それでは、例をとってもう少し詳しく見ていきましょう。
なお、今からお話しする集団は各要素を
「X1,X2,X3,…Xn」として扱います。

基本統計量
検定
分散分析
多重比較検定
相関
回帰
ロジスティック回帰
・遺伝率
● 代表値 _
① 平均(means)
これはよく使われていますし、みなさん分かりますよね?
定義としては、
データの中心的傾向を示す値となります。
普段はデータの値をすべて足して、足したデータ数で割る、といった相加平均が使われます。


・相加平均の式
② 中央値(/median)
データを上から順番に並べて、真ん中の順番になったその値のことです。
全データが奇数であるか偶数であるかで中央値の扱いが異なります。

・Nが奇数の場合:真ん中の値
・Nが偶数の場合:真ん中2つの値の平均値
③ 最頻値(/mode)
回数が最も多く現れるデータの値です。
「1,2,3,3,4,5,6,7,8,9,10」というデータがあった場合、最頻値は「3」になります。
④ 最大値(maximum)・最小値(minimum)
標本集団のうちの最も大きな数と小さな数を表します。


● 散布度
⑤ 分散(σ2)・標準偏差(σ、√σ2
さて分散。これが今回のキモです。

分散は、測定値の変異、つまりどの程度データにバラツキがあるかを示しています。
平均が同じ値であったとしても必ずしも同じ傾向のあるデータとは言い切れません。
以下のグラフを見てください。

これは、全て平均を0に置き、標準偏差を少しずつずらした正規分布図です。
平均が同じでも、このように分散が違うデータは、異なる分布となります。

分散は、それぞれの観測値と平均値の間の差を平方した値の平均です。
二乗の値となっているのは、正負の偏差を合計することで偏差が相殺されてしまうのを防ぐため。

標準偏差は分散の二乗値の平方根を求め、元のデータと単位を合わせたものです。
平均値と標準偏差の単位は同じなので、標準偏差は観測値の範囲を表すために分散よりよく用いられます。


⑥ 変動係数
標準偏差を比較する場合、データの単位に左右される場合があります。
それを防ぐため、標準偏差を平均値で割り、単位のない相対的なデータに均一化します。
これを、変動係数と言います。
いかがだったでしょうか?
統計に使う基本的な値ばかりですので、これらの用語はイメージだけでもつかんでおくと、これ以降の説明も分かりやすくなると思いますよ。

では、また次回。




 東北大学大学院農学研究科 資源生物科学専攻 動物遺伝育種学分野
〒981-8555 仙台市青葉区堤通雨宮町1-1
Copyright © Laboratory of Animal Breeding and Genetics Tohoku University. All rights reserved.