分散と標準偏差について宇宙一分かりやすく説明する記事です。
分散
分散は、データの散らばり具合を示します。
例として、AとB、2つのデータを考えてみましょう。

どちらも平均はおなじですが、データの散らばり具合は異なります。この「散らばりぐらい」を表すのが分散という概念になります。
分散の求め方は簡単です。
- データの偏差(個々の値と平均の差)を出す。
- 偏差を全て二乗にする。
- 全て足して、n(データの個数)で割る。
一つずつ解説していきます。
データの偏差(個々の値と平均の差)を出す。
偏差とは、値と平均の差です。

各データの値からそのデータの平均を引いた数が偏差になります。
偏差を全て二乗にする。
次に偏差をそれぞれ二乗します。

当たり前ですが、二乗すると全て正の値になります。
全て足して、n(データの個数)で割る。
そして、二乗した偏差を全て足し合わせ、データの個数で割れば分散を求めることができます。
このとき、普通にデータの個数(n)で割った値を標本分散と言い、データの個数から1を引いた数(n-1)で割った場合は不偏分散と言います。
統計学では殆どの場合、不偏分散を用いて計算します(その方が数学的に正確になので)。ここでもn-1で計算しておきましょう。

上記を計算すると、データAの分散は0.8、データBの分散は10になります。
直感的に分かると思いますが、分散の数値が大きいほどデータのばらつきも大きい、ということになります。
標準偏差
次に標準偏差ですが、これは単に分散の平方根したものです。

データAの標準偏差は約0.9、データBの標準偏差は約3.2になります。
分散も標準偏差も本質的には同じものを表しています。
それは、データの散らばり具合ですね。
では、なぜわざわざ標準偏差というデータがあるのでしょうか。
ちょっと下の表を見てみましょう。

どうでしょう。何となく、標準偏差のほうが、データの散らばり具合を示す数字としてはしっくりくると思います。データBが特に分かりやすくて、全体的に押しなべた場合、平均である5を中心として大体±3.2くらいの広がり幅がありそうです。
一方で、分散は、各データを二乗するため、感覚的に理解しにくい数字になってしまうのです。
一度平方根して、単位をそろえても不自然じゃない数字に直したのが標準偏差なのです。
おわりに
どうでしょう。なるべく数式を避けて具体的に説明してみました。
名前は難しいですが、一度理解してしまえば大変便利な考え方ですし、統計を勉強する上では必須の内容です。
そこまで難しい話でもないと思いますので、しっかりとマスターしておきましょう。
コメント