分散の計算と意味理解

顔妻です。

今回は統計的な意味での「分散」について意味を理解するために、どのような計算過程で作られているかを直感的な理解が進むようにグラフを使って説明をしていきたいと思います。分散は計算しただけでは何かの示唆を導いたり、分析に活用することは少し難しいかもしれません。ただ、この値を応用して標準偏差や分散分析、その他の統計手法で利用することの多い重要な概念ですのでしっかりと理解できるようにしたいと思います。

分散の意味と役割

分散は変数のばらつき具合を定量化したものになります。これがわかると何が嬉しいと言うと、一つは数値化したことによって比較ができるようになります。また、ばらつきを定量化したこの数値を応用して差をとったり、さらに計算を加えることで様々な統計手法で活用されています。

分散の作り方・理解

まず、アレルギーが出た方もいると思いますがこれが標本分散を計算するための公式になります。ここの時点で、あーこれねという方はこれ以下の説明において不偏分散にも触れませんので、読み飛ばして頂くのがいいと思います。

お待たせしました。なんのこっちゃわからんな方々はRを使いながらイメージできるように説明をします。ちなみに「標本分散」「不偏分散」というワードをだしましたが、今回は「標本分散」についての説明を行います。もし、統計手法に詳しい方に聞かれたら標本分散のことしかわかりませんとはっきりお伝えください。

それではまず、この数式が何をやっているかを説明すると以下の3stepになります。

  1. 変数の各要素から変数の平均()を引いて要素毎の偏差をだす。(要素毎の偏差を計算)
  2. 偏差を二乗してから合計する(偏差二乗和の計算)
  3. 2で計算した偏差二乗和を要素数で割る(分散の計算)

いまいち腹に落ちていない方もいると思いますので、データを可視化しながら確認をしていきましょう。それでは、HightOfStudentこのデータをRに取り込んで以下のコードを走らせてください。

先ほどのデータに含まれている身長のデータをあえて1直線で可視化してみました。このデータをみると各要素にちらばりがありそうですね。ただ、少しわかりにくいし次の説明がしづらいので、別の可視化方法を試しましょう。

こちらは先ほど可視化した変数を横に広げるために生徒名をx軸にとって横に広げています。最初からこっちでやれば、、、という気持ちもわかりますが、1変数での可視化が直線になるというのはあたり前かもしれませんが大事な考えですのでお作法だと思ってみて頂ければと思います。

それでは偏差のイメージを掴むために次は以下のコードです。

赤い線が平均線になります。そして数式の説明でも書きましたが変数の各要素の値から変数の平均を引くと偏差がでます。この図でいうと、Aの要素と赤い平均線との距離やFの要素と赤い平均線との距離になります。

それでは次は各要素と平均の差である偏差との各偏差の二乗した値を計算してから、分散の計算まで一気に進めてみましょう。

桁数の設定にもよるかもしれませんが、「31.69162」これに近い数値が計算されたのではないでしょうか?これが今回の身長の分散になります。どう評価したらいいかわからないと思いますが、実際この値だけではほとんど判断ができませんので統計手法を学ぶ上で必要なものと割り切って貰えればと思います。

ちなみに、なぜ偏差を二乗するのか不思議に思っている方も多いと思いますが、これは偏差を単純に足すと0になってしまうということや、この計算が変数の平均値からの距離というイメージに近かったり、確率的にきれいな性質を満たすということが挙げられます。

分散のまとめ

今回は分散についてイメージを持ってもらうために、あえて、標本分散のみにスコープをあて可視化しながらの説明を行いました。ページの最初にも書いてある通り、この分散を計算しただけでは分析や実務での活用がしにくいのですが、様々な統計手法で使われる重要な基礎です。また、数式を覚えることが苦手な方も多いと思いますが、理解しておくと今後統計を勉強するうえで非常に役立ちますので是非トライをしてみてください。

コメントを残す

メールアドレスが公開されることはありません。

CAPTCHA