SSブログ

標準偏差のまとめ1 [統計学]

久々に統計学のお話(*・ω・*)b♪

やっとひとつのまとめです。+。:.゚(*゚Д゚*)キタコレ゚.:。+゚

最初のころに似たような記事を書きましたが、エクセルでのまとめではなかったのでやり直し!!
これまで標準偏差について、書いてきましたが、そもそも標準偏差とはどう計算してるの?
ばらつきをあらわすってどうゆうこと??

って疑問を追及してみます。

↓こんなデータがあったとします
データ.jpg

↓標準偏差を一発計算してみます。
 エクセルで「=stdev(セル:セル)」が計算式です。
標準偏差一発計算.jpg

標準偏差はデータ全体のばらつきの程度をひとつの数字で表したものです。(`・ω・´)ノ
それってどうゆうこと??って所です。このデータをグラフ化したときのプロット(点)の広がりがばらつきです。
↓↓↓
ばらつきの程度.jpg

もう少しわかりやすくするためにこの15個のデータの平均値を求めてグラフに平均線を描いてみました。
↓↓エクセルでの平均を求める式は「=average(セル:セル)」です。
グラフでみたバラツキ.jpg
赤矢印で示した、ここのプロットと平均線との距離(差)がバラツキです(*`σェ´*)
これを「偏差」といいます。
とりあえず、これを数値として出してみますね。
個々のデータ-平均=偏差となります。
偏差.jpg


偏差が個々のデータのバラツキ度合いを示すなら、これを平均すりゃいいじゃん?+。:.゚(*゚Д゚*)キタコレ゚.:。+゚
ってことで偏差の平均を求めてみました(´∀`*)ウフフ
↓↓↓
偏差の平均.jpg
・・・|д・) ソォーッ… 0になりましたね・・・
そりゃそうですよね?平均とは全データの中心・・・そこからのズレを出して平均したら0になりますよね・・・。
+の数字と-の数字が等しくあるので相殺しちゃうんですよね( ̄Д ̄)ノ




ここで諦めなかった昔の人は偉いですよね~☆
じゃあ無理やり全部+の数字にしちゃえ!!! どうやって??
プラスの数字はそのままにしておきたい。マイナスはプラスにしたい・・・なら2乗しちゃえ!!!!!
hensa2zyou.jpg
これで全部プラスの数値になった(´∀`*)ウフフ

さてこれを平均するためにまず合計をもとめましょう
合計の計算式は「=sum(セル:セル)」です。
偏差平方和.jpg
まだ標準偏差とは違う数字・・・( p′︵‵。) クヤシー

でもねこの数字もこれから活躍します(*・ω・*)b♪
この偏差の2乗の合計を「偏差平方和」と言います。ややこしい名前ですね?
ちょっと余談ですけど、 「㎡」この単位は平方メートルと読みますよね?長さ(メートル)×長さ(メートル)で㎡となりm(メートル)の右上にちっちゃい2が乗っかります。.....φ(・ω・*)カキカキ
ちっちゃい2が乗っかるのって2乗ってこと!つまり平方って2乗のことなんですよねv(。・ω・。)ィェィ♪

そして和は和、差、積、商って+、-、×、÷のこと。つまり偏差(の2乗)平方(を全て合計)和したものということでした~(*^ワ^*)

さて本題に戻って、偏差の2乗の平均を出したいんでしたね?
なので偏差平方和をデータ数=15で割ってみましょう(*・ω・*)b♪↓↓↓
分散.jpg
まだ標準偏差にはたどりつかない・・・( p′︵‵。) マダナノ?

でもこれも統計学では活躍する数字、「分散」といいます。分散分析に用います。(*・ω・*)b♪

というか製造業において、全ての商品のデータを取るなんてことはあまりありませんよね?
そんなときは、全データ数で割るのではなくて、「自由度」といってデータ数-1の数字で割り算したりするんです。(`・ω・´)ノ

自由度ってなに?なんで-1なの??って所は書くと長くなりそうなのでまた今度まとめることにしますね。
とにかくそういうことで自由度を加味して偏差平方和を割り算してみました。(*・ω・*)b♪
不偏分散.jpg
 ※ちょっと見えてるグラフは編集ミス・・・気にしないでください。

んでこれまた標準偏差とは違う数字・・・( p′︵‵。) モウヤダ・・・

でもこれも活躍する数字!!!「不偏分散」といいます。


てかそもそも2乗してるから単位違うじゃん!!! mの寸法データだったら㎡になってんじゃん!!Σ( ̄□ ̄;)
2乗・・・乗数・・・元に戻すのはー・・・あー・・・平方根!!ルート!!! こんなやつ→√
ってことでとりあえず不偏分散の平方根を算出してみます。(`・ω・´)ノ
エクセルでの平方根は「=sqrt(セル)」です。
標準偏差.png
+。:.゚(*゚Д゚*)キタコレ゚.:。+゚

ドンピシャです!!

つまり標準偏差とは、平均からの個々のデータのズレ=偏差をひとつの数字で表すためのもの。
その過程でじゃまな+や-の符号を排除するために2乗したりするので、平方根なんかも出てきますが、単純に狙いは、偏差を平均化したいだけだと思ってください(`・ω・´)ノ

偏差を出しただけでは、二つのデータ群のバラツキ度合いを比較したいとき、もしもデータが100個とかあれば比較が非常に大変ですよね?ならそれをひとつの数字で表せたほうが便利でしょ?

今日長々と書いたような計算は冒頭に書いたようにエクセルの計算式で一発計算!!PCが全部やってくれますv(。・ω・。)ィェィ♪
でもその計算の中身を知ってるのと知ってないのでは、得た結果に対する理解に雲泥の差ができてくると僕は思います。(*`σェ´*)

人によっては無駄だと思う方も居るかも知れませんが、教科書に当たり前にさらっと書いてあることでも、自分が普段良く使う会社の数値データなんかを使って実践してみてください。
そういやって体感して覚えたことは「記憶・暗記」でなく「理解」として頭に焼きつきます(*・ω・*)b♪


ちなみに番外変です(`・ω・´)ノ
ここまでは母集団からの抜取データの標準偏差だったので、自由度を加味した不偏分散から標準偏差を出しました(*`σェ´*)フムフム

もし全数測定したデータの標準偏差を知りたいと言う場合には分散の平方根を取ってください。
計算式は「=STDEVP(セル:セル)」(全データの標準偏差)です。「P」がつくのをお忘れなく。(`・ω・´)ノ
ってことで最後に確認しておきましょう
STDEVP.jpg

さて、またしばらく時間がかかるとおもいますが、「標準偏差のまとめ2」も企画中です。(`・ω・´)ノ
これまでさらっと文章だけで語ってきた標準偏差の用途3σなどについてもうちょっとくわしく、
特にσ=64%で2σは何%でとかそういうところの確認をやってみようと思いますので興味ある方はお楽しみにどうぞv(。・ω・。)ィェィ♪

--------------------------------------------
目次へ→
--------------------------------------------














nice!(10)  コメント(1)  トラックバック(0) 

nice! 10

コメント 1

chagama1300cb

こんにちは、いつも楽しく拝見しております。私も分析に関わり中堅社員でありまがら統計って苦手なんですよね。何度勉強しても「自由度の-1」の考えが納得できなくてここで止まってしまいます。色々解説を加えていただけると嬉しいです!
by chagama1300cb (2014-01-29 12:41) 

コメントを書く

お名前:
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

トラックバック 0

トラックバックの受付は締め切りました

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。