ヒストグラムと正規分布について(*`σェ´*) [統計学]
さてさて、久々に統計学の話を書きます.....φ(・ω・*)カキカキ
前回に書いた標準偏差と3σについての続きに当たります。
標準偏差とは便利な数値で品質管理で統計学を用いる際にはしょっちゅう使うんだけど、
そのときに単純に計算するだけじゃなく、重要な確認事項があります。
てところまでが前回の話(*・ω・*)b♪
このページから入ってきて「前回とか知らねぇしッ(((c=(゚ロ゚;qホワチャー」って方はごめんなさい。
↓↓この記事を読んでみてください↓↓
http://yu-noppo.blog.so-net.ne.jp/2013-12-12
僕が放置しすぎて忘れたッって方・・・本当にごめんなさいm(__)m
それでは、本題です(ノシ=´ω`=)ノシ
まず標準偏差は、収集したデータ集団の分布が正規分布になっていることを前提としています。(`・ω・´)ノ
↓↓正規分布とは、こんなんです↓↓
正規分布とは度数分布表(ヒストグラム)の分布形状(グラフの山の形)の名称と言えばわかりやすいでしょうか。
じゃぁ度数分布ってなんやねん??( ̄Д ̄)ノ
↓↓こんな表です↓↓
この表は、規格範囲5.7~6.3㎜の製品を検査し、5.6㎜から0.025㎜きざみにそれぞれに該当するデータが何個あるのかを数えたものです。
ある本によれば、この個数を数字で表した表を度数分布表といい、グラフをヒストグラムと言うようですが、基本的に2つセットで運用されるうえ、多くの場合はどちらも含めてヒストグラムと混同して認識されていますし、統計博士を目指しているわけでなければそれでいいと思います。(*・ω・*)b♪
ヒストグラムのお仕事としては、今回のデータの場合なら機械加工を行う際、規格が5.7~6.3㎜なら当然みんな真ん中の6.0㎜を狙いますよね? なら、バラツキによって常に6.0㎜ではなかったとしても狙い値を6.0㎜にしたなら当然6.0㎜が一番多くデータとして出現するんでしょ?ってことを確認するわけです。(`・ω・´)ノ
というわけでヒストグラムの作り方(*`σェ´*)フムフム
と言っても作るときの考え方です。 実際の作成はデータといくつかの情報さえ決定すればエクセルが勝手にやってくれます。 その方法はエクセルの分析ツールです。
このやり方がわからない人は「エクセル 分析ツール ヒストグラム」などでググッてみてください。
ちなみに初期設定ではエクセル上に分析ツールが存在しない場合があります。
そんな人はエクセルのツールの中に「アドイン」と言うのがあり、それを開くと分析ツールのチェックが外れていると思うのでチェックを入れてもらえば分析ツールが出現します。(エクセル2003とか2007の話)
2010を使っている人はタブの中をがんばって探してみてください。
僕の会社のPCでは結構隅っこのほうでちっちゃい表示だったので最初はわかりにくかった記憶があります。
今は感覚的に操作してるので、配置がどこだったか忘れちゃいました( ̄◇ ̄;)
どうしてもわからない場合はコメントくだされば調べてお答えします。
さて話は戻って、考え方(`・ω・´)ノ
まず、データ収集♪ このときのn数ですが、今回の僕の度数分布表ではn数4800個でやってますが、これは自動設備に組み込まれた検査機が勝手にデータを集めてくれるのでできるだけの話で、自動設備のない検証や評価の段階では現実的な数ではありませんよ~笑
一般的には100~150個程度のn数が良いと言われています。
なのでとりあえずn100くらいを目標にして、ヒストグラム作成後に足りないと感じたら臨機応変に増やしてください。 逆に十分なら次回から減らしてもいいのかな?(その辺は個人の経験則でいいと思います。)
と言うのも、いくら6.0㎜を狙って加工しても、加工の誤差、材料の誤差、測定の誤差が混じれば、0.1~0.2㎜くらいにはしょっちゅうばらついてしまいますよね?( ̄◇ ̄;)
例えばn数5個のデータでヒストグラムを作ろうとしても、このデータですでに、5.775と5.800㎜で5個以上あるわけです。(結果論として)
n数が極端に少なくなると運悪くこういうデータを固めて引いてしまうことだってありえます。
でもそこからn数を増やしていけば、もう5.775とか5.800に出会う確立はだいぶ下がってるわけだし、最終的に全部測定しちゃえば本当に何㎜のところを一番多く加工しているかを知ることができますよね?
こんなふうにもともと同じ加工条件と言える製品の集まり(Lot)である母集団から抜き取りでデータ(サンプル・標本)を集める場合、抜き取る数(n数)を増やせば増やすほど本来の母集団の傾向に近づいていきます。
このことは昔?の偉い人が証明「大数の法則」と呼ばれています。
さてさて、データを取り終えたらお次は区関幅と区関数を決めます。(*・ω・*)b♪
区間幅とはここで言う0.025きざみの事。
何㎜単位でデータの個数を数えるのかを決めます。
そうすると区関数は必然的に規格範囲÷区間幅+規格外分何個か ってかたちになりますね。
逆に区関数から決めてもしかり(*`σェ´*)フムフム
文献では、区関数はn100~200のときは7~12、n250~は10~20が良いとされています。
けどそうでなければならないと言うわけではありません。
また、文献では区関数から決定し、区間幅を計算で出すとしています。
でも、僕はそれを無視して、区間幅から決めにいきます。
これは僕の統計学の師匠の教えがあった上でいろいろ経験した今はこっちの方が正しいだろうと考える様になったのですが、あくまでここも臨機応変でよいと思います。
区間幅は規格公差±0.3に対して、0.2㎜だと話しになりませんよね?だって、0.05㎜くらい規格外なだけだと四捨五入で規格内にカウントされちゃうかもなんで( ̄Д ̄)ノ
これは経験則ですが、大体規格の10~20分の1で区間を決定します。
そして、先ほど書いたエクセルの機能を使って、ヒストグラムを作成(*・ω・*)b♪Let'sGo!!
これで作成したヒストグラムが正規分布に近い形をいているかどうかを確認。(`・ω・´)ノ
そこまでシビアに見なくてもいいと思います。 だいたい正規分布といえるだろう形であればOK
なっていなければnを増やします・・・この繰り返し(*・ω・*)b♪
n数増やしても正規分布しないのなら、区間幅が厳しすぎないか確認し、そうでなければ工程の精度を向上しましょう。
その区間幅で正規分布できるだけの繰り返し精度がその工程(設備?)にはないんです( ̄Д ̄)ノ
ただ、n数を増やしていけば必ず正規分布します。それは「中心極限定理」というこれまた昔の偉い人が見つけた定理で、どんな事象でも測定数を増やしていけば必ず最後には正規分布になると言う定理です。
なので、正規分布になるだけのn数を集めてください。
そうすることで標準偏差や、工程能力指数と言った数値が正しく算出されます。(`・ω・´)ノ
さてかなり長々となってしまったので今日はここまでとさせて頂きますm(__)m
下資料はもうできているので続きはまた明日にでもアップします⊂(・∀・)∂))バイバイ
ーーーーーーーーーーーーー
目次へ→
関連記事です(*・ω・*)b♪
・ヒストグラムと正規分布について
・ヒストグラムと正規分布Ⅱ
・正規分布の判断
・標準偏差
・標準偏差のまとめ1
自由度って
・工程能力指数
・工程能力指数と不良率
・Cp、Cpkから不良率算出
前回に書いた標準偏差と3σについての続きに当たります。
標準偏差とは便利な数値で品質管理で統計学を用いる際にはしょっちゅう使うんだけど、
そのときに単純に計算するだけじゃなく、重要な確認事項があります。
てところまでが前回の話(*・ω・*)b♪
このページから入ってきて「前回とか知らねぇしッ(((c=(゚ロ゚;qホワチャー」って方はごめんなさい。
↓↓この記事を読んでみてください↓↓
http://yu-noppo.blog.so-net.ne.jp/2013-12-12
僕が放置しすぎて忘れたッって方・・・本当にごめんなさいm(__)m
それでは、本題です(ノシ=´ω`=)ノシ
まず標準偏差は、収集したデータ集団の分布が正規分布になっていることを前提としています。(`・ω・´)ノ
↓↓正規分布とは、こんなんです↓↓
正規分布とは度数分布表(ヒストグラム)の分布形状(グラフの山の形)の名称と言えばわかりやすいでしょうか。
じゃぁ度数分布ってなんやねん??( ̄Д ̄)ノ
↓↓こんな表です↓↓
この表は、規格範囲5.7~6.3㎜の製品を検査し、5.6㎜から0.025㎜きざみにそれぞれに該当するデータが何個あるのかを数えたものです。
ある本によれば、この個数を数字で表した表を度数分布表といい、グラフをヒストグラムと言うようですが、基本的に2つセットで運用されるうえ、多くの場合はどちらも含めてヒストグラムと混同して認識されていますし、統計博士を目指しているわけでなければそれでいいと思います。(*・ω・*)b♪
ヒストグラムのお仕事としては、今回のデータの場合なら機械加工を行う際、規格が5.7~6.3㎜なら当然みんな真ん中の6.0㎜を狙いますよね? なら、バラツキによって常に6.0㎜ではなかったとしても狙い値を6.0㎜にしたなら当然6.0㎜が一番多くデータとして出現するんでしょ?ってことを確認するわけです。(`・ω・´)ノ
というわけでヒストグラムの作り方(*`σェ´*)フムフム
と言っても作るときの考え方です。 実際の作成はデータといくつかの情報さえ決定すればエクセルが勝手にやってくれます。 その方法はエクセルの分析ツールです。
このやり方がわからない人は「エクセル 分析ツール ヒストグラム」などでググッてみてください。
ちなみに初期設定ではエクセル上に分析ツールが存在しない場合があります。
そんな人はエクセルのツールの中に「アドイン」と言うのがあり、それを開くと分析ツールのチェックが外れていると思うのでチェックを入れてもらえば分析ツールが出現します。(エクセル2003とか2007の話)
2010を使っている人はタブの中をがんばって探してみてください。
僕の会社のPCでは結構隅っこのほうでちっちゃい表示だったので最初はわかりにくかった記憶があります。
今は感覚的に操作してるので、配置がどこだったか忘れちゃいました( ̄◇ ̄;)
どうしてもわからない場合はコメントくだされば調べてお答えします。
さて話は戻って、考え方(`・ω・´)ノ
まず、データ収集♪ このときのn数ですが、今回の僕の度数分布表ではn数4800個でやってますが、これは自動設備に組み込まれた検査機が勝手にデータを集めてくれるのでできるだけの話で、自動設備のない検証や評価の段階では現実的な数ではありませんよ~笑
一般的には100~150個程度のn数が良いと言われています。
なのでとりあえずn100くらいを目標にして、ヒストグラム作成後に足りないと感じたら臨機応変に増やしてください。 逆に十分なら次回から減らしてもいいのかな?(その辺は個人の経験則でいいと思います。)
と言うのも、いくら6.0㎜を狙って加工しても、加工の誤差、材料の誤差、測定の誤差が混じれば、0.1~0.2㎜くらいにはしょっちゅうばらついてしまいますよね?( ̄◇ ̄;)
例えばn数5個のデータでヒストグラムを作ろうとしても、このデータですでに、5.775と5.800㎜で5個以上あるわけです。(結果論として)
n数が極端に少なくなると運悪くこういうデータを固めて引いてしまうことだってありえます。
でもそこからn数を増やしていけば、もう5.775とか5.800に出会う確立はだいぶ下がってるわけだし、最終的に全部測定しちゃえば本当に何㎜のところを一番多く加工しているかを知ることができますよね?
こんなふうにもともと同じ加工条件と言える製品の集まり(Lot)である母集団から抜き取りでデータ(サンプル・標本)を集める場合、抜き取る数(n数)を増やせば増やすほど本来の母集団の傾向に近づいていきます。
このことは昔?の偉い人が証明「大数の法則」と呼ばれています。
さてさて、データを取り終えたらお次は区関幅と区関数を決めます。(*・ω・*)b♪
区間幅とはここで言う0.025きざみの事。
何㎜単位でデータの個数を数えるのかを決めます。
そうすると区関数は必然的に規格範囲÷区間幅+規格外分何個か ってかたちになりますね。
逆に区関数から決めてもしかり(*`σェ´*)フムフム
文献では、区関数はn100~200のときは7~12、n250~は10~20が良いとされています。
けどそうでなければならないと言うわけではありません。
また、文献では区関数から決定し、区間幅を計算で出すとしています。
でも、僕はそれを無視して、区間幅から決めにいきます。
これは僕の統計学の師匠の教えがあった上でいろいろ経験した今はこっちの方が正しいだろうと考える様になったのですが、あくまでここも臨機応変でよいと思います。
区間幅は規格公差±0.3に対して、0.2㎜だと話しになりませんよね?だって、0.05㎜くらい規格外なだけだと四捨五入で規格内にカウントされちゃうかもなんで( ̄Д ̄)ノ
これは経験則ですが、大体規格の10~20分の1で区間を決定します。
そして、先ほど書いたエクセルの機能を使って、ヒストグラムを作成(*・ω・*)b♪Let'sGo!!
これで作成したヒストグラムが正規分布に近い形をいているかどうかを確認。(`・ω・´)ノ
そこまでシビアに見なくてもいいと思います。 だいたい正規分布といえるだろう形であればOK
なっていなければnを増やします・・・この繰り返し(*・ω・*)b♪
n数増やしても正規分布しないのなら、区間幅が厳しすぎないか確認し、そうでなければ工程の精度を向上しましょう。
その区間幅で正規分布できるだけの繰り返し精度がその工程(設備?)にはないんです( ̄Д ̄)ノ
ただ、n数を増やしていけば必ず正規分布します。それは「中心極限定理」というこれまた昔の偉い人が見つけた定理で、どんな事象でも測定数を増やしていけば必ず最後には正規分布になると言う定理です。
なので、正規分布になるだけのn数を集めてください。
そうすることで標準偏差や、工程能力指数と言った数値が正しく算出されます。(`・ω・´)ノ
さてかなり長々となってしまったので今日はここまでとさせて頂きますm(__)m
下資料はもうできているので続きはまた明日にでもアップします⊂(・∀・)∂))バイバイ
ーーーーーーーーーーーーー
目次へ→
関連記事です(*・ω・*)b♪
・ヒストグラムと正規分布について
・ヒストグラムと正規分布Ⅱ
・正規分布の判断
・標準偏差
・標準偏差のまとめ1
自由度って
・工程能力指数
・工程能力指数と不良率
・Cp、Cpkから不良率算出
うわー、それは奇妙だった。私は信じられないほど長いコメントを書いたが、
私のコメントを投稿したが表示されなかった。 Grrrr...
まあ、私はもう一度すべてを書いているわけではありません。
とにかく、素敵なブログを言いたい!
by Ashton (2018-03-02 02:03)