2007-11-14

相関係数

前回の回答

ちょっと難しかったので、3列目に平均との差の2乗も書く回答例を示します。
160-10100
162-864
164-636
166-416
168-24
17000
17224
174416
176636
178864
18010100
この3列目を足してデータの個数で割ったものが分散で、
その平方根が標準偏差です。

実際のデータ解析では,エクセルのシートの他のセルには他のデータが入っているので,途中で使う平均との差などをセルに書き出すことができません。ですから,分散を求めるプログラムが書けたら,今度は途中で使った差とか差の二乗をセルに書き出さずに分散を求められるようにプログラムを変更してください。

なお、分散を求めるにはデータの個数ではなく、データの個数-1で割ることもあります。
Excelでは、VAR関数がデータの個数-1で割る分散で、VARPがデータの個数で割る分散です。

プログラムから話題がそれますが、この機会に整理しておきましょう。
クラスの身長を測るとき、目的は次の二通りが考えられます。

  1. そのクラスの身長の平均、分散を知りたい。例えば隣のクラスと比較したい。
  2. 本当は全国の身長の平均、分散を知りたいけれど、全国のデータを集めることが出来ないので、このクラスのデータから全国の平均、分散を推定したい。
最初の目的なら分散を求めるにはVARPを使います。二番目の目的ならVARを使います。
これは、データを何のために集めるのか、ということで、卒業研究のときにもう一度考えてください。

次の身長と座高の相関係数を求めてみましょう。

ABCDEF
学籍番号身長座高身長の偏差座高の偏差偏差の積
115988   
215084   
315786   
415381   
515883   
615285   
715583   
815783   
914576   
1015885   
1116185   
1215083   
1314879   
1415484   
1515485   
1615985   
1714983   
1815586   
1915384   
2016088   
個数   共分散  
合計   相関係数 
平均     
分散     
標準偏差     
まずこのデータの二行目「学籍番号 身長 座高」以降の行をコピーして、エクセルに貼り付けてください。
A1セルが学籍番号、B1セルが身長、C1セルが座高、A2セルが1、B2セルが一人目の身長159、C2セルが一人目の座高88になっていますか。以後そのようになっているものとして説明しますので、そうなるように貼り付けてください。
そして次の手順でプログラムを書いていきます。プログラムに貼り付けられるように,先頭にremをつけておきます。

  1. rem 学籍番号の個数を数えます。この個数は最後まで共通で使えます。

  2. rem 身長を配列xに読み込みます。そして先週までの方法で、身長の合計、平均、分散、標準偏差を求めてB列に書いてください。

  3. rem 同様に、座高を配列yに読み込んで,座高の合計、平均、分散、標準偏差を求めてC列に書いてください。

  4. rem B2に書かれている一人目の身長の値から、身長の平均を引いた値をD2に書いてください。 同じことを、D21まで繰り返してください。

  5. rem C2に書かれている一人目の座高の値から、座高の平均を引いた値をE2に書いてください。 同じことを、E21まで繰り返してください。

  6. rem D2に書いた一人目の身長と身長の平均との差と、E2に書いた一人目の座高と座高の平均の差を掛け算してF2に書いてください。 同じことを、F21まで繰り返してください。

  7. rem F2からF21までの20個の平均を求めてF22に書いてください。それが共分散です。

  8. rem 共分散を身長の標準偏差と座高の標準偏差で割ってF23に書いてください。それが相関係数です。

0 件のコメント: