2013-07-29

Excelを使った統計処理

準備

左上のファイルからオプションを選びます。

アドインを選んで下の設定を押します。

分析ツールにチェックを付けます。

データ

皆さんが持っている教科書のデータを、一つ一つ入力していると時間がかかりますので、あらかじめ書いておきました。
例1.1例1.2例1.6
120
106
112
168
120
140
160
160
116
118
104
172
130
124
134
142
112
112
110
120
134
136
138
144
120
120
160
108
140
98
142
130
138
126
108
120
136
118
118
122
128
124
110
134
116
138
116
158
106
166
118
158
124
124
110
166
132
126
122
132
4
5
5
6
6
8
8
8
8
8
9
9
10
10
11
11
11
11
12
12
13
13
15
16
16
16
17
18
20
20
生徒身長座高
115988
215084
315786
415381
515883
615285
715583
815783
914576
1015885
1116185
1215083
1314879
1415484
1515485
1615985
1714983
1815586
1915384
2016088
出典

ヒストグラム

例1のデータのヒストグラムを書きましょう。
例1のデータをエクセルのA列にコピーしてください。

講義で説明したように、95~105, 105~115,...,165~175の区間に分けます。
区間の境界となる105,115,...,165をC列に書きます。

データからデータ分析を選びます。

データ分析からヒストグラムを選びます。

入力範囲欄に観測値を入力したセルを、データ区間欄に区間の境界を書いたセルを指定し、 出力先は少し右隣のE1セルを指定します。
右下のグラフ作成にもチェックを付けてOKを押します。

すると度数分布表とヒストグラムが出来上がります。

このままではx軸の表記がおかしいです。105と書かれた部分は95~105ですし、次の級と書かれた部分は165~175です。そこで各区間の中心値をD列に書いて、これをx軸に使います。
D列のデータをx軸に使うために、グラフを右クリックしてデータの選択を選びます。

右側の横(項目)軸ラベルの編集を押します。

D列に書いた数字を指定します。

これで、横軸に中心値が表示されました。

一種類しかないのに右側に説明がつくのは邪魔ですので消します。

このヒストグラムでは、102と104の人は同じ縦棒に含まれるのに、104の人と106の人は遠くに離れてしまっていますので、棒をくっつけます。
棒の上で右クリックして、データ系列の書式設定を選びます。

要素の間隔をなし(左側)にします。

これで完成です。あとは見やすい大きさに調整してください。

データの特性値

Sheet2に切り替えて、例1.2のデータをA1セルから貼り付けてください。
Excelを使って、教科書の例1.2, 例1.4の計算をします。

合計値と代表値を計算します。 B1セルに合計値と書いて、C1セルに =SUM(A1:A30)と書いてください。 B2セルに平均値と書いて、C2セルに =AVERAGE(A1:A30)と書いてください。 B3セルに中央値と書いて、C3セルに =MEDIAN(A1:A30)と書いてください。

次に散布度を計算します。エクセルの参考書で分散を調べるとVARと書かれていますので、
B4セルに分散と書いて、C4セルに =VAR(A1:A30)と書いてください。
すると19.75…と表示されます。
教科書例1.4では19.09となっていますので、計算誤差にしては違いが大きすぎます。
理由は、このVAR関数は不偏分散 を計算しているからです。
これは教科書第4章で、母集団分布の分散を推定するために計算した式です。
教科書第1章では、推定ではなくデータそのものの分散を計算するので を計算します。
B4セルに先ほど書いた分散を不偏分散に書き直して、
B5セルに標本分散と書いて、C5セルに =VARP(A1:A30)と書いてください。
標準偏差も同様に二種類あります。
B6セルに標準偏差と書いて、C6セルに =STDEV(A1:A30)と書いてください。
B7セルに標本標準偏差と書いて、C7セルに =STDEVP(A1:A30)と書いてください。

その他の特性値としては
B8セルに平均偏差と書いて、C7セルに =AVEDEV(A1:A30)と書いてください。
B9セルに最小値と書いて、C7セルに =MIN(A1:A30)と書いてください。
B10セルに最大値と書いて、C7セルに =MAX(A1:A30)と書いてください。

2変量の相関

Sheet3に切り替えて例1.6のデータをA1セルから貼り付けてください。 散布図を描きましょう。
B2セルの上でマウスの左ボタンを押して、押したままC21セルまでマウスを移動させて左ボタンを離します。
そして画面上の「挿入」から「散布図」の「散布図(マーカーのみ)」を選びます。

すると図のような散布図が得られます。マウスを合わせるとそれが何番目のデータで、x,yの値が何であるか表示されます。

次に回帰直線をExcelに書いてもらいましょう。データ点のどれかにマウスを合わせて右ボタンを押して、表示されるメニューから「近似曲線の追加」を選びます。

「近似または回帰の種類」は「線形近似」を選び、また式も見たいので、「グラフに数式を表示する」にチェックをつけて、閉じるをクリックすると、回帰直線とその式が表示されます。

母平均の検定

例4.8

次の値は、燃費が13km/ℓと称して売られている車で、実際に買った人が測った燃費である。この車の本当の燃費μが13なのかもっと小さいのかを有意水準5%で検定する。
11.5
12.0
11.0
12.5
13.0
11.5
13.5
12.5
13.0
12.5

検定方法

帰無仮説:μ=13
対立仮説:μ<13
母分散も分からないのでデータから推定する⇒推定するのでVARを使う(VARPではない)
母分散を不偏分散で推定するのでt統計量を計算する

計算

は標本平均なのでAVERAGE関数で計算できます。
μは検定したい母平均の値なので13です。 U2は不偏分散なのでVAR関数で計算できます。
nは観測値の数なので10です。
平方根はSQRTです。
これらの関数を用いて、上の式で与えたtの値を計算してみてください。
-2.80624304になったら正解です。

次に、この値が、仮に帰無仮説が正しかったらどれくらい起こりにくいことなのかを計算します。
P(t≦-2.80624304)を計算します。
tの確率分布は自由度9のt分布なのでExcelのT.DIST関数を使います。 TとDISTの間にピリオドが入っていることに気を付けてください。
この関数はExcel2010以降でしか使えません。
P(t≦-2.80624304)の値は=T.DIST(-2.80624304, 9, TRUE)で計算できます。
9は自由度でTRUEは分布関数の値を計算する指示です。
FALSEにすると密度関数になります。

この値は0.010251238になるので、
帰無仮説が正しいなら約1.025%の確率でしか発生しない珍しいこと だと分かります。 有意水準5%ということは、発生確率が5%より小さいことが起こったら帰無仮説を棄却するということなので、今回は母平均μ=13を棄却して、母平均はもっと小さいと判断します。
有意水準を1%にすると、今回は約1.025%の確率で発生するので棄却しません。

2013-07-22

検定

統計的検定の一つとして、母平均の検定を説明しました。

2013-07-09

スプライン回帰

非線形回帰の一つとしてスプライン回帰を説明しました。

2013-07-08

技術者倫理

技術者倫理の一回を担当したので、ビッグデータとプライバシーに関して講義しました。

母平均の差の区間推定

二つの母集団の母平均の差に関する区間推定を説明しました。

気の早いコスモスが咲いていました。

2013-07-02

ロジスティック回帰

応答変数が二値変量の場合にロジスティック回帰などを使うことを説明しました。