2007-07-29

統計学I期末試験問題

第1問

(x,y)二つ一組のデータを以下の表のように9組観測した。
x123456789
y123789564
問1 x,yそれぞれの平均、分散、及びxとyの共分散、相関係数を求めなさい。
問2 (x,y)の散布図と回帰直線を描きなさい。回帰直線は式も求めなさい。

第2問

幾何分布G(p)の確率関数はp(x)=p(1-p)x-1 です。この分布の期待値E[X]を求めなさい。

第3問

確率変数X1,X2,…,Xnは独立で、その確率分布はどれも同じであり、 i=1,2,…,nに対しE[Xi]=μ、V(Xi)=σ2であるとする。
問1 定数a,bに対し、aXi+bの期待値と分散を、μとσ2を用いて表しなさい。そしてaXi+bの期待値が0、分散が1になるようなa,bの値を求めなさい。
問2 T=X1+…+Xnの期待値、分散を求め、aT+bの期待値が0、分散が1になるような定数a,bの値を求めなさい。
問3 T=(X1+…+Xn)/nの期待値、分散を求め、aT+bの期待値が0、分散が1になるような定数a,bの値を求めなさい。

第4問

表が出る確率が0.5であるコインを100回投げたときに、表が出た回数をXとする。
問1 Xの確率分布はどのような正規分布で近似出来ますか?
問2 Xが55以上になる確率を正規分布による近似を用いて求めなさい。

2007-07-26

数理統計学IIレポート作成のヒント

解法その1は計量アナリシスの講義と重複するので、ここでは解法その2の説明をします。
各々の図はクリックするともっと大きく見えます。

まずデータをエクセルに貼り付けて、貼り付けた部分を選択して、挿入のグラフを選びます。

散布図を選んで完了を押します。

表示されたグラフを選択したら、メニューバーにグラフの項目が表示されます。その中の近似曲線の追加を選びます。

一次式ならば線形近似、二次式以上なら多項式近似を選んで次数を設定します。ここでOKは押さずに、オプションをクリックしてください。

グラフに数式を表示するにチェックをつけてからOKを押します。

2007-07-19

多項式回帰

実験の結果(x,y)に関して、次の20個のデータが観測されました。
xy
0.000.854
0.050.786
0.100.706
0.150.763
0.200.772
0.250.693
0.300.805
0.350.739
0.400.760
0.450.764
0.500.810
0.550.791
0.600.798
0.650.841
0.700.882
0.750.879
0.800.863
0.850.934
0.900.971
0.950.985
出典:小西貞則、北川源四郎著「情報量規準」共立出版株式会社

このデータに多項式モデル

y=β01x+β2x2+…βpxp+ε, ε~N(0,σ2)

を当てはめてみます。0次多項式(定数), 1次多項式(直線)から6次多項式を当てはめて、それぞれのAICを計算し、何次多項式モデルが最も良いか選択してください。

解法その1
計量アナリシスの講義で、Rを使った多変量回帰を習った人は、x,x2,…,x6を変量として扱うことで、回帰式の係数や、残差平方和を求めることが出来ます。

解法その2
Excelのグラフ機能を使うことでも、多項式回帰の係数を求めることが出来ますので、ここから残差平方和を求めることでAICを計算できます。
まず、上の表をコピーして、エクセルに貼り付けます。貼り付けた部分を選択して、「挿入」「グラフ」「散布図」を選びます。
次にグラフを選択して「グラフ」「近似曲線の追加」を選びます。「線形近似」あるいは「多項式近似」を選んで、多項式近似を選んだ場合は「次数」も設定してください。0次多項式(定数)はこのような散布図を使わなくても式変形で計算できます。
「線形近似」あるいは「多項式近似」をクリックしたら、「OK」を押す前に「オプション」を選んで「グラフに数式を表示する」を選んでから「OK」を押すと、回帰式が表示されます。

2007-07-12

ゲノム解析における統計解析法

Excelを使った多項式回帰の講義を7月12日にする予定でしたが、若干変更して、 7月12日は4限の代数学IIを3限に変更して頂いたので、4限の特別講演会を聴講してください。
数理統計学IIの最後の講義は7月19日3限です。

特別講演会のお知らせ

日時 平成19年7月12日(木曜日)
午後2時20分から3時50分
場所 環境理工学部棟105教室
演題 「ゲノム解析における統計解析法」
講師 山西芳裕(京都大学化学研究所助教)
対象 環境数理学科学部生及び大学院生

ゲノム解析において、統計学は重要な役割を果たしている。近年、網羅的に得られるようになったゲノム情報を使って、遺伝子やタンパク質間の相互作用ネットワークを予測するための統計解析法を紹介する。
山西芳裕氏は環境数理学科の一期生です。

2007-07-05

モデル選択の実例

以下のように日本の20都市に対して、1月の日最低気温の月平均値、緯度、経度、標高のデータがあります。
都市番号 都市 気温y緯度x1経度x2標高x3
1稚内-8.0 45.42 141.68 2.8
2旭川-13.6 43.77 142.37 111.9
3札幌-9.5 43.05 141.33 17.2
4青森-5.4 40.82 140.78 3.0
5盛岡-6.7 39.70 141.17 155.2
6仙台-3.2 38.27 140.90 38.9
7金沢-0.1 36.55 136.65 26.1
8長野-5.5 36.67 138.20 418.2
9高山-7.6 36.15 137.25 560.2
10軽井沢-10.0 36.33 138.55 999.1
11名古屋-0.9 35.17 136.97 51.1
12飯田-4.7 35.52 137.83 481.8
13東京-0.4 35.68 139.77 5.3
14鳥取0.5 35.48 134.23 7.1
15京都-0.6 35.02 135.73 41.4
16広島0.2 34.37 132.43 29.3
17福岡1.5 33.58 130.38 2.5
18鹿児島2.0 31.57 130.55 4.3
19高知0.1 33.55 133.53 1.9
20那覇13.5 26.23 127.68 34.9
出典:坂元慶行、石黒真木夫、北川源四郎著「情報量統計学」共立出版株式会社

このデータを元に、緯度、経度、標高から気温を推定するための最適なモデルを探しましょう。 また福島の緯度は37.75、経度は140.90、標高は67.4、神戸の緯度は34.68、経度は135.18、標高は59.3です。 選択したモデルを使って福島、神戸の気温を推定しましょう。

用いる変数とその時のAICの値を整理すると次の表になります。x1とx3を用いるモデル3が一番AICが小さいです。

モデル変数変量数σ2の推定値AIC定数a1a2a3福島の推定値神戸の推定値
1x1,x2,x332.46 84.8 38.3-1.170.02-0.0098-3.71 -0.15
2x1,x227.74 105.7 94.3-0.69-0.520-5.02 0.08
3x1,x322.46 82.8 40.7-1.150-0.0098-3.37 0.24
4x2,x327.01 103.7 147.10-1.09-0.0064-6.91 -0.63
5x118.73 106.1 39-1.1400-4.04 -0.54
6x219.60 108.0 155.80-1.160-7.64 -1.01
7x3126.68 128.4 -1.500-0.0095-2.14 -2.06
8定数032.66 130.5 -2.9000-2.90 -2.90
実際の福島の気温は-3.1、神戸は1.2ですので、モデル3での予測が一番良いです。