2009-12-24

ブートストラップ

母比率を推定する場合は、観測値の分布が二項分布だと確定していますから、推定量の確率分布も、推定したい母数を用いて書き表すことが出来ます。従って母数の値毎に推定量の確率分布を求め、95%の確率で`起こりやすい'区間に、観測値から計算した推定値が入っているか否かによって信頼区間も理論通りに求めることが出来ます。
しかし一般のパラメータ推定では、観測値の分布も推定量の分布も分かりませんので信頼区間も理論どおりには作ることが出来ません。
そこで、ブートストラップ法を用いて推定量の分布を推定し、区間推定を行う方法を説明します。

まず、得られた観測値をx1,...,xnとし、これらから計算した推定値をθとします。本当はθの上に^を付けたいのですがブログではつけられません。観測値の確率分布の分布関数をF(x)=P(X≦x)とします。
ブートストラップ法は、観測値x1,...,xnに基づいて分布関数F(x)=P(X≦x)を経験分布関数Fn(x)=(x以下の観測値xiの個数)/nによって推定します。推定量の確率分布を推定するためには確率分布が分布関数F(x)=P(X≦x)であるn個一組の観測値をB組、つまりx1(b),...,xn(b), b=1,...,Bを得る必要がありますが、実際には一組だけしか観測出来ないわけですから、代わりに確率分布がFn(x)=(x以下の観測値xiの個数)/nであるn個一組の観測値をB組得る、つまり元の観測値x1,...,xnから復元抽出を行うことでx1*(b),...,xn*(b), b=1,...,Bを得て、各b毎にn個の観測値から推定値θ*(b)を計算します。これらを用いてθの確率分布を経験分布関数G(q)=(q以下のθ(b)の個数)/Bと推定出来ます。
θの推定量が95%の確率で`起こりやすい'区間としては、θ(1),...,θ(B)の中の95%が入る最も短い区間、つまりθ+a≦θ(b)≦θ+cを満たすbがB×0.95個以上でしかもc-aが一番短くなるように選びます。θ(1),...,θ(B)を大きさの順番に並べ替えれば選びやすいでしょう。
この区間[θ+a,θ+c]が、パラメータの値がθだった場合の95%の確率で`起こりやすい'区間とします。さらにパラメータの値がθ+qだった場合は区間も平行移動して[θ+a+q, θ+c+q]であるとします。この区間が、元の観測値から計算した推定値θを含むようなqを求めるとθ+a+q≦θ≦θ+c+qなので-b≦q≦-aとなりますから、信頼区間は[θ-c,θ-a]となります。
a,cの符号が逆になり、区間の左右も逆になっていますね。例えばcが大きいと言うことは、推定量の分布が大きい方に伸びていると言うことであり、それはつまりθの本当の値がかなり小さくても今回のような推定値が得られることを意味します。

課題

別の講義ですがExcelを使った統計解析入門の例1.1のデータの、平均と分散の95%信頼区間を求めてください。ブートストラップ法は乱数を使いますので、実行する度に若干数字が異なるはずです。抽出回数B=1000にしてください。
復元抽出のための1から60までの乱数は Int(60 * Rnd()) + 1 で発生させることが出来ます。

0 件のコメント: