2010-12-13

twitterから

twitterで@sakamotohさんから“文系よりも理系が高収入” NHKニュースという記事を紹介していただきました。そこで疑問視されていたことを私なりにまとめてみます。

年収の分布は偏っているが

対数正規分布での近似がどれくらい良いかは兎も角、多くのデータが数百万で、0という下限があり、一方億以上のデータもあります。 このようなデータでは極端に大きなわずかなデータに引っ張られて平均が大きくなり、ほとんどの人が平均以下、ということになりますので、中央値も見た方が良いです。

670人は充分か?

670という数そのものではなく回答率、もっと言うと回答率の偏りが問題ですが、仮に全員回答だったとか、まぁそれは無理でも層別抽出をちゃんとやって、層による回答率の偏りをきちんと調整していれば、670でも何とかなります。勿論多いに越したことはないのですが、コストもかかりますし、多さに油断して雑な解析をするくらいなら、670からでも何とかなります。
今回のように分布が偏っている場合に観測数が少ないと最も問題になるのは、億以上の極端なデータを得る確率は低いので、文理男女で分けた時に、1億以上が、あるクラスでは確率0.1%だったけれど観測できなかったが別のクラスでは確率0.01%だったけれど観測できて、その一つだけに大きく引っ張られた、という場合です。
実はこれは観測数を増やすだけでは簡単には解決できません。仮に観測数を10倍にしても、先の問題が今度は「10億以上が、あるクラスでは確率0.01%だったけれど観測できなかったが別のクラスでは確率0.001%だったけれど観測できて…」になるだけで(数字は説明用で相対的な大小だけ見てください。実際の値は調べていません)、観測されるかどうか運による極端な値が、確率がより小さなより極端な値になるだけです。
これを避けるには、平均値で比較しようとするなら刈込平均(trimmed mean)を使って上下各1%のデータを捨てるのが良いですし、あるいは中央値で評価するならそのままで大丈夫です。分布が偏っている場合に刈り込み平均を使うと元の平均と若干ずれますし、ずれを正確に知るには元の分布の形状(対数正規分布とか)を知る必要がありますが、今回のように絶対的な金額よりも群間の相対比較をするのであれば、どの群でも分布形が似ていれば同じようにずれますから、ずれたまま比較して大丈夫です。

寧ろ問題なのはデータの偏りなのですが、詳しく書こうと思って調べているうちに見つけた記事文系より理系が高収入で出世する 慶大などの約3500人分析で判明 - MSN産経ニュースと数字が同じなので多分同じ調査なのでしょうけれど、笑ってしまうほど突っ込みどころ満載です。

約3500人分析で判明
> 調査では、20歳以上の3470人にアンケートを実施。昨年度の段階で所得を得ている大学卒業以上の社会人のうち、理系か文系か出身学部などがはっきりしている673人のデータを比較した。
約3500人はアンケートを行った人数で、結論を得るために使ったのは673人分だけでしょう。
所得を得ている人にしか尋ねていない
簡単な例として「□系卒は就職率100%、全員年収500万」「△系卒は25%は年収1000万の職に就き、75%は無職」だったとしましょう。勿論こんな極端なことはないですが、分かりやすい例題として。卒業生の平均年収は□系は500万、△系は250万ですが、今回の調査では□系は500万、△系は1000万になります。実際、専業主婦(夫)になる率が文理で違うかもしれませんので、文理比較をするなら卒業生名簿に基づいた追跡調査が原則です。大学側の協力が得られなくて(卒業生の収入がバレたくない?)追跡調査出来なかったのでしょうけれど、少なくとも卒業生全体での文理比率も解析に利用しなければなりません。
このような調べ方がどれくらい愚かなのか、説明用の例を挙げます。仮に80歳の人の喫煙習慣を調査したら3人に2人は喫煙習慣があったとしましょう。これだけを見れば喫煙習慣がある方が長生きするように見えますが、実は全人口の90%が喫煙者だったなら、喫煙習慣がある方が生存率は低いわけですよね。
それが分かるのは全人口と80歳での喫煙者比率の比較が出来るからで、理想を言えば50年前の30歳の喫煙比率が分かれば良いわけですが、それが分からなかったからと言って現在の80歳の3人に2人は喫煙習慣があるということだけしか見なければ間違った結論になります。同じ理由で、卒業生の文理人数比率と、現在の所得を得ている人(調査対象)の文理比率が分かればある程度意味のあることは言えますが、記事を見る限りそのようなことをしていないこの調査では、「出かける時にこれからの天気を知りたいけれど気圧計がないので、下駄を投げたら表が出たので曇っていたけれど傘を持たずに出たらやっぱり雨に降られた」くらいに、やって惑わすくらいならやらない方がマシな信頼性です。
最初はNHKのページを見て@sakamotohさんへコメントを書くつもりで、140字に収まらないのでブログに書き始めて、男女比較などもうちょっと詳しく書くつもりだったのですが、産経の記事を読んであまりの馬鹿馬鹿しさに気力が萎えました。京都大名誉教授が何やってんの?と思ったら正体見たり、西村和雄京都大学教授こんな人なのですね。25年以上勤めれば、懲戒処分など余程のことがなければ名誉教授にはなれますから。

関係ないですがメモ
google chrome安定版8.0.552.224:修正しました
http://dl.google.com/chrome/install/552.224/chrome_installer.exe

0 件のコメント: