コラム
木も見て森も見たい(12)~公共資本ストックと地価に関係はあるか~
2021.03.29
前回からの続き
前回は、t値と呼ばれる数値(検定統計量、統計的処理を施して作り出される変数)についてお話しました。何のために取り上げたのか?それは、Yを説明するXの係数βがどれ位もっともらしい数値なのか、ということを確かめるためでした。では、どうやって確かめるのか?という段階に入りますが、今回観測されたYのセットは、「背後にもっと大きなYの集団が在って、そこから抜き出された一組のサンプルに過ぎないのである。」という考えで進めてまいります。
再度t分布
βは、集団から抜き出されたYのサンプルから計算されたものです。背後にある(まだ見ぬ)巨大な集団=母集団は、並べたデータの個数を数えてみると、どんな分布になるのか?先人のお知恵をお借りすると、分布がよく分からない母集団であっても、そこから何度も何度もサンプルを抜き出して、それらの平均を取って並べてみると、どうも正規分布するらしい・・・。でもその姿は、まだ見ぬ母集団の正規分布とは異なり、若干歪んでいる様です。
ここでt値の登場となります。t値は母集団の平均(分かりません)からサンプルの平均を引いて、標準誤差で除したものでした。(※1)因みに、正規分布はいろんな形がありますが、平均を引いて標準偏差で除すれば、良く知られた標準正規分布に変換できます。(標準化※2)t分布(※3)が、正規分布の標準化と異なる点は、標準偏差ではなく、標準誤差(※3)で割り算している点です。
t分布の良い点は、少ないデータ個数から分布が描かれる様をうまく表現出来ることです。多いか少ないかというのは曖昧な話ではありますが、今回は、まだ見ぬYの母集団から抽出したサンプルYの集合(から計算されたβ)です。母集団の大きさからすれば小さいはずである、ということをt分布で考えたいのです。
さて、いよいよt分布を使ってβのもっともらしさを確認したいところですが、ここは大胆にもβの「母集団の平均」がゼロであったなら、と仮定いたします。
今一度、元の回帰式を見直しますと、βとは説明変数Xに掛かる係数のことでした。
Y = α + βXi + εi
それがゼロということは、βXiがゼロ。すなわち、この式からXが消えて無くなるということになります。すなわち、XにはYを説明する能力が無い、ということになります。ここで、先述したt値の計算方法(※5)を思い出して下さい。t値の計算式において、母集団の平均値としてゼロを代入した場合、t値は、分子が大きければ大きく、分子が小さければ小さくなりましょう。(定義から分母は常に正値)t分布は、正規分布の様に左右対称のなだらかな広がりを持った釣り鐘状の分布をしております。平均をゼロに設定した場合、大きな値を持つt値が出現した場合は、その値はt分布の両裾のどちらかに位置することになるでしょう。小さな値を持つt値はどうでしょうか。これは分布の中心、すなわち、ゼロの近くに位置することになるでしょう。
帰無仮説はβ = ゼロ
さて、何やら判じ物(※6)の様ですが、思い出していただきたいのですが、これまで、XがYを説明出来るはず、という仮説を立てて回帰分析(※7)を行なってきました。そのため、結果として導出されたβのt値は、ゼロ以外であって欲しい、というのが人情でしょう。すなわち、Xの係数であるβに何らかの意味づけが欲しいのです。ところが、計算したt値が仮に大きな数値であった場合、それはt分布の両裾のどちらかに追いやられて、平均から遠く外れてしまいます。それは困る!そんなハズは無い!一体、何が悪かったのか?何かの間違いである!人情としてそう考えたいところです。
ここでは強気に行きましょう!即ち「何か前提が間違っていたので、こんな結果(t値が平均から遠く外れた)になったのだ!」と考えられないでしょうか?では、何が間違っていたのか。そう、「母集団の平均をゼロと考えたのが間違いだったのではないか?」と考えるのです。
t分布や正規分布などの裾野が広い分析では、その両端にはデータが少ないのです。身長や体重の分布を考えれば察しがつくでしょう。今回は我々のβが極端に大きかったり小さかったりした、というケースです。ならば、その「滅多に無いこと」が生じたのは、そもそも「母集団の平均をゼロと考えたのが間違っていたからである。」と考えます。そして、「母集団の平均はゼロでは無いはず。」と考えを変えます。言い方を変えれば、「母集団平均がゼロであるという仮説を無に帰する。」ということで大団円に至ります。
この点を理解頂けると、めでたく、「我々のβは平均がゼロでは無い、母集団を代表する有意な代表選手であった。」ということが認められる運びとなる訳です。かなりトリッキーで、かつ、大変テクニカルな思考の流れではありましたが・・・。何やら釈然としない感じが残るかもしれませんが、これが統計的検定の大まかな流れかと存じます。
コラムニスト
公共事業本部 ソリューションストラテジスト 松村 俊英
参考
- ※1・※5コラム「木も見て森も見たい(11)」>サンプルと母集団の関係 17行目数式を参照。
- ※2標準化:平均が0、分散が1となるようにデータを変換すること。
- ※3t分布
- ※4標準誤差:標本平均の標準偏差を指す。
- ※6判じ物:謎解きのこと。
- ※7回帰分析
関連コラム
- 木も見て森も見たい(1)~自治体財務データから見えるもの
- 木も見て森も見たい(2)~自治体財務データから見えるもの
- 木も見て森も見たい(3)~自治体財務データから見えるもの
- 木も見て森も見たい(4)~自治体財務データから見えるもの
- 木も見て森も見たい(5)~自治体財務データから見えるもの
- 木も見て森も見たい(6)~自治体財務データから見えるもの
- 木も見て森も見たい(7)~公共資本ストックと地価に関係はあるか
- 木も見て森も見たい(8)~公共資本ストックと地価に関係はあるか
- 木も見て森も見たい(9)~公共資本ストックと地価に関係はあるか
- 木も見て森も見たい(10)~公共資本ストックと地価に関係はあるか
- 木も見て森も見たい(11)~公共資本ストックと地価に関係はあるか
- 木も見て森も見たい(12)~公共資本ストックと地価に関係はあるか
- 木も見て森も見たい(13)~公共資本ストックと地価に関係はあるか~
- 「データ分析を考える」コラム一覧に戻る