恒星間ボトルメール

Interstellar Message in a Bottle

単回帰モデル

単回帰モデル

サンプルサイズ nのサンプルを用意し、各個体に対して x yの2つの変数の値を測定する。 i番目の個体の x yの値をそれぞれ x_i y_iとしたとき、両者の間に

 y_i = \alpha + \beta x_i + u_i

という関係が認められることがある。このモデルを単回帰モデルという。単回帰モデルでは、 x yの間に直線関係が認められる。 u_iは誤差項と呼ばれる。

単回帰モデルの仮定

単回帰モデルでは、いくつかの仮定が置かれる。

  1.  x_iは与えられた定数である。
  2. 誤差項の期待値が0である。 E[u_i] = 0
  3. 誤差項に系列相関がない。 E[u_i u_j] = 0  (i \not= j)
  4. 誤差項の分散が均一である。 V[u_i] = \sigma^{2}
  5.  u_i \sim \mathcal{N} (0, \sigma^{2})

4番目で仮定された性質は等分散性(分散均一性、homoscedasticity、homogeneity of variance)と呼ばれる。

これらの仮定が満たされているかは、診断プロットで確認することができる。

最小二乗推定・検定・予測・決定係数・残差分析

 y_i = \alpha + \beta x_i + u_i \alpha \betaは最小二乗法と呼ばれる方法で推定する。推定された値をそれぞれ、 \hat{\alpha} \hat{\beta}と表す。そして、これらの値を用いて x_iの値から y_iの値を予測することができる。その予測値 \hat{y}_i

 \hat{y}_i = \hat{\alpha} + \hat{\beta} x_i

と求められる。ここで、実測値と予測値の差を残差という。残差 e_iは、

 e_i = y_i - \hat{y}_i = y_i - (\hat{\alpha} + \hat{\beta} x_i)

と表される。

誤差項の正規分布の仮定のもとで、 \hat{\alpha} \hat{\beta}の分布を求めることができる。その分布をもとに、 \beta = 0帰無仮説にして検定を行う。帰無仮説が棄却されたならば、その単回帰モデルは有意であると言える。

単回帰モデルのあてはまりの良さを調べるときは、決定係数 R^{2}を用いる。

 R^{2} = \frac {\sum\limits_i  ( \hat{y}_i - \bar{y} )^{2}} {\sum\limits_i (y_i - \bar{y})^{2} }

と定義される。

誤差項の仮定が満たされているかを確認するときは、残差に関するいくつかの診断プロットを描き、残差分析を行う。

残差分析

次の散布図で表されるサンプルに対して、残差分析の診断プロットを描いた。このサンプルは単回帰モデルの仮定を満たす。

f:id:emrdkn:20211125153823p:plain
散布図

f:id:emrdkn:20211125153837p:plain
診断プロット

要約

誤差項の等分散性をはじめとするいくつかの仮定を満たすサンプルに対して、単回帰モデルをあてはめることができる。決定係数が1に近いほど、単回帰モデルの当てはまりがよい。

単回帰モデルの y切片と回帰係数の値は最小二乗法で推定することができる。最小二乗推定量の分布をもとに回帰係数 \betaの値の検定を行うことができる。

誤差項の仮定が満たされているか確認するためには、残差分析を行う。

参考文献

単回帰モデルについては、たとえば以下の書籍に詳しい。

  • 久保川達也『現代数理統計学の基礎』(共立出版、2017年)の第9章「線形回帰モデル」第1節「単回帰モデル」
  • 宮川公男『基本統計学[第3版]』(有斐閣、1999年)