회귀진단

  • 오차항의 가정 검토
  • 적절한 모형의 선택
  • 독립변수들간의 상관관계 검토
  • 이상치(outlier) 확인
  • 영향을 크게 주는 측정값 (influential observation)
    ## Hat matrix
  • 잔차
    $e=Y-\hat Y=Y-X\hat{\beta}$
    $\qquad\qquad = Y-X(X^TX)^{-1}X^{T}Y = [I-X(X^TX)^{-1}X^T]Y$
    • $E(e)=0$
    • $Var(e) = [I-X(X^TX)^{-1}X^T]\sigma^2$
  • matrix
    • Hat matrix : $H = X(X^TX)^{-1}X^T, n\times n$ matrix
      $h_{ij} = X_{i}^T(X^TX)^{-1}x_{j},$ for $i,j = 1,\dots,n,$
      where $x_i = (1,x_{i1},x_{i2},\dots,x_{ip})$
      $\Rightarrow E(e_i) = 0,\quad Var(e_i) = (1-h_{ii})\sigma^2$
      • $tr(H) = p+1,\;0\leq h_{ii}<1$
      • $p=1 : h_{ii} = \frac{1}{n}+\frac{(x_{i}-\overline x)^2}{S_{xx}}$
      • $p>1 : h_{ii}=\frac{1}{n}+(x_{i1}-\overline x_1,\dots,x_{ip}-\overline x_p)S^{-1}$ $\begin{pmatrix} x_{i1} - {\overline x_{1}} \\ \vdots \\ x_{ip} - {\overline x_{p}}\\ \end{pmatrix}$

잔차분석

  • Model : $Y=X\beta+\epsilon,\epsilon_i\sim_{iid}N(0,\sigma^2)$
    $\qquad y_i=\beta_0+\beta_1x_{i1}+\dots+\beta_px_{ip}+\epsilon_i$
  • Assumption
    • (linearity) $E(y|x_i,\dots,x_p) = \beta_0+\beta_1 x_1+\dots+\beta_p x_p$
    • (homogeneous variance) $Var(\epsilon_1) = \dots = Var(\epsilon_n) =\sigma^2$
    • (normality) $\epsilon_i,\sim N(0,\sigma^2)$
    • (independent) $\epsilon_1,\dots,\epsilon_n$ : independent

Residual

  • 잔차(residual) : $\hat{e_i} = y_i-\hat{y_i}$
    • 잔차의 분산 : $Var(Y_i-\hat Y) = \sigma^2(1-h_{ii})$
    • 스튜던트화 잔차 $\hat{e_{st,i}} = \frac{\hat{e}_i}{\hat{sd(\hat{e}_i)}} = \frac{y_i-\hat{y_i}}{\sqrt{MSE(1-h_{ii})}}$
    • 잔차도(residual plot) : $(x_1,\hat{e_{st,i}}),\dots,(x_n,\hat{e_{st,n}})$ 의 산점도

Residual Anlaysis

  • 잔차분석
    • 대략 0에 관하여 대칭적으로 나타나고$\qquad\qquad\qquad$ (선형성)
    • 설명변수의 값에 따른 잔차의 산포가 크게 다르지 않고$\quad\;$ (등분산성)
    • 점들이 특정한 형식을 가지고 나타남이 없으며$\qquad\qquad$ (독립성)
    • 거의 모든 점이 $\pm$2(3)의 범위내에 나타나야한다$\qquad\quad$ (정규성)

Outlier

  • 표준화잔차
    • 내적으로 스튜던트화된 잔차 (internally studentized residual)
      $$r_i = \frac{e_i}{\hat{\sigma}\sqrt{1-h_{ii}}}$$
    • 외적으로 스튜던트화된 잔차 (externally studentized residual)
      $$r_i^* = \frac{e_i}{\hat{\sigma_{(i)}}\sqrt{1-h_{ii}}}$$
      단, $\hat{\sigma_{(i)}} = \Big[(n-p-1)\hat{\sigma}^2-\frac{e_i^2}{1-h_{ii}}\Big] / (n-p-2)$

Influence Observation

  • 영향점 : 회귀분석의 결과가 몇 개의 특정값에 의해 크게 영향을 받는 경우, 영향점이 있다고 말함
  • 영향점을 검출하는 방법
    (1) 행렬 $H$의 대각원소 :
    $\quad\hat Y = X(X^TX)^{-1}X^TY = HY$
    $\quad\Rightarrow Var(\hat Y) = h_{ii}\sigma^2$
    $\quad\Rightarrow h_{ii}\geq 2(p+1)/n$ : 영향점으로 판단
    (2) DFFITS (Difference if Fits)
    $$DFFITS(i) = \frac{\hat{y}_i-\hat{y}_i(i)}{\hat{\sigma}_{(i)}\sqrt{h_{ii}}}$$

    $\hat{y}_j(i) :i$번쨰 데이터를 제외시키고 $n-1$개 데이터에서 얻은 예측값 > $|DFFITS(i)|\geq 2\sqrt{\frac{p+1}{n-p-1}} \Rightarrow$ 영향점

    (3) Cook's Distance
    $$C_i = \frac{\sum_{j=1}^n(\hat{y}_j - \hat{y}_j(i))^2}{(p+1)\hat{\sigma}^2}$$

    $C_i = \frac{h_{ii}}{1-h_{ii}}\cdot\frac{r_{i}^2}{p+1}$
    $C_i\geq F_{0.5}(p+1,n-p-1)$ 또는 $C_i\geq 1\Rightarrow$ 영향점