Regression Diagnostic
회귀분석
회귀진단
- 오차항의 가정 검토
- 적절한 모형의 선택
- 독립변수들간의 상관관계 검토
- 이상치(outlier) 확인
- 영향을 크게 주는 측정값 (influential observation)
## Hat matrix - 잔차
$e=Y-\hat Y=Y-X\hat{\beta}$
$\qquad\qquad = Y-X(X^TX)^{-1}X^{T}Y = [I-X(X^TX)^{-1}X^T]Y$- $E(e)=0$
- $Var(e) = [I-X(X^TX)^{-1}X^T]\sigma^2$
- matrix
Hat matrix
: $H = X(X^TX)^{-1}X^T, n\times n$ matrix
$h_{ij} = X_{i}^T(X^TX)^{-1}x_{j},$ for $i,j = 1,\dots,n,$
where $x_i = (1,x_{i1},x_{i2},\dots,x_{ip})$
$\Rightarrow E(e_i) = 0,\quad Var(e_i) = (1-h_{ii})\sigma^2$- $tr(H) = p+1,\;0\leq h_{ii}<1$
- $p=1 : h_{ii} = \frac{1}{n}+\frac{(x_{i}-\overline x)^2}{S_{xx}}$
- $p>1 : h_{ii}=\frac{1}{n}+(x_{i1}-\overline x_1,\dots,x_{ip}-\overline x_p)S^{-1}$ $\begin{pmatrix} x_{i1} - {\overline x_{1}} \\ \vdots \\ x_{ip} - {\overline x_{p}}\\ \end{pmatrix}$
잔차분석
- Model : $Y=X\beta+\epsilon,\epsilon_i\sim_{iid}N(0,\sigma^2)$
$\qquad y_i=\beta_0+\beta_1x_{i1}+\dots+\beta_px_{ip}+\epsilon_i$ - Assumption
- (linearity) $E(y|x_i,\dots,x_p) = \beta_0+\beta_1 x_1+\dots+\beta_p x_p$
- (homogeneous variance) $Var(\epsilon_1) = \dots = Var(\epsilon_n) =\sigma^2$
- (normality) $\epsilon_i,\sim N(0,\sigma^2)$
- (independent) $\epsilon_1,\dots,\epsilon_n$ : independent
Residual
- 잔차(residual) : $\hat{e_i} = y_i-\hat{y_i}$
- 잔차의 분산 : $Var(Y_i-\hat Y) = \sigma^2(1-h_{ii})$
- 스튜던트화 잔차 $\hat{e_{st,i}} = \frac{\hat{e}_i}{\hat{sd(\hat{e}_i)}} = \frac{y_i-\hat{y_i}}{\sqrt{MSE(1-h_{ii})}}$
- 잔차도(residual plot) : $(x_1,\hat{e_{st,i}}),\dots,(x_n,\hat{e_{st,n}})$ 의 산점도
Residual Anlaysis
- 잔차분석
- 대략 0에 관하여 대칭적으로 나타나고$\qquad\qquad\qquad$ (선형성)
- 설명변수의 값에 따른 잔차의 산포가 크게 다르지 않고$\quad\;$ (등분산성)
- 점들이 특정한 형식을 가지고 나타남이 없으며$\qquad\qquad$ (독립성)
- 거의 모든 점이 $\pm$2(3)의 범위내에 나타나야한다$\qquad\quad$ (정규성)
Outlier
- 표준화잔차
- 내적으로 스튜던트화된 잔차 (internally studentized residual)
$$r_i = \frac{e_i}{\hat{\sigma}\sqrt{1-h_{ii}}}$$ - 외적으로 스튜던트화된 잔차 (externally studentized residual)
$$r_i^* = \frac{e_i}{\hat{\sigma_{(i)}}\sqrt{1-h_{ii}}}$$
단, $\hat{\sigma_{(i)}} = \Big[(n-p-1)\hat{\sigma}^2-\frac{e_i^2}{1-h_{ii}}\Big] / (n-p-2)$
- 내적으로 스튜던트화된 잔차 (internally studentized residual)
Influence Observation
- 영향점 : 회귀분석의 결과가 몇 개의 특정값에 의해 크게 영향을 받는 경우, 영향점이 있다고 말함
영향점을 검출하는 방법
(1) 행렬 $H$의 대각원소 :
$\quad\hat Y = X(X^TX)^{-1}X^TY = HY$
$\quad\Rightarrow Var(\hat Y) = h_{ii}\sigma^2$
$\quad\Rightarrow h_{ii}\geq 2(p+1)/n$ : 영향점으로 판단
(2) DFFITS (Difference if Fits)
$$DFFITS(i) = \frac{\hat{y}_i-\hat{y}_i(i)}{\hat{\sigma}_{(i)}\sqrt{h_{ii}}}$$$\hat{y}_j(i) :i$번쨰 데이터를 제외시키고 $n-1$개 데이터에서 얻은 예측값 > $|DFFITS(i)|\geq 2\sqrt{\frac{p+1}{n-p-1}} \Rightarrow$ 영향점
(3) Cook's Distance
$$C_i = \frac{\sum_{j=1}^n(\hat{y}_j - \hat{y}_j(i))^2}{(p+1)\hat{\sigma}^2}$$$C_i = \frac{h_{ii}}{1-h_{ii}}\cdot\frac{r_{i}^2}{p+1}$
$C_i\geq F_{0.5}(p+1,n-p-1)$ 또는 $C_i\geq 1\Rightarrow$ 영향점