회귀진단

오차항의 가정 검토
적절한 모형의 선택
독립변수들간의 상관관계 검토
이상치(outlier) 확인
영향을 크게 주는 측정값 (influential observation)
## Hat matrix
잔차
$e=Y-\hat Y=Y-X\hat{\beta}$
$\qquad\qquad = Y-X(X^TX)^{-1}X^{T}Y = [I-X(X^TX)^{-1}X^T]Y$
- $E(e)=0$
- $Var(e) = [I-X(X^TX)^{-1}X^T]\sigma^2$
matrix
- Hat matrix : $H = X(X^TX)^{-1}X^T, n\times n$ matrix
  $h_{ij} = X_{i}^T(X^TX)^{-1}x_{j},$ for $i,j = 1,\dots,n,$
  where $x_i = (1,x_{i1},x_{i2},\dots,x_{ip})$
  $\Rightarrow E(e_i) = 0,\quad Var(e_i) = (1-h_{ii})\sigma^2$
  - $tr(H) = p+1,\;0\leq h_{ii}<1$
  - $p=1 : h_{ii} = \frac{1}{n}+\frac{(x_{i}-\overline x)^2}{S_{xx}}$
  - $p>1 : h_{ii}=\frac{1}{n}+(x_{i1}-\overline x_1,\dots,x_{ip}-\overline x_p)S^{-1}$ $\begin{pmatrix} x_{i1} - {\overline x_{1}} \\ \vdots \\ x_{ip} - {\overline x_{p}}\\ \end{pmatrix}$

잔차분석

Model : $Y=X\beta+\epsilon,\epsilon_i\sim_{iid}N(0,\sigma^2)$
$\qquad y_i=\beta_0+\beta_1x_{i1}+\dots+\beta_px_{ip}+\epsilon_i$
Assumption
- (linearity) $E(y|x_i,\dots,x_p) = \beta_0+\beta_1 x_1+\dots+\beta_p x_p$
- (homogeneous variance) $Var(\epsilon_1) = \dots = Var(\epsilon_n) =\sigma^2$
- (normality) $\epsilon_i,\sim N(0,\sigma^2)$
- (independent) $\epsilon_1,\dots,\epsilon_n$ : independent

잔차(residual) : $\hat{e_i} = y_i-\hat{y_i}$
- 잔차의 분산 : $Var(Y_i-\hat Y) = \sigma^2(1-h_{ii})$
- 스튜던트화 잔차 $\hat{e_{st,i}} = \frac{\hat{e}_i}{\hat{sd(\hat{e}_i)}} = \frac{y_i-\hat{y_i}}{\sqrt{MSE(1-h_{ii})}}$
- 잔차도(residual plot) : $(x_1,\hat{e_{st,i}}),\dots,(x_n,\hat{e_{st,n}})$ 의 산점도

잔차분석
- 대략 0에 관하여 대칭적으로 나타나고$\qquad\qquad\qquad$ (선형성)
- 설명변수의 값에 따른 잔차의 산포가 크게 다르지 않고$\quad\;$ (등분산성)
- 점들이 특정한 형식을 가지고 나타남이 없으며$\qquad\qquad$ (독립성)
- 거의 모든 점이 $\pm$2(3)의 범위내에 나타나야한다$\qquad\quad$ (정규성)