Variable Selection
회귀분석
Model Selection
- Goal : explain the response with minimum number of explanatory variables
- Full Model
- $y_i = \beta_0+\beta_1x_{i1}+\dots+\beta_px_{ip}+\dots+\beta_qx_{iq}+\epsilon_i$
- $\epsilon_i\sim_{idd}N(0,\epsilon^2)$
- $SSE_q = ||Y-X\hat{\beta^*}||^2,\quad\hat{\sigma_{q}^2}=SSE_q/(n-p-1)$
-Current Model - $y_i = \beta_0+\beta_1x_{i1}+\dots+\beta_px_{ip}\epsilon_i$,
- $\epsilon_i\sim_{idd}N(0,\epsilon_{p}^2)$
- $SSE_p = ||Y-X_{p}\hat{\beta^p}||^2,\quad\hat{\sigma_{p}^2}=SSE_p/(n-p-1)$
- Statistics used in model selection
- Residual mean squares error (MSE) : $MSE = \frac{SSE_P}{(n-p-1)}$
- coefficient of determination : $R^2 = \frac{SSR}{SST}=1-\frac{SSE_p}{SST}$
- Adjusted $R^2 : R^2_{adj} = 1-\frac{SSE_p/(n-p-1)}{SST/(n-1)}$
- Partial F-test statistics
Partial F-test statistics
- 부분 F-검정통계량
$H_0:\beta_p=0_{|\beta_0,\beta_1,\dots,\beta_{p-1}}\;vs. H_1:\beta_p\neq 0_{|\beta_0,\beta_1,\dots,\beta_{p-1}}$- 부분 검정통계량 : $F_0 = \frac{SSR_{FM}-SSR_{RM}}{MSE_{FM}}\qquad 유의확률\begin{cases}낮으면\;추가 \\ 높으면\;제거 \end{cases}$
- $FM$ : 변수 $p$개, $RM$ : 변수 $(p-1)$개
- $F_0$ ~ $F(1,n-p-1), under\;H_0$
- $F_0 \geq F_c = F_{\alpha}(1,n-p-1) \Rightarrow H_0$ 기각 $\qquad f_0\begin{cases}높으면\;추가 \\ 낮으면\;제거 \end{cases}$
Variable Selection
- Variable selection.
- All possible regression : 모든 가능한 회귀 $\Rightarrow$ 수가 많아지면 너무 오래 걸린다
- Backward Elimination : 후진 제거법 $\Rightarrow$ 필요없는것부터 제거 $\qquad\;$ (단, 한번 제거되면 무조건 제거)
- Forward Selection : 전진 선택법 $\Rightarrow$ 하나씩 추가해보며 하는 것 $\qquad$ (단, 한번 추가되면 무조건 추가)
- Stepwise regression : 단계별 회귀 $\Rightarrow$ 후진 제거법 + 전진 선택법
- All possible regression
- 모든 가능한 변수들의 조합 $(2^p)$을 회귀분석하여 결과 비교
- 시간이 오래 걸림
- $R^2$또는 $MSE$ 사용
- Backward Elimination
(step 0) 모든 변수를 포함한 회귀방정식 적합 (Full Model).
(step 1) 변수 하나하나씩에 대한 부분 F-검정통계량 $F_0$ 구함
(step 2) 가장 작은 부분 F-검정통계량 $F_L$과 $F_c$를 구함
(step 3) $F_L < F_c$ 이면 $x_L$제거
$\Rightarrow$ (step 2)로
$\qquad\quad F_L\geq F_c$ 이면멈춘 후 최종모형으로 선택
- Forward Selection
(step 0) 변수 하나하나씩에 대한 회귀모형 적합 후 $R^2$ 를가장 크게 하는
설명변수 선택
(step 1) 변수를 하나하나씩추가
하여 $R^2$를 가장 크게 하는 변수 선택 $(x_s)$
(step 2) 위에서 추가된 변수 $x_s$에 대해 부분F-검정 수행
(step 3) 위의 결과가 유의하면$x_s$ 추가
하고 (step 1)으로, 유의하지 않으면 멈춘 후$x_s$를 제외한 모형을 최종모형으로 선택
- Stepwise regression
(step 0) 전진선택법의 (step 0)와 동일
(step 1) 변수를 하나하나씩추가
하여 $R^2$를 가장 크게 하는 변수 선택 $x_s$
(step 2) 위에서 추가된 변수 $x_s$에 대해 부분 F-검정 수행
(step 3) 위의 결과가 유의하면 $x_s$ 포함하고 (step 4)로, 유의하지 않으면 멈춘 후 $x_s$를 제외한 모형을 최종모형으로 선택
(step 4) 포함된 변수에 대해 부분 F-검정을 실시하여 유의하지 않은 변수가 있으면제거
하고 (step 1)로