Model Selection

  • Goal : explain the response with minimum number of explanatory variables
  • Full Model
    • $y_i = \beta_0+\beta_1x_{i1}+\dots+\beta_px_{ip}+\dots+\beta_qx_{iq}+\epsilon_i$
    • $\epsilon_i\sim_{idd}N(0,\epsilon^2)$
    • $SSE_q = ||Y-X\hat{\beta^*}||^2,\quad\hat{\sigma_{q}^2}=SSE_q/(n-p-1)$
      -Current Model
    • $y_i = \beta_0+\beta_1x_{i1}+\dots+\beta_px_{ip}\epsilon_i$,
    • $\epsilon_i\sim_{idd}N(0,\epsilon_{p}^2)$
    • $SSE_p = ||Y-X_{p}\hat{\beta^p}||^2,\quad\hat{\sigma_{p}^2}=SSE_p/(n-p-1)$
  • Statistics used in model selection
    • Residual mean squares error (MSE) : $MSE = \frac{SSE_P}{(n-p-1)}$
    • coefficient of determination : $R^2 = \frac{SSR}{SST}=1-\frac{SSE_p}{SST}$
    • Adjusted $R^2 : R^2_{adj} = 1-\frac{SSE_p/(n-p-1)}{SST/(n-1)}$
    • Partial F-test statistics

Partial F-test statistics

  • 부분 F-검정통계량
    $H_0:\beta_p=0_{|\beta_0,\beta_1,\dots,\beta_{p-1}}\;vs. H_1:\beta_p\neq 0_{|\beta_0,\beta_1,\dots,\beta_{p-1}}$
    • 부분 검정통계량 : $F_0 = \frac{SSR_{FM}-SSR_{RM}}{MSE_{FM}}\qquad 유의확률\begin{cases}낮으면\;추가 \\ 높으면\;제거 \end{cases}$
    • $FM$ : 변수 $p$개, $RM$ : 변수 $(p-1)$개
    • $F_0$ ~ $F(1,n-p-1), under\;H_0$
    • $F_0 \geq F_c = F_{\alpha}(1,n-p-1) \Rightarrow H_0$ 기각 $\qquad f_0\begin{cases}높으면\;추가 \\ 낮으면\;제거 \end{cases}$

Variable Selection

  • Variable selection.
    • All possible regression : 모든 가능한 회귀 $\Rightarrow$ 수가 많아지면 너무 오래 걸린다
    • Backward Elimination : 후진 제거법 $\Rightarrow$ 필요없는것부터 제거 $\qquad\;$ (단, 한번 제거되면 무조건 제거)
    • Forward Selection : 전진 선택법 $\Rightarrow$ 하나씩 추가해보며 하는 것 $\qquad$ (단, 한번 추가되면 무조건 추가)
    • Stepwise regression : 단계별 회귀 $\Rightarrow$ 후진 제거법 + 전진 선택법
  • All possible regression
    • 모든 가능한 변수들의 조합 $(2^p)$을 회귀분석하여 결과 비교
    • 시간이 오래 걸림
    • $R^2$또는 $MSE$ 사용
  • Backward Elimination
    (step 0) 모든 변수를 포함한 회귀방정식 적합 (Full Model).
    (step 1) 변수 하나하나씩에 대한 부분 F-검정통계량 $F_0$ 구함
    (step 2) 가장 작은 부분 F-검정통계량 $F_L$과 $F_c$를 구함
    (step 3) $F_L < F_c$ 이면 $x_L$ 제거 $\Rightarrow$ (step 2)로
    $\qquad\quad F_L\geq F_c$ 이면 멈춘 후 최종모형으로 선택
  • Forward Selection
    (step 0) 변수 하나하나씩에 대한 회귀모형 적합 후 $R^2$ 를 가장 크게 하는 설명변수 선택
    (step 1) 변수를 하나하나씩 추가하여 $R^2$를 가장 크게 하는 변수 선택 $(x_s)$
    (step 2) 위에서 추가된 변수 $x_s$에 대해 부분 F-검정 수행
    (step 3) 위의 결과가 유의하면 $x_s$ 추가하고 (step 1)으로, 유의하지 않으면 멈춘 후 $x_s$를 제외한 모형을 최종모형으로 선택
  • Stepwise regression
    (step 0) 전진선택법의 (step 0)와 동일
    (step 1) 변수를 하나하나씩 추가하여 $R^2$를 가장 크게 하는 변수 선택 $x_s$
    (step 2) 위에서 추가된 변수 $x_s$에 대해 부분 F-검정 수행
    (step 3) 위의 결과가 유의하면 $x_s$ 포함하고 (step 4)로, 유의하지 않으면 멈춘 후 $x_s$를 제외한 모형을 최종모형으로 선택
    (step 4) 포함된 변수에 대해 부분 F-검정을 실시하여 유의하지 않은 변수가 있으면 제거하고 (step 1)로