Simple Linear Regression
회귀분석
두 변수 사이의 관계
대략적 파악 : 산점도(scatter plot)
상관분석(correlation analysis)
두 변수 사이의 상관관계 분석
확률변수 $X,Y \rightarrow \rho$ = Corr($X,Y$) - 직선적인 관련성 파악
회귀분석(regression analysis)
두 변수 사이의 함수관계를 분석
$x$ :독립변수 또는 설명변수, $Y$ : 종속변수 또는 반응변수
$Y$ = $f(x) + \epsilon,\epsilon$ : 오차항 $\rightarrow f(x)?$
단순선형회귀분석 - 직선관계를 모형으로 분석
$\quad$ $\quad$ $\quad$ $(f(x) = a+bx)$
중회귀분석 - 두 개 이상의 설명변수 사용
$\quad$ $\quad$ $\quad$ $(f(x)=a+b_1x_1+\dots+b_{k}x_k)$
Simple Linear Regression Model
(1) 자료구조
자료구조 : $(x_1,Y_1),\dots,(x_n,Y_n)$ $\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\begin{cases}소문자:설명변수\rightarrow 상수 \\ 대문자:확률변수 \end{cases}$
$(x_1,\dots,x_n)$ : 설명변수(explanatory variable)(또는 독립변수)
두 변수가 있을 때, 다른 한 변수에 영향을 주는 변수
$(Y_1,\dots,Y_n)$ : 반응변수(response variable)(또는 종속변수)
두 변수가 있을 때, 다른 한 변수에 영향을 받는 변수
관측값 : $(x_1,y_1),\dots,(x_n,y_n)$
(2) Model
$Y_i = \beta_0 + \beta_{1}x_i + \epsilon_i,\quad i = 1,2,\dots,n$
$(\epsilon_1,\dots,\epsilon_n)$ : 오차항(random error)
서로 독립이면서 평균이 0, 분산이 $\sigma^2$인 확률 변수
(3) 용어
- 회귀계수(regression coefficient) (or 모수, parameter)
$\beta_0$ :상수항 또는 절편 (constant coefficient or intercept)> $\beta_1$ :기울기 (slope)
Basic Assumption
기본 가정
선형성(Linearity) : $E(Y|x) = \beta_0 + \beta_1x$
등분산성(Homoscedastic) : $Var(Y|x) = \sigma^2$
정규성(Normality) : $\epsilon_i$ ~ $N(0,\sigma^2)$
독립성(Independency) : $\epsilon_i$ are mutually independent $i = 1,\dots,n$
Least Square Estimation (LSE)
최소제곱법(method of least squares)에 의한 추정
- 최소제곱추정량(LSE)
$\quad\quad\quad$ $(\hat{\beta_0},\hat{\beta_1})$ = argmin $\displaystyle\sum_{i=1}^{n}\{y_i - (\beta_0 + \beta_{1}x_i)\}^2$
- Least square fit : $\hat{y}\big(\equiv E(\hat{Y}|x_0) \big) = \hat{\beta_0} + \hat{\beta_1}x_0$
- 잔차(Residual) : $e_i = y_i - \hat{y_i}$
오차제곱합
$\quad\quad\quad S = \displaystyle\sum_{i=1}^{n}\epsilon^2_{i}\displaystyle\sum_{i=1}^{n}\{y_i - (\beta_0 + \beta_{1}x_i)\}^2$정규방정식(normal equation)
$\frac{\partial{S}}{\partial\beta_0}$ = $\displaystyle\sum_{i=1}^{n}(y_i - \beta_0 - \beta_{1}x_i)$
$\frac{\partial{S}}{\partial\beta_1}$ = $-2\displaystyle\sum_{i=1}^{n}x_{i}(y_i - \beta_0 - \beta_{1}x_i)$
- 최소제곱추정량 = 정규방정식의 해
$\quad\quad\quad\begin{cases}-2\sum_{i=1}^{n}(y_i - \hat{\beta_0} - \hat\beta_{1}x_i)=0 \\ -2\sum_{i=1}^{n}x_{i}(y_i - \hat{\beta_0} - \hat\beta_{1}x_i)=0\end{cases}$
$\Rightarrow\begin{cases}n\hat{\beta_0} + \hat{\beta_1}\sum_{i=1}^{n}x_{i} = \sum_{i=1}^{n}y_{i} \\ \sum_{i=1}^{n}x_{i}\hat{\beta_0} + \sum_{i=1}^{n}x^2_{i}\hat{\beta_1}\sum_{i=1}^{n}x_{i}y_i\end{cases}$
- 최소제곱추정량
$\hat{\beta_1}$ = $\frac{\sum_{i=1}^{n}(x_i - \overline{x})(y_i - \overline{y})}{\sum_{i=1}^{n}(x_i - \overline{x})^2}$ = $\frac{S_{xy}}{S_{xx}}$
$\hat{\beta_0}$ = $\overline{y} - \hat{\beta_1}\overline{x}$
Estimation of error variance
- 잔차(residual) : $e_i = y_i - \hat{y_i}$, $(\sum_{i=1}^{n}e_i = 0, \sum_{i=1}^{n}x_{i}e_i = 0)$
$e_i$ = 오차의 관측값$\quad y_i = 실제값\quad \hat{y_i} = 추정값$
- 오차분산 $(\sigma^2)$의 추정:- 잔차(오차) 제곱합 (residual (or error) sum of squares) : $$ SSE = \displaystyle\sum_{i=1}^{n}(y_i-\hat{y_i})^2 = \displaystyle\sum_{i=1}^{n}e_{i}^2$$
- 평균제곱오차 (mean squared error) : $MSE = \frac{SEE}{n-2}$
- 오차분산의 추정값 : $\hat\sigma^2 = MSE$
Decomposition of deviations
- 총편차의 분해
- $y_i-\hat y = (y_i - \hat y_i) + (\hat y_i - \hat y), \quad\forall_i$
- 총편차(total deviation) = $y_i - \overline y$
- 추측값의 편차 = $(\hat y_i - \overline{\hat y})$ = $(\hat y_i - \overline y),\quad\quad\quad\overline{\hat y} = \frac{1}{n}\displaystyle\sum_{i=1}^{n}\hat y_i = \hat y$
$\Rightarrow$ 총편차 = 잔차 + 추측값의 편차
Decomposition of sum of squares
- 제곱합의 분해 : $SST = SSE + SSR$
$$\displaystyle\sum_{i=1}^{n}(y_i - \overline y)^2=\displaystyle\sum_{i=1}^{n}(y_i - \hat y_i)^2 + \displaystyle\sum_{i=1}^{n}(\hat y_i - \overline y)^2$$
$\quad\quad\quad$ 제곱합의 종류 $\quad\quad\quad$ 정의 및 기호 $\quad\quad\quad$ 자유도
$\quad$총제곱합 (total sum of squares)$\qquad\qquad\qquad SST = \displaystyle\sum_{i=1}^{n}(y_i - \overline y)^2\qquad\qquad\quad n-1$
잔차제곱합 (residual sum of squares)$\qquad\qquad\quad SSE = \displaystyle\sum_{i=1}^{n}(y_i - \hat y_i)^2 \qquad\qquad\quad n-2$
회귀제곱합 (regression sum of squares)$\qquad\qquad SSR = \displaystyle\sum_{i=1}^{n}(\hat y_i - \overline y)^2\qquad\qquad\qquad 1$
Coefficient of determination
- 결정계수 (Coefficient of determination)
- 정의 : $R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}$
- 의미 : 회귀직선의 기여울
(총변동 가운데 회귀직선으로 설명되는 변동의 비율) - 성질
$0\leq R^2\leq1$
$R^2$값이 1에 가까울수록
회귀에 의한 설명이 잘 됨을 뜻함
$R^2 = r^2 (r :sample correlation)\qquad 표본상관계수$ (단순선형회귀모형에서만
성립)
회귀직선의 유의성 검정
- Model : $Y_i = \beta_0+\beta_{1}x_i+\epsilon_i,\quad i = 1,2,\dots,n,\epsilon_i\sim_{iid} N(0,\sigma^2)$
- 회귀직선의 유의성 검정
(F-test)
- 가설 : $H_0 : \beta_1 = 0\;vs. H_1 : \beta_1\neq0$
- 검정통계량 : $F = \frac{MSR}{MSE} = \frac{SSR/1}{SSE/(n-2)}\sim_{H_0}\;F(1,n-2)$
- 검정통계량의 관측값 : $f$
- 유의수준 $\alpha$에서의 기각역 : $f\geq F_{\alpha}(1,n-2)$
- 유의확률 = $P(F\geq f)$
회귀직선의 유의성 검정
- 회귀직선의 유의성 검정을 위한 분산분석표
요인 $\qquad$ 제곱합(SS) $\qquad$ 자유도(df) $\qquad\quad$ 평균제곱(MS) $\qquad\qquad f\qquad\qquad\qquad$ 유의확률
회귀 $\qquad SSR\qquad\qquad\quad$ 1 $\qquad\qquad MSR=\frac{SSR}{1}\qquad\quad f=\frac{MSR}{MSE}\qquad\qquad\; P(F\geq f)$
잔차 $\qquad SSE\qquad\qquad\quad n-2\qquad\quad MSE=\frac{SSE}{n-2}$
계 $\qquad\quad SST\qquad\qquad\quad n-1$
회귀계수에 대한 추론
- 모회귀계수(기울기) $\beta_1$ 에 대한 추론
- $\beta_1$의 최소제곱추정량 : $\hat{\beta_1} = \frac{S_{xY}}{S_{xx}}$
- 추정값 : $\hat{\beta_1} = \frac{S_{xY}}{S_{xx}}$
- 추정량$\;\hat{\beta_1}$의 분포 : $\hat{\beta_1}\sim N(\beta_1,\frac{\sigma^2}{S_{xx}})$
- studentized $\hat{\beta_1}$ 의 분포 : $\frac{\hat{\beta_1}-\beta_1}{\hat{\sigma}/\sqrt{S_{xx}}}\sim\; t(n-2),\; \hat{\sigma} = \sqrt{MSE}$
- $\hat{\beta_1}$의 $100(1-\alpha)$% 신뢰구간 : $\hat{\beta_1}\pm t_{\alpha/2}(n-2)\hat{\sigma} = \sqrt{S_{xx}}$
회귀계수에 대한 추론
- 모회귀계수(기울기) $\beta_1$에 대한 추론
- 가설검정 : $H_0:\beta_1=\beta_1^0$
- 검정통계량 : $T=\frac{\hat{\beta_1}-{\beta_1^0}}{\hat{\sigma}/\sqrt{S_{xx}}}\sim_{H_0}t(n-2)$, 관측값 : t
$\qquad\qquad\quad$대립가설$\qquad\qquad\quad$유의확률 $\qquad\qquad\quad유의수준\alpha$ 기각역
$\qquad\qquad H_1:\beta_1>\beta_{1}^0\qquad\quad P(T\geq t)\qquad\qquad\quad t\geq t_{\alpha} (n-2)$ $\qquad\qquad H_1:\beta_1<\beta_{1}^0\qquad\quad P(T\leq t)\qquad\qquad\quad t\geq t_{\alpha} (n-2)$
$\qquad\qquad H_1:\beta_1\neq\beta_{1}^0\qquad\quad P(|T|\geq |t|)\qquad\quad |t|\geq t_{\alpha/2} (n-2)$
회귀계수에 대한 추론
- 모회귀계수(절편) $\beta_0$에 대한 추론
- $\beta_0$의 최소제곱추정량 : $\hat{\beta_0}=\overline{Y}-\hat{\beta_1}\overline{x}$
- 추정값 : $\hat{\beta_0}$ = $\overline y-\hat{\beta_1}\overline x$
- 추정량 $\hat{\beta_0}$의 분포 : $\hat{\beta_0}\sim N\big(\beta_0,\sigma^2(\frac{1}{n}+\frac{\overline{x}^2}{S_{xx}})\big)$
$$\frac{\hat{\beta_0}-{\beta_0}}{_{s.e.}(\hat{\beta_0})}\sim t(n-2),\;_{s.e.}(\hat{\beta_0})=\hat{\sigma}\sqrt{\frac{1}{n}+\frac{\overline x^2}{S_{xx}}}$$ - $\hat{\beta_0}$의 $100(1-\alpha)$% 신뢰구간 : $\hat{\beta_0}\pm t_{\alpha/2}(n-2)_{s.e.}(\hat{\beta_0})$
회귀계수에 대한 추론
- 모회귀계수(기울기) $\beta_0$에 대한 추론
- 가설검정 : $H_0:\beta_0=\beta_0^0$
- 검정통계량 : $T=\frac{\hat{\beta_0}-{\beta_0^0}}{_{s.e.}(\hat{\beta_0})}\sim_{H_0}t(n-2)$, 관측값:t
$\qquad\qquad\quad$대립가설$\qquad\qquad\quad$유의확률 $\qquad\qquad\quad유의수준\alpha$ 기각역
$\qquad\qquad H_1:\beta_0>\beta_{0}^0\qquad\quad P(T\geq t)\qquad\qquad\quad t\geq t_{\alpha} (n-2)$ $\qquad\qquad H_1:\beta_0<\beta_{0}^0\qquad\quad P(T\leq t)\qquad\qquad\quad t\geq t_{\alpha} (n-2)$
$\qquad\qquad H_1:\beta_0\neq\beta_{0}^0\qquad\quad P(|T|\geq |t|)\qquad\quad |t|\geq t_{\alpha/2} (n-2)$
평균반응예측
- $x=x_0$ 가 주어졌을 때 평균반응의 예측
- 평균반응 (mean response) : $\mu_0 = E(Y|x_0) = \beta_0+\beta_1x_0$
- 평균반응 추정량 : $\hat{\mu_0} = \hat{\beta_0} + \hat{\beta_1}x_0$
- $\hat{\mu_0}$ 의 분포 : $\hat{\mu_0}\sim N \big(\mu_0,(\frac{1}{n} + \frac{(x_0-\overline x)^2}{S_{xx}})\sigma^2\big)$
$$\frac{\hat{\mu_0}-\mu_0}{_{s.e.}(\hat{\mu_0})}\sim t(n-2),\; _{s.e.}(\hat{\mu_0}) = \hat{\sigma}\sqrt{\frac{1}{n}+\frac{(x_0-\overline x)^2}{S_{xx}}}$$ - $\hat{\mu_0}$의 $100(1-\alpha)$% 신뢰구간 : $\hat{\mu_0}\pm t_{\alpha/2}(n-2)_{s.e.}(\hat{\mu_0})$
예측
- $x=x_0$가 주어졌을 때 $y=y_0$ 예측
- $y_0 = \beta_0+\beta_1x_0+\epsilon_0$
- 예측값 : $\hat y_0 = \hat{\beta_0}+\hat{\beta_1}x_0$
- $\hat y_0$ 의 분포 : $\hat y_0\sim N\big(\mu_0,(1+\frac{1}{n} + \frac{(x_0-\overline x)^2}{S_{xx}})\sigma^2\big)$
$$\frac{\hat{y_0}-y_0}{_{s.e.}(\hat{y_0})}\sim t(n-2),\; _{s.e.}(\hat{y_0}) = \hat{\sigma}\sqrt{1+\frac{1}{n}+\frac{(x_0-\overline x)^2}{S_{xx}}}$$ - $\hat{y_0}$의 $100(1-\alpha)$% 신뢰구간 : $\hat{y_0}\pm t_{\alpha/2}(n-2)_{s.e.}(\hat{y_0})$