가정이 필요한 이유?
Linear Regression(선형 회귀) 모델은 선형적 관계의 Independent Variable(독립 변수)와 Dependent Variable(종속 변수)가 수치적으로 얼마나 관련 있는지 확인하는 것이 목적이다. 가정이 만족돼야 목적에 맞게 모델을 사용할 수 있고, Residual(잔차)을 통해 계수, 모형 검정 등을 진행할 수 있다.
선형성 가정
Independent Variable(독립 변수) $x$와 Dependent Variable(종속 변수)의 조건부 기댓값 $E(y|x)$ 사이 선형 관계가 존재해야 한다. 둘 사이의 관계가 선형이라는 것은 $y = wx+\epsilon$에서 $w$가 일차식인 경우를 의미한다.
오차항의 정규성 가정
$y = wx+\epsilon$에서 $\epsilon|x \sim N(0, \sigma^2)$이다. 따라서 $y|x$의 분포를 나타내면 위 그림과 같다. 이를 통해 $E(y|x) \sim (wx, \sigma^2)$이 된다. 이때 주의할 점은 $x, y$ 각각이 정규 분포를 따를 필요는 없다는 점이다.
오차항의 기댓값은 0이다.
$E(\epsilon|x)$는 항상 0이며, 이를 통해 $E(y|x)=wx$가 만족된다.
$E(\epsilon|x)=0$인 성질을 통해 $\epsilon$과 $x$ 사이 Correlation(상관 관계)가 없음을 확인할 수 있다.
$$ \text{E}[\epsilon x] = \text{E}[\text{E}[\epsilon x \mid x]] = \text{E}[x \text{E}[\epsilon\mid x]] = 0 $$
오차항의 등분산성
모든 $x$에 대해서 오차가 같은 정도로($\sigma$가 상수) 퍼져 있다.
오차항의 독립성 가정
서로 다른 오차 $\epsilon_i, \epsilon_j$ 사이 어떠한 Correlation(상관 관계)도 존재하지 않아야 한다. 상관 관계가 없기 때문에 오차 사이 $Cov[\epsilon_i, \epsilon_j | x] = 0$ 이다.
참고