Linear Regression(선형 회귀) 모델은 선형적 관계의 Independent Variable(독립 변수)와 Dependent Variable(종속 변수)가 수치적으로 얼마나 관련 있는지 확인하는 것이 목적이다. 가정이 만족돼야 목적에 맞게 모델을 사용할 수 있고, Residual(잔차)을 통해 계수, 모형 검정 등을 진행할 수 있다.
선형성 가정
Independent Variable(독립 변수) $x$와 Dependent Variable(종속 변수)의 조건부 기댓값 $E(y|x)$ 사이 선형 관계가 존재해야 한다. 둘 사이의 관계가 선형이라는 것은 $y = wx+\epsilon$에서 $w$가 일차식인 경우를 의미한다.
오차항의 정규성 가정
$y = wx+\epsilon$에서 $\epsilon|x \sim N(0, \sigma^2)$이다. 따라서 $y|x$의 분포를 나타내면 위 그림과 같다. 이를 통해 $E(y|x) \sim (wx, \sigma^2)$이 된다. 이때 주의할 점은 $x, y$ 각각이 정규 분포를 따를 필요는 없다는 점이다.
오차항의 기댓값은 0이다.
$E(\epsilon|x)$는 항상 0이며, 이를 통해 $E(y|x)=wx$가 만족된다.
$E(\epsilon|x)=0$인 성질을 통해 $\epsilon$과 $x$ 사이 Correlation(상관 관계)가 없음을 확인할 수 있다.