가정이 필요한 이유?
Linear Regression(선형 회귀) 모델은 선형적 관계의 Independent Variable(독립 변수)와 Dependent Variable(종속 변수)가 수치적으로 얼마나 관련 있는지 확인하는 것이 목적이다. 가정이 만족돼야 목적에 맞게 모델을 사용할 수 있고, Residual(잔차)을 통해 계수, 모형 검정 등을 진행할 수 있다.
선형성 가정
Independent Variable(독립 변수) x와 Dependent Variable(종속 변수)의 조건부 기댓값 E(y|x) 사이 선형 관계가 존재해야 한다. 둘 사이의 관계가 선형이라는 것은 y=wx+ϵ에서 w가 일차식인 경우를 의미한다.
오차항의 정규성 가정

y=wx+ϵ에서 ϵ|x∼N(0,σ2)이다. 따라서 y|x의 분포를 나타내면 위 그림과 같다. 이를 통해 E(y|x)∼(wx,σ2)이 된다. 이때 주의할 점은 x,y 각각이 정규 분포를 따를 필요는 없다는 점이다.
오차항의 기댓값은 0이다.
E(ϵ|x)는 항상 0이며, 이를 통해 E(y|x)=wx가 만족된다.
E(ϵ|x)=0인 성질을 통해 ϵ과 x 사이 Correlation(상관 관계)가 없음을 확인할 수 있다.
E[ϵx]=E[E[ϵx∣x]]=E[xE[ϵ∣x]]=0
오차항의 등분산성
모든 x에 대해서 오차가 같은 정도로(σ가 상수) 퍼져 있다.
오차항의 독립성 가정
서로 다른 오차 ϵi,ϵj 사이 어떠한 Correlation(상관 관계)도 존재하지 않아야 한다. 상관 관계가 없기 때문에 오차 사이 Cov[ϵi,ϵj|x]=0 이다.
참고
[기초통계] 회귀분석의 개념과 의미
회귀분석 정리
losskatsu.github.io
[회귀분석] 단순선형회귀분석(Simple Linear Regression) 개념
Review 참고 포스팅 : 2020/09/15 - [Statistics/Regression Analysis] - [회귀분석] 회귀분석 모델의 소개 안녕하십니까, 간토끼입니다. 지난 포스팅에서는 회귀분석이 무엇인지에 대해서 간단히 다뤄보았습니
datalabbit.tistory.com
5.1 확률론적 선형 회귀모형 — 데이터 사이언스 스쿨
.ipynb .pdf to have style consistency -->
datascienceschool.net
에라이, 일단 레츠 두 잇, 회귀분석 - OLS Regression 맛보기
자, 이제까지 회귀에 대해서 계속 말만 꺼냈지, 실제로 회귀를 해보지 않았으니까, 서툴더라도 회귀라는 것을 한번 해보자고요. - 분석 결과의 해석은 이걸 해 보고 하는 것으로... 아직은 회귀에
recipesds.tistory.com