가정이 필요한 이유?


Linear Regression(선형 회귀) 모델은 선형적 관계의 Independent Variable(독립 변수)와 Dependent Variable(종속 변수)가 수치적으로 얼마나 관련 있는지 확인하는 것이 목적이다. 가정이 만족돼야 목적에 맞게 모델을 사용할 수 있고, Residual(잔차)을 통해 계수, 모형 검정 등을 진행할 수 있다.

 

 

선형성 가정


Independent Variable(독립 변수) $x$와 Dependent Variable(종속 변수)의 조건부 기댓값 $E(y|x)$ 사이 선형 관계가 존재해야 한다. 둘 사이의 관계가 선형이라는 것은 $y = wx+\epsilon$에서 $w$가 일차식인 경우를 의미한다.

 

오차항의 정규성 가정


에라이, 일단 레츠 두 잇, 회귀분석 - OLS Regression 맛보기 (tistory.com)

$y = wx+\epsilon$에서 $\epsilon|x \sim N(0, \sigma^2)$이다. 따라서 $y|x$의 분포를 나타내면 위 그림과 같다. 이를 통해 $E(y|x) \sim (wx, \sigma^2)$이 된다. 이때 주의할 점은 $x, y$ 각각이 정규 분포를 따를 필요는 없다는 점이다.

 

오차항의 기댓값은 0이다.

$E(\epsilon|x)$는 항상 0이며, 이를 통해 $E(y|x)=wx$가 만족된다.

$E(\epsilon|x)=0$인 성질을 통해 $\epsilon$과 $x$ 사이 Correlation(상관 관계)가 없음을 확인할 수 있다.

$$ \text{E}[\epsilon x] = \text{E}[\text{E}[\epsilon x \mid x]] = \text{E}[x \text{E}[\epsilon\mid x]] = 0 $$

 

오차항의 등분산성

모든 $x$에 대해서 오차가 같은 정도로($\sigma$가 상수) 퍼져 있다.

 

오차항의 독립성 가정


서로 다른 오차 $\epsilon_i, \epsilon_j$ 사이 어떠한 Correlation(상관 관계)도 존재하지 않아야 한다. 상관 관계가 없기 때문에 오차 사이 $Cov[\epsilon_i, \epsilon_j | x] = 0$ 이다.

 

 


참고

 

[기초통계] 회귀분석의 개념과 의미

회귀분석 정리

losskatsu.github.io

 

[회귀분석] 단순선형회귀분석(Simple Linear Regression) 개념

Review 참고 포스팅 : 2020/09/15 - [Statistics/Regression Analysis] - [회귀분석] 회귀분석 모델의 소개 안녕하십니까, 간토끼입니다. 지난 포스팅에서는 회귀분석이 무엇인지에 대해서 간단히 다뤄보았습니

datalabbit.tistory.com

 

5.1 확률론적 선형 회귀모형 — 데이터 사이언스 스쿨

.ipynb .pdf to have style consistency -->

datascienceschool.net

 

에라이, 일단 레츠 두 잇, 회귀분석 - OLS Regression 맛보기

자, 이제까지 회귀에 대해서 계속 말만 꺼냈지, 실제로 회귀를 해보지 않았으니까, 서툴더라도 회귀라는 것을 한번 해보자고요. - 분석 결과의 해석은 이걸 해 보고 하는 것으로... 아직은 회귀에

recipesds.tistory.com