Processing math: 100%

R2(결정 계수)란?


R2(결정 계수)는 회귀 모델의 성능 평가 지표로, Dependent Variable(종속 변수) y총 변동(분산)을 회귀 모델 wx표현할 수 있는 정도를 나타낸다. 이를 수식으로 나타내면 다음과 같다.

 

R2=(^yiˉy)2(yiˉy)2

 

식에선 분모, 분자 모두 ˉy를 기준으로 분산을 측정한다. 이때 ˉyy의 평균이면서, 동시에 회귀 모델 wx와 관련 없는 Naive한 예측이다. 따라서 결정 계수는 y분산을 현 모델로 얼마나 나타낼 수 있는지 알려주는 지표면서, 동시에 Naive예측(ˉy) 대비 모델(ˆy)의 개선 정도를 확인할 수 있는 지표이다.

 

adjusted R2의 필요성


결정 계수는 Independet Variable(독립 변수) x가 늘어나면, 적어도 감소하지 않는(단조 증가) 성질이 있다. 이 경우 x늘리기만 해도 결정 계수가 낮아지는 문제가 생긴다. 이러한 문제를 해결하기 위해표본 수와, 독립 변수 개수를 사용해 결정 계수보정해준 것이 adjusted R2(조정 결정 계수)이다.

R2adjusted=1(1R2)(n1)nk1

대략 결정 계수와 조정 결정 계수가 10% 정도 이상 차이나면, 과적합을 의심해볼 수 있다고 한다.

 

TSS(SST), ESS(RSS), RSS(SSE)는?


TSS, ESS, RSS 모두 회귀 모델 wxy 사이 관계를 통해 확인할 수 있다. 앞서 수식을 통해 접했던 ˆy, ˉy, y를 사용해 둘 사이의 관계를 나타내면 아래의 그림과 같다. 그림에선 빨간 점선이 ˉy이고, 보라색 점선이 ˉy이다.

TSS(SST)

(yˉy)2는 총 변동으로 Total Sum of Squares(TSS) 또는 Sum of Sqaures Total(SST)라고 부른다.

 

ESS(RSS)

(ˆyˉy)2은 회귀 모델 wx를 통해 설명할 수 있는 부분으로, 이를 Explained Sum of Squares(ESS) 또는 Sum of Squares due to Regression(SSR)라고 한다.

 

RSS(SEE)

(yˆy)2wx로 설명할 수 없는 Residual에 부분으로, 이를 Residual Sum of Squares(RSS) 또는 Sum of Squares Residual Error(SSE)라고 부른다.

 

TSS, ESS, RSS, R2 사이 관계

위 그림에서 확인할 수 있는 관계는 사실 y=ˆy+e이다. 하지만 식을 yˉy=ˆyˉy+yˆy의 형태로 변형하고 양변을 제곱해 정리하면, 최종적으로 TSS, ESS, RSS 사이 관계가 나온다. 자세한 과정은 링크를 참고하면 된다.

 

결론은 TSS = ESS + RSS가 된다. 이를 통해 결정 계수를 다음과 같이 표현할 수 있다.

R2=ESSTSS=1RSSTSS


참고

 

회귀분석 결과의 해석과 R²(설명력,결정계수)의 의미, 그리고 R²은 상관계수의 제곱. 응?

일단 마구마구 회귀분석을 해보긴 했는데, 회귀분석을 하고 나니 여러 가지 결과가 툭 튀어나왔었거든요. 그 결과를 보고 무슨 의미인지 해석할 수 있는 고품격 해석 능력을 배양해야 하겠습니

recipesds.tistory.com

 

[회귀분석] ANOVA(분산분석)를 이용한 회귀분석 접근 (1) - 제곱합(Sum of Squares)

 

datalabbit.tistory.com

  • 전반적인 내용을 참고했다.
 

[단순선형회귀] SST = SSR + SSE 성립 조건과 증명

지난 포스팅에서는 회귀계수와 상관계수 사이의 관계를 알아보았습니다.이번 포스팅부터는 회귀모델의 평가지표인 R2 과 상관계수 r 사이의 관계를 알아보겠습니다.하지만 그 전에 다음 공

velog.io

  • TSS = ESS + RSS 과정 증명을 확인할 수 있다.