새소식

ML | AI/내용 정리 - 2023.04.21

R^2(결정 계수, Coefficient of Determination) 알아보기

  • -

$R^2$(결정 계수)란?


$R^2$(결정 계수)는 회귀 모델의 성능 평가 지표로, Dependent Variable(종속 변수) $y$의 총 변동(분산)을 회귀 모델 $wx$로 표현할 수 있는 정도를 나타낸다. 이를 수식으로 나타내면 다음과 같다.

 

$$ R^2 = \frac{\sum(\hat{y_i}-\bar{y})^2}{\sum(y_i-\bar{y})^2} $$

 

식에선 분모, 분자 모두 $\bar{y}$를 기준으로 분산을 측정한다. 이때 $\bar{y}$는 $y$의 평균이면서, 동시에 회귀 모델 $wx$와 관련 없는 Naive한 예측이다. 따라서 결정 계수는 $y$의 분산을 현 모델로 얼마나 나타낼 수 있는지 알려주는 지표면서, 동시에 Naive예측($\bar{y}$) 대비 모델($\hat{y}$)의 개선 정도를 확인할 수 있는 지표이다.

 

adjusted $R^2$의 필요성


결정 계수는 Independet Variable(독립 변수) $x$가 늘어나면, 적어도 감소하지 않는(단조 증가) 성질이 있다. 이 경우 $x$를 늘리기만 해도 결정 계수가 낮아지는 문제가 생긴다. 이러한 문제를 해결하기 위해표본 수와, 독립 변수 개수를 사용해 결정 계수보정해준 것이 adjusted $R^2$(조정 결정 계수)이다.

$$ R^2_{adjusted} = 1 - \cfrac{(1-R^2)(n-1)}{n-k-1} $$

대략 결정 계수와 조정 결정 계수가 10% 정도 이상 차이나면, 과적합을 의심해볼 수 있다고 한다.

 

TSS(SST), ESS(RSS), RSS(SSE)는?


TSS, ESS, RSS 모두 회귀 모델 $wx$와 $y$ 사이 관계를 통해 확인할 수 있다. 앞서 수식을 통해 접했던 $\hat{y}$, $\bar{y}$, $y$를 사용해 둘 사이의 관계를 나타내면 아래의 그림과 같다. 그림에선 빨간 점선이 $\bar{y}$이고, 보라색 점선이 $\bar{y}$이다.

TSS(SST)

$(y - \bar{y})^2$는 총 변동으로 Total Sum of Squares(TSS) 또는 Sum of Sqaures Total(SST)라고 부른다.

 

ESS(RSS)

$(\hat{y} - \bar{y})^2$은 회귀 모델 $wx$를 통해 설명할 수 있는 부분으로, 이를 Explained Sum of Squares(ESS) 또는 Sum of Squares due to Regression(SSR)라고 한다.

 

RSS(SEE)

$(y - \hat{y})^2$은 $wx$로 설명할 수 없는 Residual에 부분으로, 이를 Residual Sum of Squares(RSS) 또는 Sum of Squares Residual Error(SSE)라고 부른다.

 

TSS, ESS, RSS, $R^2$ 사이 관계

위 그림에서 확인할 수 있는 관계는 사실 $y = \hat{y} + e$이다. 하지만 식을 $y - \bar{y}=\hat{y} - \bar{y} + y - \hat{y}$의 형태로 변형하고 양변을 제곱해 정리하면, 최종적으로 TSS, ESS, RSS 사이 관계가 나온다. 자세한 과정은 링크를 참고하면 된다.

 

결론은 TSS = ESS + RSS가 된다. 이를 통해 결정 계수를 다음과 같이 표현할 수 있다.

$$ R^2=\frac{ESS}{TSS}=1-\frac{RSS}{TSS} $$


참고

 

회귀분석 결과의 해석과 R²(설명력,결정계수)의 의미, 그리고 R²은 상관계수의 제곱. 응?

일단 마구마구 회귀분석을 해보긴 했는데, 회귀분석을 하고 나니 여러 가지 결과가 툭 튀어나왔었거든요. 그 결과를 보고 무슨 의미인지 해석할 수 있는 고품격 해석 능력을 배양해야 하겠습니

recipesds.tistory.com

 

[회귀분석] ANOVA(분산분석)를 이용한 회귀분석 접근 (1) - 제곱합(Sum of Squares)

 

datalabbit.tistory.com

  • 전반적인 내용을 참고했다.
 

[단순선형회귀] SST = SSR + SSE 성립 조건과 증명

지난 포스팅에서는 회귀계수와 상관계수 사이의 관계를 알아보았습니다.이번 포스팅부터는 회귀모델의 평가지표인 $R^2$ 과 상관계수 $r$ 사이의 관계를 알아보겠습니다.하지만 그 전에 다음 공

velog.io

  • TSS = ESS + RSS 과정 증명을 확인할 수 있다.
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.