식에선 분모, 분자 모두 $\bar{y}$를 기준으로 분산을 측정한다. 이때 $\bar{y}$는 $y$의 평균이면서, 동시에 회귀 모델 $wx$와 관련 없는 Naive한 예측이다. 따라서 결정 계수는 $y$의 분산을 현 모델로 얼마나 나타낼 수 있는지 알려주는 지표면서, 동시에 Naive한 예측($\bar{y}$) 대비 모델($\hat{y}$)의 개선 정도를 확인할 수 있는 지표이다.
adjusted $R^2$의 필요성
결정 계수는 Independet Variable(독립 변수) $x$가 늘어나면, 적어도 감소하지 않는(단조 증가) 성질이 있다. 이 경우 $x$를 늘리기만 해도 결정 계수가 낮아지는 문제가 생긴다. 이러한 문제를 해결하기 위해표본 수와, 독립 변수 개수를 사용해 결정 계수를 보정해준 것이 adjusted $R^2$(조정 결정 계수)이다.
TSS, ESS, RSS 모두 회귀 모델 $wx$와 $y$ 사이 관계를 통해 확인할 수 있다. 앞서 수식을 통해 접했던 $\hat{y}$, $\bar{y}$, $y$를 사용해 둘 사이의 관계를 나타내면 아래의 그림과 같다. 그림에선 빨간 점선이 $\bar{y}$이고, 보라색 점선이 $\bar{y}$이다.
TSS(SST)
$(y - \bar{y})^2$는 총 변동으로 Total Sum of Squares(TSS) 또는 Sum of Sqaures Total(SST)라고 부른다.
ESS(RSS)
$(\hat{y} - \bar{y})^2$은 회귀 모델 $wx$를 통해 설명할 수 있는 부분으로, 이를 Explained Sum of Squares(ESS) 또는 Sum of Squares due to Regression(SSR)라고 한다.
RSS(SEE)
$(y - \hat{y})^2$은 $wx$로 설명할 수 없는 Residual에 부분으로, 이를 Residual Sum of Squares(RSS) 또는 Sum of Squares Residual Error(SSE)라고 부른다.
TSS, ESS, RSS, $R^2$ 사이 관계
위 그림에서 확인할 수 있는 관계는 사실 $y = \hat{y} + e$이다. 하지만 식을 $y - \bar{y}=\hat{y} - \bar{y} + y - \hat{y}$의 형태로 변형하고 양변을 제곱해 정리하면, 최종적으로 TSS, ESS, RSS 사이 관계가 나온다. 자세한 과정은 링크를 참고하면 된다.
결론은 TSS = ESS + RSS가 된다. 이를 통해 결정 계수를 다음과 같이 표현할 수 있다.