R2(결정 계수)란?
R2(결정 계수)는 회귀 모델의 성능 평가 지표로, Dependent Variable(종속 변수) y의 총 변동(분산)을 회귀 모델 wx로 표현할 수 있는 정도를 나타낸다. 이를 수식으로 나타내면 다음과 같다.
R2=∑(^yi−ˉy)2∑(yi−ˉy)2
식에선 분모, 분자 모두 ˉy를 기준으로 분산을 측정한다. 이때 ˉy는 y의 평균이면서, 동시에 회귀 모델 wx와 관련 없는 Naive한 예측이다. 따라서 결정 계수는 y의 분산을 현 모델로 얼마나 나타낼 수 있는지 알려주는 지표면서, 동시에 Naive한 예측(ˉy) 대비 모델(ˆy)의 개선 정도를 확인할 수 있는 지표이다.
adjusted R2의 필요성
결정 계수는 Independet Variable(독립 변수) x가 늘어나면, 적어도 감소하지 않는(단조 증가) 성질이 있다. 이 경우 x를 늘리기만 해도 결정 계수가 낮아지는 문제가 생긴다. 이러한 문제를 해결하기 위해표본 수와, 독립 변수 개수를 사용해 결정 계수를 보정해준 것이 adjusted R2(조정 결정 계수)이다.
R2adjusted=1−(1−R2)(n−1)n−k−1
대략 결정 계수와 조정 결정 계수가 10% 정도 이상 차이나면, 과적합을 의심해볼 수 있다고 한다.
TSS(SST), ESS(RSS), RSS(SSE)는?
TSS, ESS, RSS 모두 회귀 모델 wx와 y 사이 관계를 통해 확인할 수 있다. 앞서 수식을 통해 접했던 ˆy, ˉy, y를 사용해 둘 사이의 관계를 나타내면 아래의 그림과 같다. 그림에선 빨간 점선이 ˉy이고, 보라색 점선이 ˉy이다.

TSS(SST)
(y−ˉy)2는 총 변동으로 Total Sum of Squares(TSS) 또는 Sum of Sqaures Total(SST)라고 부른다.
ESS(RSS)
(ˆy−ˉy)2은 회귀 모델 wx를 통해 설명할 수 있는 부분으로, 이를 Explained Sum of Squares(ESS) 또는 Sum of Squares due to Regression(SSR)라고 한다.
RSS(SEE)
(y−ˆy)2은 wx로 설명할 수 없는 Residual에 부분으로, 이를 Residual Sum of Squares(RSS) 또는 Sum of Squares Residual Error(SSE)라고 부른다.
TSS, ESS, RSS, R2 사이 관계
위 그림에서 확인할 수 있는 관계는 사실 y=ˆy+e이다. 하지만 식을 y−ˉy=ˆy−ˉy+y−ˆy의 형태로 변형하고 양변을 제곱해 정리하면, 최종적으로 TSS, ESS, RSS 사이 관계가 나온다. 자세한 과정은 링크를 참고하면 된다.
결론은 TSS = ESS + RSS가 된다. 이를 통해 결정 계수를 다음과 같이 표현할 수 있다.
R2=ESSTSS=1−RSSTSS
참고
회귀분석 결과의 해석과 R²(설명력,결정계수)의 의미, 그리고 R²은 상관계수의 제곱. 응?
일단 마구마구 회귀분석을 해보긴 했는데, 회귀분석을 하고 나니 여러 가지 결과가 툭 튀어나왔었거든요. 그 결과를 보고 무슨 의미인지 해석할 수 있는 고품격 해석 능력을 배양해야 하겠습니
recipesds.tistory.com
[회귀분석] ANOVA(분산분석)를 이용한 회귀분석 접근 (1) - 제곱합(Sum of Squares)
datalabbit.tistory.com
- 전반적인 내용을 참고했다.
[단순선형회귀] SST = SSR + SSE 성립 조건과 증명
지난 포스팅에서는 회귀계수와 상관계수 사이의 관계를 알아보았습니다.이번 포스팅부터는 회귀모델의 평가지표인 R2 과 상관계수 r 사이의 관계를 알아보겠습니다.하지만 그 전에 다음 공
velog.io
- TSS = ESS + RSS 과정 증명을 확인할 수 있다.