Hypothesis Test(가설 검정)의 오류와 Critical value(임계값) 사이 관계 확인하기 Feat. 검정력, 유의 수준
검정의 오류?
가설 검정 과정에서 가설은 2 가지이고, 이는 Null Hypothesis(귀무 가설 : $H_0$)과 Alternative Hypothesis(대립 가설 : $H_A$)이다. $H_A$의 이름이 대립(대안)인 것은 $H_0$와의 관계 때문이다.
가설 검정의 중심은 $H_0$이다. 검정 결과에 따라 $H_0$를 기각하거나, 기각하지 못하냐 딱 2 가지이다. 이에 따라 $H_A$가 채택될 수도, 아닐 수도 있다. $H_0$을 중심으로 생각해보면, 가설 검정 시 발생할 수 있는 오류는 2 가지 이다.
- 제 1종 오류 : $H_0$가 참인데도, $H_0$을 기각한 경우
- 제 2종 오류 : $H_0$가 거짓인데도, $H_0$을 기각하지 않은 경우 = $H_A$가 참인데도, $H_A$을 채택하지 않은 경우
오류 판단의 기준?
가설 검정은 Sample(표본)을 통해 이뤄지기 때문에, $H_0$과 $H_A$을 분포로 접근할 수 있다.
이 경우 판단 기준을 확률로 관리할 수 있다.
$H_0$에 대한 올바른 판단을 내리려면, 해당 표본이 $H_0$에서 확률적으로 얼마나 유의한 지를 확인해야 한다. 이를 위해선 해당 표본이 $H_0$, $H_A$ 분포 중 어떤 것에서 나왔다고 봐야 합리적인지에 대한 기준이 필요하다.
이때 기준이 되는 값을 Critical Value(임계값)이라 하고, 이를 기준으로 $H_0$의 기각 여부가 결정 된다. 결국 검정의 오류는 임계 값을 기준으로 $H_0$에 대한 판단이 잘못된 경우에 발생하게 된다.
$\alpha$와 $\beta$는 Trade-Off 관계
검정 과정에서 오류가 발생할 수 있는 구간은 $H_0$와 $H_A$의 분포가 겹치는 영역이다. $H_0$의 기준으론 $\alpha$가, $H_A$를 기준으론 $\beta$가 바로 그 영역이다. 앞서 판단 기준을 확률로 관리한다고 했으니 $\alpha$와 $\beta$도 그 영역에서의 확률로 접근한다.
위의 그림을 통해 알 수 있듯, $\alpha$와 $\beta$는 분포가 겹치는 영역에서 임계값을 기준으로 파이 나눠 먹기 싸움이다.그래서 Sample size(표본의 크기)를 늘리지 않는 한 $\alpha$와 $\beta$ 모두 작게 만들 수는 없다. 따라서 필요에 맞게 $\alpha$와 $\beta$를 관리해야 한다.
$\alpha$와 $\beta$를 어떻게 관리?
$\alpha$는 $H_0$가 참이지만 $H_0$가 기각돼, 표본이 $H_A$과 관련 있다는 잘못된 판단을 하는 경우다. 그래서$\alpha$는 제 1종 오류가 발생할 확률과도 같다.
제 1종 오류가 발생할 확률인 $\alpha$ 줄이려면, 확률적 유의함에 대한 판단 기준인 임계값을 엄격하게 관리해야 한다. 그래서 보통 가설 검정 시 임계값은 0.05, 0.01(5%, 1%) 등으로 설정한다. 임계값은 유의함을 결정하는 기준이 되기 때문에 Significance level(유의 수준)과도 동일하다.
$\beta$는 $H_0$가 거짓인데 $H_0$가 기각되지 않아, 표본이 $H_0$와 관련 됐다는 잘못된 판단을 하는 경우다. 그래서 $\beta$는 제 2종 오류가 발생할 확률과 동일하다.
앞서 1종 오류는 임계값을 조절해 $\alpha$를 직접적으로 조절 했었다. 하지만 $\beta$는 $\alpha$ 빼고 나머지이다.
이는 가설 검정이 $H_0$의 분포를 통해 이뤄지기 때문이고, $H_A$의 분포는 $H_0$ 분포에 영향을 주지 않기 때문이다. 우리가 관심 있는 것은 $H_0$ 이기 때문에, 이를 판단할 수 있는 유의 수준을 제대로 설정하지 않으면 가설 검정은 아무 의미가 없다.
그래서 $\beta$를 어떻게 하라구?
'그럼 $\beta$는 아무 값이나 상관 없냐?'고 물으면 또 그건 아니다. $\beta$ 또한 오류가 발생할 확률이기 때문에 당연히 낮을 수록 좋다. 다만 그 수준이 통계적 유의함을 해치지 않는 선에서만 가능하다.
그래서 보통은 유의 수준을 결정 해 $\alpha$를 먼저 고정하고, $\beta$ 또한 줄일 수 있도록 한다. 예를 들면 0.05 정도의 유의 수준으로도 검정이 가능한 경우라면, 굳이 $\alpha$를 0.01로 하는 대신 0.05로 바꿔 $\beta$를 낮출 수 있도록 한다.
이때 보통 $\beta$를 다룰 때에는 $\beta$ 그 자체 보다는 $1 - \beta$인 Power(검정력)로 많이 얘기한다. 따라서 낮은 $\beta$는 높은 검정력과도 동일하다. 검정력은 높을 수록 좋고, 80% 정도만 되도 충분히 높은 검정력을 가진다고 얘기한다.
검정력이 가지는 의미는?
검정력은 $1 - \beta$이고 2 종 오류를 하지 않은 것과 같다. 이는 $H_0$가 기각됐을 때, 해당 표본이 $H_A$와 관련 있다고 고 보는 것이 합리적인지를 알려주는 지표가 된다.
p - value가 임계 수준 보다 낮아 귀무 가설을 기각할 수 있는 상황이더라도, 검정력이 낮다면 해당 표본이 $H_0$의 분포 중 극단치인건지, 또 $H_A$ 분포에서 나왔는지 정확히 판단하기 힘들다. 하지만 검정력이 높다면 해당 표본이 $H_A$ 분포에서 나왔을 것이라고 좀 더 자신있게 주장할 수 있다.
검정력의 크기?
위 그림을 다시 확인하면, 검정력($1 - \beta$)은 $H_0$과 $H_A$ 사이 거리가 클 때 그 값이 커진다는 것을 유추할 수 있다. 이때 $H_0$과 $H_A$는 표본 평균의 분포이기 때문에, 결국 두 분포 사이 평균 차가 크고 분산이 작을 경우 검정력은 커지게된다.
그래서 검정력을 높이는 확실한 방법은 Sample Size(표본의 크기) N을 키우는 것이다. 표본 평균의 표준 편차인 표준 오차는 N이 커짐에 따라 무조건 작아질 수 밖에 없기 때문이다.
이미지 참고
내용 참고
- 검정과 관련된 설명이 굉장히 잘 돼 있다.