새소식

ML | AI/내용 정리 - 2023.01.30

Hypothesis Test(가설 검정)의 오류와 Critical value(임계값) 사이 관계 확인하기 Feat. 검정력, 유의 수준

  • -

검정의 오류?


가설 검정 과정에서 가설은 2 가지이고, 이는 Null Hypothesis(귀무 가설 : $H_0$)과 Alternative Hypothesis(대립 가설 : $H_A$)이다. $H_A$의 이름이 대립(대안)인 것은 $H_0$와의 관계 때문이다.

 

가설 검정의 중심은 $H_0$이다. 검정 결과에 따라 $H_0$를 기각하거나, 기각하지 못하냐 딱 2 가지이다. 이에 따라 $H_A$가 채택될 수도, 아닐 수도 있다. $H_0$을 중심으로 생각해보면, 가설 검정 시 발생할 수 있는 오류는 2 가지 이다.

 

  • 제 1종 오류 : $H_0$가 참인데도, $H_0$을 기각한 경우
  • 제 2종 오류 : $H_0$가 거짓인데도, $H_0$을 기각하지 않은 경우 = $H_A$가 참인데도, $H_A$을 채택하지 않은 경우

 

오류 판단의 기준?


가설 검정은 Sample(표본)을 통해 이뤄지기 때문에, $H_0$과 $H_A$을 분포로 접근할 수 있다.

이 경우 판단 기준을 확률로 관리할 수 있다.

 

$H_0$에 대한 올바른 판단을 내리려면, 해당 표본이 $H_0$에서 확률적으로 얼마나 유의한 지를 확인해야 한다. 이를 위해선 해당 표본이 $H_0$, $H_A$ 분포 중 어떤 것에서 나왔다고 봐야 합리적인지에 대한 기준이 필요하다.

이때 기준이 되는 값을 Critical Value(임계값)이라 하고, 이를 기준으로 $H_0$의 기각 여부가 결정 된다. 결국 검정의 오류는 임계 값을 기준으로 $H_0$에 대한 판단이 잘못된 경우에 발생하게 된다.

 

$\alpha$와 $\beta$는 Trade-Off 관계


검정 과정에서 오류가 발생할 수 있는 구간은 $H_0$와 $H_A$의 분포가 겹치는 영역이다. $H_0$의 기준으론 $\alpha$가, $H_A$를 기준으론 $\beta$가 바로 그 영역이다. 앞서 판단 기준을 확률로 관리한다고 했으니 $\alpha$와 $\beta$도 그 영역에서의 확률로 접근한다.

 

위의 그림을 통해 알 수 있듯, $\alpha$와 $\beta$는 분포가 겹치는 영역에서 임계값을 기준으로 파이 나눠 먹기 싸움이다.그래서 Sample size(표본의 크기)를 늘리지 않는 한 $\alpha$와 $\beta$ 모두 작게 만들 수는 없다. 따라서 필요에 맞게 $\alpha$와 $\beta$를 관리해야 한다.

 

$\alpha$와 $\beta$를 어떻게 관리?


$\alpha$는 $H_0$가 참이지만 $H_0$가 기각돼, 표본이 $H_A$과 관련 있다는 잘못된 판단을 하는 경우다. 그래서$\alpha$는 제 1종 오류가 발생할 확률과도 같다.

 

제 1종 오류가 발생할 확률인 $\alpha$ 줄이려면, 확률적 유의함에 대한 판단 기준인 임계값을 엄격하게 관리해야 한다. 그래서 보통 가설 검정 시 임계값은 0.05, 0.01(5%, 1%) 등으로 설정한다. 임계값은 유의함을 결정하는 기준이 되기 때문에 Significance level(유의 수준)과도 동일하다.

 

$\beta$는 $H_0$가 거짓인데 $H_0$가 기각되지 않아, 표본이 $H_0$와 관련 됐다는 잘못된 판단을 하는 경우다. 그래서 $\beta$는 제 2종 오류가 발생할 확률과 동일하다.

 

앞서 1종 오류는 임계값을 조절해 $\alpha$를 직접적으로 조절 했었다. 하지만 $\beta$는 $\alpha$ 빼고 나머지이다.

 

이는 가설 검정이 $H_0$의 분포를 통해 이뤄지기 때문이고, $H_A$의 분포는 $H_0$ 분포에 영향을 주지 않기 때문이다. 우리가 관심 있는 것은 $H_0$ 이기 때문에, 이를 판단할 수 있는 유의 수준을 제대로 설정하지 않으면 가설 검정은 아무 의미가 없다.

 

그래서 $\beta$를 어떻게 하라구?


'그럼 $\beta$는 아무 값이나 상관 없냐?'고 물으면 또 그건 아니다. $\beta$ 또한 오류가 발생할 확률이기 때문에 당연히 낮을 수록 좋다. 다만 그 수준이 통계적 유의함을 해치지 않는 선에서만 가능하다.

 

그래서 보통은 유의 수준을 결정 해 $\alpha$를 먼저 고정하고, $\beta$ 또한 줄일 수 있도록 한다. 예를 들면 0.05 정도의 유의 수준으로도 검정이 가능한 경우라면, 굳이 $\alpha$를 0.01로 하는 대신 0.05로 바꿔 $\beta$를 낮출 수 있도록 한다. 

 

이때 보통 $\beta$를 다룰 때에는 $\beta$ 그 자체 보다는 $1 - \beta$인 Power(검정력)로 많이 얘기한다. 따라서 낮은 $\beta$는 높은 검정력과도 동일하다. 검정력은 높을 수록 좋고, 80% 정도만 되도 충분히 높은 검정력을 가진다고 얘기한다.

 

검정력이 가지는 의미는?


검정력은 $1 - \beta$이고 2 종 오류를 하지 않은 것과 같다. 이는 $H_0$가 기각됐을 때, 해당 표본이 $H_A$와 관련 있다고 고 보는 것이 합리적인지를 알려주는 지표가 된다. 

 

p - value가 임계 수준 보다 낮아 귀무 가설을 기각할 수 있는 상황이더라도, 검정력이 낮다면 해당 표본이 $H_0$의 분포 중 극단치인건지, 또 $H_A$ 분포에서 나왔는지 정확히 판단하기 힘들다. 하지만 검정력이 높다면 해당 표본이 $H_A$ 분포에서 나왔을 것이라고 좀 더 자신있게 주장할 수 있다.

 

검정력의 크기?


위 그림을 다시 확인하면, 검정력($1 - \beta$)은 $H_0$과 $H_A$ 사이 거리가 클 때 그 값이 커진다는 것을 유추할 수 있다. 이때 $H_0$과 $H_A$는 표본 평균의 분포이기 때문에, 결국 두 분포 사이 평균 차가 크고 분산이 작을 경우 검정력은 커지게된다.

 

그래서 검정력을 높이는 확실한 방법은 Sample Size(표본의 크기) N을 키우는 것이다. 표본 평균의 표준 편차인 표준 오차는 N이 커짐에 따라 무조건 작아질 수 밖에 없기 때문이다. 


이미지 참고

 

Type I & II Errors and Sample Size Calculation in Hypothesis Testing

Factors Influencing the result in Hypothesis Testing

towardsdatascience.com

 

Type I & Type II Errors | Differences, Examples, Visualizations

In statistics, a Type I error is a false positive conclusion, while a Type II error is a false negative conclusion. Making a statistical decision always

www.scribbr.com

내용 참고

 

기초통계학[29].귀무가설의 유의성 검정 2

안녕하세요. 지난 포스팅 기초통계학[28].귀무가설의 유의성 검정 1에서는 NHST와 관련된 몇 가지 정의들을 활용해서 현실 문제에 통계학적인 언어로 쓸 수 있는 방법에 대해서 알아보았습니다.

everyday-image-processing.tistory.com

  • 검정과 관련된 설명이 굉장히 잘 돼 있다.
 

유의성 검정에서의 검정력이란? (동영상) | 오차확률과 검정력 | Khan Academy

수학, 예술, 컴퓨터 프로그래밍, 경제, 물리학, 화학, 생물학, 의학, 금융, 역사 등을 무료로 학습해 보세요. 칸아카데미는 어디에서나 누구에게나 세계 최고의 무료 교육을 제공하는 미션을 가진

ko.khanacademy.org

 

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.