Hypothesis Test(가설 검정)?


Population(모집단)에 대한 어떤 특성(가설)을 주장하고 싶어도, 그 모집단을 직접 확인할 수 없는 상황이 대부분이다. 따라서 이럴 땐 Sample(표본)을 참고할 수밖에 없다. 하지만 표본은 모집단으로부터 랜덤하게 얻은 것이기에, 그 주장이 타당한 지 항상 고민해야 한다.

 

표본으로 모집단의 특성을 주장(가설)할 땐, 그 가설이 얼마나 타당한 지 확인하기 위한 작업이 필요하고 이를 가설 검정이라고 한다. 이때 가설 검정타당성은 p - value를 사용해 확률의 개념으로 표현한다.

 

검정의 타당성을 확률로 접근하는 이유는, 표본이란 모집단 입장에선 랜덤하게 추출된 것 중 하나에 불과하기 때문이다. 표본으로 인해 모집단에 대한 잘못된 판단을 내리지 않으려면, 우선 그 표본이 샘플링 시 어느 정도의 확률로 발생하는 일인지 알아야 할 것이다.

 

Null hypothesis(귀무 가설)과 p - value


Ho(귀무 가설)의 분포

검정의 타당성을 확률로 표현하기 위해 활용되는 가설을 귀무 가설이라고 한다. 그래서 p - value가 나타내는 확률은 귀무가설이 참이라는 조건 하에, 해당 표본의 결과와 그 보다 더한 극단치가 나올 확률을 의미한다. 따라서 p - value를 귀무가설 하, CDF 값처럼 생각하면 된다.

 

이러한 p - value는 Significance Probability(유의 확률)라고도 불리는데, 표본으로 부터 얻은 결과가 우연이라고 할 수 없는 유의한 정도를 표현할 수 있기 때문이다. 


참고

 

귀무/대립가설 설정은 이제 더 이상 헷갈리면 인간이 아님 - 가설검정과 설정의 틀 -

가설검정의 정체에 대한 이야기 편에서 약속한 귀무가설, 대립가설 설정 방법에 관한 이야기의 계속. 일단, 마구 섞어쓰는 용어에 대해서 먼저 이야기한다면, Null Hypothesis는 귀무가설, Alternative H

recipesds.tistory.com

  • 많은 내용을 위 블로그 자료를 통해 이해했다.