새소식

ML | AI/내용 정리 - 2023.04.11

Sampling(표본 추출) 방식 별 특징과 추출법 결정 시 고려 사항

  • -

Probability Sampling(확률 표본 추출)


Simple Random Sampling(무작위 추출법)
  • 모집단 전체에 일련 번호(실제 혹은 개념적)를 부여하고, 랜덤하게 추출하는 방식
  • 장점
    • 추출 확률이 동일하기 때문에, 표본의 대표성이 크고, 오차 개입 여부가 적음
    • 모집단에 대한 사전 지식 불필요
  • 단점
    • 대규모 표본일 때 효과적임
    • 모집단에 대한 사전 지식을 활용할 수 없고, 표본 프레임(모집단 목록)을 파악하기 어려움

 

Stratified Sampling(층화 추출법)

  • 모집단을 서로 겹치지 않는 여러 개의 ‘층’으로 쪼갠 뒤, 각 ‘층’에서 무작위로 추출하는 방식
  • ‘층’ 마다의 개수를 고려해 추출한다면, 비례 층화 추출
  • 장점
    • 집단을 ‘층’으로 관리해 빼놓지 않고 표본에 포함 시킬 수 있음
      • 대표성이 높은 데이터 샘플링 가능
    • 각 층의 특성에 대한 추정 및 비교가 가능해짐
  • 단점
    • 층화까지 많은 시간, 노력이 필요함
    • 모집단에 대한 지식이 필요함

 

Systematic Sampling(계통 추출법)

  • 추출 단위를 선택하고, 단위 속 K 번째 성분을 추출하는 방식
    • 그림 예시에선, 20 단위로 매번 1 번째 성분을 추출
  • 장점
    • 표본 추출이 간편함
    • 표본의 대표성이 큰 편이고, 무작위 추출의 대안으로 사용할 수 있음
  • 단점
    • 모집단 추출 단위에 대한 추가적인 가정 필요
      • 주기적인 경향성이 있을 경우 사용 시 주의해야 함

 

Clustering Sampling(군집 추출법)

  • 모집단을 클러스터로 묶고, 클러스터 내에서 무작위 추출하는 방식
  • 표본은 클러스터 내 유사한 특성을 공유하고, 타 클러스터와는 다른 특징이 있어야 함
  • 장점
    • 표본 프레임(모집단의 목록)이 없이도 활용할 수 있음
    • 조사 비용을 절감할 수 있음
    • 클러스터의 속성으로 모집단에 대해 유추할 수 있음
  • 단점
    • 클러스터 구성 시, 기준을 정하는 것이 어려움
      • 다른 표본 추출 방법에 비해, 오차 개입 여부가 큼

 

Non-Probability Sampling(비확률 표본 추출)


Convenience Sampling(편의 표본 추출)
  • 정해진 숫자 만큼의 표본을 얻는 데에 집중
    • 모집단 구성원 특성이 동질적이라, 어떤 표본일지라도 동일할 것이라는 가정 하에 진행
  • 장점
    • 저 비용, 짧은 시간 내 표본 확보 가능
      • 대략적 정보를 얻기에 적합
  • 단점
    • 표본의 모집단 대표성이 매우 낮음

 

Quota Sampling(할당 표본 추출)
  • 인구 통계적 특성(나이, 성별, 소득 수준), 거주지 등의 측면에서 사전에 정해진 비율에 따라 표본 추출하는 방식
  • 층화 추출의 경우 무작위로 선택 되지만, 할당 표본 추출은 무작위는 아님
  • 장점
    • 모집단에 대한 가정이 옳을 경우, 높은 대표성을 가진다.
  • 단점
    • 모집단 특성에 대한 사전 지식이 있어야만 한다.

 

Judgement Samping(판단 표본 추출)
  • 전문가들로부터 의견을 수렴 → 연구자의 전문성에 의존
  • 장점
    • 연구자가 유능한 경우 적은 표본임에도 유용한 결과
  • 단점
    • 표본이 적어, 대표성 정도는 평가할 수 없음

 

Snowball Samling(눈덩이 표본 추출)
  • 조사 대상(표본)을 선택하고, 그 대상이 새로운 조사 대상을 추천하고…하는 방식
  • 판단 표본 추출의 일종이라고 볼 수 있음
  • 장점
    • 초기 소수의 판단 표본 추출로, 적절한 표본을 추가로 확보할 수 있음
  • 단점
    • 표본 사이 동질성이 있더라도, 모집단의 특성과는 관련 없을 수도 있음

 

표본 추출법 결정 시 고려 사항


  • 조사의 목적
    • 모집단의 특성을 정확하게 파악하고 싶은 건지, 대략적인 정보가 필요한 것인지
      • 정확도가 필요하다면 확률 표본 추출 방식 활용
      • 대략적 정보가 필요하다면 편의 표본 등 활용
  • 표적이 되는 모집단에 대한 사전 지식이 있는지
    • 계통, 층화, 할당 표본 추출 및 판단 표본, 눈덩이 표본 추출의 경우 모집단에 대한 사전 지식이 필요 함
    • 사전 지식이 전무할 경우엔, 단순 임의 추출 또는 편의 표본 추출 활용해야 함
  • 조사의 용이성 및 비용 등을 함께 고려
    • 시간적 제약이 큰 경우, 비확률 표본 추출로 시간을 절약 가능
    • 예산이 한정적인 경우, 정확도를 포기하더라도 비확률 표본 추출 필요

참고

자료의 이해 및 분석 (kocw.or.kr)

 

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.