Density Estimation(DE)?

관측 데이터는 확률 변수에 의해 샘플링된 것으로 볼 수 있다.

이러한 관측 데이터를 많이 모으면 어떤 확률 변수에서 추출됐는지 추정이 가능할 것이다.

데이터를 통해 기존 확률 변수의 Density(PDF)를 추정하는 것이 바로 DE이다.

Probablity Density Function

  • PDF를 알면 확률 변수에 정보를 알 수 있기에 가치 있음

 

Non-Parametric Estimation

확률 변수의 형태를 미리 가정할 경우를 Parametric, 아닐 경우 Non-Parametric Model 이라고 한다. Non-Parametric Estimation은 변수에 대한 가정 없이 관측된 데이터만 가지고 DE를 진행한다. 다양한 방법 중 간단하게 Histogram, KDE만 알아보자.

 

Histogram

데이터의 분포를 Histogram으로 표현하고, 이를 분포로서 추정한다.

대략적 분포를 확인할 수 있지만, 실제 분포와는 차이가 있다.

연속형 데이터를 이산형 데이터처럼 다루고, Bins 또한 정하기 어렵다.

  • Bins 너무 클 경우 → 실제 PDF와 큰 차이가 있다.
  • Bins 너무 작을 경우 → 빈 Histogram이 너무 많이 생긴다.

Histogram을 활용한 Estimation

 

Kernel Density Estimation(KDE)

연속성 있는 PDF를 구하기 위해 Kernel 함수를 도입해 Non-Parametric DE를 하는 방법이다.

Kernel(커널) 함수의 특징은 다음과 같다.

KDE Kernel의 특징

  • PDF 추정이 목적이기 때문에 Kernel 함수 적분 값을 1로 설정 해, 확률로서 접근한다.
  • Zero-centered 한 함수를 사용해, 데이터를 중심으로 한 분포로서 표현할 수 있다.

 

KDE는 우선 X로 부터 관측된 샘플 데이터 x1,x2xi 각각 마다 커널 함수를 생성한다. 이후 만들어진 커널 함수를 모두 더한 뒤, 전체 데이터 개수로 나눠서 PDF를 추정한다. 이를 수식과 그림으로 표현하면 다음과 같다.

KDE 수식
KDE 과정 → 각 Kernel의 합을 통해 얻을 수 있음

KDE의 핵심은 어떤 커널 함수(K)를 사용하고, 얼마 만큼의 Bandwidth (h)로 설정할 지이다.

Bandwidth를 통해 KDE의 Smoothing 정도를 설정할 수 있다.

Smoothing을 크게 하고 싶다면 Bandwidth를 높이면 된다.

Bandwidth 별 Smoothing 양상


참고

슬라이드 1 (hansung.ac.kr)

 

Kernel Density Estimation (커널 밀도 추정) · Seongkyun Han's blog

Kernel Density Estimation (커널 밀도 추정) 03 Feb 2019 | kernel density estimation KDE 커널 밀도 추정 Kernel Density Estimation (커널 밀도 추정) CNN을 이용한 실험을 했는데 직관적으로는 결과가 좋아졌지만 왜 좋아

seongkyun.github.io

 

[통계] 커널 밀도 추정 (Kernel Density Estimation)

1. Density Esitmation (밀도 추정) 이란? 확률 밀도 추정이란? 관측된 데이터로부터 변수가 가질 수 있는 모든 값의 확률(밀도)를 추정하는 것이다. 확률 밀도 추정 방법은 Parametric과 Non-parametric 두 가

sungkee-book.tistory.com