Density Estimation(DE)?
관측 데이터는 확률 변수에 의해 샘플링된 것으로 볼 수 있다.
이러한 관측 데이터를 많이 모으면 어떤 확률 변수에서 추출됐는지 추정이 가능할 것이다.
데이터를 통해 기존 확률 변수의 Density(PDF)를 추정하는 것이 바로 DE이다.
- PDF를 알면 확률 변수에 정보를 알 수 있기에 가치 있음
Non-Parametric Estimation
확률 변수의 형태를 미리 가정할 경우를 Parametric, 아닐 경우 Non-Parametric Model 이라고 한다. Non-Parametric Estimation은 변수에 대한 가정 없이 관측된 데이터만 가지고 DE를 진행한다. 다양한 방법 중 간단하게 Histogram, KDE만 알아보자.
Histogram
데이터의 분포를 Histogram으로 표현하고, 이를 분포로서 추정한다.
대략적 분포를 확인할 수 있지만, 실제 분포와는 차이가 있다.
연속형 데이터를 이산형 데이터처럼 다루고, Bins 또한 정하기 어렵다.
- Bins 너무 클 경우 → 실제 PDF와 큰 차이가 있다.
- Bins 너무 작을 경우 → 빈 Histogram이 너무 많이 생긴다.
Kernel Density Estimation(KDE)
연속성 있는 PDF를 구하기 위해 Kernel 함수를 도입해 Non-Parametric DE를 하는 방법이다.
Kernel(커널) 함수의 특징은 다음과 같다.
- PDF 추정이 목적이기 때문에 Kernel 함수 적분 값을 1로 설정 해, 확률로서 접근한다.
- Zero-centered 한 함수를 사용해, 데이터를 중심으로 한 분포로서 표현할 수 있다.
KDE는 우선 $X$로 부터 관측된 샘플 데이터 $x_1, x_2 \cdot\cdot\cdot x_i$ 각각 마다 커널 함수를 생성한다. 이후 만들어진 커널 함수를 모두 더한 뒤, 전체 데이터 개수로 나눠서 PDF를 추정한다. 이를 수식과 그림으로 표현하면 다음과 같다.
KDE의 핵심은 어떤 커널 함수($K$)를 사용하고, 얼마 만큼의 Bandwidth ($h$)로 설정할 지이다.
Bandwidth를 통해 KDE의 Smoothing 정도를 설정할 수 있다.
Smoothing을 크게 하고 싶다면 Bandwidth를 높이면 된다.
참고
Kernel Density Estimation (커널 밀도 추정) · Seongkyun Han's blog
Kernel Density Estimation (커널 밀도 추정) 03 Feb 2019 | kernel density estimation KDE 커널 밀도 추정 Kernel Density Estimation (커널 밀도 추정) CNN을 이용한 실험을 했는데 직관적으로는 결과가 좋아졌지만 왜 좋아
seongkyun.github.io
[통계] 커널 밀도 추정 (Kernel Density Estimation)
1. Density Esitmation (밀도 추정) 이란? 확률 밀도 추정이란? 관측된 데이터로부터 변수가 가질 수 있는 모든 값의 확률(밀도)를 추정하는 것이다. 확률 밀도 추정 방법은 Parametric과 Non-parametric 두 가
sungkee-book.tistory.com