확률 변수의 형태를 미리 가정할 경우를 Parametric, 아닐 경우 Non-Parametric Model 이라고 한다. Non-Parametric Estimation은 변수에 대한 가정 없이 관측된 데이터만 가지고 DE를 진행한다. 다양한 방법 중 간단하게 Histogram, KDE만 알아보자.
Histogram
데이터의 분포를 Histogram으로 표현하고, 이를 분포로서 추정한다.
대략적 분포를 확인할 수 있지만, 실제 분포와는 차이가 있다.
연속형 데이터를 이산형 데이터처럼 다루고, Bins 또한 정하기 어렵다.
Bins 너무 클 경우 → 실제 PDF와 큰 차이가 있다.
Bins 너무 작을 경우 → 빈 Histogram이 너무 많이 생긴다.
Kernel Density Estimation(KDE)
연속성 있는 PDF를 구하기 위해 Kernel 함수를 도입해 Non-Parametric DE를 하는 방법이다.
Kernel(커널) 함수의 특징은 다음과 같다.
PDF 추정이 목적이기 때문에 Kernel 함수 적분 값을 1로 설정 해, 확률로서 접근한다.
Zero-centered 한 함수를 사용해, 데이터를 중심으로 한 분포로서 표현할 수 있다.
KDE는 우선 $X$로 부터 관측된 샘플 데이터 $x_1, x_2 \cdot\cdot\cdot x_i$ 각각 마다 커널 함수를 생성한다. 이후 만들어진 커널 함수를 모두 더한 뒤, 전체 데이터 개수로 나눠서 PDF를 추정한다. 이를 수식과 그림으로 표현하면 다음과 같다.
KDE의 핵심은 어떤 커널 함수($K$)를 사용하고, 얼마 만큼의 Bandwidth ($h$)로 설정할 지이다.