Non-Parametric Density Estimation(비모수 밀도 추정) 알아보기

ML | AI/내용 정리

Non-Parametric Density Estimation(비모수 밀도 추정) 알아보기

싶만생각

|2023. 4. 16. 01:12

Density Estimation(DE)?

관측 데이터는 확률 변수에 의해 샘플링된 것으로 볼 수 있다.

이러한 관측 데이터를 많이 모으면 어떤 확률 변수에서 추출됐는지 추정이 가능할 것이다.

데이터를 통해 기존 확률 변수의 Density(PDF)를 추정하는 것이 바로 DE이다.

PDF를 알면 확률 변수에 정보를 알 수 있기에 가치 있음

Non-Parametric Estimation

확률 변수의 형태를 미리 가정할 경우를 Parametric, 아닐 경우 Non-Parametric Model 이라고 한다. Non-Parametric Estimation은 변수에 대한 가정 없이 관측된 데이터만 가지고 DE를 진행한다. 다양한 방법 중 간단하게 Histogram, KDE만 알아보자.

Histogram

데이터의 분포를 Histogram으로 표현하고, 이를 분포로서 추정한다.

대략적 분포를 확인할 수 있지만, 실제 분포와는 차이가 있다.

연속형 데이터를 이산형 데이터처럼 다루고, Bins 또한 정하기 어렵다.

Bins 너무 클 경우 → 실제 PDF와 큰 차이가 있다.
Bins 너무 작을 경우 → 빈 Histogram이 너무 많이 생긴다.

Kernel Density Estimation(KDE)

연속성 있는 PDF를 구하기 위해 Kernel 함수를 도입해 Non-Parametric DE를 하는 방법이다.

Kernel(커널) 함수의 특징은 다음과 같다.

PDF 추정이 목적이기 때문에 Kernel 함수 적분 값을 1로 설정 해, 확률로서 접근한다.
Zero-centered 한 함수를 사용해, 데이터를 중심으로 한 분포로서 표현할 수 있다.

KDE는 우선 $X$ 로 부터 관측된 샘플 데이터 $x_1, x_2 \cdot\cdot\cdot x_i$ 각각 마다 커널 함수를 생성한다. 이후 만들어진 커널 함수를 모두 더한 뒤, 전체 데이터 개수로 나눠서 PDF를 추정한다. 이를 수식과 그림으로 표현하면 다음과 같다.

KDE의 핵심은 어떤 커널 함수( $K$ )를 사용하고, 얼마 만큼의 Bandwidth ( $h$ )로 설정할 지이다.

Bandwidth를 통해 KDE의 Smoothing 정도를 설정할 수 있다.

Smoothing을 크게 하고 싶다면 Bandwidth를 높이면 된다.

참고

슬라이드 1 (hansung.ac.kr)

Kernel Density Estimation (커널 밀도 추정) · Seongkyun Han's blog

Kernel Density Estimation (커널 밀도 추정) 03 Feb 2019 | kernel density estimation KDE 커널 밀도 추정 Kernel Density Estimation (커널 밀도 추정) CNN을 이용한 실험을 했는데 직관적으로는 결과가 좋아졌지만 왜 좋아

seongkyun.github.io

[통계] 커널 밀도 추정 (Kernel Density Estimation)

1. Density Esitmation (밀도 추정) 이란? 확률 밀도 추정이란? 관측된 데이터로부터 변수가 가질 수 있는 모든 값의 확률(밀도)를 추정하는 것이다. 확률 밀도 추정 방법은 Parametric과 Non-parametric 두 가

sungkee-book.tistory.com

싶만생각 관심 있는 분야의 지식을 정리합니다.

Density Estimation(DE)?
Non-Parametric Estimation

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`