Description
- Rejection Sampling
- Importance Resampling
---------------------------------------------------------------------------------------------------
[Monte Carlo integral 은 어디에 쓰일까?]
-해석하기 힘든 영역의 면적을 구할 때 유용하다.
-넓이를 알고 있는 영역 R로 넓이를 구할 영역 S를 둘러싼다.
-영역 R내부에 N개의 점을 난수로 발생시켜 이 점이 S영역의 내부에 있는지 외부에 있는지 count 한다.
이 비율로 S를 구할 수 있다.
[Monte Carlo Integration]
난수열을 사용해서 계산하는 알고리즘
[a,b] 구간의 임의의 난수를 N번 발생시켜 f(x)의 평균을 구한다. 여기에 구간의 크기를 곱하면 결과 값이 나온다.
[Rejection Sampling_기각 샘플링]
샘플링방법 중 하나로 Target function PDF는 알고 있지만, 그 함수에서 직접 샘플링 하는 것이 매우 어렵거나 불가능할 때 효율적으로 샘플링 하기 위해 사용되는 방법이다.
즉, Rejection Sampling을 사용하기 위해서 목표 확률 분포 f(x)의 확률밀도 함수(probability density function, PDF)를 알고 있어야 한다.
Target density f(X) 보다 더 쉬운 e(x)(=envelope function) 에서 후보를 샘플링 한 다음 일부 후보를 무작위로 Reject하여 샘플링 확률을 수정한다. 이 때 샘플을 생성할 수 있도록 임의로 설정한 g(x)는 제안분포(proposal density)라고 한다. 제안 분포는 uniform distribution, normal distribution 등이 이용될 수 있으며 가능한 f(x)와 비슷한 형태의 확률분포를 사용하는 것이 좋다.
g(x)는 쉽게 계산할 수 있고 샘플링 방법을 알고 있는 분포, 상수 c는 g(x)가 f(x)를 모두 덮을 수 있게 해주는 상수이다.
[Importance Resampling_중요도 샘플링]
Rejection Sampling(기각 샘플링)방법은 샘플 추출시 reject(기각)하는 비율이 굉장히 커서 원하는 크기의 표본을 얻기 위해서는 시간이 오래 걸린다는 단점이 있다. 이러한 단점을 보완하기 위해서 importance sampling은 기각하지 않고 wasted sample (버려지는 샘플)이 없게 표본 추출을 가능하게 만드는 방법이다. 즉 표본 추출시 버려지는 샘플이 없도록 효율적으로 샘플링을 해야된다. Importance sampling은 효율적으로 기댓값을 추정하기 위해 고안된 방법이다.
X: 확률변수(=sample data)
f(x): 확률분포함수(=target density)
g(x): 샘플링이 쉬운 근사분포
* h(x)에 대한 평균 계산식
실제로는 목표 모집단의 100%를 알 수 없듯이 무한 개의 instance를 구한다는 것 자체가 불가능 하다.
그래서 f(x)로부터 개별 instance를 샘플링 하고 그 개별 instance가 발생할 확률을 계산한다.
따라서, normalizing constant로 더하는 형태로 바꿔 계산한 식을 이용해 샘플링 한다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.