MCMC는 Markov Chain Monte Carlo 로 어떤 목표 확률분호(Target Probability Distribution) 로부터 랜덤 샘플을 얻는 방법입니다. 데이터의 차원이 커지면서 수식만으로 계산하기 어려운 문제가 있을 때 데이터의 무작위 샘플을 얻은 뒤 그 샘플을 이용해서 답을 구하는 방법입니다.
체인은 상태값의 시퀀스로 각각의 상태는 서로 독립이 아니라 이전의 상태에 영향을 받습니다.
예를들어, 오늘의 날씨는 어제, 그제의 날씨와 무관하지 않습니다. 하루 전에 화창했다면, 하루 전 비가 왔을 때에 비해서, 오늘 맑을 확률이 더 높을 것입니다.
조건부 확률로 표현하면 다음과 같습니다
여기서 Xk 는 시간이 k인 시점에서의 상태값(ex: 맑음, 비 둘 중 하나)입니다.
여기서 마코프라는 조건이 붙으면, 각 상태는 바로 이전의 사태에만 영향을 받는다고 가정합니다.
내일의 날씨는 오늘의 날씨와만 관련이 있고, 어제 이전의 날씨와는 독립이라고 보는 것 입니다. 그러면 위의 수식은 아래와 같이 고쳐쓸 수 있습니다.
k가 충분히 커지면 Xk 의 분포는 특정한 값으로 수렴한다는 점입니다.
베이지안 분석은 사전 분포를 기반으로 하지만 때로는 분석에서 중요하지 않습니다.
표본 크기가 증가함에 따라 사전은 일반적으로 가능성에 압도되어 무시할 수 있는 수준을 발휘합니다.
결론에 영향을 미칩니다. 그러나 베이지안 분석은 이러한 가정을 기반으로 하지 않습니다.
구체적인 문제는 상황에서 관심 수량의 사후 분포를 얻는 데 필요한 적분, 비표준 사전 분포가 사용되는 경우, 수년 동안 통합의 이러한 문제는 베이지안 응용을 켤레 사전과 관련된 단순한 예제로 제한했습니다.
Markov Chain Monte Carlo 방법(MCMC)을 사용하면 연구자가 다음 값의 시퀀스를 직접 샘플링할 수 있습니다. MCMC는 샘플을 사용하여 사후 분포의 관심 수량을 추정합니다.
MCMC 방법 샘플 대상 분포에서 연속적이고 각 샘플은 이전 샘플에 따라 다릅니다.
샘플링에 적용된 Markov 체인을 무작위로 횡단하는 메커니즘으로 생각할 수 있습니다.
[SAS: PROC MCMC]
절편 Beta0, 기울기 Beta1, 오차 sigmasquared의 세 가지 매개변수를 추정하려고 합니다.
PROC MCMC를 사용하고 Monte Carlo 시뮬레이션 수를 지정하고 어떤 매개변수인지 알려줍니다.
proc mcmc data=slrnbi=2000 nmc=10000;
parms beta0 0 beta1 0;
parms sigma2 1;
prior beta0 beta1 ~ normal(mean=0, var=1e6);
prior sigma2 ~ igamma(shape=2.001, scale=1.001);
mu=beta0 + beta1*X1;
model Y ~ normal(mu, var=sigma2);
run;
PROC MCMC는 트레이스 플롯, 자기상관 플롯 및 각 매개변수의 밀도 추정과 같은 관련 그래픽을 제공합니다.
생존분석(Survival Analysis)는 '생명체 ~ 사망' 에 이르는 생존시간을 추정하는 통계적 분석법입니다.
즉, 어떠한 현상이 발생하기까지에 걸리는 시간(time-to-event)에 대해 분석합니다.
사망을 특정한 사건(Event)으로 볼 때, 생존분석에서 사건은 '사망 / 퇴원 / 출산' 등 다양한 지표가 될 수 있습니다.
생존 분석을 통해, 시간에 따른 인구 집단의 특이 변화를 직관적으로 확인 가능합니다.
Censored Data(절단 자료)가 누락되지 않고, 생존분석에 함께 사용됩니다.
생존분석의 주된 관심사는 생존함수(survival function, S(t) )로 다음과 같이 정의합니다. 시간은 항상 양수이고, 중도절단이 항상 대두되는 데이터 특성을 갖는다는 점에서 차이가 납니다.
생존함수는 특정한 시간 t 보다 오래 생존할 확률로 t는 특정 시간, T는 사망에 이르는 시점을 나타내는 확률변수로 정의되며, P 은 확률함수가 됩니다.
1 - F(t) 는 1에서 누적함수 F(t) 를 뺀 것과 동일한데 항상 중도 절단을 반영하게 되는 경우 차이점이 발생됩니다.
데이터의 측정값이나 관찰치가 부분적으로만 알려진 상태로 생존 분석에서 손실된 데이터를 처리하는 방법입니다. 이상적으로는 표본의 생일과 사망일을 통해 생존 기간을 파악하는 것이 좋지만, 그렇지 못한 경우에 중도절단을 사용합니다. 중도절단 자료가 필연적으로 발생되는 이유는 환자 거부로 인한 중도탈락, 연락두절로 인한 추적조사 불가, 사망/고장 발생 전 연구 종결 혹은 다른 원인으로 인한 사망/고장을 들 수 있습니다. 추적이 불가능(이사, 연락처 소실)
Censoring(중도절단) - 데이터의 측정값이나 관찰치가 부분적으로만 알려진 상태로 Uncensored data는 정확한 생존기간을 파악할 수 있는 온전한 데이터.
Right censoring - 연구 종료 전 기타 이유로 사망하거나(연구종료 전 교통사고사망), 연구가 만료된 경우(임상종료 후에도 생존)
Left Censoring - 연구 시작 전 위험군에 있었던 특정 시점을 모르는 경우(연구 시작 전 질환을 보유) 측정한 생존 시간보다 실제 생존 시간이 길어짐
생존 분석을 수행하는 경우 PROCLIFETEST를 할 수 있습니다.
생존 함수를 표시하고 생존 함수 간의 차이를 검정합니다.
사건이 발생할 때까지의 시간이 반응 변수인 데이터를 분석하는 데 사용되는 특수 방법인 흥미 있는 반응 변수(생존 분석에서는 종종 수명, 생존 시간 또는 사건 시간이라고 함) 일반적으로 연속적이며 일, 주, 월, 년 등으로 측정할 수 있습니다.
사건은 죽음일 수도 있고 질병의 시작, 결혼, 체포 등. 생존 분석의 독특한 점은, 설령, 설령 피험자가 어떤 사건을 경험하지 않고, 피험자의 생존 시간 또는 연구에서의 시간이 고려됩니다.
생존 함수를 비교하는 그래프는 또한 시간이 생존 경험과 어떻게 관련되어 있는지에 대한 통찰력을 제공할 수 있습니다.
그룹별로 시간과의 상호작용을 나타낼 수 있습니다. 오른쪽 상단의 플롯에서 Clinic 1의 피험자는
클리닉 2의 피험자보다 더 유리한 생존 경험을 나타납니다.
그러나 그룹 간의 차이는 초기 시점에서 상대적으로 작고 후기 시점에서 점진적으로 커집니다. 초기에
연구에 따르면 두 클리닉 모두 비슷한 비율의 환자를 잃었습니다. 그러나 연구가 진행됨에 따라 환자들은
1번 클리닉은 2번 클리닉에 비해 생존 기간이 훨씬 길었습니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.