카플란 마이어 생존분석법은 카플란 마이어가 1958년에 제안한 방법으로 중도절단 데이터 (즉, 사건이 아직 발생하지 않은 데이터)를 고려해서 생존율을 산출하는 방법이다.
Kaplan-Meier Estimation 을 통해 생존 함수를 추정할 수 있습니다.
여기서 말하는 생존함수(Survival Function)란, '특정 시기보다 더 오래 생존할 확률'을 의미합니다.
생존함수와 추가적으로 알아야할 함수가 위험함수(Hazard Function)인데, 이는 '특정 시기에 사건이 발생할 확률'을 추정합니다.
위의 식은 생존확률을 추정하는 방법으로, 생존 함수를 계산할 수 있다.
ti , tj: 시점
ni : 시점 ti 직전의 생존 수
di : 시점 ti 의 사건 발생자 수
p1: 첫번째 구간의 생존 비율
p2: 두번째 구간의 생존 비율
sashelp 에 BMT 데이터가 있습니다.
BMT 데이터는 'Bone Marrow Transplation" 로 골수 이식과 관련된 의학 데이터 입니다.
BMT 데이터의 주요변수는 아래와 같습니다.
* BMT 데이터의 일부
Group: 질병 분류(Disease group _ 3Group)
T : 환자의 생존 시간 (Disease-Free Survival Time; Numeric)
Status: 생존 여부(1: 사망 / 0: 생존)
proc freq data=sashelp.BMT;
tables group; run;
BMT 데이터 Group변수는 ALL, AML-High Risk, AML-Low Risk 가 있다.
AML 은 급성 골수성 백혈병이라는 질병의 종류로, AML High Risk 를 백혈병이 나타날 확률이 높은 그룹으로 해석할 수 있습니다.
proc lifetest data=sashelp.bmt plots=survival;
time T *Status(0);
strata Group;
run;
ods graphics on;
생존분석은 PROC LIFETEST statement 를 사용합니다.
여기서 Time 에서 (0)은 이벤트 발생하는 시간에 0을 할당하라는 의미입니다.
'plots=survival'는 생존 곡선을 그래프로 출력하고'ods graphic on'으로 생존 곡선 그래프를 출력하는 것 입니다.
위의 plot을 해석하면 아래와 같습니다.
1) T(환자의 생존시간;월)는 x축이고, Survival Probability(생존확률)은 y축 입니다.
2) 관찰시점부터 관찰 종료시점까지 누적 생존율은 어떠한 그룹이나 떨어지는 것을 알 수 있지만, AML-Low Risk 그룹이 3개의 그룹 중 가장 높은 생존율을 가지고 있습니다.
3) 250개월이 지난 시점에서 AML-Low Risk 그룹이 가장 높은 0.8이상의 생존율을 추정하고, 그 다음으로 ALL group , 가장 낮은 AML-High Risk 그룹은 약 0.4에서 0.5 사이의 생존율을 추정하고 있습니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.