-6. Categorical Data Analysis: 로지스틱 회귀모형(6)
안녕하세요^^
이번 시간에는 모델링 시 설명변수를 선택하는 방법 중에서
교호작용을 갖는 단계선택법에 대해서 알아보도록 하겠습니다.
다시 말해, 단계선택법을 사용하여
주효과와 교호작용으로 구성된 다변수 로지스틱 회귀모형을 적합한 후
그래프를 통해 교호작용을 해석해보는 시간을 갖도록 하겠습니다.
먼저, 변수를 선택하는 기계적 방법에는 크게 세 가지가 있습니다.
<!--[if !supportLists]-->1. <!--[endif]-->전진선택법 (forward selection)
<!--[if !supportLists]-->2. <!--[endif]-->후진제거법 (backward selection)
<!--[if !supportLists]-->3. <!--[endif]-->단계선택법 (stepwise selection)
그럼 하나씩 알아볼까요?
<!--[if !supportLists]-->n <!--[endif]-->전진선택법
일정한 기준에 의하여
모형에 유의한 영향을 주는 변수를 하나씩 모형에 추가하는 방법
(한번 모형에 추가된 변수는 제외할 수 없습니다.)
<!--[if !supportLists]-->n <!--[endif]-->후진제거법
고려하는 모든 변수를 모형에 적합시킨 후
일정한 기준에 따라 유의하지 않은 변수를 하나씩 제거하는 방법
(한번 제외된 변수는 다시 모형에 포함될 수 없습니다.)
<!--[if !supportLists]-->n <!--[endif]-->단계선택법
가장 유의한 변수를 먼저 모형에 포함하고
일정한 선택 기준 혹은 일정한 제외 기준에 따라
각 단계마다 변수를 선택 혹은 제외하는 방법
(한번 포함된 변수가 모형에서 제외될 수 있습니다.)
여기서 말하는 일정한 (선택/제외)기준에 대해 알아보겠습니다.
위 표는 proc reg, proc logistic에서의
forward, backward, stepwise 방법 별 default 기준입니다.
위 표의 기준에 맞추어 변수를 선택하거나 제거하게 되는 것이지요.
Proc logistic의 stepwise 기준을 예를 들어 이야기 해보겠습니다.
표에서 볼 수 있듯이, 선택 기준(slentry)과 제외 기준(slstay)이 모두 0.05입니다.
변수를 선택할 때의 기준과 변수를 모형에서 제외할 때의 기준이 모두 0.05라는 것입니다.
즉, 모형에 포함된 변수 외의 변수들을 각각 모형에 추가하여 유의성을 확인 한 후,
선택 기준인 0.05를 기준으로 유의한 변수 중 F값이 가장 큰 변수를 선택합니다.
반면, 모형에 포함된 변수들 중 제외 기준인 0.05를 기준으로
유의하지 않은 변수 중 F값이 가장 작은 변수를 제외합니다.
각 방법 별, 해당되는 위 처리를 반복하다가
더 이상 추가 또는 제거되는 변수가 없을 때, 변수선택진행은 멈추게 됩니다.
===========================================================================
그럼 예제를 통해 살펴보겠습니다.
SAS 내장 DATA인 BWEIGHT DATASET을 사용하겠습니다.
연속형 반응변수(WEIGHT)를
이항형 반응변수(WT)로 만들기 위해
WEIGHT변수를 2500 기준으로 1/0 코딩을 하였습니다.
WT=1이면 저체중를 의미하고
WT=0이면 정상체중을 의미합니다.
산모의 교육수준(0: reference, 1, 2, 3),
산모의 흡연여부(0, 1),
산모 체중변화량(연속형)을 설명변수로 두었고
이 세 설명변수의 주효과와 교호작용을 고려하여
단계선택법으로 변수를 선택해 보았습니다.
PROC LOGISTIC의 MODEL문에서
SLSTAY 옵션을 사용하여
제외 기준을 0.01로 변경하여 진행하였습니다.
RESPONSE PROFILE의 결과를 보면
이항형 반응변수 WT가 0과 1의 값을 갖는 것을 볼 수 있고 빈도를 확인할 수 있습니다.
모든 계수가 0이라는 가설의 검정 결과표를 참고하여 모형의 유의성을 봅니다.
세 TEST 결과 모두 유의수준 5%하에서 통계적으로 유의함을 알 수 있습니다
단계선택법 진행 요약표를 보면
가장 먼저 MOMWTGAIN변수가 추가된 것을 확인할 수 있고
다음으로 MOMSMOKE, MOMEDLEVEL, MOMWTGAIN*MOMEDLEVEL항이 추가된 것을 알 수 있습니다.
다만, 다섯 번째로 MOMEDLEVEL*MOMSMOKE항이 추가 되었지만
다음 단계에서 제외기준에 따라(MOMEDLEVEL*MOMSMOKE의 P-VALUE=0.0477>0.01) 제외된 것을 볼 수 있습니다.
따라서 최종 모형은
MOMEDLEVEL, MOMSMOKE, MOMWTGAIN, MOMWTGAIN*MOMEDLEVEL으로
구성되어있습니다.(모두 유의함)
추정된 계수 값을 확인해보면,
유의수준 0.05 기준에서 MOMWTGAIN*MOMEDLEVEL의 1 vs 0(ref)의 항만
유의확률 0.8223(>0.05)로 유의하지 않음을 알 수 있습니다
산모의 교육수준이 1일 때의 산모 체중변화량의 오즈비는 1.031로,
다른 조건이 같고, 산모 교육수준이 1이라면
산모 체중이 1증가하면 출생아 몸무게가 정상일 오즈는 저체중아일 오즈보다 1.03배 높다고 할 수 있습니다.
각 CASE의 오즈비의 추정값과 그 신뢰구간을 나타낸 그래프입니다.
가로축은 오즈비를 의미하고
각 CASE의 신뢰구간이 오즈비가 1인 세로직선(보조LINE)을 포함한다면
해당 CASE의 오즈비는 유의하지 않음을 의미합니다.
여기서는 모든항이 유의한 것을 확인할 수 있습니다.
===========================================================================
여기까지 주효과와 교호작용으로 구성된 다변수 로지스틱 회귀모형을 살펴보았습니다.
감사합니다^^
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.