안녕하세요. 이번 시간에는 다중선형회귀분석 세번째 시간으로, 보다 더 간결한 모형을 선택하는 방법론에 대하여 공부해보는 시간을 갖겠습니다. 다중선형회귀 모델은 하나의 종속변수와 여러 설명변수에 대한 일련의 관찰에서 시작됩니다. 초기 분석에서 적어도, 설명 변수 집단 중 일부다 종속변수를 예측하는데 유용하다는 것을 확증한 후에 설명 변수의 일부 하위 집합들만으로 전체 모형만큼 본질적으로 유용하고, 보다 단순하고 간결한 모형을 제공할 수 있는지에 대한 의문이 생깁니다. 보다 간결한 모형을 만드는 것은 데이터 수집이나, 해석력 측면에서 충분히 중요한 문제라고 생각합니다. 이번 시간에는 쉽게 말해서 가장 훌륭한 설명변수 부분집합을 선택하기 위해 개발된 여러가지 방법론에 대하여 알아보겠습니다. 대표적으로 Forward selection(전진선택법), Backword elimination(후진제거법), stepwise(단계적선택법) 3가지 방법론이 있습니다. 이번 시간에는 세가지 방법 중 후진제거법을 변수선택 방법으로 채택하여 직접 실습해보겠습니다.
이번 시간에 사용할 데이터셋은 treadmill 데이터셋으로 건강한 여성에게 더 이상 달릴 수 없을 때까지 러닝 머신 위에서 달리는 것을 요구하고 해당 여성의 신체 상태에 대해 수집한 데이터입니다.
<그림 1>
위 데이터셋에 다중 선형회귀 모델을 적합하고, Backword elimination(후진제거법)을 이용하여 보다 간결한 모형을 선택해보겠습니다.
후진제거(Backword elimination)
후진제거법은 모든 잠재적인 설명변수를 포함하는 모형으로 시작하여, 최대의 P값을 가지는 변수를 선택 해당 변수의 p값이 미리 정한 임계값보다 큰 경우 해당 변수는 유의하지 않는 것으로 판단하여 제거하는 과정을 모든 변수들이 유의하여 더 이상 제거할 변수가 없을 때까지 반복하는 방법을 말한다.
<그림 2>
그림 2의 첫번째 표를 보면 위에 설명된 유의수준과 선택기준이 되는 임계값(0.05)가 출력되어 있는 것을 확인할 수 있습니다. 그 다음 표에는 Heart_rate, Height, Age 순서로 하나씩 제거된 것을 보여주며 마지막 단계에서 weight변수는 임계값 보다 작아 유의한 변수로 남겨지고 단계가 종료된 것을 확인할 수 있습니다.
<그림 3>
<그림 4>
후진제거법을 통하여 결과적으로 Duration, Weight를 설명변수로 가지는 모델이 선택되었고 R-Square값을 보면 이 두변수만으로도 종속변수의 변동을 65%설명하는 것을 확인할 수 있습니다.
이번 시간에는 변수선택을 통해 더 간결한 모델을 선택하는 방법에 대하여 알아보았고 그중 후진제거법을 이용하여 직접 실습해보는 시간을 가졌습니다. 감사합니다.
Reference
도서 – Essential Statistics Using SAS University Edition / Der, Geoff, Everitt, Brian S. / SASInstitute
Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!