3-4. Regression: 회귀분석(4)
안녕하세요^^
지난 시간에는 회귀분석의 다중 회귀분석에 대해 알아보았습니다.
이번 시간에는 회귀분석 마지막 시간으로 모형을 만들 때 어떤 변수를 사용할지 결정하는 방법과회귀 모형을 해석하는 방법에 대해 알아보도록 하겠습니다.
먼저 모형을 구성하는 설명변수를 selection하는 방법에는 forward, backward, stepwise 세 가지 방법이 있습니다.
Forward selection은 empty 모형에서 시작하여 하나의 변수를 추가할수록 F통계량이 어떻게 변하며, 가장 큰 F통계량을 갖는 모형을 선택합니다.
이 방법의 가장 큰 문제점은 한번 추가된 변수는 제거될 수 없다는 점입니다.
두번째로 backward selection은 forward와 반대로 full model에서 시작하여 변수를 하나씩 제거하며 F 통계량 값을 비교하여 최종 모형을 선택하는 방법입니다.
이 방법의 가장 큰 문제점은 한번 제거된 변수는 다시 추가될 수 없다는 점입니다.
마지막으로 stepwise방법은 forward방법과 backward방법의 문제점을 고려한 방법입니다.
변수를 추가하고 제거하는 과정을 반복하여 최종 모형을 선택하는 방법입니다. 이 방법은 앞선 두가지 방법의 문제점을 해결할 수 있는 방법입니다.
각각의 방법을 사용하여 세가지 방법으로 modeling을 해보도록 하겠습니다.
앞서 보았던 자료와 같은 data이며 각각의 모델에 모든 변수를 설명변수로 추가하고 각각의 변수 선택 방법을 사용하여 최종 모형을 선택합니다.
======================================================================
첫번째 방법은 forward방법으로 empty model에서 시작하는 방법입니다.
Empty model에서 시작하여 변수를 하나 추가하였을 때, runtime의 beta는 유의한 값을 가지며, 위의 modeling을 통해 83.97의 F 값을 얻습니다.
변수를 하나씩 추가하고 통계량 값을 보는 과정을 반복합니다.
마지막 step까지 실행하면, 반응변수 oxy에 대해 유의한 설명력을 갖는 변수는 age, weight, runtime, runpulse, maxpulse라고 말할 수 있습니다.
각각의 변수에 대한 summary값을 확인할 수 있습니다.
Adjusted R square가 변수를 선택하는 step에 따라 어떻게 변하는지 확인할 수 있습니다.
======================================================================
두번째 방법인 backward selection에 대해서 분석한 결과를 확인해보도록 하겠습니다.
Forward와 마찬가지로 각 step에서의 변수의 추가 제거 과정을 확인하실 수 있으며, 마찬가지로 adjusted R square의 값이 변수 선택의 step에 따라 어떻게 변하는지 확인하실 수 있습니다.
======================================================================
마지막으로 stepwise방법으로 변수의 제거와 추가가 반복적으로 발생하는 상황을 확인해보도록 하겠습니다.
각 step에서의 F값과 변수에 대한 p value를 확인할 수 있으며, 이 또한 변수의 step에 따른 adjusted R square의 값의 차이를 확인하실 수 있습니다.
이상 회귀분석 마지막 시간인 회귀모형의 변수선택방법에 대해 알아보았습니다.
다음 시간부터는 회귀진단 방법에 대해 알아보도록 하겠습니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.