3-4. Regression: 회귀분석(4)
안녕하세요^^
지난 시간에는 회귀분석의 다중 회귀분석에 대해 알아보았습니다.
이번 시간에는 회귀분석 마지막 시간으로 모형을 만들 때 어떤 변수를 사용할지 결정하는 방법과회귀 모형을 해석하는 방법에 대해 알아보도록 하겠습니다.
먼저 모형을 구성하는 설명변수를 selection하는 방법에는 forward, backward, stepwise 세 가지 방법이 있습니다.
Forward selection은 empty 모형에서 시작하여 하나의 변수를 추가할수록 F통계량이 어떻게 변하며, 가장 큰 F통계량을 갖는 모형을 선택합니다.
이 방법의 가장 큰 문제점은 한번 추가된 변수는 제거될 수 없다는 점입니다.
두번째로 backward selection은 forward와 반대로 full model에서 시작하여 변수를 하나씩 제거하며 F 통계량 값을 비교하여 최종 모형을 선택하는 방법입니다.
이 방법의 가장 큰 문제점은 한번 제거된 변수는 다시 추가될 수 없다는 점입니다.
마지막으로 stepwise방법은 forward방법과 backward방법의 문제점을 고려한 방법입니다.
변수를 추가하고 제거하는 과정을 반복하여 최종 모형을 선택하는 방법입니다. 이 방법은 앞선 두가지 방법의 문제점을 해결할 수 있는 방법입니다.
각각의 방법을 사용하여 세가지 방법으로 modeling을 해보도록 하겠습니다.
앞서 보았던 자료와 같은 data이며 각각의 모델에 모든 변수를 설명변수로 추가하고 각각의 변수 선택 방법을 사용하여 최종 모형을 선택합니다.
======================================================================
첫번째 방법은 forward방법으로 empty model에서 시작하는 방법입니다.
Empty model에서 시작하여 변수를 하나 추가하였을 때, runtime의 beta는 유의한 값을 가지며, 위의 modeling을 통해 83.97의 F 값을 얻습니다.
변수를 하나씩 추가하고 통계량 값을 보는 과정을 반복합니다.
마지막 step까지 실행하면, 반응변수 oxy에 대해 유의한 설명력을 갖는 변수는 age, weight, runtime, runpulse, maxpulse라고 말할 수 있습니다.
각각의 변수에 대한 summary값을 확인할 수 있습니다.
Adjusted R square가 변수를 선택하는 step에 따라 어떻게 변하는지 확인할 수 있습니다.
======================================================================
두번째 방법인 backward selection에 대해서 분석한 결과를 확인해보도록 하겠습니다.
Forward와 마찬가지로 각 step에서의 변수의 추가 제거 과정을 확인하실 수 있으며, 마찬가지로 adjusted R square의 값이 변수 선택의 step에 따라 어떻게 변하는지 확인하실 수 있습니다.
======================================================================
마지막으로 stepwise방법으로 변수의 제거와 추가가 반복적으로 발생하는 상황을 확인해보도록 하겠습니다.
각 step에서의 F값과 변수에 대한 p value를 확인할 수 있으며, 이 또한 변수의 step에 따른 adjusted R square의 값의 차이를 확인하실 수 있습니다.
이상 회귀분석 마지막 시간인 회귀모형의 변수선택방법에 대해 알아보았습니다.
다음 시간부터는 회귀진단 방법에 대해 알아보도록 하겠습니다.
Nearly 200 sessions are now available on demand in the Innovate Hub.
Watch Now →