BookmarkSubscribeRSS Feed

3-4. Regression: 회귀분석(4)

Started ‎06-16-2020 by
Modified ‎06-16-2020 by
Views 829

3-4. Regression: 회귀분석(4)

 

안녕하세요^^

지난 시간에는 회귀분석의 다중 회귀분석에 대해 알아보았습니다.

​​이번 시간에는 회귀분석 마지막 시간으로 모형을 만들 때 어떤 변수를 사용할지 결정하는 방법과회귀 모형을 해석하는 방법에 대해 알아보도록 하겠습니다.

먼저 모형을 구성하는 설명변수를 selection하는 방법에는 forward, backward, stepwise 세 가지 방법이 있습니다.

​​

Forward selection은 empty 모형에서 시작하여 하나의 변수를 추가할수록 F통계량이 어떻게 변하며, 가장 큰 F통계량을 갖는 모형을 선택합니다.

이 방법의 가장 큰 문제점은 한번 추가된 변수는 제거될 수 없다는 점입니다.

두번째로 backward selection은 forward와 반대로 full model에서 시작하여 변수를 하나씩 제거하며 F 통계량 값을 비교하여 최종 모형을 선택하는 방법입니다.

​​이 방법의 가장 큰 문제점은 한번 제거된 변수는 다시 추가될 수 없다는 점입니다.

​마지막으로 stepwise방법은 forward방법과 backward방법의 문제점을 고려한 방법입니다.

​변수를 추가하고 제거하는 과정을 반복하여 최종 모형을 선택하는 방법입니다. 이 방법은 앞선 두가지 방법의 문제점을 해결할 수 있는 방법입니다.

각각의 방법을 사용하여 세가지 방법으로 modeling을 해보도록 하겠습니다.

앞서 보았던 자료와 같은 data이며 각각의 모델에 모든 변수를 설명변수로 추가하고 각각의 변수 선택 방법을 사용하여 최종 모형을 선택합니다.

 

SE22016042001305170.jpg

 

 

======================================================================

 

첫번째 방법은 forward방법으로 empty model에서 시작하는 방법입니다.

 

SE22016042001314470.jpg

 

Empty model에서 시작하여 변수를 하나 추가하였을 때, runtime의 beta는 유의한 값을 가지며, 위의 modeling을 통해 83.97의 F 값을 얻습니다.

​변수를 하나씩 추가하고 통계량 값을 보는 과정을 반복합니다. 

 

SE22016042001320970.jpg

 

 마지막 step까지 실행하면반응변수 oxy에 대해 유의한 설명력을 갖는 변수는 age, weight, runtime, runpulse, maxpulse라고 말할 수 있습니다.

 

SE22016042001325270.jpg

 

 각각의 변수에 대한 summary값을 확인할 수 있습니다.

 

SE22016042001332170.jpg

 

 Adjusted R square가 변수를 선택하는 step에 따라 어떻게 변하는지 확인할 수 있습니다.

 

 

​======================================================================

 

 두번째 방법인 backward selection에 대해서 분석한 결과를 확인해보도록 하겠습니다.

 

 

SE22016042001341570.jpg

  

SE22016042001342870.jpg

 

 Forward와 마찬가지로 각 step에서의 변수의 추가 제거 과정을 확인하실 수 있으며, 마찬가지로 adjusted R square의 값이 변수 선택의 step에 따라 어떻게 변하는지 확인하실 수 있습니다. 

 

SE22016042001345770.jpg

 

SE22016042001350770.jpg

 

 

======================================================================

 

마지막으로 stepwise방법으로 변수의 제거와 추가가 반복적으로 발생하는 상황을 확인해보도록 하겠습니다.

 각 step에서의 F값과 변수에 대한 p value를 확인할 수 있으며, 이 또한 변수의 step에 따른 adjusted R square의 값의 차이를 확인하실 수 있습니다.

 

 

SE22016042001360470.jpg

  

SE22016042001362170.jpg

  

SE22016042001363470.jpg

 

SE22016042001364370.jpg

 

 

이상 회귀분석 마지막 시간인 회귀모형의 변수선택방법에 대해 알아보았습니다.

​다음 시간부터는 회귀진단 방법에 대해 알아보도록 하겠습니다.

 

Version history
Last update:
‎06-16-2020 05:06 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags