3-3. Regression: 회귀분석(3)
안녕하세요^^
지난 시간, 반응변수와 설명변수를 사용하여 단순 회귀(Simple Regression)에 대해 알아보도록 하겠습니다.
이번 시간에는 회귀분석 세 번째 시간으로 다중 회귀분석(Multiple Regression)에 대해 알아보도록 하겠습니다.
다중 회귀분석은 단순 회귀분석과 다르게 반응변수에 영향을 주는 여러 개의 설명변수들의 유의성에 대해 평가합니다.
다중 회귀 모형은 의 형태를 갖습니다.
즉, 반응변수 y를 x변수들을 사용하여 설명하는 모형의 꼴이라고 할 수 있습니다.
지난 시간에 사용했던 같은 데이터를 이용하여 회귀분석을 해보도록 하겠습니다..
sas에서 다중회귀분석 시 사용하는 프로시저는 단순회귀분석과 같습니다.
|
PROC REG DATA=SAS-data-set<options>; MODEL dependent(s)=regressor(s)</options>; RUN; |
PROC REG프로시저는 data를 이용하여 회귀를 적합하는 작업을 시행합니다. MODEL문은 설명변수와 반응변수를 지정하는 문장입니다. |
======================================================================
Proc reg프로시저에 oxy를 반응변수로 runtime과 maxpulse를 설명변수로 지정하여 모델링을 합니다.
그 결과 단순 회귀분석과 비슷한 결과를 얻을 수 있습니다.
추가적으로 말씀드릴 내용은 수정된 rsquare에 관한 내용입니다.
일반적으로 r square은 모델에 변수를 추가할수록 증가합니다. 따라서 r square로 best 모형을 찾는 것은 어려운 일입니다. 따라서 이러한 경우 adjusted R square을 사용합니다.
이는 변수의 개수도 고려하여 수정된 통계량이므로 변수의 개수와 관계없이 adjusted R square의 값이 큰 모형이 best 모형이라고 할 수 있습니다.
그 외에 추가적으로 얻어지는 결과들은 단순 회귀분석과 비슷합니다.
======================================================================
추가적으로 다중 회귀분석을 하는데에 있어 R square을 selection 기준으로 사용하여 모델링하는 방법에 대햐 알아보도록 하겠습니다.
======================================================================
모든 변수를 사용하여 만들 수 있는 모델은 63개이며 이는 각 모델에 포함되는 설명변수의 개수별로 R square가 높은 순서대로 보여줍니다.
이는 위에서 말한 모형에 포함되는 설명변수의 개수를 기준으로 r square가 높은 순서대로 그림으로 표현한 예시입니다.
같은 방법으로 adjusted R square에 대해 표현한 그림입니다.
또한 c(p)에 대해 표현한 그림입니다.
======================================================================
다른 예시로 selection기준으로 cp로 하여 가장 좋은 10개의 모형에 대해 보여주는 옵션을 사용할 수도 있습니다.
======================================================================
이것이 cp를 기준으로 best 모형을 상위 10개 보여주는 내용입니다.
이상 회귀분석 두번째 시간, simple regression에대해 알아보았습니다.
Nearly 200 sessions are now available on demand in the Innovate Hub.
Watch Now →