3-3. Regression: 회귀분석(3)
안녕하세요^^
지난 시간, 반응변수와 설명변수를 사용하여 단순 회귀(Simple Regression)에 대해 알아보도록 하겠습니다.
이번 시간에는 회귀분석 세 번째 시간으로 다중 회귀분석(Multiple Regression)에 대해 알아보도록 하겠습니다.
다중 회귀분석은 단순 회귀분석과 다르게 반응변수에 영향을 주는 여러 개의 설명변수들의 유의성에 대해 평가합니다.
다중 회귀 모형은 의 형태를 갖습니다.
즉, 반응변수 y를 x변수들을 사용하여 설명하는 모형의 꼴이라고 할 수 있습니다.
지난 시간에 사용했던 같은 데이터를 이용하여 회귀분석을 해보도록 하겠습니다..
sas에서 다중회귀분석 시 사용하는 프로시저는 단순회귀분석과 같습니다.
PROC REG DATA=SAS-data-set<options>; MODEL dependent(s)=regressor(s)</options>; RUN; |
PROC REG프로시저는 data를 이용하여 회귀를 적합하는 작업을 시행합니다. MODEL문은 설명변수와 반응변수를 지정하는 문장입니다. |
======================================================================
Proc reg프로시저에 oxy를 반응변수로 runtime과 maxpulse를 설명변수로 지정하여 모델링을 합니다.
그 결과 단순 회귀분석과 비슷한 결과를 얻을 수 있습니다.
추가적으로 말씀드릴 내용은 수정된 rsquare에 관한 내용입니다.
일반적으로 r square은 모델에 변수를 추가할수록 증가합니다. 따라서 r square로 best 모형을 찾는 것은 어려운 일입니다. 따라서 이러한 경우 adjusted R square을 사용합니다.
이는 변수의 개수도 고려하여 수정된 통계량이므로 변수의 개수와 관계없이 adjusted R square의 값이 큰 모형이 best 모형이라고 할 수 있습니다.
그 외에 추가적으로 얻어지는 결과들은 단순 회귀분석과 비슷합니다.
======================================================================
추가적으로 다중 회귀분석을 하는데에 있어 R square을 selection 기준으로 사용하여 모델링하는 방법에 대햐 알아보도록 하겠습니다.
======================================================================
모든 변수를 사용하여 만들 수 있는 모델은 63개이며 이는 각 모델에 포함되는 설명변수의 개수별로 R square가 높은 순서대로 보여줍니다.
이는 위에서 말한 모형에 포함되는 설명변수의 개수를 기준으로 r square가 높은 순서대로 그림으로 표현한 예시입니다.
같은 방법으로 adjusted R square에 대해 표현한 그림입니다.
또한 c(p)에 대해 표현한 그림입니다.
======================================================================
다른 예시로 selection기준으로 cp로 하여 가장 좋은 10개의 모형에 대해 보여주는 옵션을 사용할 수도 있습니다.
======================================================================
이것이 cp를 기준으로 best 모형을 상위 10개 보여주는 내용입니다.
이상 회귀분석 두번째 시간, simple regression에대해 알아보았습니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.
Early bird rate extended! Save $200 when you sign up by March 31.