3-2. Regression: 회귀분석(2)
안녕하세요^^
지난 시간, 두 연속형 변수의 선형관계를 분석하는 correlation 분석(상관분석)에 대해 알아 보았습니다.
이번 시간에는 회귀분석 두 번째 시간으로 반응변수와 설명변수를 사용하여 단순 회귀(Simple Regression)에 대해 알아보도록 하겠습니다.
단순 회귀분석은 반응변수에 영향을 주는 한 개의 설명변수의 유의성에 대해 평가하고, 기존의 자료를 이용하여 새로운 설명변수의 반응변수를 예측할 수 있습니다.
단순 회귀 모형은 의 형태를 갖습니다.
즉, 반응변수 y를 x변수들을 사용하여 설명하는 모형의 꼴이라고 할 수 있습니다.
지난 시간에 사용했던 같은 데이터를 이용하여 회귀분석을 해보도록 하겠습니다.
PROC REG DATA=SAS-data-set<options>; MODEL dependent(s)=regressor(s)</options>; RUN; |
PROC REG프로시저는 data를 이용하여 회귀를 적합하는 작업을 시행합니다. MODEL문은 설명변수와 반응변수를 지정하는 문장입니다. |
======================================================================
먼저 단순회귀의 경우 가설검정을 시행할 때 귀무가설을 beta1 =0 으로 생각합니다.
즉, 설명변수 x가 y를 설명하는데에 있어 유의한 변수인지를 판단하게 됩니다.
만약 귀무가설을 기각한다면 beta1의 값이 0이 아니라는 의미이므로 설명변수 x가 y를 설명하는데 유의한 영향을 끼친다는 의미가 됩니다.
반대로 귀무가설이 기각되지 않는다면 beta1의 값이 0이라는 의미가 되므로 설명변수 x가 y에 아무런 영향을 못끼친다는 의미가 됩니다.
여기서 runtime의 p-값이 0.0001보다 작기 때문에 귀무가설을 기각하고, 그 결과로 oxy변수를 runtime이 설명하는데 있어 유의한 변수라는 사실을 알 수 있습니다.
추가적으로 x변수인 runtime에 대한 진단 table이나 residual 그래프를 얻을 수 있습니다. 이를 통해 data의 통계적 가정(정규성) 만족여부나 outlier 존재 여부를 파악할 수 있습니다.
위의 그림은 fit plot이며 예측된 회귀선과 scatter plot을 합쳐놓은 그림입니다. 파란색으로 색칠된 면적은 95% confidence limits이며 점선은 95% prediction limits입니다.
======================================================================
추가적으로 적합된 모형을 이용하여 새로운 x값이 추가되었을 때 예측되는 predicted value값을 구해보도록 하겠습니다.
9, 10, 11, 12, 13의 값을 새로운 값으로 넣고 predicted y를 예측하는 경우를 생각해 보도록 하겠습니다.
======================================================================
즉, 새로운 값으로 9, 10, 11, 12, 13의 값을 추가한다면 그에 대한 predicted y값은 위의 표에서 얻어지는 바와 같이 obs 1~5의 predicted value로 얻을 수 있습니다.
이상으로 회귀분석 두 번째 시간인 단순 회귀모형에 대해 알아보았습니다.
Catch the best of SAS Innovate 2025 — anytime, anywhere. Stream powerful keynotes, real-world demos, and game-changing insights from the world’s leading data and AI minds.