BookmarkSubscribeRSS Feed

3-1. Regression: 회귀분석(1)

Started ‎06-15-2020 by
Modified ‎06-16-2020 by
Views 364

3-1. Regression: 회귀분석(1)

안녕하세요^^

이번 시간에는 회귀분석 첫 번째 시간으로 회귀분석의 기초와 회귀모형을 작성하기 전 고려해야 하는 사항들에 대해 알아보도록 하겠습니다.

통계적 모형을 만들 때 중요한 것은 변수의 유형을 제대로 파악하고 그에 맞는 모형을 구축해야 한다는 것입니다.

​​

​​설명변수(x)와 반응변수(y)의 유형에 따라 구축할 수 있는 모형은 아래와 같습니다.

 Type of X      /    Type of Y

범주형(Categorical)

연속형(Continuous)

범주형 + 연속형 

 연속형(continuous)

Analysis of Variance

(ANOVA) 

Ordinary Least Squares(OLS) Regression 

Analysis of Covariance

(ANCOVA) 

 범주형(categorical)

Contingency Table Analysis or Logistic Regression 

Logistic Regression 

Logistic Regression 

 

즉, 이번시간부터 다루게 될 회귀분석은 두 연속형 변수인 x와 y 간의 관계를 조사하여, y의 값이 x의 값에 의존하는 경우에 사용하는 모형이며,

​두 변수 간 선형적인 관계를 가장 잘 설명해주는 직선이 ‘선형회귀직선’입니다.

먼저, 회귀모형을 작성하기에 앞서 두 변수의 관계를 조사해야 합니다.

Correlation 분석에 앞서서는 scatter plot을 이용하여 두 변수간의 관계를 보는 것이 중요합니다.

​​

데이터를 이용하여 분석을 어떤 순서로 진행하는지 알아보도록 하겠습니다.

데이터는 aerobic 데이터로 oxy(산소소비량)와 weight, runtime, rstpulse, runpulse, maxpulse의 변수를 갖고 있는 자료이며, 총 31명을 대상으로 하였습니다.

 

1.PNG

 

​SAS에서는 PROC CORR 프로시저를 사용하여 scatter plot을 확인할 수 있습니다.

 

PROC CORR DATA=SAS-data-set<options>;

​ VAR variables;

 WITH variables;

​​ ID variables;

​RUN;

 VAR문장은 correlation을 확인할 변수를 지정합니다.

​ WITH문장은 VAR문장에서 지정한 변수와의 correlation을 확인하고 싶은 변수를 지정합니다

 

 

======================================================================

 

SE22016042001033570.jpg

 

이처럼 plot(only) = scatter 옵션을 사용하여 var문장과 with문장에서 지정한 변수들의 scatter plot을 확인할 수 있습니다.

 

SE22016042001035270.jpg

Scatter plot은 2차원의 그래프이며 두 변수의 값들을 좌표평면에 점으로 표현한 그림입니다.

​​

Scatter plot은 두 변수의 관계를 조사하거나, outlier나 unusual values를 확인하거나 trend를 조사할 때 유용합니다.

 

 

SE22016042001043370.jpgSE22016042001045270.jpgSE22016042001052670.jpgSE22016042001053770.jpgSE22016042001055370.jpgSE22016042001062070.jpg

 

 

====================================================================== 

 

또한, 위의 PROC CORR 프로시저를 통해 두 변수의 correlation을 계산할 수 있습니다.

​​

​correlation으로는 두 변수의 선형 관계에 대해 ‘양의 상관’, ‘음의 상관’, ‘상관이 없다’ 의 세 가지의 경우로 분류할 수 있습니다.

 

SE22016042001081370.jpg

 

Pearson correlation은 두 변수의 선형 관계의 정도를 측정한 통계량입니다.

연속형 변수에서 사용되는 일반적인 correlation 통계량은 ‘Pearson correlation coefficient’이며 이 값은 -1부터 1까지의 범위를 갖습니다.

두 변수의 상관이 강할수록 1이나 -1에 가까워집니다. 상관계수가 0인 경우는 두 변수 간 선형관계가 없다고 하며, 0보다 크면 양의 상관, 0보다 작다고 하면 음의 상관이라고 합니다.

======================================================================​

 

SE22016042001091770.jpg

즉, proc corr 프로시저를 통해 얻은 피어슨 상관계수를 보면, runtime은 oxy와 강한 음의 상관을 갖고 있으며, 나머지 변수들도 oxy와 음의 상관관계를 갖는 것을 확인할 수 있습니다.

또한, 가장 아래에 위치한 p-값은 모상관계수가 0인지를 검정하는 통계량에 대한 p-값으로 유의수준 5%하에서 귀무가설(모상관계수=0)이 기각되는 변수는 runtime, rstpulse, runpulse입니다.

​​즉, runtime, rstpulse, runpulse는 oxy와 상관이 있는 변수라는 결론을 얻을 수 있습니다.

 

====================================================================== 

 

또한 plot option을 변경하여 다른 결과를 얻을 수도 있습니다.

 

======================================================================

 

SE22016042001101270.jpg

 

SE22016042001114370.jpg

 

SE22016042001103770.jpg

 

Scatter plot과 correlation을 matrix형태로 얻게 됩니다.

 

 

 

 

이상, 회귀분석 첫 번째 시간으로 회귀분석 전 분석에 대해 알아보았습니다~

Version history
Last update:
‎06-16-2020 04:53 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags