3-1. Regression: 회귀분석(1)
안녕하세요^^
이번 시간에는 회귀분석 첫 번째 시간으로 회귀분석의 기초와 회귀모형을 작성하기 전 고려해야 하는 사항들에 대해 알아보도록 하겠습니다.
통계적 모형을 만들 때 중요한 것은 변수의 유형을 제대로 파악하고 그에 맞는 모형을 구축해야 한다는 것입니다.
설명변수(x)와 반응변수(y)의 유형에 따라 구축할 수 있는 모형은 아래와 같습니다.
Type of X / Type of Y |
범주형(Categorical) |
연속형(Continuous) |
범주형 + 연속형 |
연속형(continuous) |
Analysis of Variance (ANOVA) |
Ordinary Least Squares(OLS) Regression |
Analysis of Covariance (ANCOVA) |
범주형(categorical) |
Contingency Table Analysis or Logistic Regression |
Logistic Regression |
Logistic Regression |
즉, 이번시간부터 다루게 될 회귀분석은 두 연속형 변수인 x와 y 간의 관계를 조사하여, y의 값이 x의 값에 의존하는 경우에 사용하는 모형이며,
두 변수 간 선형적인 관계를 가장 잘 설명해주는 직선이 ‘선형회귀직선’입니다.
먼저, 회귀모형을 작성하기에 앞서 두 변수의 관계를 조사해야 합니다.
Correlation 분석에 앞서서는 scatter plot을 이용하여 두 변수간의 관계를 보는 것이 중요합니다.
데이터를 이용하여 분석을 어떤 순서로 진행하는지 알아보도록 하겠습니다.
데이터는 aerobic 데이터로 oxy(산소소비량)와 weight, runtime, rstpulse, runpulse, maxpulse의 변수를 갖고 있는 자료이며, 총 31명을 대상으로 하였습니다.
SAS에서는 PROC CORR 프로시저를 사용하여 scatter plot을 확인할 수 있습니다.
PROC CORR DATA=SAS-data-set<options>; VAR variables; WITH variables; ID variables; RUN; |
VAR문장은 correlation을 확인할 변수를 지정합니다. WITH문장은 VAR문장에서 지정한 변수와의 correlation을 확인하고 싶은 변수를 지정합니다 |
======================================================================
이처럼 plot(only) = scatter 옵션을 사용하여 var문장과 with문장에서 지정한 변수들의 scatter plot을 확인할 수 있습니다.
Scatter plot은 2차원의 그래프이며 두 변수의 값들을 좌표평면에 점으로 표현한 그림입니다.
Scatter plot은 두 변수의 관계를 조사하거나, outlier나 unusual values를 확인하거나 trend를 조사할 때 유용합니다.
======================================================================
또한, 위의 PROC CORR 프로시저를 통해 두 변수의 correlation을 계산할 수 있습니다.
correlation으로는 두 변수의 선형 관계에 대해 ‘양의 상관’, ‘음의 상관’, ‘상관이 없다’ 의 세 가지의 경우로 분류할 수 있습니다.
Pearson correlation은 두 변수의 선형 관계의 정도를 측정한 통계량입니다.
연속형 변수에서 사용되는 일반적인 correlation 통계량은 ‘Pearson correlation coefficient’이며 이 값은 -1부터 1까지의 범위를 갖습니다.
두 변수의 상관이 강할수록 1이나 -1에 가까워집니다. 상관계수가 0인 경우는 두 변수 간 선형관계가 없다고 하며, 0보다 크면 양의 상관, 0보다 작다고 하면 음의 상관이라고 합니다.
======================================================================
즉, proc corr 프로시저를 통해 얻은 피어슨 상관계수를 보면, runtime은 oxy와 강한 음의 상관을 갖고 있으며, 나머지 변수들도 oxy와 음의 상관관계를 갖는 것을 확인할 수 있습니다.
또한, 가장 아래에 위치한 p-값은 모상관계수가 0인지를 검정하는 통계량에 대한 p-값으로 유의수준 5%하에서 귀무가설(모상관계수=0)이 기각되는 변수는 runtime, rstpulse, runpulse입니다.
즉, runtime, rstpulse, runpulse는 oxy와 상관이 있는 변수라는 결론을 얻을 수 있습니다.
======================================================================
또한 plot option을 변경하여 다른 결과를 얻을 수도 있습니다.
======================================================================
Scatter plot과 correlation을 matrix형태로 얻게 됩니다.
이상, 회귀분석 첫 번째 시간으로 회귀분석 전 분석에 대해 알아보았습니다~
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.