안녕하세요. 이번 시간에는 지난 시간과는 다른 데이터를 고려해보겠습니다. kinesiology(신체운동을 역학적으로 연구하는 학문)의 한 실험에서 관측된 데이터로 아래 두 가지 변수가 존재합니다.
이제 두 변수 사이의 상관관계를 알아봅시다. 먼저 두 연속형 변수에 대한 산점도를 그립니다.
<그림1 산점도>
Oxygen uptake가 증가할수록 Expired ventilation이 증가하는 것을 확인할 수 있습니다. 하지만 자세히 보면, 두 변수 사이의 선형적인 관계가 아닌 2차 곡선의 비선형적인 관계가 있는 것을 확인할 수 있습니다. 다음은 상관분석을 통해 상관계수를 구합니다.
<그림2 상관분석 결과>
상관계수는 0.95로 아주 강한 양의 상관성을 나타내고 있고 유의확률 또한 매우 작은 값을 갖습니다. 그러나 앞서 산점도를 통해 비선형적인 관계를 확인한 것을 잊으면 안됩니다. 모집단 전체가 아닌 일부 표본을 이용하여 상관계수를 구하게 되므로 상관계수가 전체 데이터의 정보를 완벽하게 담고 있지는 않습니다. 이러한 경우 때문에 상관분석 전에 산점도를 그려 시각화하는 과정이 반드시 수행되어야 합니다. 이렇게 두 변수 사이의 비선형적인 관계가 존재하는 경우 앞서 배운 단순선형회귀모형을 그대로 사용하는 것이 아니라 아래와 같은 독립변수의 2차효과(quadratic effect)를 추가한 모형을 사용합니다.
아래 절차를 통해 SASStudio에서 위 모형을 적합해보겠습니다.
아래 절차를 통해 SASStudio에서 위 모형을 적합해보겠습니다.
<그림 3>
<그림 4>
그림4의 마지막표를 보면 o2in과 o2in*o2in 효과의 회귀 계수가 모두 유의한 것을 확인할 수 있습니다. 이는 앞서 산점도를 통해 확인한 것과 일치합니다.
다음 시간에는 단순선형회귀모형에서의 가정들과 가정들을 만족하는지 진단하는 방법에 대해 알아보겠습니다, 감사합니다.
Reference
도서 - Essential Statistics Using SAS University Edition / Der, Geoff, Everitt, Brian S. / SASInstitute
Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!