안녕하세요. 이번 시간에는 두 연속형 변수의 사이의 연관성을 알아보는 상관분석에 대해 알아보겠습니다. 사용할 데이터는 resting 데이터셋으로 한 병원에서 일부 환자들을 표본 추출하여 키와 혈압을 관측한 자료입니다.
지금부터 환자들의 키와 혈압 사이에 어떠한 관계가 있는지 알아보겠습니다.
<그림1 resting 데이터셋>
산점도
산점도는 두 연속형 변수사이의 선형적 연관성에 대한 인사이트를 얻기 위한 시각화 도구로 가장 많이 사용됩니다. 각 축은 알아보고자 하는 두 연속형 변수이고 관측값은 점으로 표시 됩니다.
아래의 절차에 따라 SAS Studio에서 산점도를 그릴 수 있습니다.
· 작업 ▶ 그래프 ▶ 산점도 클릭
· 데이터 ▶ sasue.resting테이블 선택
· 역할 ▶ height를 X변수 , pulse를 Y변수로 지정
· 실행 클릭
<그림2 산점도>
산점도를 보면 모두의 경우는 아니지만 일반적으로 키가 클수록 혈압이 높은 것을 확인할 수 있습니다.
이를 두 변수 사이에 양의 선형적인 연관성이 있다고 표현합니다.
상관계수(Correlation Coefficient)와 상관 분석(Correlation Analysis)
상관계수를 이용하여 산점도에 나타난 두 변수 사이의 선형적인 관계를 하나의 숫자로 요약할 수 있습니다. 상관계수는 -1과 1 사이의 값을 가집니다. 양의 선형적 연관성을 갖는 경우 산점도의 모든 점들이 한 직선에 놓여있을 때 1을 갖고 음의 선형적 연관성이 있고 모두 같은 직선에 놓여 있는경우 -1의 값을 갖게 됩니다. 상관계수가 0에 가까울 수록 두 변수 사이의 선형적 연관성이 적다. 즉, 상관관계가 적다고 해석할 수 있습니다. 이렇게 두 변수 사이의 상관계수를 구하여 상관관계를 알아보는 분석 방법을 상관분석이라고 합니다. 아래의 절차에 따라 SASStudio에서 상관분석을 수행할 수 있습니다.
· 작업 ▶ 통계량 ▶ 상관분석 클릭
· 데이터 ▶ sasue.resting테이블 선택
· 역할 ▶ height와 , pulse를 분석변수로 지정
· 실행 클릭
<그림3 상관분석 결과>
상관분석을 수행하면, 상관계수와, 상관계수가 유의한지 즉, 귀무가설 모상관계수=0에 대한 검정 결과가 출력됩니다. 위의 결과를 해석해보면 키와 혈압, 두 변수 사이의 상관계수는 0.1279로 약한 양의 상관관계가 있다고 해석할 수 있고 유의확률은 0.1279로 유의수준 0.05하에서 귀무가설을 기각하지 못하므로 두 변수 사이의 상관관계는 유의하지 않다고 결론지을 수 있습니다.
이번시간에는 두 연속형 변수사이의 선형적인 연관성을 알아 보고자 할 때의 분석방법에 대하여 알아보았습니다. 감사합니다.
Reference
도서 - Essential Statistics Using SAS University Edition / Der, Geoff, Everitt, Brian S. / SASInstitute
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.