BookmarkSubscribeRSS Feed

[SAS 활용 노하우] 상관분석

Started ‎08-22-2021 by
Modified ‎08-22-2021 by
Views 6,610

 

 

상관분석은 두 변수간 선형 정도를 측정하여 상호 관련성을 분석하는 방법입니다.

특히, 두 변수 간 선형 연관성의 강도를 측정할 때는 흔히 피어슨 상관계수(Pearson correlation coefficient) r을 사용합니다.

 

변수 X와 Y에 대한 n쌍의 데이터를 (X1,Y1), ... , (Xn,Yn)으로 표기할 때 X와 Y의 상관계수 r의 공식은 아래와 같습니다.스크린샷 2021-08-22 오후 5.02.51.png

 

 

 

피어슨 상관계수는 두 변수간 관계가 선형(직선) 관계인지 여부를 판정하는 측도로서,

r의 절대값이 1에 가까우면 두 변수 사이의 관계를 직선식으로 표현할 수 있으며, 회귀분석 시 적합도가 높아집니다.

r값은 항상 -1에서 1사이의 값이며 -1이면 두 변수간 관계가 완벽한 역선형 관계로 하나가 감소하면 다른 하나는 증가하고 하나가 증가하면 다른 하나는 감소합니다.

반대로 +1의값을 가지면 완벽한 정선형 관게로 두 변수는 같이 증감합니다. 상관계수의 값이 0이면 두 변수간 선형관계는 없습니다. 따라서 상관계수가 0에 가까우면 두 변수 간에는 서로를 설명할 근거가 없다고 할 수 있습니다. 그러나 상관계수의 값이 어느 정도라야 서로 무관하다고 할 수 있는지는 쉽게 말할 수 없습니다. 사회경제 분야에서는 상관계수가 ± 0.5를 넘는 경우가 드물기 때문에 ±0.3 정도라도 분석을 계속 진행합니다. 그러나 ± 0.3은 정교한 화학실험 등에서는 분석할 가치가 없는 값입니다.

상관도가 높더라도 변수 간 인과성을 말할 수 없습니다. 즉, 두 변수간 연관성이 높더라도 어느 한 변수가 다른 변수의 원인이라는 말은 하지 못합니다. 상관관계가 있다는 것이 인과관계를 의미하지는 않습니다. 또 인과관계가 있다고 해서 반드시 상관관계가 높지도 않습니다.

 

스크린샷 2021-08-22 오후 5.33.49.png

 

다음 five-var.txt 데이터는 다섯 변수에 대한 33개의 측정값입니다.

이 자료를 기초로 상관분석 실례를 들려고 합니다.

 

상관분석은 CORR프로시저에서 담당합니다. CORR프로시저의 문법은 아래와 같습니다.

 

PROC CORR DATA = SASdataset;
     VAR variables;
     BY variables;
RUN;

 

CORR프로시저에서 VAR문에는 피어슨 상관계수를 구할 분석변수를 지정합니다.

상관계수는 이변량 측도이기 때문에 VAR 문에는 적어도 2개 이상의 분석변수를 나열해야 합니다. 만일 VAR문이 생략되면 데이터 내 모든 숫자변수에 대한 상관계수가 자동으로 출력됩니다.

 

data mlr;
infile '/home/u45061472/five-var.txt';
input x1-x5;
run;

proc corr data = mlr nosimple;
var x1-x5;
run;

스크린샷 2021-08-22 오후 5.43.13.png

 

 

출력결과는 다음과 같습니다.

출력결과 상단에 '피어슨 상관계수, N=33 / H0: Rho =0 검정에 대한 Prob > |r|' 이라는 표제가 출력되었습니다.

여기서 피어슨 상관계수가 출력됨을 알리고 또 모집단 상관계수 ρ(rho)가 0이라는 귀무가설이 기각되는 유의확률값이 출력되었슴을 의미합니다. 상관계수가 바로 및에 나온 숫자가 유의확률입니다.

 

출력된 상관계수를 행렬형식으로 정리하면 아래와 같습니다.

 

스크린샷 2021-08-22 오후 5.51.44.png

 

 

 

X1과 X5 간의 상관계수가 -0.73으로 가장 크며 다른 계수에 비하면 두드러집니다.

상관계수 행렬은 대각선을 중심으로 대칭이므로 어느 한쪽만 편한대로 읽으면 됩니다. 대각선상의 상관계수들은 전부 1인데 이는 자기 자신과의 상관계수이기 때문입니다. 그리고 이들에 관한 유의확률은 언제나 0이므로 곧 자기 자신과의 상관계수가 절대 0이 될 수 없음을 의미합니다.

그리고 상관계수마다 같이 계산된 유의확률이 0.05보다 작게 나오면 두 변수간에는 0이 아닌 상관관계가 존재한다고 결론 내릴 수 있습니다. 반대로 유의확률값이 0.05보다 크면 두 변수 간에는 상관관계가 없다고 판정합니다.

 

 

 

Version history
Last update:
‎08-22-2021 04:55 AM
Updated by:
Contributors

sas-innovate-white.png

Special offer for SAS Communities members

Save $250 on SAS Innovate and get a free advance copy of the new SAS For Dummies book! Use the code "SASforDummies" to register. Don't miss out, May 6-9, in Orlando, Florida.

 

View the full agenda.

Register now!

Article Labels
Article Tags