■ 상관계수
상관계수는 수 변수간의 관련성이 얼마나 나타내는 지표를 의미한다.
상관계수에는 피어슨의 적률상관계수와 스피어만의 순위상관관계수, 켄달의 순위상관이 있지만 주로 상관계수를 말할 때에는 피어슨의 적률상관계수를 의미하고는 한다.
상관계수는 -1에서 1사이의 값을 가지며 -1에 가까울 수록 음의 상관관계, 1에 가까울수록 양의 상관관계라고 한다.
예를들면, '부모의 키가 크면 자식의 키도 크다.' '한쪽이 증가하면 다른쪽은 감소한다.' 라는 직선적인 관계를 상관관계라고 한다.
상관계수는 r로 표기하며 변수 x와 y의 상관계수는 아래와 같은 수식을 사용한다.
r이 1에 가까우면: 양의 상관으로 한쪽이 증가하면 다른쪽도 증가하는 것을 의미한다.
r이 -1에 가까우면: 음의 상관으로 한쪽이 증가하면 다른 쪽은 감소한다.
r이 0에 가까우면: 두 변수 간의 상관이 없음을 나타낸다.
■ SAS에서의 상관계수
proc corr data=sashelp.baseball;
var nruns nhits salary;
run;
PROC CORR statement 를 통해 sashelp.baseball 데이터를 활용해서 3개의 변수(nruns, nhits, salary) 의 상관관계를 알아보았습니다.
그 결과, nRuns 변수와 nHits 변수는 상관계수의 값이 0.9로 강한 양의 상관관계가 있음을 확인할 수 있습니다.
proc sgscatter data = sashelp.baseball;
matrix nruns nhits salary;
run;
PROC SGSCATTER statment를 통해서 산포도를 확인할 수 있습니다.
nHits 변수와 nRuns 변수의 산포도상의 점은 오른쪽 위에 분포합니다.
Are you ready for the spotlight? We're accepting content ideas for SAS Innovate 2025 to be held May 6-9 in Orlando, FL. The call is open until September 25. Read more here about why you should contribute and what is in it for you!