상관분석은 부모와 자식 간의 키의 관계, 백화점 판매수익과 기온의 관계, 게임시간과 수익의 관계 등 '한쪽이 증가하면 다른 한쪽은 감소한다' 또는 '한쪽이 증가하면 다른 쪽도 증가한다.' 와 같은 직선적인 관계를 상관이라고 합니다.
상관계수(coefficient of correlation)는 변수간 선형적인 관계 정도를 측정하는 통계량으로 두 변수 간의 관련성 또는 상관이 얼마나 강한지를 나타내는 지표입니다.
상관분석 전에 시각적 도구로 산점도를 통해서 변수들 간의 관계성을 보여줄 수도 있습니다.
상관계수는 아래와 같은 특성을 가지고 있습니다.
-1 ≤ 상관계수 (ρ) ≤ 1
양의 상관: 0보다 큰 값으로 양수의 값을 가지며 '한쪽이 증가하면 다른 쪽이 증가한다.' 또는 '한쪽이 감소하면 다른 쪽도 감소한다.' 라고 할 수 있습니다. 산포도상의 점은 오른쪽 위에 분포한다.
음의 상관: 0보다 작은 값을 가지며 '한쪽이 증가하면 다른 쪽은 감소한다.' 또는 '한쪽이 감소하면 다른 쪽은 증가한다.'라고 할 수 있습니다. 산포도상의 점은 오른쪽 아라에 분포한다.
상관이 존재하지 않는다. : 선형적인 관계가 존재하지 않을수록 0에 가깝다.
양 극단 값: 선형적인 관계가 매우 높다.
상관분석은 이상치에 크게 영향을 받기때문에 숫자만을 보고 변수간의 관계를 판단하는 것은 위험할 수 있습니다.
그래서 상관계수 이전에 산점도를 통해 시각적으로 판단해 데이터에 대한 추세를 확인해야 합니다.
SAS Studion 에서 상관분석 옵션에 대해 설명하겠습니다.
* 분석변수(Analysis variables): 필수로 넣어야되는 변수 중 하나로 이 변수에 대해 상관계수가 생성된다.
* 상관 대상(Correlate with): 필수로 넣어야 되는 변수로 분석변수와 상관 분석을 하게 된다. 상관 대상에 변수를 집어 넣지 않으면 분석변수간의 상관분석이 진행된다.
* 빈도 수: 필수 옵션은 아니지만 변수가 할당되면 관측치 1개가 n(관측치에 대한 빈도)개의 관측치를 나타낸다.
* 가중: 각 행의 값이 곱적률 상관계수(product moment correlation coefficients)의 계산에 사용된다.
*그룹 분석 변수: 할당된 변수를 기준으로 테이블이 정렬되고, 상관 테이블이 생성된다. 하나 이상의 변수를 지정할 수 있다.
Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!