■ 분산
분산이란 데이터가 얼마정도 넓게 퍼져있는지를 나타내는 지표입니다.
즉, 데이터가 평균의 주위에 흩어진 정도를 알 수 있습니다. 편차 제곱의 평균값이라고도 합니다.
평균만으로는 데이터가 어떻게 흩어져 있는지 알 수 없어 분산으로 데이터의 흩어진 정도를 파악할 수 있습니다.
● 분위수(Quantile)
n개 데이터를 오름차순으로 정렬하고 (작은값 > 큰값)
중앙값(median)은 제2사분위수라고도 하며 데이터의 중앙에 오는 값을 의미합니다.
중앙값은 자료의 측정값을 크기순으로 나열 했을떼 가운데 오는 값으로 평균에 비해 이상치에 영향을 받지 않습니다.
● 사분위수 범위
사분위수는 데이터를 순차적으로 늘어놓았을 때, 제 3사분위수에서 제 1사분위수의 차이를 의미입니다. (Q3 - Q1)
● 편차
편차란, 데이터의 값과 평균의 차이를 의미한다.
데이터 중 편차가 큰 데이터가 많으면 데이터 흩어진 정도가 큰 데이터 셋이라고 할 수 있다.
● 분산
분산은 데이터가 평균으로부터 얼마나 흩어져 있는지를 나타내는 지표이다. 편차 제곱의 평균값이라고도 한다.
● 이상치
데이터의 평균에서 떨어진 값을 의미하며, 보통 3σ를 벗어나면 이상치라고 합니다.
SAS 코드로 박스플롯을 그려 이상치에 대해서 알아보겠습니다.
proc sgplot data = aba1.bank;
vbox balance / category=job;
run;
aba1 라이브러리의 bank 데이터를 활용해서 직업별로(job 변수) 잔액(balance 변수)의 박스플롯을 그려보았습니다.
해당 플롯에서 은퇴한 (retired) 직업군의 잔액 중 평균에서 멀리 떨어져 있는 이상치를 확인할 수 있습니다.
● 변동계수(Coeffifient of Variation)
데이터 중 그룹 간에 다른 단위를 가진 경우에 흩어진 정도를 비교할 때 사용합니다.
두 개의 과목 중 영어보다 수학이 흩어진 정도의 차이가 크다는 것을 알 수 있습니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.