분포확인
분석에 들어가기에 앞서 먼저 기본적인 분포를 확인해야겠죠?
분포를 확인하는 방법에는 시각적 자료를 통한 방법과 수치자료를 통해 확인하는 방법이 있습니다.
0. 예제 데이터
회사 | 광고비용 | 판매량 |
1 | 1 | 2.5 |
2 | 1.6 | 2.6 |
3 | 2.5 | 2.7 |
4 | 3 | 5 |
5 | 4 | 5.3 |
6 | 4.6 | 9.1 |
7 | 5 | 14.8 |
8 | 5.7 | 17.5 |
9 | 6 | 23 |
....(중간 생략)
45 | 1.7 | 3.9 |
46 | 6.7 | 29.1 |
47 | 1.5 | 3.3 |
48 | 4.8 | 9.5 |
49 | 1.9 | 5 |
50 | 7 | 25.1 |
변수명 : 회사명 / 광고비용 / 판매량 -> company / adcost / salesvol
* 두 변수를 이용하는 경우 외에는 광고비용(adcost)에 대해서만 분포확인을 하겠습니다 🙂
(판매량 변수 역시 같은 방법으로 하시면 됩니다)
1. 시각적 자료를 통한 확인
1) 상자그림(Box-plot)
자료로부터 얻는 다섯가지 요약수치(최솟값, 1사분위수, 2사분위수, 3사분위수, 최댓값)를 가지고 그린 그림으로, 사분위수가 중심이 되서 Box를 형성하고 사분위수범위(Q3-Q1)의 1.5배 크기의 범위를 경계로 하여 이 범위에 포함되는 최솟값과 최대값을 Q1과 Q3으로부터 각각 선으로 연결. 양 경계를 벗어나는 값은 *로 표시하고 이 점들을 이상점이라 합니다.
상자그림은 중앙값을 기준으로 하여 양 쪽 대칭, 퍼진 정도 등을 한 눈에 파악할 수 있습니다.
하지만 상자그림은 봉우리가 하나 있는 분포의 특징을 나타내는 데 적절하며, 봉우리가 여러개 있는 경우에는 상자그림으로 효과적인 분석을 하기에 어려움이 있습니다.
-> 출력된 상자그림 결과를 보면 분포가 중앙값을 기준으로 양 쪽으로 퍼진정도가 적절함을 알 수 있습니다.
2) 산점도
두 변수간의 관계를 알고 싶을 때 확인하는 그래프입니다.
-> 오른쪽 아래 이상점을 제외하고는 전체적으로 직선 형태를 나타내며 두 변수(광고비용 & 판매량) 양의 관계에 있음을 알 수 있습니다.
3) 히스토그램
연속형 자료에서 도수분포표를 기초로 하여 각 계급에 대하여 범주형 자료에서의 막대그래프와 같은 모양의 그림을 그린 것으로 각 계급별 빈도를 알 수 있습니다.
midpoints - 가로축 조절
raxis - 세로축 조절
2. 수치를 통한 자요 요약
1) 기초통계량 확인 : 평균, 중앙값, 표준편차, 최댓값, 최솟값, 사분위수, 백분위수
- 백분위수(p) : 전체 관측값을 작은 순서대로 배열하였을 때 전체의 관측값을 (100 x p)%와 100x(1-p)%로 나눌 수 있는 값
- 사분위수 : 전체 관측값을 작은 순서로 배열하였을 때 사등분하는 값
Q1=제 25 백분위수, Q2=제 50 백분위수=중앙값, Q3=제 75 백분위수
* 보다 간단하게 기초통계량을 알고 싶다면 PROC MEANS 프로시저를 사용할 수 있습니다.
2) 상관계수(r)
두 변수의 관계를 나타내는 산점도에서 점들이 얼마나 직선에 가까운가의 정도를 나타내는 측도로, |r| <= 1 의 값을 가집니다.
1에 가까울수록 양의 직선관계, -1에 가까울수록 음의 직선관계에 가까우나 반드시 그런 것은 아닙니다. 때문에 산점도와 함께 확인을 하는 것이 좋습니다.
-> 가장 아래 Corr 행렬을 보시면 adcost와 salesvol의 상관계수값이 0.91338로 상당히 강한 직선관계를 가짐을 알 수 있습니다.
Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!