BookmarkSubscribeRSS Feed

[SAS를 이용한 기초통계분석] 1.분포확인

Started ‎06-15-2020 by
Modified ‎06-15-2020 by
Views 1,334

sas이용한(3).png

 

 

분포확인

 

분석에 들어가기에 앞서 먼저 기본적인 분포를 확인해야겠죠?

분포를 확인하는 방법에는 시각적 자료를 통한 방법 수치자료를 통해 확인하는 방법 있습니다.

 

 

0. 예제 데이터

 

   회사    광고비용    판매량 
1 1 2.5
2 1.6 2.6
3 2.5 2.7
4 3 5
5 4 5.3
6 4.6 9.1
7 5 14.8
8 5.7 17.5
9 6 23

 

                        ....(중간 생략)

 

45 1.7 3.9
46 6.7 29.1
47 1.5 3.3
48 4.8 9.5
49 1.9 5
50 7 25.1

 

 

변수명 : 회사명 / 광고비용 / 판매량 -> company / adcost / salesvol

* 두 변수를 이용하는 경우 외에는 광고비용(adcost)에 대해서만 분포확인을 하겠습니다 🙂

  (판매량 변수 역시 같은 방법으로 하시면 됩니다)


 

1. 시각적 자료를 통한 확인

 

1) 상자그림(Box-plot)

자료로부터 얻는 다섯가지 요약수치(최솟값, 1사분위수, 2사분위수, 3사분위수, 최댓값)를 가지고 그린 그림으로, 사분위수가 중심이 되서 Box를 형성하고 사분위수범위(Q3-Q1)의 1.5배 크기의 범위를 경계로 하여 이 범위에 포함되는 최솟값과 최대값을 Q1과 Q3으로부터 각각 선으로 연결. 양 경계를 벗어나는 값은 *로 표시하고 이 점들을 이상점이라 합니다.

상자그림은 중앙값을 기준으로 하여 양 쪽 대칭, 퍼진 정도 등을 한 눈에 파악할 수 있습니다.

하지만 상자그림은 봉우리가 하나 있는 분포의 특징을 나타내는 데 적절하며, 봉우리가 여러개 있는 경우에는 상자그림으로 효과적인 분석을 하기에 어려움이 있습니다. 

 

상자그림소스(2).png

 

boxplot-adcost(3).png

-> 출력된 상자그림 결과를 보면 분포가 중앙값을 기준으로 양 쪽으로 퍼진정도가 적절함을 알 수 있습니다.

    

2) 산점도

두 변수간의 관계를 알고 싶을 때 확인하는 그래프입니다.

gplot소스(1).png

gplot(2).png

 

-> 오른쪽 아래 이상점을 제외하고는 전체적으로 직선 형태를 나타내며 두 변수(광고비용 & 판매량) 양의 관계에 있음을 알 수 있습니다.

 

3) 히스토그램

연속형 자료에서 도수분포표를 기초로 하여 각 계급에 대하여 범주형 자료에서의 막대그래프와 같은 모양의 그림을 그린 것으로 각 계급별 빈도를 알 수 있습니다.

 

gchart소스(1).png

midpoints - 가로축 조절

raxis - 세로축 조절

gchart(2).png

 

 

2. 수치를 통한 자요 요약

 

1) 기초통계량 확인 : 평균, 중앙값, 표준편차, 최댓값, 최솟값, 사분위수, 백분위수

- 백분위수(p) : 전체 관측값을 작은 순서대로 배열하였을 때 전체의 관측값을 (100 x p)%와 100x(1-p)%로 나눌 수 있는 값

- 사분위수 : 전체 관측값을 작은 순서로 배열하였을 때 사등분하는 값

                  Q1=제 25 백분위수, Q2=제 50 백분위수=중앙값, Q3=제 75 백분위수

 

uni_소스.png

univariate-adcost.png

 

* 보다 간단하게 기초통계량을 알고 싶다면 PROC MEANS 프로시저를 사용할 수 있습니다.

 

2) 상관계수(r)

두 변수의 관계를 나타내는 산점도에서 점들이 얼마나 직선에 가까운가의 정도를 나타내는 측도로, |r| <= 1 의 값을 가집니다. 

1에 가까울수록 양의 직선관계, -1에 가까울수록 음의 직선관계에 가까우나 반드시 그런 것은 아닙니다. 때문에 산점도와 함께 확인을 하는 것이 좋습니다.

 

corr소스.png

 

corr.png

 

 -> 가장 아래 Corr 행렬을 보시면 adcost와 salesvol의 상관계수값이 0.91338로 상당히 강한 직선관계를 가짐을 알 수 있습니다.

 

※ 결측값(missing value) 처리
 
분석에 들어가기 전에 결측값에 대한 처리가 필요합니다. 결측값은 보통 제거하거나 평균값으로 대체하며,
IF 문을 사용하면 쉽게 처리할 수 있습니다.
 
Version history
Last update:
‎06-15-2020 05:29 AM
Updated by:
Contributors

SAS Innovate 2025: Register Now

Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!

Article Labels
Article Tags