BookmarkSubscribeRSS Feed

[SAS University Edition] 자료의 요약 (2) - 상자 도표 , 히스토그램

Started ‎06-08-2020 by
Modified ‎06-08-2020 by
Views 1,084

안녕하세요. 이번 시간에는 지난 시간에 이어서 그래프를 통해 자료의 특성을 탐색하는 방법을 알아 보겠습니다. 요약통계량인 평균과 표준편차는 이상적으로 값이 크거나 작은 이상치에 영향을 많이 받습니다. 이런 이상치가 존재하면 평균이나 표준편차 값은 우리의 자료의 특성을 대표하는 값의 기능을 제대로 하고 있다고 보기 힘들어집니다. 그래프를 이용하면 이런 이상치들 뿐만 아니라 자료의 특성을 한눈에 파악할 수 있습니다.

 

상자 도표(Box Plot)

 상자 도표은 연속형 변수의 분포 특성을 파악하는 데 유용합니다. 상자의 양끝은 제1사분위수와 제3사분위수, 수평선은 중앙값을 나타냅니다. 그 다음 상자의 양끝에서 사분위수의 1.5배를 더한 점과 뺀 점들까지 선이 그려집니다. 이를 벗어난 데이터는 이상치로 분류될 가능성이 큽니다. 아래와 같은 방법으로 상자그림을 그려보겠습니다.

 

 

1.네비게이션 영역의 작업 및 유틸리티  작업  그래프  상자도표 클릭

2.데이터  Work.widths를 테이블 선택 

3.역할  feet 분석변수 units 범주로 지정

4.실행 클릭 

 

SE22018092321045170.png그림 1

 

 

 

SE22018092321050370.png  그림 2 <상자 도표>

 

 

 상자 도표 결과를 해석해보겠습니다. 두 그룹 모두 이상치로 의심되는 관측치를 포함하고 있으며 미터 단위를 이용한 그룹에서 분포의 치우쳐짐이 관측되고, 피트 단위를 이용한 그룹과 비교했을 때 더 가변적이라고 해석됩니다. 상자 도표는 여러 그룹으로 이루어진 관측치의 분포 특성을 비교할 때 유용합니다. 다음은 분포를 표시하는 다른 그래프를 알아보겠습니다.

 

히스토그램(Histogram)

 

 히스토그램에서 관측치들의 범위를 작은 구간으로 나눕니다. 각 구간에 속하는 관측치들의 빈도를 구간 중앙에 직사각형 면적으로 표현합니다. 아래의 방법으로 히스토그램을 그려보겠습니다.

 

 

1.네비게이션 영역의 작업 및 유틸리티  작업  통계량  분포분석 클릭

2.데이터  work.widths 테이블 선택

3.역할  feet 분석변수로 설정

4.옵션  데이터 탐색  히스토그램  units 분류변수로 설정

 

5.  실행 클릭 

SE22018092321061070.png  그림 3

 

 

SE22018092321062170.png  그림 4

 

 

 

SE22018092321063370.png  그림 5 <히스토그램>

 

 

 

 히스토그램 결과에서 미터 단위를 이용한 그룹의 분포의 왜곡(오른쪽으로 긴 꼬리)이 더 명확하게 나타나는 것을 확인할 수 있습니다.

 

 이번 시간에는 자료의 특성을 파악하기 위한 방법으로 상자 도표 히스토그램에 대해 알아 보았습니다감사합니다.

 

Reference

도서 - Essential Statistics Using SAS University Edition / Der, GeoffEveritt, Brian S. / SASInstitute  

Version history
Last update:
‎06-08-2020 09:38 PM
Updated by:
Contributors

Ready to join fellow brilliant minds for the SAS Hackathon?

Build your skills. Make connections. Enjoy creative freedom. Maybe change the world. Registration is now open through August 30th. Visit the SAS Hackathon homepage.

Register today!
Article Tags