1-4. Statistics의 소개: 분포의 표현(2)
- Article History
- RSS Feed
- Mark as New
- Mark as Read
- Bookmark
- Subscribe
- Printer Friendly Page
- Report Inappropriate Content
1-4. Statistics의 소개: 분포의 표현(2)
안녕하세요^^
이번 시간에는 자료의 분포를 파악할 수 있는 그림들에 대해 알아보고, PROC UNIVARIATE 프로시저를 사용하여 히스토그램과 정규 확률 그림을 그리는 방법에 대해 알아보도록 하겠습니다.
먼저 자료의 분포를 파악할 수 있는 그림에 대해 알아보도록 하겠습니다.
대표적으로 많이 사용되는 그림은 히스토그램, 정규확률그림, box plots입니다.
[ 히스토그램 ]
앞선 강의에서 언급했듯이, 히스토그램으로 연속형 변수의 확률분포의 모양을 파악할 수 있습니다.
[ 정규확률그림 ]
정규확률그림은 자료 데이터가 정규분포를 따르는 분포로부터 추출되었는지를 판단할 수 있게 하는 방법입니다.
세로축은 실제 데이터 값을 나타내며, 가로축은 표준정규분포로부터 기대되는 백분위수를 보여줍니다.
1번 그림 |
관측 데이터가 Reference line인 빨간 선을 따르는 것을 보아 정규 분포이다. |
2번 그림 | Skewed-to-the-right distribution(왼쪽으로 치우친 분포) |
3번 그림 | Skewed-to-the-left distribution(오른쪽으로 치우친 분포) |
4번 그림 | Light-tailed distribution(꼬리가 얇은 분포) |
5번 그림 | Heavy-tailed distribution(꼬리가 두꺼운 분포) |
[ Box Plots ]
Box plots을 통해 데이터 값의 변동성과 특이한 값들의 정보를 알 수 있습니다.
Box는 데이터의 가운데 50%(25%와 75%사이)의 값을 나타냅니다.
또한, mean과 median을 비교함으로써 분포의 대칭성에 대해 대략적으로 알 수 있습니다.
또한 데이터 값이 얼마나 box에서 멀어져 있는지를 수염으로 파악할 수 있습니다. (수염은 1.5 interquartile range(사분위수 범위)까지의 거리를 나타냅니다.
만약 데이터의 값이 1.5IQR(사분위수 범위)보다 크다면, SAS에서는 plot symbol(o)로 표시합니다.
[ PROC UNIVARIATE ]
PROC UNIVARIATE DATA = SAS-data-set ; VAR variables ; ID variable ; HISTOGRAM variables ; PROBPLOT variables ; INSET keywords ; RUN; |
PROC UNIVARIATE 프로시저는 앞서 언급하였던 PROC MEANS 프로시저처럼 기술통계량을 계산할 뿐 아니라, 분포의 변수에 대해 더 자세한 값들을 계산합니다.
UNIVARIATE 프로시저에서 VAR 문장은 분석하기 위한 수치형 변수로 지정합니다.
VAR 문장을 지정하지 않으면 모든 변수에 대해 분석합니다.
HISTOGRAM 문장은 지정한 변수에 대한 히스토그램을 그립니다.
PROBPLOT 문장은 이론적인 분포의 백분위수가 있는 확률그림을 그립니다.
HISTOGRAM 문장와 PROBPLOT문장에서 사용할 수 있는 옵션으로는 NORMAL<(options)>이 있습니다.
Options(MU= SIGMA=) 는 정규분포의 mean과 standard deviation을 지정하며 이를 통해 reference line을 그립니다.
예를들어,
위와 같은 코딩을 시행하면,
PROC UNIVARIATE 프로시저를 통한 결과표를 보면, PROC MEANS 프로시저에서 제공하는 N, 평균, 표준편차, 최소값, 최댓값 이외에도 다양한 통계치를 제공합니다.
또한, HISTOGRAM문장을 통해 주어진 데이터의 평균(MU)과 분산(SIGMA)값을 이용한 정규분포 곡선이 그려진 히스토그램을 결과로 얻을 수 있습니다.
이 그래프의 오른쪽 상단에 표시된 왜도와 첨도를 통해 분포의 모양을 그림으로 뿐만 아니라 수치적으로도 확인하실 수 있습니다.
그리고 PROBPLOT문장을 통해 확률그림을 결과로 얻을 수 있습니다.
관측값들이 주어진 데이터의 평균(MU)과 분산(SIGMA)값을 이용한 정규분포 선을 따르는 것을 확인할 수 있으므로, 이 데이터는 정규분포를 따른다고 할 수 있습니다.
또한 위의 코딩을 시행시키면, BOX PLOT을 그릴 수 있습니다.
이상치에 대해 DATALABLE로 HEIGHT를 지정해주어 어떠한 값이 이상치 처리가 되었는지 나타내었습니다.
읽어주셔서 감사합니다.
다음 시간에는 MEAN의 신뢰구간 첫번째 시간으로 MEAN의 신뢰구간에 대한 개념과 해석 방법에 대해 공부해보도록 하겠습니다.