BookmarkSubscribeRSS Feed

1-3. Statistics의 소개: 분포의 표현(1)

Started ‎06-15-2020 by
Modified ‎06-15-2020 by
Views 109

1-3. Statistics의 소개: 분포의 표현(1)

 

안녕하세요^^

​이번 시간에는 연속형 변수의 분포를 살펴보고, 정규분포에 대한 개념과 특징들에 대해 알아보도록 하겠습니다.

1) 분포의 묘사 – 히스토그램

 

SE22016021900361570.jpg

 

히스토그램의 각각의 막대는 값의 group 값을 보여줍니다막대의 높이는 변수의 빈도나 퍼센트를 나타냅니다.

SAS에서는 막대의 개수나 너비가 자동으로 정해지나 코딩을 통해 원하는 히스토그램으로 수정할 수 있습니다.

히스토그램을 그려보는 것은 Sample data의 분포가 가정된 분포를 가진 population(모집단)으로부터 잘 추출되었는지 확인할 수 있는 좋은 방법입니다또한확률분포의 모양이 어떤지 확인할 수 있는 좋은 방법입니다.

2) 정규분포(Normal distribution) 

 

SE22016021900371670.jpg

 

분석에 있어서, 많은 경우 정규분포가 가정됩니다.

정규분포 함수의 높이는 ‘확률밀도’이며, 확률은 가운데에서 가장 높은 경향이 있습니다.

분포의 중심은 population mean(mu)이며, 분포가 population mean 주변에 어떻게 퍼져있는지를 나타내는 것은 standard deviation(sigma)입니다.

standard deviation이 큰 것은 정규분포가 넓게 퍼져있다는 것을 의미합니다.

 

만약, 관찰값이 평균으로부터 멀리 떨어져 있다면 이 값이 unusual한 것을 의미합니다.

​이 때 기준이 되는 것이 1 standard deviation, 2 standard deviation, 3 standard deviation입니다​​​.

평균으로부터 1 standard deviation만큼 떨어진 값은 68%를 차지하고 있으며, 2 standard deviation만큼 떨어진 값은 95%를 차지하며, 3 standard deviation만큼 떨어진 값은 99.7%를 차지하고 있습니다.

이 기준 값들은 신뢰구간을 구하거나 가설검정에 사용됩니다.

 

정규분포의 특징

​1. symmetric(대칭)

2. mean(평균)과 standard deviation(표준편차)에 의해 형태가 완전히 결정됩니다.​

3. bell shaped(종모양)

​​4. mean(평균) = median(중앙값) = mode(최빈값)

 

 

 정규분포와 비교한 데이터의 분포]

 

SE22016021900405870.jpg

  

모집단이 분포해 있는 수많은 경우가 존재하기 때문에 데이터의 분포가 반드시 정규분포일 필요는 없습니다.

단지 데이터를 볼 때정규분포와 비슷하거나 차이가 있는 분포의 특징을 파악하는 것이 중요합니다.

분포를 평가할 때, sample 분포의 통계적 측정값들을 정규분포와 비교해 보는 것이 유용합니다.

이러한 기능을 하는 값은 ‘skewness(왜도)’와 ‘kurtosis(첨도)’입니다

 

SAS 결과에서는 정규분포를 만족할 때, 왜도와 첨도 값은 모두 0으로 나타납니다.

[ 왜도 ]

 

SE22016021900415070.jpg

 

 분포의 모양의 특징 중 하나가 skewness(왜도)입니다.

​왜도는 분포가 한쪽으로 치우친 정도를 말합니다. 0에 가까운 값일수록 symmetric(대칭)입니다.

​Left skewed distribution(오른쪽으로 치우침)는 negatively skewed distribution이라고도 하며, 평균이 중앙값보다 작습니다.

​반대로, right skewed distribution(왼쪽으로 치우침)은 positively skewed distribution이라고도 하며, 평균이 중앙값보다 큽니다.

[ 첨도 ]

 

SE22016021900424670.jpg

 

분포의 모양의 특징 중 다른 하나는 kurtosis(첨도)입니다.

​첨도는 자료의 분포가 정규분포보다 더 중앙에 집중하는가를 나타내는 척도입니다.

​첨도는 때때로 시각적으로 평가하기 매우 어렵습니다.

​SAS에서는 정규분포의 첨도가 0이 기준이기 때문에, 만약 첨도가 음수라면 자료의 분포는 정규분포보다 더 평평한 평첨(platykurtic)이 됩니다.

​만약 분포가 symmetric(대칭)이고 platykurtic(평첨)이라면, 정규분포에 비하여 중앙과 꼬리 부분에 자료가 적게 됩니다.

반대로, 만약 첨도가 양수라면 자료의 분포는 정규분포보다 더 뾰족한 leptokurtic(급첨)이 됩니다.

​만약 분포가 symmetric(대칭)이고 leptokurtic(급첨)이라면, 정규분포에 비하여 중앙과 꼬리 부분에 자료가 많게 됩니다.

 

읽어주셔서 감사합니다.

​​다음 시간에는 분포의 표현 두번째 시간으로 변수의 분포를 살펴보는 그림들과 SAS를 사용하여 그림들을 표현하는 방법에 대해 공부해보도록 하겠습니다.

Version history
Last update:
‎06-15-2020 10:20 PM
Updated by:
Contributors

sas-innovate-white.png

Special offer for SAS Communities members

Save $250 on SAS Innovate and get a free advance copy of the new SAS For Dummies book! Use the code "SASforDummies" to register. Don't miss out, May 6-9, in Orlando, Florida.

 

View the full agenda.

Register now!

Article Labels
Article Tags