BookmarkSubscribeRSS Feed

1-6. Statistics의 소개: Mean의 신뢰구간(2)

Started ‎06-15-2020 by
Modified ‎06-15-2020 by
Views 1,518

1-6. Statistics의 소개: Mean의 신뢰구간(2)

 

안녕하세요^^

​이번 시간에는 지난 시간에 이어, MEAN의 신뢰구간에 대해 좀 더 자세히 공부해 보도록 하겠습니다.

​Central limit theorem(중심극한정리)에 대해 알아보고, PROC MEANS 프로시저를 사용하여 신뢰구간을 계산해보도록 하겠습니다.

[ 중심극한정리(Central limit theorem) ]

정규성 가정을 만족시키기 위해서, 중심극한정리를 이용할 수 있습니다.

만일 표본의 크기가 충분히 크다면 모집단에 있는 원자료의 분포가 어떤 형태이든 간에 모평균을 추정하기 위해 사용되는 표본평균들은 정규분포를 따르게 된다는 이론이 중심극한정리이다.

이 때, 표본의 크기가 충분히 크다는 것의 기준을 대략 30개의 관측값을 의미합니다.

하지만, 데이터가 대칭인 경우에는 더 적은 수의 표본으로도 표본의 크기가 충분히 크다는 것을 만족시킬 수 있고데이터가 한쪽으로 치우친 경우에는 표본의 크기가 충분히 크다는 조건을 만족시키기 위해 더 많은 수의 데이터가 필요하게 됩니다.

​​​SE22016021901120370.jpg

위의 그림은 표본수가 증가할 때, sample mean의 분포가 정규분포에 가까워지는 것을 나타낸 그림입니다.

이제 SAS에서 신뢰구간을 구하는 코딩에 대해 알아보도록 하겠습니다.

​​앞서 언급하였던 PROC MEANS문과 PROC UNIVARIATE문을 사용하여 신뢰구간을 구할 수 있습니다.

​​

먼저 PROC MEANS를 사용해보도록 하겠습니다.

 

SE22016021901125870.jpg

 

 

PROC MEANS 프로시저에서 N, MEAN, STD(표준편차), STDERR(표준오차)를 결과로 나타내는 코딩입니다.

이 때, CLM옵션을 사용하여 평균에 대한 95% 신뢰하한과 신뢰상한을 함께 얻을 수 있습니다.

변수 HEIGHT에 대해 위의 코딩을 시행하면아래의 결과를 얻을 수 있습니다.

SE22016021901133170.jpg

 

또한, PROC UNIVARIATE 프로시저에서 CIBASIC옵션을 사용하면, PROC MEANS 프로시저의 CLM 옵션과 같은 효과를 얻으실 수 있습니다.

SE22016021901135270.jpg

 

 

 

위의 코딩을 시행하면변수 HEIGHT에 대한 추정값과 95% 신뢰한계 값을 구할 수 있습니다.

 

SE22016021901142570.jpg

 

 

 

 

읽어주셔서 감사합니다.

다음 시간에는 가설검정 첫번째 시간으로 가설검정의 개념과 오류의 종류, P-값 등 통계적인 이론에 대해 공부해보도록 하겠습니다.​

 

 

 

 

 

Version history
Last update:
‎06-15-2020 10:34 PM
Updated by:
Contributors

sas-innovate-white.png

Our biggest data and AI event of the year.

Don’t miss the livestream kicking off May 7. It’s free. It’s easy. And it’s the best seat in the house.

Join us virtually with our complimentary SAS Innovate Digital Pass. Watch live or on-demand in multiple languages, with translations available to help you get the most out of every session.

 

Register now!

Article Labels
Article Tags