1-5. Statistics의 소개: Mean의 신뢰구간(1)
안녕하세요^^
이번 시간에는 mean의 신뢰구간에 대한 개념을 공부하고 해석하는 방법에 대해 알아보도록 하겠습니다.
[ 점추정치 ]
먼저 점추정치에 대해 알아보겠습니다.
점추정치는 단일값으로 표현되는 모수에 대한 표본 통계량입니다.
알려지지 않은 모집단의 추정치를 하나만 알고 있기 때문에(sample mean, variance), 추정치의 변동성을 알 필요가 있습니다.
1000개의 random samples이 있다고 가정하고, 크기가 10인 sample을 추출한다고 합니다.
각각의 sample의 평균들로 분포를 나타낸 것을 Sample mean의 분포라고 합니다.
또한, 변동성에 관해서도 sample mean에 대한 변동성 추정치는 standard error of the mean(평균의 표준 오차)라고 합니다.
이 값은 sample standard deviation(표본 표준편차)와는 차이가 있습니다.
표본의 표준편차는 데이터의 변동성을 측정한 값입니다.
하지만, standard error of the mean(평균의 표준 오차)는 sample means의 변동성을 측정하는 값이기 때문에.
로 추정하며 표준편차와는 다른 값으로 구분해야 합니다.
[ 신뢰구간 ]
두 번째로 신뢰구간에 대해 알아보겠습니다.
신뢰구간은 관심이 있는 모집단의 모수를 포함하고 있을 것으로 믿어지는 값의 범위를 말합니다.
이 값은 sample 통계량의 상한과 하한에 의해 정의됩니다.
신뢰구간을 구성하기 위해서는, significance level(유의수준)이 반드시 필요합니다.
95% 신뢰구간이 가장 일반적으로 사용되며, confidence level(신뢰수준)이 커질수록, 신뢰 구간의 너비는 넓어집니다. 하지만, 신뢰구간이 넓어질수록 덜 유용하다고 할 수 있습니다.
따라서, mean(평균)에 대한 신뢰구간은 다음과 같이 나타낼 수 있습니다.
이 때, t는 student’s t 분포이며, 이 분포는 표본의 크기가 커지면 정규분포에 가까워진다고 알려져 있습니다.
신뢰구간이 넓다는 것은 얻어진 추정치가 정밀한 값이 아니라는 의미이며, 신뢰구간이 좁다는 것은 추정치가 정밀하다는 의미입니다.
T값 외에 신뢰구간의 넓이를 결정하는 것은 해당 표준오차의 크기, 즉, 표본수의 크기와 자료의 변동 크기입니다.
따라서 자료의 변동이 심한 소규모 연구는 작은 변동을 가진 대규모 연구에 비해 상대적으로 더 넓은 신뢰구간을 제공하게 됩니다.
모평균에 대한 95% 신뢰구간은 실험을 여러 번 반복해서 신뢰구간을 구한다면, 이들 중 95%는 모수를 포함하고 있을 것을 의미합니다.
모수가 어떤 값일 것이라는 가설을 평가하기 위해서는 해당 값이 신뢰구간 내에 존재하는지를 검토하면 됩니다.
만약 신뢰구간이 이 값을 포함하고 있으면 모수는 그 값일 가능성이 높습니다.
읽어주셔서 감사합니다.
다음 시간에는 MEAN의 신뢰구간 두번째 시간으로 CLT와 SAS를 사용하여 신뢰구간을 구하는 방법에 대해 공부해보도록 하겠습니다.
Save $250 on SAS Innovate and get a free advance copy of the new SAS For Dummies book! Use the code "SASforDummies" to register. Don't miss out, May 6-9, in Orlando, Florida.