1-9. Statistic의 소개: 가설검정(3)
안녕하세요^^
지난 시간에는 단일 표본 t검정을 해봤는데요 이번 시간에는 표본이 두 개일 때 t검정에 대해서 알아보겠습니다.
표본이 두 개일 때는 다음과 같은 가정이 필요합니다.
[가정] -관측치들이 독립적이어야 한다. -각 그룹이 정규분포를 따라야 한다. -두 그룹의 분산이 동일하다. |
관측치들이 독립적이어야한다는 말은 관측치들이 다른 어떤 관측치에 대한 정보를 주지 않는다는 것입니다.
표본 추출 과정에서 충분히 많은 관측치들이 수집되었다면 대략적으로 정규성을 따르게 되는데 이는 그림으로 확인할 수 있습니다.
마지막으로 등분산을 검정하는 여러 검정 방법이 있는데, 등분산 가정을 만족하지 못하면 근사적 t검정을 수행해야 합니다.
위 가정들을 만족하지 못하면 정확하지 않은 결과가 나옵니다.
두 표본의 평균을 비교하는 독립표본 t-test를 해보겠습니다. 이러한 경우 귀무가설은 '두 표본의 평균이 같다'가 됩니다.
간단한 예를 통해 t검정을 해봅시다.
두 Brand A, B간의 평균 HEIGHT가 차이가 있는지를 검정하려면 다음과 같은 코딩을 합니다.
======================================================================
Proc ttest
이 때, SAS의 결과표는 아래와 같이 여러 개로 작성됩니다. 먼저, 첫 번째 표를 살펴봅시다.
첫 번째 표에서는 BRAND A와 B 각각의 평균과 분산, 표준오차, 최대값, 최소값 등의 기술통계량과 평균 차이값들이 나타납니다.
두 번째 표에서는 95% 신뢰구간을 구할 수 있으며, 표본이 두 개일 때는 Pooled와 Satterthwaite 방법에 따른 신뢰구간도 함께 나타납니다.
위 표를 보시면 분산이 동일할 때와 동일하지 않을 때 t통계량이 나와있습니다. 등분산 검정을 통해 나오는 결과에 따라 읽어야 하는 t통계량이 다릅니다.
등분산을 만족하면 Pooled t통계량을 사용하고, 등분산을 만족하지 않으면 Satterthwaite t통계량을 사용합니다.
Equality of Variance 표는 등분산 F검정 결과를 나타냅니다. 등분산 검정의 귀무가설은
입니다.
검정결과를 확인해보면 F=6.33 p-value=0.0388입니다. 유의수준 5%에서 귀무가설을 기각하므로 Brand A와 B는 분산이 동일하지 않습니다.
따라서 위 표에서 Satterthwaite t=-4.82, p-value=0.0008이므로 유의수준 5%에서 '두 표본의 평균이 같다'라는 귀무가설을 기각하고 Brand A와 B의 HEIGHT 평균은 차이가 나는 것을 확인할 수 있습니다.
실제로 표본이 적은 경우에 그림으로는 등분산을 나타내는데 검정 결과를 보면 등분산 가정에 위배될 수 있습니다. 등분산 검정 결과에 유의해서 t통계량을 해석하시면 됩니다.
위 그림은 HEIGHT의 히스토그램이고 Normal과 Kernel density곡선이 함께 나타납니다. 이와 함께 box plot도 제공됩니다.
두 브랜드의 정규성을 확인할 수 있는 Q-Q Plot도 나타납니다. A 브랜드는 직선에 매우 가깝게 분포되어 있어서 정규성을 따른다고 볼 수 있지만 B 브랜드는 정규성에 살짝 어긋나는 것을 확인할 수 있습니다.
이상으로 Two sample t-test에 대해 알아보았습니다.
다음 시간에는 Paired t-test에 대해 알아봅시다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.