안녕하세요. 이번 시간에는 독립 이표본 t-검정에 대해 알아보겠습니다. 지난 시간까지 요약통계량과 그래프를 통해 강당의 너비에 관한 추측이 미터 단위를 이용한 경우와 피트 단위를 이용한 경우가 어떻게 다른지 살펴보았습니다. 피트 단위를 이용한 추측은 43.0피트의 실제 강당 폭 주위에 집중되는 것으로 보이고, 반면에 미터 단위를 이용한 추측은 강당 폭을 과대추정하고 있는 것으로 보여집니다. 이번 시간에는 이 강한 직감을 가설 검정이라는 공식적인 통계적 방법을 통해 확인하는 법에 대해 알아보겠습니다.
가설 검정(Hypothesis Testing)
표본으로부터 주어지는 정보를 이용하여 모수에 대한 추측(가설)의 옳고 그름을 판정하는 과정을 통계적 가설 검정 또는 간단히 검정이라 합니다. 우리의 주요 관심사는 미터를 이용한 추측과, 피트를 이용한 추측이 다른지와 추측에 의해 실제 강당의 폭에 가깝게 추측할 수 있는지 입니다. 그에 따라 세가지 가설을 세울 수 있습니다.
1.미터 단위로 추측한 강당 폭의 평균이 실제 폭(13.1미터)과 동일하다.
공식적으로 이 가설을 다음과 같이 쓸 수 있습니다.
여기서 H0를 귀무가설(null hypothesis)이라 합니다.
2.피트 단위로 추측한 강당 폭의 평균이 실제 폭(43.0피트)과 동일하다.
3. 미터를 이용한 추측과 피트를 이용한 추측의 평균이 동일하다.
가설을 세운 뒤에 본격적으로 검정을 실시합니다. 모수의 평균에 관한 추론을 할 때에는 t-검정을 이용합니다. 우선 앞의 두 가설에 단일 표본 t-검정을 실시해보겠습니다.
1.작업 및 유틸리티 ▶ 작업 ▶ 데이터 ▶ 데이터 필터
2.데이터 ▶ work.widths 테이블 선택
3.필터 ▶ units을 변수로 할당 ▶ 비교에서 같음 선택 ▶ 값 유형을 feet으로 선택
4.출력 데이터셋에서 데이터셋 이름을 feet으로 지정
5.실행 클릭
그림 1
units값이 feet인 데이터로 필터링된 출력 데이터셋 feet가 work 라이브러리에 저장됩니다. 이제 이 데이터셋을 이용하여 단일 표본 t-검정을 실시하겠습니다.
1. 작업 및 유틸리티 ▶ 작업 ▶ 통계량 ▶ t 검정
2.데이터 ▶ work.feet 테이블 선택
3.데이터 ▶ guess를 분석변수로 지정 ▶ t 검정에서 일표본 검정 선택
4.옵션 ▶ 검정 ▶ 대립가설: mu ^=43, 정규성 검정 체크 표시해제
5.실행 클릭
그림 2
그림 3
미터 단위를 이용한 추측의 경우에도 위와 동일한 방법으로 t-검정을 실시합니다.
그림 4 <피트 단위를 이용한 추측의 평균에 대한 t-검정 결과>
그림 5<피트 단위를 이용한 추측의 평균에 대한 t-검정 결과>
결과를 자세히 살펴보겠습니다. 먼저 두 개의 p값을 살펴보겠습니다. p값이 작을수록 귀무가설이 옳지 않다는 증거가 커지고, 귀무가설을 기각합니다. 피트 단위를 이용한 추측의 경우 0.6453으로 큰 값을 가집니다. 이는 피트로 추측한 값이 실제 값과 다르다는 증거가 없음을 의미합니다. 그러나 미터 단위를 이용한 추측의 경우 0.0095로 미터로 추측한 값은 실제 값인 13.1 미터와 다르다는 상당한 증거가 있음을 의미합니다.
이번에는 세 번째 가설에 대해 t-검정을 실시하겠습니다. 위 두 경우와는 다르게 독립적인 두 표본을 다루므로 독립 이표본 t-검정을 실시합니다.
1.작업 및 유틸리티 ▶ 작업 ▶ 통계량 ▶ t 검정
2.데이터 ▶ work.widths 테이블 선택
3.역할 ▶ t 검정 ▶ 이표본 검정 선택
4.역할 ▶ feet를 분석변수로, units를 그룹변수로 지정
5.실행 클릭
그림 6
그림 7<독립 이표본 t-검정 결과>
그림 8<독립 이표본 t-검정 결과>
결과표를 해석해보겠습니다. 우선 두 표본이 등분산이라는 가정하에 그림 8 세 번째 표의 Pooled 방법의 p값을 살펴봅니다. 0.0102로 p값이 작으므로 귀무가설을 옳지 않다는 증거가 커지고 따라서 두 방법을 이용한 추측이 다르다는 증거가 커집니다.
t-검정의 가정들
위 절차에 따라 t-검정까지 실시하면 우리의 데이터 분석이 완료된 것처럼 보일 수 있습니다. 그러나 우리는 아직 우리의 데이터가 t-검정의 가정에 유효한지 확인하지 않았습니다. t-검정은 아래와 같은 가정 하에 실시합니다.
1.측정치는 정규분포로부터 표본 추출된 것으로 가정한다.
2.독립 이표본 t-검정의 경우, 각 모집단은 동일한 분산을 갖는 것으로 가정한다.
3.측정치는 서로 독립적이다.
이러한 가정 중 하나라도 무효인 경우 엄밀히 말하면 t-검정 또한 유효하지 않습니다. 먼저 정규성 가정을 점검해보겠습니다. 정규성 가정을 점검할 때 주로 q-q plot을 확인합니다.
그림 9
출력 결과의 q-q plot입니다. 데이터들이 그래프에 표시된 직선에 가까울수록 정규성 가정을 만족한다고 해석합니다. 위 결과를 보면 우리의 데이터는 다소 정규성 가정에 어긋나는 것으로 보여집니다. 다음은 등분산성 가정을 점검해보겠습니다.
그림 10
위 표는 t-검정 결과의 한 부분으로 두 데이터의 분산이 같다라는 가설에 대한 검정 결과입니다.
p값을 살펴보면 0.0001미만으로 귀무가설을 기각합니다. 따라서 등분산성 가정에 어긋나는 것으로 보여집니다. 정규성 가정 이탈, 등분산성 가정 이탈, 그리고 이상치들의 조합이 t-검정 결과에 어떠한 영향을 미칠지 예측하기는 다소 어렵지만 다행히도 t-검정은 정규성 가정과 등분산성 가정에 대한 이탈에 대해 상대적으로 강하다(robust)는 것으로 알려져 있습니다.
우리의 데이터가 정규성 가정을 만족하지 않고 이상치로 의심되는 측정치도 존재할 때 t-검정의 대안이 되는 다른 검정 방법으로 윌콕슨 맨 휘트니 검정이 있습니다. 이 방법은 비모수적인 방법으로 정규성을 가정하지도 않으며 이상치에도 영향을 받지 않습니다.
위에 소개된 독립 이표본 t-검정 방법에 옵션을 조정하여 실시할 수 있습니다.
1.옵션 ▶ 비모수 검정 ▶ Wilcoxon 순위 합계 검정 체크
2.실행 클릭
그림 11
그림 12 <윌콕슨 순위 합계 검정 결과>
그림 12 의 두 번째표의 Normal Approximation , two-sided Pr > |Z|의 p값을 보면 0.0282로 미터 단위를 이용한 추측과 피트 단위를 이용한 추측이 다르다고 확인할 수 있습니다.
이번 시간에는 모수의 평균에 대한 통계적 추론 방법으로 t-검정과 그 가정들에 대해 알아보았습니다. 감사합니다.
Reference
도서 - Essential Statistics Using SAS University Edition / Der, Geoff, Everitt, Brian S. / SASInstitute
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.