BookmarkSubscribeRSS Feed

[SAS 활용 노하우] 모집단의 평균검정

Started ‎08-21-2021 by
Modified ‎08-21-2021 by
Views 2,206

 

이번 게시글은 모집단의 평균검정에 대해 알아보려 합니다.

통계분석에서 모평균에 대한 통계적 추론은 상당히 중요합니다.

모집단을 전부 조사하는 것은 현실적으로 거의 불가능하므로 일반적으로 조사나 실험을 통해 모집단에서 소량의 임의표본을 취하고 이 표본관측을 근거로 모평균에 대한 통계적 결론을 내리게 됩니다.

이 때 모평균에 대한 추론의 기초가 되는 표본 통계량은 표본평균입니다. 대부분의 통계분석에서는 어느 것이나 데이터의 평균을 기초로 모집단의 특성을 추론합니다.

 

모집단의 평균검정은 다음과 같이 크게 2가지로 나눠 볼 수 있습니다.

 

[단일 표본에서 모평균 추론]

- 모평균 추론

 

[두 집단의 모평균 비교]

- 두 표본이 독립인 경우

- 짝지어진 표본

 

                                                                                                                                      

 

 

[단일표본에서 모형균에 대한 통계적 추론]

 

모평균에 대한 추론에서는 일반적으로 서로 독립인 관측이 정규분포를 따르는 모집단에서 추출된다는 가정을 합니다.

 

모평균에 대한 가설검정은 전부 TTEST 프로시저로 수행할 수 있습니다.

TTEST 프로시저의 사용법은 다음과 같습니다.

 

PROC TTEST DATA = SASdataset;
           COCHRAN H0 = m ALPHA = p CI = [EQUAL | NONE];
     CLASS variable;
     PAIRED variable * variable;
     VAR variables;
     BY variables;
RUN;

 

CLASS 문에는 두 표본을 구분하는 분류변수 이름을 지정하며, 분석변수는 VAR문에 지정합니다. PAIRED 문은 짝지어진 이표본 가설에만 필요한데 짝을 이루어 비교할 변수의 목록을 지정합니다. PAIRED 문을 사용할 경우 VAR 문이나 CLASS문은 나타날 수 없습니다. 

또한, PROC TTEST문의 선택사항 COCHRAN은 코크란-콕스의 근사 검정결과를 출력하게 합니다.

 

 

EX) 아래의 데이터는 게 25마리의 체온을 측정한 것입니다. 과거 자료에서 게의 평균체온은 24.3°C로 알려져 있습니다. 이 데이터에서도 게의 평균체온이 24.3°C로 알려져 있습니다. 다음의 데이터에서도 게의 평균체온이 24.3°C라고 해도 좋은지 알고 싶습니다. 이 경우 가설은 다음과 같이 설정합니다.

 

H: μ = 24.3

H: μ ≠ 24.3

 

 

DATA crab;
     INPUT bodytemp @@;
DATALINES;
25.8 24.6 26.1 22.9 25.1 27.3 24.0
24.5 23.9 26.2 24.3 24.6 23.3 25.5
28.1 24.8 23.5 26.3 25.4 25.5 23.9
27.0 24.8 22.9 25.4
;
RUN;

PROC TTEST DATA = crab H0=24.3 ALPHA=0.05 CI = EQUAL;
VAR bodytemp;
RUN;

 

H0 : 귀무가설에 지정한 μ0의 값

ALPHA : 유의수준 α 값 지정

CI = EQUAL : 양측 신뢰구간(CI: confidence interval)

 

위의 코드에서는 유의수준이 0.05이므로 95% 신뢰구간이 출력됩니다.

 

 

 스크린샷_2021-08-22_오전_12.58.11.png

 

스크린샷_2021-08-22_오전_1.04.51.png

 

스크린샷_2021-08-22_오전_1.05.10.png

 

 

위의 코드를 실행하면 일표본 t검정에 대한 유의확률값이 0.0121로 유의수준 0.05보다 작으므로

'유의수준 0.05에서 25마리의 체온이 추출된 모집단의 평균인 24.3°C라고 없다.' 로 결론 지을 수 있습니다. 출력된 통계량 값을 보면 게 25마리의 평균체온은 25.03, 표준오차(Std Err) 0.268, 모평균에 대한 95% 신뢰구간은 (24.47, 25.58)임을 알 수 있습니다. 신뢰구간은 신뢰한계(confidence limit)을 의미하는데, 신뢰한계란 신뢰구간의 양끝, 즉 하한과 상한입니다. 추가적으로 분석결과의 아래에 주어지는 2개의 도표는 정규분포의 이론적인 형태와 자료로부터 계산된 히스토그램 및 커널밀도 추정의 확률밀도함수가 나타나 있으며, 상자도표와 Q-Q 플롯을 참고하여 대략적인 자료의 정규성 평가가 가능합니다.

 

 

 

[이표본 평균차이 검정]

 

두 집단의 모집단의 모평균을 통계적 추론을 알아보려 합니다. 이와 같은 2개 평균 값의 비교 상황은 다시 두 가지로 나뉩니다. 

 

첫 번째, 데이터가 추출된 두 모집단이 서로 독립인 경우와 두 번째, 표본이 짝을 지어 관측입니다.

예를 들어 남학생과 여학생의 어학능력을 측정한 다음 어학능력에 성별 차이가 있는지 알아본다면 이는 두 표본이 서로 독립표본(independent samples)인 경우입니다. 이유는 남녀 그룹은 전혀 관련이 없는 모집단이기 때문입니다.

반면, a중학교의 b반의 학생을 선택하여 어학능력을 측정한 후 새로 개발된 교육방법으로 일정 기간 가르친 다음 다시 어학능력을 측정하여 전후 두 측정 간에 통계적으로 유의한 차이가 있는지 유무를 가린다고 합니다.

이 경우에는 동일 학생에 대하여 두 번 측정을 하므로 한 학생에 대한 두 변의 관측이 서로 독립이 아닙니다. 하지만 각 학생은 서로 독립적이며 따라서 각 학생에 대한 한 쌍의 측정자료는 쌍별로 서로 독립이라 할 수 있습니다. 이런 경우를 짝지어진 표본(paired samples)하고 합니다.

 

독립표본이든 짝지어든 표본이든 두 평균을 비교하는 가설의 형태는 본질적으로 동일합니다. 즉, 표본 1이 추출된 모집단의 평균을 μ1, 표본 2가 추출된 모집단의 평균을 μ2라 할 때, 가설은 다음과 같습니다.

 

 

H: μ1 = μ2

H: μ1 ≠ μ2

 

이러한 형태의 가설은 다시 다음과 같이 표현할 수 있습니다.

 

H: μ1 - μ2 = 0

H: μ1 - μ≠ 0

 

이런 이유로 두 표본의 평균비교 검정법을 이표본 평균차이 검정(mean-difference test)라고 합니다.

 

[ 집단의 모평균 비교 -  표본이 독립인 경우 ]

 

EX) 두 종류의 지혈제 효과를 측정하려고 합니다. 13명의 실험 참여자를 두 그룹으로 임의분할한 후 피부에 작은 상처를 내 피가 흐르게 한 다음, 한 그룹에는 지혈제 B, 다른 그룹에는 지혈제 G를 투여하여 완전히 지혈될 때까지 시간을 측정하였습니다. 이 때 두 그룹에서 나온 데이터는 상호 독립적입니다.

 

스크린샷 2021-08-22 오전 1.27.52.png

 

 

DATA clotting;
	input drug $ time @@;
datalines;
B 8.8 B 8.4 B 7.9 B 8.7 B 9.1 B 9.6
G 9.9 G 9.0 G 11.1 G 9.6 G 8.7 G 10.5 G 9.5
;
RUN;

PROC TTEST data = clotting;
class drug;
var time;
run;

스크린샷 2021-08-22 오전 1.31.35.png

 

스크린샷 2021-08-22 오전 1.31.43.png

 

스크린샷 2021-08-22 오전 1.31.50.png

 

 

출력 결과 상단에는 각 그룹의 관측수(N), 평균, 모평균에 대한 신뢰구간, 표준편차, 표준 오차가 출력됩니다.

귀무가설이 '두 그룹의 분산이 같다'이기 때문에 귀무가설을 받아들일 수 있어야 합니다. 이 검정에 대한 우의확률이 'Pr > F'로 주어집니다. 흔히 이 유의확률값이 적어도 0.1이상의 값을 가질 때 공통분산 가정이 합당하다고 판정합니다. Equality of Variances 부분을 보면 이 값이 0.4722로 0.1보다 크므로 공통분산 가정이 합당하다고 결론을 내릴 수 있습니다.

이런 경우에는 Method 항목 중 Pooled에 해당하는 줄을 읽으면 됩니다.

Equal에 대응되는 't value' 값, 독립 이표본 t 검정통계량 값은 -2.48, 대응되는 유의 확률은 0.0308입니다.

그리고 이 값이 0.05보다 작으므로 유의수준 0.05에서 두 모평균은 같지 않다고 결론을 내립니다.

다시 말해, 두 지혈제의 지혈효과에는 통계적으로 유의한 차이가 있습니다.

만약 공통분산 가정이 옳지 않은 경우에는 Unequal Variences에 해당하는 줄에서 유의확률을 읽어 귀무가설의 기각 여부를 판정해야 합니다.

 

 

[ 집단의 모평균 비교 - 짝지어진 표본 ]

 

사슴의 왼쪽 뒷다리와 왼쪽 앞다리의 길이를 측정한 자료로 두 다리의 길이가 같은지 다른지 알고 싶습니다. 이 경우 한 사슴에 대하여 두 다리 길이를 측정하였으므로 사슴은 독립이지만 한 마리의 사슴의 일부인 두 다리는 독립이 아닙니다.

 

스크린샷 2021-08-22 오전 1.48.13.png

 

data deer;
input deer_no hindleg foreleg;
diff = hindleg-foreleg;
datalines;
1 142 138
2 140 136
3 144 147
4 144 139
5 142 143
6 146 141
7 149 143
8 150 145
9 142 136
10 148 146
;
run;

proc ttest data = deer ci=none alpha=0.05 h0=0;
paired hindleg*foreleg;
run;

출력 결과는 다음과 같습니다.

스크린샷_2021-08-22_오전_1.52.55.png

 

스크린샷_2021-08-22_오전_1.53.03.png

 

 

차이값에 대한 t 통계량의 값이 3.41, 대응되는 유의확률이 0.0077로 0.01보다 작으므로 유의수준이 0.01에서 앞다리와 뒷다리의 길이는 같지 않다고 결론 내릴 수 있습니다.

Version history
Last update:
‎08-21-2021 12:56 PM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags