BookmarkSubscribeRSS Feed

[SAS 활용 노하우] 카이제곱분포(X^2 분포)

Started ‎04-16-2023 by
Modified ‎04-16-2023 by
Views 1,493

 

X2 를 카이제곱이라고 읽으며 독립성 검정이나 적합도 검정에 사용됩니다.

주로 여러 데이터를 동시에 취급할 때 사용하고 집단의 분산을 추정하고 검정할 때 사용합니다.

즉, 표본 분산의 분포로 모분산의 구간추정이나 검정에서 이용합니다.

또한 분산 값(=제곱 값)을 사용하기 때문에 양수의 값만 존재합니다.

그래서 오른쪽 꼬리가 긴 비대칭 모양을 하고 있습니다. 자유도에 따라 분포 형태가 달라질 수 있습니다.

 

자유도란, Degree of Freedom(DF)로 제약을 받지 않는 데이터의 수를 의미합니다.

표본 크기 n에서 제약 조건의 수를 뺀 값으로 t 분포나 X2 분포는 자유도가 1이고, F 분포의 자유도는 2로 규정되어 있다.

제약 조건이란(Limiting Condition), 자유도를 정하는 조건의 수로 통계량에 사용하는 평균 등의 계산식의 개수를 의미합니다. 즉, 계산식의 기본 수를 의미합니다.

 

 

image.png

출처: http://www.ktword.co.kr/test/view/view.php?no=2365

 

 

 

■ 가설검정

 

카이제곱분포의 가설검정은 '관측된 표본분산'을 '특정 분산 값'과 비교하고 X2 사용해서 가설검증을 실시합니다.

모분산 검정은 Testing for Variance 로 관련된 표본분산을 특정 모분산과 비교하는 것으로 품질관리에서 많이 사용하고는 합니다.

귀무가설: H0: σ2 = σ02 표본분산의 모분산과 특정 모분산에는 차이가 없다.

대립가설: H1: σ2 ≠ σ02 표본분산의 모분산과 특정 모분산에는 차이가 있다.

 

 

 

 

data test;
input Family_history_of_cancer $ lung_cancer $ count;
datalines;
Yes Yes 120
Yes No 380
No Yes 80
No No 420
;
run;

proc freq data=test;
weight count;
tables Family_history_of_cancer * lung_cancer /expected chisq;
run;

 

 

 

해당 데이터는 임의의 데이터로 조상의 암 발생여부와 폐암사이의 관계가 있는지 검정하는 예시입니다.

카이제곱 가설검정은 PROC FREQ 프로시저와 CHISQ 옵션을 통해서 검정할 수 있습니다.

WEIGHT 옵션: 데이터의 가중치를 지정하는 옵션

TABLES 옵션: 분석할 변수를 지정하고 빈도표를 생성할 수 있습니다. 변수를 여러개 지정할 경우에는 교차분석 결과를 알 수 있습니다.

 

 

 image (5).png

 

 

카이제곱 검정 결과 p value 값이 0.0016으로 유의수준(α) 0.05 보다 작으므로 (p-value < α ) ,

조상의 암 발병 여부와 암 발생여부는 유의미하다는 결론을 내릴 수 있습니다.

 

 

 

 

 

 

Version history
Last update:
‎04-16-2023 08:21 AM
Updated by:
Contributors

SAS Innovate 2025: Call for Content

Are you ready for the spotlight? We're accepting content ideas for SAS Innovate 2025 to be held May 6-9 in Orlando, FL. The call is open until September 25. Read more here about why you should contribute and what is in it for you!

Submit your idea!

Article Labels
Article Tags