5-2. Categorical Data Analysis: 범주형 자료분석(2)
안녕하세요.
이번 시간에는 범주형 자료분석 두 번째 시간입니다.
이번 시간에는 association 조사하는 통계방법에 대해 알아보도록 하겠습니다.
범주형 데이터 분석에서 두 변수간 연관성을 확인하는 것은 매우 중요합니다.
따라서 연관성을 조사하는 통계적 방법에 대해 알아보도록 하겠습니다.
귀무가설은 “두 변수 간 연관성이 없다”이며, 지난시간 설명했듯이, 한 변수가 다른 변수의 level에 따라 다른 양상을 보이면 두 변수간 연관성이 있다고 합니다.
1. 연관성 분석으로 가장 잘 알려진 방법은 pearson 카이제곱 test입니다.
카이제곱test에서 연관성이 없다는 것은 관찰된 frequency와 기대되는 frequency의 값이 같을 때를 의미합니다.
여기서 기대빈도라 함은 (row total)(column total)/ sample size를 말합니다.
카이제곱 test는 이며, 이를 통해 연관성의 정도에 대해서는 알 수 없습니다. 다만, 연관성의 유무만 판단할 수 있습니다.
반면, 연관성의 정도(크기)를 판단할 수 있는 통계량은 cramer’s V통계량입니다.
2*2table에서의 cramer 통계량은 항상 양수이며, -1에서 1까지의 범위를 갖습니다.
Cramer 통계량의 값이 0에서 멀리 떨어져있을수록 연관성이 강하다고 할 수 있습니다.
===========================================================================
앞서 진행하였던 데이터로 계속 진행하도록 하겠습니다.(sashelp라이브러리에 있는 heart데이터)
Chisq 옵션은 카이제곱 통계량을 제공합니다.
Expecte 옵션은 association이 없다는 가정하에서 cell의 기대값을 제공합니다.
Cellchi2 옵션은 셀의 카이제곱값을 제공합니다.
Nocol 옵션은 column의 percent를 제외하고 값을 보여줍니다.
Nopercent 옵션은 cell의 percent를 제외하고 값을 보여줍니다.
Relrisk는 risk ratio와 odds ratio를 보여줍니다.
===========================================================================
2. 2*2 table에서 연관성의 크기를 측정할 수 있는 값으로 오즈비(odds ratio)가 있습니다.
오즈는 으로 계산할 수 있는데, 오즈비가 1이면 설명변수와 결과변수 간 연관성이 없다고 할 수 있습니다.
즉, 귀무가설은 “두 변수 간 연관성이 없다”이며, 대립가설은 “두 변수 간 연관성이 있다”입니다.
특히 sas에서는 relrisk 옵션으로 odds와 odds ratio를 볼 수 있습니다.
===========================================================================
===========================================================================
오즈비의 경우 p value 대신 신뢰구간을 이용하여 검정을 시행합니다.
이 자료의 경우, 오즈비가 1.946이고, 95%신뢰구간이 (1.7384, 2.1804)로 1을 포함하지 않기 때문에 귀무가설을 기각하게 됩니다.
이상의 과정은 proc freq문을 사용하였고, freq문의 옵션을 통해 얻은 결과입니다.
다음 시간에는 범주형 자료분석의 통계적인 방법론 두번째 시간으로 fisher exact test와 spearman correlation에 대해 알아보도록 하겠습니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.