BookmarkSubscribeRSS Feed

5-2. Categorical Data Analysis: 범주형 자료분석(2)

Started ‎06-16-2020 by
Modified ‎06-16-2020 by
Views 464

5-2. Categorical Data Analysis: 범주형 자료분석(2)

 

안녕하세요.

​이번 시간에는 범주형 자료분석 두 번째 시간입니다.

​이번 시간에는 association 조사하는 통계방법에 대해 알아보도록 하겠습니다.

​범주형 데이터 분석에서 두 변수간 연관성을 확인하는 것은 매우 중요합니다.

​따라서 연관성을 조사하는 통계적 방법에 대해 알아보도록 하겠습니다.

​귀무가설은 “두 변수 간 연관성이 없다”이며, 지난시간 설명했듯이, 한 변수가 다른 변수의 level에 따라 다른 양상을 보이면 두 변수간 연관성이 있다고 합니다.

1. 연관성 분석으로 가장 잘 알려진 방법은 pearson 카이제곱 test입니다.

카이제곱test에서 연관성이 없다는 것은 관찰된 frequency와 기대되는 frequency의 값이 같을 때를 의미합니다.

​여기서 기대빈도라 함은 (row total)(column total)/ sample size를 말합니다.

 

​카이제곱 test는 SE22016051919344970.jpg이며, 이를 통해 연관성의 정도에 대해서는 알 수 없습니다. 다만, 연관성의 유무만 판단할 수 있습니다.

​반면, 연관성의 정도(크기)를 판단할 수 있는 통계량은 cramer’s V통계량입니다.


2*2table에서의 cramer 통계량은 항상 양수이며, -1에서 1까지의 범위를 갖습니다.

​Cramer 통계량의 값이 0에서 멀리 떨어져있을수록 연관성이 강하다고 할 수 있습니다.

 

===========================================================================

 

 

앞서 진행하였던 데이터로 계속 진행하도록 하겠습니다.(sashelp라이브러리에 있는 heart데이터)

 

SE22016051919360670.jpg

 

Chisq 옵션은 카이제곱 통계량을 제공합니다.

Expecte 옵션은 association이 없다는 가정하에서 cell의 기대값을 제공합니다.

​​Cellchi2 옵션은 셀의 카이제곱값을 제공합니다.

​Nocol 옵션은 column의 percent를 제외하고 값을 보여줍니다.

​Nopercent 옵션은 cell의 percent를 제외하고 값을 보여줍니다.

​Relrisk는 risk ratio와 odds ratio를 보여줍니다.

 

SE22016051919370970.jpg

 

SE22016051919372070.jpg

 

 

===========================================================================

 

 

2. 2*2 table에서 연관성의 크기를 측정할 수 있는 값으로 오즈비(odds ratio)가 있습니다.

오즈는 SE22016051919375970.jpg으로 계산할 수 있는데, 오즈비가 1이면 설명변수와 결과변수 간 연관성이 없다고 할 수 있습니다.

​즉, 귀무가설은 “두 변수 간 연관성이 없다”이며, 대립가설은 “두 변수 간 연관성이 있다”입니다.

특히 sas에서는 relrisk 옵션으로 odds와 odds ratio를 볼 수 있습니다.

 

 

===========================================================================

 

 

SE22016051919415870.jpg

 

SE22016051919421270.jpg

 

 

===========================================================================

 

 

오즈비의 경우 p value 대신 신뢰구간을 이용하여 검정을 시행합니다.

​이 자료의 경우, 오즈비가 1.946이고, 95%신뢰구간이 (1.7384, 2.1804)로 1을 포함하지 않기 때문에 귀무가설을 기각하게 됩니다.

​이상의 과정은 proc freq문을 사용하였고, freq문의 옵션을 통해 얻은 결과입니다.

​다음 시간에는 범주형 자료분석의 통계적인 방법론 두번째 시간으로 fisher exact test와 spearman correlation에 대해 알아보도록 하겠습니다.

Version history
Last update:
‎06-16-2020 05:11 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags