5-3. Categorical Data Analysis: 범주형 자료분석(3)
안녕하세요^^
이번 시간에는 범주형 자료분석 세 번째 시간입니다.
일반적으로 사용하는 범주형분석의 방법은 카이제곱이나 분석에 있어서 주의해야하는 사항들이 있습니다.
1. 카이제곱 test를 사용하는 것이 적절하지 않은 경우
cell의 20%이상의 기대도수가 5미만일 경우 카이제곱 test는 적절하지 않습니다.
Sample size가 작으면 카이제곱test의 p value가 타당하다고 할 수 없기 때문입니다.
따라서 sample size가 작을때는 exact p value를 사용하고, sample size가 클 때는 asymptotic p value를 사용합니다. 일반적으로 사용하는 카이제곱 test는 asymptotic한 test입니다.
SAS에서는 Exact test는 2*2table 분석시에는 default값에 포함되어 있지만, 그보다 큰 table을 분석할 때에는 exact문을 사용하여 코딩해야 합니다.
===========================================================================
지난 시간과 동일한 자료로 sashelp 라이브러리에 있는 heart 데이터를 이용하도록 하겠습니다.
2*2 table의 경우 default로 fisher의 정확검정 값을 제공합니다.
---------------------------------------------------------------------------------------------------------------------------------------
2*2 이상의 table의 경우 exact문을 사용하여 fisher의 정확검정 값을 코딩합니다.
===========================================================================
2. ordinal association검정방법인 Mantel-Haenszel chi-square test
Categorical variable을 분석하는 또 다른 방법은 Mantel-Haenszel chi-square test입니다.
이 분석방법은 앞서 소개한 방법들과는 다르게 ordinal association에 관해 test하는 방법입니다.
Ordinal association이란 한 변수의 값이 증가할때 다른 변수의 값이 증가하거나 감소하는 trend를 갖는 것을 말합니다.
이 방법은 ordinal association을 검증하는데에 있어 일반적인 카이제곱 test보다 강력합니다.
귀무가설은 “행변수와 열변수 간에 ordinal association이 존재하지 않는다”이며, ordinal association의 크기를 나타내는 통계량은 spearman correlation입니다.
Spearman correlation은 -1부터 1까지의 값을 가질 수 있으며, 값이 1에 가까우면 양의 상관이 강하다고 하고, -1에 가까우면 음의 상관이 강하다고 합니다.
이 통계량은 두 변수가 모두 ordinal인 경우나 논리적인 순서를 갖는 경우 사용하기에 적절합니다.
Spearman correlation은 pearson값과는 다르게 변수의 값을 사용하는 것이 아니고, 변수의 rank를 사용합니다.
===========================================================================
SAS로는 proc freq프로시저에서 measure문으로 값을 얻을 수 있습니다.
measure옵션으로 다양한 통계량 값을 얻을 수 있습니다.
특히 spearman correlation을 얻을 수 있습니다.
Cl 옵션은 measure옵션으로 얻는 통계량 값의 confidence limits 값을 얻을 수 있습니다.
Mantel-Haenszel 카이제곱의 결과 p값이 0.0001보다 작기 때문에 귀무가설을 기각합니다.
===========================================================================
이상의 과정은 proc freq문을 사용하였고, freq문의 옵션을 통해 얻은 결과입니다.
다음 시간부터는 logistic 분석에 대해 알아보도록 하겠습니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.