6-5. Categorical Data Analysis: 로지스틱 회귀모형(5)
안녕하세요^^
이번 시간에는 로지스틱 모형 평가에 대해 알아보도록 하겠습니다.
일치쌍, 불일치쌍 그리고 중복(tied)쌍을 세는 것은,
모형이 얼마나 잘 나의 데이터를 예측하는가를 평가하는 방법입니다.
일반적으로, 일치쌍의 백분율은 높기를 바라고 불일치쌍과 중복쌍의 백분율은 낮기를 바랄 것입니다.
그럼, 일치쌍과 불일치쌍, 중복쌍이 무엇을 의미하는지 살펴보겠습니다.
일치쌍, 불일치쌍, 중복쌍을 찾기 위해서는,
관심 결과를 갖는 사람들(Died)과 관심 결과를 갖고 있지 않는 사람들(Survived)을 비교합니다.
먼저 어떤 경우를 일치쌍으로 정의하는지 보겠습니다.
죽은 30세 사람과 살아남은 20세 사람을 비교해보면,
모형의 결과(P(Survived))가 실제 사실(Died or Survived)과 일치함을 알 수 있습니다.
즉, 살아남은 사람의 P(Survived)값(0.4272)이
죽은 사람의 P(Survived)값(0.4077)보다 더 큰 것을 확인할 수 있습니다.
위 경우처럼 모형의 결과와 실제 사실이 일치할 때 일치쌍으로 카운트합니다.
그럼 불일치쌍은 어떤 경우를 말하는 것일까요?
죽은 35세 사람과 살아남은 45세 사람을 비교해보면,
모형의 결과(P(Survived))가 실제 사실(Died or Survived)과 불일치함을 알 수 있습니다.
즉, 살아남은 사람의 P(Survived)값(0.3791)이
죽은 사람의 P(Survived)값(0.3981)보다 더 작은 것을 확인할 수 있습니다.
위 경우처럼 모형의 결과와 실제 사실이 일치하지 않을 때 불일치쌍으로 카운트합니다.
마지막으로 중복쌍(Tied pair)은 어떤 경우일까요?
죽은 50세 사람과 살아남은 50세 사람을 비교해보면,
실제 사실(Died or Survived)에 상관없이 모형의 결과(P(Survived))가 같음을 알 수 있습니다.
즉, 살아남은 사람의 P(Survived)값(0.3697)이
죽은 사람의 P(Survived)값(0.3697)과 같음을 확인할 수 있습니다.
위 경우처럼 모형의 결과가 두 경우를 구분할 수 없을 때 중복쌍으로 카운트합니다.
다시 말해, 중복쌍은 일치쌍도 아니고 불일치쌍도 아닌 경우를 의미하는 것이지요.
로지스틱 회귀 모형의 결과에서
Association of predicted probabilities and observed response표를 살펴보면
일치쌍, 불일치쌍, 중복쌍의 백분율을 확인할 수 있습니다.
물론 일치쌍의 비율이 크고 불일치쌍의 비율이 작은 모형이 더 좋은 모형이겠지요.
===========================================================================
그럼 예를 통해 확인해 보도록 하겠습니다.
-> Pairs값인 4482쌍 중에서
각 쌍의 비율을 살펴보겠습니다.
(1) Percent Concordant(일치쌍 백분율)의 값은 97.8,
(2) Percent Discordant(불일치쌍 백분율)의 값은 1.9,
(3) Percent Tied(중복쌍)의 값은 0.3으로 확인 가능합니다.
일치쌍의 백분율값이 월등히 높음을 확인할 수 있습니다.
-> Somers’ D, Gamma, Tau-a, c값은
관측치의 일치쌍, 불일치쌍, 중복쌍의 수를 이용하여 산출된 rank correlation입니다.
일반적으로, 위 네 값이 높은 모형은 그렇지 않은 모형보다 더 좋은 예측력을 갖는다고 할 수 있습니다.
===========================================================================
그럼 다음시간에는 교호작용을 갖는 단계선택법에 대해서 알아보도록 하겠습니다.
감사합니다^^
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.
Lock in the best rate now before the price increases on April 1.