6-1. Categorical Data Analysis: 로지스틱 회귀모형(1)
안녕하세요^^
이번 시간에는 로지스틱 회귀분석 첫 번째 시간입니다!
두 번의 수업에 걸친 목표는 “로지스틱 회귀분석 개념 이해하기”입니다.
(세 번째 시간부터 세 번에 걸쳐 실습을 통해
로지스틱회귀 모형을 적합하고 적합 결과를 해석하는 시간을 갖도록 하겠습니다.)
로지스틱의 개념을 알아보기 전에 그보다 큰 그림인 회귀분석 시점에서 살펴보도록 하겠습니다.
회귀 분석은 반응변수와 하나 또는 하나 이상의 설명변수간의 관계를 특징짓는 것을 가능하게 합니다.
반응변수의 type에 따라 회귀분석 종류가 달라지는데요.
위 그림처럼 반응변수가 연속형이라면 선형회귀모형을,
반응변수가 범주형이라면 로지스틱 회귀모형을 적합하게 되는 것이지요.
그럼 로지스틱 회귀모형의 종류를 알아보겠습니다.
역시 이 또한 반응변수의 type에 따라 나뉩니다.
반응변수가 binary(이분형)이라면 이항 로지스틱 회귀모형을,
반응변수의 범주가 세 범주 이상이고 명목형이라면 명목형 로지스틱 회귀모형을,
반응변수의 범주가 세 범주 이상이고 순서형이라면 순서형 로지스틱 회귀모형을 적용하게 됩니다.
그렇다면 로지스틱 회귀모형이란 무엇일까요?
이 그림은 “연속형 설명변수”와 “outcome의 확률” 간의 관계를 모델의 형태로 보여주고 있습니다.
X와 확률 간의 관계(S 모양의 곡선)가 위와 같다면 선형 모형은 정확하게 적합되지 못하겠지요.
직접적으로 위와 같은 모형을 모델링하기 위해서는 nonlinear 함수를 사용해야 합니다.
위 그림 안의 식에서 볼 수 있듯이, Nonlinear 함수 중의 하나가 sigmoid로 알려진 S-shape입니다.
이 함수의 Beta1의 변화율은 곡선의 증가 또는 감소율을 나타냅니다.
이 값이 0보다 크면 설명변수 값이 증가할수록 outcome의 확률은 증가합니다.
반면, beta1이 0보다 작은 값을 가질 때에는 설명변수 값이 증가할수록 outcome의 확률이 감소합니다.
즉, beta1의 절댓값이 클수록 이 곡선은 더 가파른 변화율을 보이게 되는 것이지요.
또한, Beta1의 값이 0이라면 곡선은 모든 outcome서 같은 확률을 갖는 수평한 선이 될 것 입니다.
그럼 다음 시간에 이어서 로지스틱 모형의 형태와 가정을 살펴보도록 하겠습니다.
감사합니다^^
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.