BookmarkSubscribeRSS Feed

Logistic Regression - 로지스틱 회귀분석 [이론]

Started ‎06-15-2020 by
Modified ‎06-15-2020 by
Views 591

 

안녕하세요 박세훈입니다.

 

이번시간에는 종속변수가 이진 반응 변수로 분류되는 경우에 사용할 수 있는 회귀 기법인 로지스틱 회귀 분석(Logistic Regression)에 대해 배워 보겠습니다.

 

 

 

 

1. Instroduction

 

 

예를 들어, 여러분이 어떤 질병을 연구하고 있을 때 수술 후 사망일지 생존일지를 통계적으로 분석하고 싶습니다. 그렇기 위해선 생존에 대한 반응 변수가 0과 1사이의 확률로 표현이 되어야 하는데 일반적인 회귀 분석의 경우 그렇지 않죠. 그렇기 때문에 반응 변수를 0과 1사이의 확률값으로 나타낸 회귀를 로지스틱 회귀 분석이라고 합니다.

 

 

 

2. Configuration

 

로지스틱 회귀분석에 중요한 요소는 크게 세 가지가 있습니다. 하나는 “Odds”라고 불리는 파라미터와, 이를 이용한 "로짓 변환" 그리고 출력값을 뱉어내는 "시그모이드 함수"가 있습니다. 

 

2.1 Odds

 

오즈는 수리통계학에서 흔히 사용되는 개념으로 승산이라고 부르기도 합니다. 식을 보면 “p/(1  p)” (p는 확률일 때) 로 구성되어 있는데요, 쉽게 말해서 사건이 일어나지 않을 확률 대비 사건이 일어날 확률를 말합니다. P는 확률이므로, 오즈의 범위는 [0, ∞] 됩니다만약 동전 던지기처럼  확률이 동일한 경우 오즈는 1 되고승산은 작지도 크지도 않은 평형을 이루게 됩니다. 만약 p=0.8 사건이 있다면, Odds 4 되고사건이 일어날 확률이 4배의 승산이 있다는 것을  수가 있습니다.

 

 2.2  Logit

 

Odds 대한 이해가 되셨다면이제 Logit 보겠습니다로지스틱 회귀 분석의 식을 살펴보면,

 

다운로드 (8).png,다운로드 (9).png

 

 

 구성되어 있습니다일반적인 회귀모형과 비교하면 Y대신 log(p/1-p) 되어 있는 것을   있습니다 LOG(Odds) 로지스틱 회귀의 반응변수가 되는 거죠 이유는 이항 확률의 Odds 범위가 [0, ∞] 것을 회귀분석과 동일한 [-∞, +∞]  변환하기 위해서고위의 식을 로짓 변환이라고 부릅니다.

 

 

2.3 시그모이드 함수

 

 로짓 모형의 P값은 우리가 알고 싶은 값입니다어떤 사건이 발생할 추정 확률을 구하면 사건이 발생할지아니면 발생하지 않을  예측할  있기 때문이죠로짓 모형을 정리하면,,,

 

다운로드 (10).png

 

 

이처럼 P 대하여 로짓 모형을 정리한 함수를 시그모이드 함수라고 합니다모든 추정값을  [0,1]사이의 확률값으로 바꿔주는 역할을 하죠. 시그모이드의 형태는 다음과 같습니다.

 

다운로드 (11).png

 

 

 X 어떤 값을 넣으면 X 1 해당할지, 0 해당할지에 대한 확률값을 뱉는 함수입니다.

 

 

 

3. Prove

 

유도를 통해 어떻게 함수가 생성되었는지 증명해보겠습니다.

 

다운로드 (12).png

 

 

 

위는 저희가 흔하게 보는 선형 예측 모형입니다.

 

 

이제 이를 가지고 시그모이드 함수까지 만들어보겠습니다.

 

 

다운로드 (13).png

 

 

우선입력값 p 범위가 [0,1]  (기본 데이터로부터 산출된 0 1사이의 확률값출력값의 범위가 [-∞, +∞] 되도록 오즈( P/1-P ) 에 대해 로짓 변환을 해줍니다.

 

다운로드 (14).png

 

 

로짓 변환의 결과는 X 대한 선형함수와 동일하므로위의  식을 결합하면

 

다운로드 (15).png

 

 

 됩니다.

 

다운로드 (16).png

 

 

그리고 위와 같이 간단하게 정리하면 시그모이드 함수가 되었습니다.이를 종합하면, Pi 우리가 구하고자 하는 특정 독립변수 x에서종속변수인 “사건이 일어날 확률 구하는 것이죠.

 

 

4. 모델 적합

 

모델 적합은 최대가능도 법을 이용해서 진행합니다. Likelihood 통해 추정을 진행하는데 부분의 경우는 차후 최대가능도  MLE 포스팅   자세히 다루도록 하겠습니다또한 검증을   가능도비 검정을 통해 카이제곱분포와 근사함으로서 편차를 검정하는데 또한 추후 자세히 다루도록 하겠습니다.

 

 

 

다음시간에는 University Edition을 사용하여 로지스틱 회귀 실습을 진행하겠습니다.

Version history
Last update:
‎06-15-2020 03:15 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags