BookmarkSubscribeRSS Feed

Enterprise Miner 활용 하기 (13) : 로지스틱회귀분석1

Started ‎06-10-2020 by
Modified ‎06-10-2020 by
Views 274

 

안녕하세요 MYSAS 홍보대사 최준입니다.

 

오늘 연재할 주제는 바로 로지스틱 회귀분석에 관한 내용입니다.

 

먼저 로지스틱에 대한 배경지식에 대해서 살펴보겠습니다.

 

로지스틱 회귀분석의 정의

 

로지스틱 회귀분석(Logistic Regression Analysis)은 존재(1)/부재(0) 형태로 되어 있는 종속변수에 대하여 

한개 이상의 설명(독립)변수들을 가지고 이를 추축하기 위해 회귀분석을 하는 것을 의미합니다.

 

일반적인 회귀분석과 유사하지만, 종속변수가 구간 비율척도 변수가 아니라 

0과 1의 값을 가지는 이분형 범주형 변수라는 차이점이 있습니다. 

 

로지스틱 회귀분석을 하는 이유

 

단순회귀분석과 다중회귀분석은 종속변수가 양적인 척도로 측정된 경우의 분석방법입니다. 

하지만 현실적인 연구 상황에서는 종속변수가 양적인 척도가 아닌 질적인 척도로 측정되는 경우가 많습니다.

예를 들면, 신용상태가 좋거나 나쁠 경우, 기업이 성공하거나 실패할 경우 등이 있습니다. 

이러한 이분형 변수는 일반적인 회귀분석에서와 같이 정규분포를 따르는 것이 아니라 이항분포를 따르기 때문에

로지스틱 회귀분석을 통해 사건이 발생할 확률을 예측하는 것이 필요한 것 입니다.

(로지스틱 회귀분석은 어떤 사건이 발생하는지 안하는지를 직접 에측하는 것이 아니라, 그 사건이 발생할 확률을 예측합니다)

 

로지스틱 회귀분석의 장점

 

로지스틱 회귀분석에서는 회귀계수로 독립변수들의 오즈비(Odds Ratio)를 쉽게 구할 수 있는 장점이 있습니다.

종속변수가 범주형 변수라는 점은 판별분석과 동일하지만, 독립변수들이 다변량 정규분포를 따르지 않아도 되기 때문에 

판별분석 보다 덜 제한적이어서 다양하게 사용할 수 있다는 장점도 있습니다.

(하지만 다변량 정규분포를 따르면 추정 결과가 보다 안정적입니다)

 

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------

실습

 

제가 예시로 보여주는 데이터는 신용 위험 평가 모델 개발을 위한 은행 데이터입니다.(credit.sas7bdat)

신용 위험 평가​ 모델은 자사 신용 상품을 이용하는 이용자들의 신용평가사의 자료와

미래 신용 의사결정을 하기 위해 필요한 요인들과 통합하여 구성되어 있습니다.

모델개발의 Target은 최종 대출의 상환여부에 따라 전액상환과 불량채무로 구분하겠습니다.

 

credit 데이터는 Target(최종 대출의 상환여부) 변수를 예측하기 위해, 여러가지 신용관련 변수를 가지고 있습니다.

(참조 : 손쉽게 따라하는 SAS 가이드 Enterprise Miner)​

 

SE22015012813352370.png

 

먼저 Credit 데이터를 불러옵니다. 

Credit 데이터를 불러온 다음에는 통계량 탐색 노드를 활용해서 간단한 EDA를 할 수 있습니다.

결과창을 보면 각 변수마다 결측값이 존재함을 볼 수 있고, 왜도 값도 높은 변수가 있음을 확인할 수 있습니다.

 

SE22015012813354170.png

이제 예측 모델의 타당성을 확보하기 위해 데이터를 분석용, 평가용 데이터로 분할하는 Sampling 작업을 하면 됩니다.

데이터 분할을 위해서는 [표본추출]탭의 [데이터 분할]노드를 사용하면 됩니다.

분석용(Training) 50.0, 평가용(Validation) 50.0으로 설정하고 실행해 보면 각 분석용 데이터와 평가용 데이터의 반응율을 통해

두 데이터가 서로 동질하게(Homogeneous) 분할되었음을 확인할 수 있습니다.

 

SE22015012813362370.png

그리고 앞서 확인하였던 구간변수들의 결측값을 처리는 [수정]탭의 [결측값 처리]노드를 활용하면 손쉽게 할 수 있습니다.

 

지금까지 모델링을 하기에 앞서 분석용 데이터를 준비하는 과정을 실습하였습니다.

 

다음절에서는 본격적인 예측 모델을 생성해보는 실습을 해보겠습니다. 

 

연재의 기본 바탕은 "Enterprise Miner 손쉽게 따라하는 SAS 가이드" 책을 참조하였습니다~^^

 

기타 궁금하신점이 있으시면 댓글이나 쪽지로 문의해주세요!

Version history
Last update:
‎06-10-2020 02:55 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags