안녕하세요 MYSAS 홍보대사 최준입니다.
오랜만에 E-miner 활용하기를 연재하게 되었네요...^^;;
이번에 연재할 내용은 바로 의사결정 나무입니다~^_^
의사결정나무란 의사결정 규칙을 나무구조로 도표화하여
분류(Classification)와 예측(Prediction)을 수행하는 분석방법입니다.
이러한 의사결정나무의 장점과 단점은 다음과 같습니다.
장점 : 해석의 용이성, 교호작용 효과의 해석, 비모수적 모형
단점 : 비연속성, 선형성 또는 주효과의 결여, 비안전성
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
실습
제가 예시로 보여주는 데이터는 채무불이행 관련 데이터입니다. (credit.sas7bdat)
채무를 이행 여부를 알아보고기 위해서는
과거 은행 대출과 지원자의 정보와 더불어서 채무 불이행을 했는지에 대한
대량의 정보가 필요할 것입니다.
credit 데이터는 독일의 신용회사에서 얻은 대출 정보 입니다.
(참조 : Brett_Lantz, Machine Learning with R)
신용 평가 파일을 읽어들인 다음에 Credit에 어떤 변수들이 있는지,
이 범주에 맞춰서 결정트리를 만들 것입니다.
이 자료는 1000개의 예제와 17개의 속성이 있습니다.
default 변수의 역할을 Target으로 바꾸고, 레벨 또한 Binary로 바꿔 준 다음에 Credit 데이터 셋을 불러와야만 합니다.
Credit 데이터 셋을 불러온 다음에는 통계량 탐색 노드를 연결하여 간단한 EDA를 진행해 보겠습니다.
채무 불이행을 예상할 수 있는 대출의 일부 속성에 대한 결과입니다.
(Checking_balance와 saving_balnce 속성은 지원자의 체킹 세이빙 계좌를 나타냄)
자산이 큰 체킹과 세이빙 계좌는 채무 불이행 대출이 낮다고 안전한 가정을 할 수 있습니다.
또한 기간(Month_loan_duration)과 요청한 신용대출 총액(amount)와 같은 변수도 활용할 수 있습니다.
(모든 변수에 결측치가 없는 것도 확인할 수 있습니다.)
Default 변수는 대출자가 협의한 반납 기간 안에 반납했는지를 나타내는 변수입니다.
여기서 레벨2의 백분율이 30%라는 의미는 즉, 30%의 인원이 채무불이행이 된 것을 의미합니다.
채무불이행 비율이 매우 높음을 확인할 수 있습니다.
그래서 다음번 연재때는 의사결정나무를 이용하여
채무불이행 비율을 낮춰보는 것에 대해서 얘기해보겠습니다~
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.