안녕하세요 MYSAS 홍보대사 최준입니다.
저번 연재에 이어서 이번 시간에는 본격적으로 의사결정나무 노드를 사용하고
이를 해석하는 방법에 대해서 살펴 보겠습니다.
먼저 데이터 분할 노드를 통계량 탐색 노드 뒤에 연결 한 후에
분석용과 평가용의 비율을 7:3 으로 설정하고 실행 버튼을 클릭합니다.
데이터 분할 노드 뒤에 의사결정트리 노드를 연결한 후에 실행 버튼을 클릭합니다.
의사결정트리 노드의 결과 윈도우에서 '스코어 순위 중첩' 윈도우의 통계량 목록 중에
'누적 반응률' 을 선택하면 다음과 같은 그림이 나타납니다.
누적 반응률 그림을 살펴보면 의사결정 나무에 의한 상위 20%에는
약 63%의 채무불이행자가 포함되어 있음을 확인할 수 있습니다.
의사결정노드 결과 윈도우에서 '보기 -> 모델 -> 서브트리 평가 도표' 메뉴를 선택하면 다음과 같은 그림이 나타납니다.
분석용 데이터에 의해 10개의 끝마디를 가지는 의사결정나무가 형성된 후
평가용 데이터에 의한 오분류율 기준으로 가지치기가 수행되어
최종적으로는 6개의 끝마디를 가지는 나무가 구성됨을 확인할 수 있습니다.
의사결정나무 결과 윈도우에서 트리 윈도우를 확대하면 다음과 같은 그림이 나타남을 확인할 수 있습니다.
가장 중요한 변수는 checking_balnce 임을 확인할 수 있습니다.
이번에는 다지분리(Multiway) 하는 방법에 대해서 알아보겠습니다.
다지분리란 하나의 부모마디에서 두개 이상의 자식마디가 형성될 수 있도록 하는 것을 의미합니다.
이론적으로, 다지분리가 반드시 성능이 좋다라고 할 수는 없지만 해석은 편리할 수 있습니다.
위의 그림과 같이 새로운 의사결정트리 노드를 다이어그램에 추가 한 후에
속성패널의 분리 규칙에서 최대 가지 옵션을 4로 수정하고
(부모마디에서 최대 4개까지 자식마디가 형성될 수 있도록 설정하는 것을 의미)
최대 깊이 옵션을 10으로 수정하면 됩니다.
(의사결정 나무의 최대 깊이가 10이 되도록 설정하는 것을 의미)
마지막으로 다지분리 노드와 의사결정트리 노드를 모델비교 노드와 연결 한 후에 실행 버튼을 누르면
위 그림과 같은 결과가 나타남을 확인할 수 있습니다.
지금까지 의사결정나무 노드에 대해서 살펴보았습니다.
연재를 하기에 앞서 공부한 참고 도서는 다음과 같습니다
: ("빅데이터 분석을 위한 데이터 마이닝 방법론 SAS Enterprise Miner 활용사례를 중심으로", 자유아카데미)
기타 궁금하신 점이 있으시다면
언제든지 저에게 쪽지 or 댓글로 문의해주시면 친절하게 답변해드리겠습니다.
감사합니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.
Early bird rate extended! Save $200 when you sign up by March 31.