안녕하세요 MYSAS 홍보대사 최준입니다.
저번시간에 이어서 이번에는
신경망 노드에 대한 실습을 해보겠습니다.
이번에 사용할 데이터는 BUYTEST 데이터입니다.
BUYTEST 데이터는 신용 위험 평가 모델 개발을 위한 은행 데이터입니다.(buytest.sas7bdat)
지난번에 로지스틱 회귀분석노드에서 사용했었던 CREDIT 데이터와 비슷한 속성입니다.
미래 신용 의사결정을 하기 위해 필요한 요인들과 통합하여 구성되어 있고,
모델개발의 Target은 최종 대출의 상환여부에 따라 전액상환과 불량채무로 구분하겠습니다.
BUYTEST 데이터는 RESPONSE(최종 대출의 상환여부) 변수를 예측하기 위해, 여러가지 신용관련 변수를 가지고 있습니다.
(참조 : 데이터 마이닝 방법론(강현철 외 5인))
우선 신경망분석의 과정과 개념을 쉽게 설명하기 위해서
변수 AGE, INCOME 역할을 INPUT으로 설정하고 RESPONSE 역할를 TARGET으로 설정한 후에
신경망 분석을 수행해보겠습니다.
BUYTEST 데이터 뒤에 [데이터 분할]노드를 분석용 : 50%, 평가용 :50%로 설정한 후에 연결합니다.
[데이터 분할]노드 뒤에 [신경망]노드를 연결합니다.
신경망 노드의 "속성패널"에서 신경망(Network) 필드의 ... 버튼을 클릭하면
위의 그림과 같이 은닉마디의 수 및 타겟층의 결합함수와 활성함수 등에 대한 옵션을 설정할 수 있는
대화상자가 나타납니다. 여기서는 은닉마디 수 필드를 '4'로 설정해보았습니다.(초기값 : '3')
구조(Architecture) 필드를 사용자 정의로 설정하면 다양한 옵션들에 대한 설정을 변경할 수 있습니다.
(신경망 분석에 익숙한 전문가들은 사용자가 원하는 방법으로 선택할 수 있도록 한 것입니다.)
[신경망]노드를 실행하고 결과를 살펴보겠습니다.
반복 도표 윈도우에서는 분석용에서는 반복이 될 수록 ASE가 낮아짐을 확인할 수 있지만,
평가용에서는 반복회수 1에서 오차함수 값이 제일 낮음을 확인할 수 있습니다.
출력 윈도우에서는 최정적인 모수 추정치들을 살펴볼 수 있습니다.
이 결과에서 한개의 은기층에 4개의 은닉마디를 가진 MLP가 수행되었음을 볼 수 있습니다.
반응 확률에 대한 예측식을 도식화하면 다음과 같습니다.
H11=F(-5.455-26.338AGE+7.8906INCOME)
H12=F(-1.1678-0.2138AGE-0.4187INCOME)
H13=F(-1.14868-0.51403AGE+1.2823INCOME)
H14=F(2.42463-0.19994AGE+1.4649INCOME)
P(Y)=G(-0.32534-0.3949H11+3,6312H12+0.8301H13+1.1777H14)
* 여기서 F는 쌍콕탄젠트함수, G는 로지스틱 함수입니다.
이번에는 신경망노드와 회귀 노드를 비교해보고 성능파악을 해보겠습니다.
오분류율은 0.0766으로 비슷하지만, ROC 인덱스 및 여러가지 통계량을 비교해보면
미세하게 신경망 노드가 더 좋은 것을 확인할 수 있습니다.
(신경망 ROC 인덱스 : 0.586 / 회귀 ROC 인덱스 : 0.575)
신경망 노드는 모형 성능이 좋지만, 상당히 복잡하며 해석하기가 어려운 단점이 있습니다.
그렇기 떄문에 해석의 용이함보다는 예측에 더 효과적인 모형이 필요한 경우에는 많이 사용되지만,
로지스틱이나 의사결정과 같은 다른 노드에 비해서 이용되는데 한계가 있습니다...
지금까지 신경망 노드에 대해서 살펴보았습니다.
연재의 기본 바탕은 "빅데이터 분석을 위한 데이터 마이닝 방법론(강현철 외 5인)" 책을 참조하였습니다~^^
기타 궁금하신 점이 있으시다면
언제든지 저에게 쪽지 or 댓글로 문의해주시면 친절하게 답변해드리겠습니다.
감사합니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.