[Text Mining] 10. 정형 및 비정형 데이터 분석 예제
안녕하세요 오늘은 텍스트 마이너를 이용하여 비정형 데이터를 분석해보도록 하겠습니다.
지금까지는 텍스트 마이너를 구성하는 각 노드의 기능에 대해서 말씀드렸었는데요,
오늘은 실제로 예제 데이터를 분석하고 그 결과를 살펴보도록 하겠습니다.
오늘 활용할 데이터는 은행 데이터인데요,
이를테면 은행에서 어떤 새로운 상품을 출시한 후 기존 고객들에게 홍보하게 되는 겁니다.
은행에서는 각 고객들의 나이, 자녀수, 연봉 등의 데이터를 갖고 있으며
또한 해당 고객이 신규 상품에 가입을 했느냐 안했느냐에 대한 데이터도 보유하고 있습니다.
이러한 정형 데이터와 더불어, 상품에 대한 고객들의 반응을 텍스트화 시킨 비정형데이터 또한 갖고 있습니다.
은행에서는 기존 데이터를 바탕으로, 상품에 가입할 사람과 그렇지 않을 사람을 분류하고 싶은 겁니다.
그렇게 된다면 새로운 고객을 발굴하였을 때 해당 고객의 조건을 보고 이 사람이 상품에 가입할 것인지를 예측할 수 있을 테니까요.
우선 정형데이터분석을 먼저 실시해 보았습니다. 다이어그램은 아래와 같습니다.
데이터분할은 그냥 붙여 보았구요, 분석75 평가25로 설정하였습니다.
분석 모델은,, 우리 주변에서 쉽게 찾을 수 있는 트리, 회귀분석, 신경망분석을 선택하였습니다.
실행하기 전에 모델비교노드의 메뉴를 잠깐 살펴보시죠.
저는 계량경제학의 영향인지 오차항 곱하는 게 그렇게 좋더라구요,,
그래서 통계량 선택 기준으로 평균 제곱오차를 선택하였습니다. 선택 테이블은 분석용으로 골랐구요
자, 이제 모델비교 노드를 실행시켜봅시다.

결과를 보아하니 신경망분석이 가장 좋은 모형이라고 하네요. “선택된 모델” 칼럼에 “Y”가 적혀있는 것이 가장 훌륭한 모형입니다.
좌측 상단의 ROC 커브를 보니 신경망분석은 아예 직각이군요.
ROC커브를 해석하는 법은, 이 곡선이 좌측 상단에 앙칼지게 붙어있을수록
분류(Classification) 능력이 좋은 모델로 평가된다고 합니다.
일단 저렇게 두고, 이번에는 비정형+정형 데이터 분석을 해볼까요?
이번 분석의 개요는, 클러스터링을 이용하여 모든 고객을 두 개의 클러스터로 분류한 뒤 이것을 새로운 변수로 추가합니다.
이 변수를 Input변수로 설정한 뒤 트리, 회귀분석, 신경망분석을 실행하고 모델비교 노드를 실행합니다.
다이어그램은 아래와 같이 설정합니다.

복잡해 보이지만 전혀 복잡하지 않습니다. 우선 텍스트파싱-텍스트필터를 거친 뒤
텍스트 클러스터를 이용하여 고객을 두 가지 클러스터로 분류하고,
메타데이터를 이용하여 분류된 클러스터 번호를 변수로 추가한 뒤 세 가지 모형에 넣고 돌리는 겁니다.
모델비교 결과는 어떻게 나왔는지 살펴보도록 하겠습니다.

이번에도 역시 신경망 분석이 가장 좋은 모형으로 채택되었네요.
그럼 이번에는 두 가지 분석방법을 한꺼번에 넣고 동시에 모델비교를 해보도록 하겠습니다.
다이어그램은 아래와 같이 구성하였습니다.

복잡해 보이지만 자세히 보면 위에서 했던 두 가지 분석을 위 아래로 배치해놓고,
하나의 데이터 셋에서 분석이 시작되도록 설정해놓은 모습입니다.
그리고 분석 막바지에는 여섯 가지 분석 모델을 한꺼번에 비교할 수 있는 모델비교 노드를 하나 추가하였습니다.
이제 전체 모델비교 노드의 실행 결과를 살펴보도록 하겠습니다.

텍스트를 빼고 돌린 신경망 분석이 가장 좋은 모델로 뽑혔군요.
비정형 데이터가 더 좋게 나오길 바랬던 제 기대와는 달라 조금은 실망했지만, 그래도 해보기 전에는 모르는 거니까요.
이러한 결과를 얻었다는 것에 만족해야겠습니다.
오늘 준비한 내용은 여기까지입니다. 오늘 분석에서 얻을 수 있는 것은 정형데이터뿐만 아니라
비정형 데이터도 분석에 활용할 수 있다는 점입니다. 물론 비정형 데이터를 이용하기 위해서는
이를 분석하여 정형데이터로 변환해주는 과정이 필요하긴 하지만
요즘같이 비정형 데이터의 중요성이 강조되는 시기에는 충분히 시도해볼 만한 가치가 있겠죠.
오늘을 끝으로 텍스트 마이닝 가이드를 마치도록 하겠습니다. 많이 부족한 내용이었지만,
제 스스로 공부하고 알게 된 것이 많았던 만큼, 여러분께도 미약하게나마 도움이 되었기를 바랍니다.
이번 기회에 텍스트 마이닝에 관심이 생긴 분들이 많아졌으면 하는 바람입니다.
특히 인터넷 쇼핑몰이나 영화사이트, 또는 SNS 등의 구전효과에 대하여 연구하시는 분들께
꽤 괜찮은 툴이 아닐까 하는 생각이 드네요.
마지막으로 위의 데이터와 분석방법은 경희대학교 경영학과 박재홍 교수님의 강의자료를 참고하였음을 밝힙니다.
그 동안 긴 글 읽어주셔서 감사합니다. 항상 공부하고 성취하는 여러분이 되시기를 기원하면서 이만 마치도록 하겠습니다.
오늘도 좋은 하루 되세요, 감사합니다.