안녕하세요 mySAS 대학원생 홍보대사 이종협입니다.
제가 오늘부터 연재하게 된 주제는 바로 SAS Enterprise Miner에서 사용할 수 있는 Text Miner인데요, 이 Text Miner는
최근 들어 정형 데이터와 반대되는 개념인 비정형 데이터를 이용한 분석이 각광을 받기 시작하면서 떠오르고 있는
분석 도구라고 할 수 있겠습니다.
정형 및 비정형 데이터에 대해 간략하게 말씀드리자면,
정형 데이터(Structured Data)는 우리가 흔히 접하는 숫자라든가 범주(categories)형 데이터를 말하는 것이며,
그에 반해 비정형 데이터(Unstructured Data)는 텍스트 또는 이미지 등을 이르는 말입니다.
오늘은 첫 번째 포스팅이니만큼 텍스트 마이닝에 대한 재미없는 이야기부터 짚고 넘어가려 합니다.
그만큼 기초는 중요하기 때문이죠. 앞으로 텍스트 마이닝을 수행하면서 생길 여러 가지 의문점 중에서
“그런데 대체 텍스트 마이닝은 왜 하는 거지?” 라는 생각이 들 때 참고하실 수 있는 내용이
바로 오늘 말씀드릴 내용들이라고 보시면 되겠습니다.
가. 텍스트 마이닝(Text Mining)은 대량의 문서 속에 숨겨져 있는 주제(Theme)와 개념(Concept)을 찾아내는 일련의 작업을 이르는 말
나. 텍스트 마이닝에는 두 가지 단계(Phase)가 있음
- Descriptive Mining: 텍스트 데이터의 컨텐츠를 탐색하는 단계
- Predictive Mining: 찾아낸 정보를 바탕으로 특정한 결론을 내는 단계
1) Descriptive Mining
가) 소비자들이 남긴 코멘트, 댓글이나 이메일, 뉴스 등에서 주제와 개념을 찾는 작업
나) 구문이나 용어 등에서 구체적인 정보를 이끌어냄
다) 찾아낸 정보를 바탕으로 문서를 그룹으로 구분함(클러스터라고도 하죠)
2) Predictive Mining
가) 범주 별로 나누어진 문서의 정보를 이용하여 의사결정에 활용(중요!)
나) 예를 들어 mySAS에 올려진 글을 분석해서 메뉴 통폐합에 활용
다) 영화 댓글 데이터를 분석하여 긍정적인 댓글이 관객 수 증가에 어떤 영향을 미치는지 알아볼 수 있음 (나중에 보여드릴 계획입니다.)
라) 과거데이터를 검증하여 앞으로 벌어질 일들을 예측하는 것이 이 단계의 핵심
가. 분석할 텍스트파일 준비
나. 텍스트 파싱(parsing)
- 우리말로 형태소 분석과 비슷하다고 보시면 됩니다
다. 분석을 위한 간략화(Dimension Reduction)
- 문서들을 범주별로 묶어 분석하기 용이하게 만드는 것
- 요인분석과 비슷합니다
라. 결과 분석
- 클러스터(상호 배타적인 그룹)로 분류 : 그룹별로 차별화된 정책 적용
- 토픽 추출 : 쇼핑몰 등에서 특정 단어에 연결되는 상품을 파악하여 자동추천 시스템 개발
- 규칙 만들기 : 특정 표현이 많이 쓰였을 때 해당 상품의 매출이 증가하는지 파악 가능
(참고문헌: “Getting Started with SAS Text Miner 12.1”, SAS Publishing Sales, 2012)
텍스트 마이닝이 무엇이고 어떠한 역할을 수행하는지는 위의 글을 보시면 어느 정도 도움이 되지 않을까 생각이 듭니다.
다음은 앞으로의 연재 계획입니다.
기간 : 2014년 7월 15일(화) ~ 2014년 8월 19일(화) 매주 화, 목요일
목차
상기 계획안은 진행 상황에 따라 조금씩 변동되거나 컨텐츠가 추가될 수도 있음을 말씀드립니다.
저도 하나씩 배워가는 입장이기 때문에 부족한 점에 대해서는 언제든지 날카로운 질문과 질타 부탁드립니다.
좋은 하루 되세요, 감사합니다!
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.
Early bird rate extended! Save $200 when you sign up by March 31.