비정형 데이터 Text를 정량화된 데이터로 변환시켜 수치적 분석/ 텍스트 관계 분석 등을 적용하여 통찰력을 확보하는 분석기법입니다.
* Text Analysis 흐름도 및 분석 기법
* 활용 방안
* 형태소 분석의 필요성
* 활용 방안 - 모든 텍스트 분석의 사전 작업입니다.
키워드 분석을 위한 출현 빈도 기반 스코어링 모델로 단순 빈도와 가중치적용 빈도를 결합합니다.
* 빈도 분석 스코어 정의
TF : 전체 문서에서 발생하는 용어의 빈도수
IDF : 드물게 출현하는 용어에 대해 가중치를 더 높게 개념입니다.
TF * IDF : 특정 문서 내에서 단어 빈도가 높을 수록, 전체 문서들 중 그 단어를 포함한 문서가 적을 수록 단어의 중요도가 향상됩니다.
* 빈도 분석 스코어 예시
빈도 분석 후 특정 단어와 동일문서에 자주 나오는 단어들을 표현한 그래프입니다.
* 빈도 분석 및 Concept Link 예시
주요 키워드를 도출한 다음 용어 사전에 추가합니다.
주요 표현을 도출한 후 분석 툴에 추가합니다.
* 활용방안
데이터 탐색 : 방대한 분석 대상의 텍스트의 주요 내용을 빠르고 직관적으로 파악이 가능합니다.
시스템 구축시 활용 : 초기 용어 사전 작성에 이용하거나 분류 및 감성 분석등 룰 기반 분석시에 주요 표현 발굴에 활용됩니다.
시스템 운영시 활용 : 기존 용어사전에 등재되어 있지 않은 신조어를 발굴할 수 있습니다.
* 유의사항 및 중요사항
직관적 내용파악을 위해 그래프의 확장 등 사용자 UI가 중요합니다.
한글의 경우 반드시 형태소 분석 후 수행합니다.
빈도 분석 및 Concept Link를 위해 사용할 품사 선택이 필요합니다. 일반적으로 접속사, 조사, 조동사, 전치사 등은 생략 후 수행합니다. 초기 분석시에는 명사와 동사만으로 파악 후 수사, 부사 등을 포함하여 확장 분석합니다.
Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!