BookmarkSubscribeRSS Feed

[ SAS 활용 노하우 ] Text Analysis part1

Started ‎04-04-2021 by
Modified ‎04-04-2021 by
Views 869

Text Analysis?

비정형 데이터 Text를 정량화된 데이터로 변환시켜 수치적 분석/ 텍스트 관계 분석 등을 적용하여 통찰력을 확보하는 분석기법입니다.

 

* Text Analysis 흐름도 및 분석 기법

 

그림1.png

 

* 분석 기술 요소

 

  • 텍스트 데이터를 정형데이터로 분류, 요약해 수치적 분석을 수행하여 활용하는 기술입니다. 예를 들면, 감성 분석, 분류 분석, 토픽 분석이 있습니다.
  • 키워드/ 문서 간 관계 등 문서/ 텍스트 자체로 분석하는 기술로는 Concept Link, 연관분석, SVD가 있습니다.

 

* 활용 방안

  • 외부 데이터 분석을 통한 브랜드/ 제품 관리 평판을 관리
  • 공정 센싱 로그 분석을 통한 불량률 관리
  • 작업일지, 고장대처이력 등 자유기술 문서의 표준화
  • 내,외부 지식 문서 분류 및 태깅을 통한 지식관리

 

1.  MorPheme 

한국어의 경우 시제와 주격 조사에 따라 명사 및 동사에 변형이 많아서 단어의 어근과 어미를 분리하여 품사별로 단어를 추출하는 경우를 의미합니다.
 
  • 한국어 사전 : 형태소 분석을 위해서 동사원형 및 모든 변형, 조사의 형태, 품사 등을 모두 포함하는 사전이 필요합니다.
  • 고성능 텍스트 매칭 기술 : 다량의 텍스트를 방대한 사전에서 탐색, 매칭하는 기술입니다.

 

* 형태소 분석의 필요성

  • 감성 분석 / 분류 분석 : 분류 룰 작성시에 동사의 변형에 따른 룰을 모두 만들어야합니다. Dictionary가 커져서 Performance에 영향을 끼칩니다.
  • Association Rule / Concept Link : 동의어가 변형에 따라 분리 분석되어서 전체 분석의 질 훼손될 수 있습니다.

* 활용 방안 - 모든 텍스트 분석의 사전 작업입니다.

 

2. Term Frequency & Weight

키워드 분석을 위한 출현 빈도 기반 스코어링 모델로 단순 빈도와 가중치적용 빈도를 결합합니다.

 

* 빈도 분석 스코어 정의

TF : 전체 문서에서 발생하는 용어의 빈도수

IDF : 드물게 출현하는 용어에 대해 가중치를 더 높게 개념입니다.

TF * IDF : 특정 문서 내에서 단어 빈도가 높을 수록, 전체 문서들 중 그 단어를 포함한 문서가 적을 수록 단어의 중요도가 향상됩니다.

 

* 빈도 분석 스코어 예시 

그림1.png
 
스테인레스는 자주 사용되는 용어로 전체 문서에서 출현빈도(TF)가 높습니다. 
하지만, 고지켈은 스테인레스용 특수강을 설명할 때 자주 사용되는 용어(IDF)로 일반 스테인레스를 설명할 때는 자주 언급되지 않는 용어로 TF*IDF가 높아서 문서에서는 중요한 용어입니다.
 
* 활용 방안
데이터 탐색 : 최빈도 키워드와 가중빈도 키워드를 통해 인지적 직관을 통한 주요 키워드를 도출합니다.
시스템 구축시 활용 방안 : 초기 용어 사전 작성에 이용됩니다.
시스템 운영 시 활용 방안 : 기존 용어사전에 등재되어 있지 않은 신조를 발굴할 수 있습니다.
 
* 유의사항 및 중요사항 
한글의 경우 반드시 형태소 분석 후 실행합니다.
분석하고자 하는 토픽에 따라 TF를 사용할지 TF-IDF를 사용할지 선택이 필요합니다.
추출된 용어가 모두 사용되는 것은 아니며, 사람에 의한 정제 작업이 필요할 수도 있습니다.
 

3. Concept Link

빈도 분석 후 특정 단어와 동일문서에 자주 나오는 단어들을 표현한 그래프입니다.

 

* 빈도 분석 및 Concept Link 예시

 

그림1.png

주요 키워드를 도출한 다음 용어 사전에 추가합니다.

 

 

그림1.png

 

주요 표현을 도출한 후 분석 툴에 추가합니다.

 

 

 

* 활용방안 

데이터 탐색 : 방대한 분석 대상의 텍스트의 주요 내용을 빠르고 직관적으로 파악이 가능합니다.

시스템 구축시 활용 : 초기 용어 사전 작성에 이용하거나 분류 및 감성 분석등 룰 기반 분석시에 주요 표현 발굴에 활용됩니다.

시스템 운영시 활용 : 기존 용어사전에 등재되어 있지 않은 신조어를 발굴할 수 있습니다.

 

* 유의사항 및 중요사항

직관적 내용파악을 위해 그래프의 확장 등 사용자 UI가 중요합니다.

한글의 경우 반드시 형태소 분석 후 수행합니다. 

빈도 분석 및 Concept Link를 위해 사용할 품사 선택이 필요합니다. 일반적으로 접속사, 조사, 조동사, 전치사 등은 생략 후 수행합니다. 초기 분석시에는 명사와 동사만으로 파악 후 수사, 부사 등을 포함하여 확장 분석합니다.

Version history
Last update:
‎04-04-2021 07:21 AM
Updated by:
Contributors

hackathon24-white-horiz.png

The 2025 SAS Hackathon Kicks Off on June 11!

Watch the live Hackathon Kickoff to get all the essential information about the SAS Hackathon—including how to join, how to participate, and expert tips for success.

YouTube LinkedIn

Article Labels
Article Tags