BookmarkSubscribeRSS Feed

[ SAS 활용 노하우 ] Text Analysis part1

Started ‎04-04-2021 by
Modified ‎04-04-2021 by
Views 643

Text Analysis?

비정형 데이터 Text를 정량화된 데이터로 변환시켜 수치적 분석/ 텍스트 관계 분석 등을 적용하여 통찰력을 확보하는 분석기법입니다.

 

* Text Analysis 흐름도 및 분석 기법

 

그림1.png

 

* 분석 기술 요소

 

  • 텍스트 데이터를 정형데이터로 분류, 요약해 수치적 분석을 수행하여 활용하는 기술입니다. 예를 들면, 감성 분석, 분류 분석, 토픽 분석이 있습니다.
  • 키워드/ 문서 간 관계 등 문서/ 텍스트 자체로 분석하는 기술로는 Concept Link, 연관분석, SVD가 있습니다.

 

* 활용 방안

  • 외부 데이터 분석을 통한 브랜드/ 제품 관리 평판을 관리
  • 공정 센싱 로그 분석을 통한 불량률 관리
  • 작업일지, 고장대처이력 등 자유기술 문서의 표준화
  • 내,외부 지식 문서 분류 및 태깅을 통한 지식관리

 

1.  MorPheme 

한국어의 경우 시제와 주격 조사에 따라 명사 및 동사에 변형이 많아서 단어의 어근과 어미를 분리하여 품사별로 단어를 추출하는 경우를 의미합니다.
 
  • 한국어 사전 : 형태소 분석을 위해서 동사원형 및 모든 변형, 조사의 형태, 품사 등을 모두 포함하는 사전이 필요합니다.
  • 고성능 텍스트 매칭 기술 : 다량의 텍스트를 방대한 사전에서 탐색, 매칭하는 기술입니다.

 

* 형태소 분석의 필요성

  • 감성 분석 / 분류 분석 : 분류 룰 작성시에 동사의 변형에 따른 룰을 모두 만들어야합니다. Dictionary가 커져서 Performance에 영향을 끼칩니다.
  • Association Rule / Concept Link : 동의어가 변형에 따라 분리 분석되어서 전체 분석의 질 훼손될 수 있습니다.

* 활용 방안 - 모든 텍스트 분석의 사전 작업입니다.

 

2. Term Frequency & Weight

키워드 분석을 위한 출현 빈도 기반 스코어링 모델로 단순 빈도와 가중치적용 빈도를 결합합니다.

 

* 빈도 분석 스코어 정의

TF : 전체 문서에서 발생하는 용어의 빈도수

IDF : 드물게 출현하는 용어에 대해 가중치를 더 높게 개념입니다.

TF * IDF : 특정 문서 내에서 단어 빈도가 높을 수록, 전체 문서들 중 그 단어를 포함한 문서가 적을 수록 단어의 중요도가 향상됩니다.

 

* 빈도 분석 스코어 예시 

그림1.png
 
스테인레스는 자주 사용되는 용어로 전체 문서에서 출현빈도(TF)가 높습니다. 
하지만, 고지켈은 스테인레스용 특수강을 설명할 때 자주 사용되는 용어(IDF)로 일반 스테인레스를 설명할 때는 자주 언급되지 않는 용어로 TF*IDF가 높아서 문서에서는 중요한 용어입니다.
 
* 활용 방안
데이터 탐색 : 최빈도 키워드와 가중빈도 키워드를 통해 인지적 직관을 통한 주요 키워드를 도출합니다.
시스템 구축시 활용 방안 : 초기 용어 사전 작성에 이용됩니다.
시스템 운영 시 활용 방안 : 기존 용어사전에 등재되어 있지 않은 신조를 발굴할 수 있습니다.
 
* 유의사항 및 중요사항 
한글의 경우 반드시 형태소 분석 후 실행합니다.
분석하고자 하는 토픽에 따라 TF를 사용할지 TF-IDF를 사용할지 선택이 필요합니다.
추출된 용어가 모두 사용되는 것은 아니며, 사람에 의한 정제 작업이 필요할 수도 있습니다.
 

3. Concept Link

빈도 분석 후 특정 단어와 동일문서에 자주 나오는 단어들을 표현한 그래프입니다.

 

* 빈도 분석 및 Concept Link 예시

 

그림1.png

주요 키워드를 도출한 다음 용어 사전에 추가합니다.

 

 

그림1.png

 

주요 표현을 도출한 후 분석 툴에 추가합니다.

 

 

 

* 활용방안 

데이터 탐색 : 방대한 분석 대상의 텍스트의 주요 내용을 빠르고 직관적으로 파악이 가능합니다.

시스템 구축시 활용 : 초기 용어 사전 작성에 이용하거나 분류 및 감성 분석등 룰 기반 분석시에 주요 표현 발굴에 활용됩니다.

시스템 운영시 활용 : 기존 용어사전에 등재되어 있지 않은 신조어를 발굴할 수 있습니다.

 

* 유의사항 및 중요사항

직관적 내용파악을 위해 그래프의 확장 등 사용자 UI가 중요합니다.

한글의 경우 반드시 형태소 분석 후 수행합니다. 

빈도 분석 및 Concept Link를 위해 사용할 품사 선택이 필요합니다. 일반적으로 접속사, 조사, 조동사, 전치사 등은 생략 후 수행합니다. 초기 분석시에는 명사와 동사만으로 파악 후 수사, 부사 등을 포함하여 확장 분석합니다.

Version history
Last update:
‎04-04-2021 07:21 AM
Updated by:
Contributors

SAS Innovate 2025: Register Now

Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!

Article Labels
Article Tags