BookmarkSubscribeRSS Feed

[ SAS 활용 노하우 ] Text Analysis part4

Started ‎04-20-2021 by
Modified ‎04-20-2021 by
Views 540

 

이번 게시글은 [ SAS 활용 노하우 ]  Text Analysis part3의 이어지는 글 입니다.

 

10. Text Summarization

 

논문이나 사설처럼 긴 텍스트에서 가장 중요한 구문/ 문장을 추출해, 사용자에게 요약문을 보내주거나, 텍스트 분석을 위한 전처리 과정으로 사용합니다.

 

 

* Text summarization 예시

 

그림1.png

 

원 문서에서 문장별 스코어를 계산합니다. 문장별 스코어는 키워드 사전이나, 요약 형태에 따라 값을 나타낼 수 있습니다. 위의 예시에서는 요약 조건으로 최소 100점 이상인 Top 2 문장을 선택하여 문장 1과 문장 3을 선택하였습니다.

 

그림1.png

 

이렇게 선택된 문장으로 레포팅시 요약문을 표시할 수 있고, 주요 문장만으로 추가 분석이 가능합니다.

 

 

* 주요 기능

- keyword Dictionary 정의

- 요약 형태 설정 

  1. 추출단위 (구문/ 문장)
  2. 추출할 문장 수 또는 %
  3. Threshold (요약 조건 설정)
  4. 가중치 ( 문서 내 위치, 빈도 등에 따른 차등 스코어를 적용합니다.)

- 배치형태보다 크롤링 후 즉시 요약하는 형태가 유리합니다.

 

 

* 기술 활용

- 검색 기능 등을 통해 텍스트 원문이 사용자에게 보여질 때, 첫 문장 보다는 중요문장을 보여줌

- 정제되지 않은 불필요한 텍스트가 많은 문서의 경우 텍스트 분석 프로세스 앞단에서 원천 데이터 cleansing 용도로 사용

 

 

11. Classification 

 

정의된 Taxonomy에 따라 문서를 자동 분류하는 기능으로, 자연어처리 / Taxonomy 구성 / 통계적 분류모델 / 언어학적 룰모델링 등 많은 텍스트 기술요소를 포함합니다.  

 

 

* Classification Process

그림1.png

 

미분류 발생 시 다음과 같은 프로세스가 수행됩니다. 미분류 Text를 키워드 분석 , 신규 키보드 발굴 , 모델에 반영, 재 분류를 수행합니다. 그리고 분류할 텍스트 문서를 Statistical Model이나 Rule based Model을 통해 자동으로 분류하는 기능을 수행합니다.

 

그림1.png

 

 

* 주요 기술 요소

- 자연어 처리 ( 형태소분석, 어근추출 등 )

- 기계학습모델 ( Pivoted Length Normalization 등)

- 언어학적 룰 ( 다양한 연산 및 패턴 인식 )

- Taxonomy 구성 ( Top - Down / Bottom - Up)

 

* 활용 영역 

- 전사 컨텐츠 분류 ( Ex : 전 직원이 작성한 컨텐츠를 효율적으로 검색하고 활용하는 것 )

- 원자재 가격 동향을 예측합니다. ( Taxonomy : 상승 / 하락 , 장애 종류별 정비사항 분류)

- 자동분류를 통한 업무 효율성이 향상됩니다. 단순 문서분류 작업에서 좀 더 가치 있는 연구 및 생산활동으로 변화될 수 있습니다.

 

 

12. Sentiment Analysis 

 

주어진 문서에서 언급된 주제에 대한 표현을 기계학습 또는 Linguistic Rule에 의해 판단하여 긍정적인지 부정적인지의 여부와 강도를 분석하는 기법입니다.

 

* Sentiment Analysis 모델 작성 흐름도

 

그림1.png

 

 

1. Machine Learning을 위해, 긍정문서와 부정문서를 준비합니다.

2. 학습을 통해 긍,부정별 주요 키워드 및 스코어를 도출합니다.

3. Sentiment Model을 생성합니다. 모델링 기법별로 다수의 모델이 생성되며 Validation을 거쳐 최종 모델을 채택합니다.

4. 필요에 따라 주요키워드를 이용한 Rule 모델을 생성합니다.

5. Statistical 모델과 Rule-base 모델을 결합한 Hybrid 모델의 생성합니다.

 

* 주요 특징

1. Machine Learning 운영

- Preprocessing : 중복 문서, Cutoff Rule 등의 노이즈 제거 단계

- Feature Extraction : Training data의 학습을 통한 feature 도출합니다. 

  ( 긍/부정 문서 학습을 통한 학습률(training rate)을 향상합니다.)

- Classification : Tagging에 대한 정확도 및 긍/부정 분류를 학습합니다.

- Sentiment : 긍/부정 분류 및 강도를 분석합니다.

 

2. 감성어 사전

- 긍정 / 부정에 대한 dictionary가 필요합니다.

 

* 활용방안 

- 회사 브랜드 및 제품 평판을 모니터링 할 수 있습니다.

- 경쟁사 대비 제품 경쟁력을 분석합니다. 제품의 주요 기능별 긍정/ 부정 스코어를 비교 분석합니다. 

- 이슈 조기 발견 및 방어를 할 수 있습니다. 기업 윤리 등 critical social issue를 조기 발견 할 수 있습니다. 

 

Version history
Last update:
‎04-20-2021 05:05 AM
Updated by:
Contributors

sas-innovate-white.png

Special offer for SAS Communities members

Save $250 on SAS Innovate and get a free advance copy of the new SAS For Dummies book! Use the code "SASforDummies" to register. Don't miss out, May 6-9, in Orlando, Florida.

 

View the full agenda.

Register now!

Article Labels
Article Tags