BookmarkSubscribeRSS Feed

[SAS 활용 노하우 ] Text Analysis part3

Started ‎04-18-2021 by
Modified ‎04-18-2021 by
Views 532

 

이번 게시글은 [SAS 활용 노하우 ] Text Analysis part2의 이어지는 글입니다.

 

7. Topic Analysis

SVD기법을 이용해 텍스트내의 주요 키워드 및 토픽 발굴입니다.

 

* Topic Analysis 결과 예시

 [용어]

그림1.png

 

  [Topic]

그림1.png

  Cutoff Rule을 토픽 가중치는 0.4이상, 용어 임계치는 0.3이상, 문서 임계치는 0.25이상으로 설정하였습니다.

 

* 결과 해석

- Cutoff를 통과한 토픽 가중치 용어를 활용하여 Topic 생성용 용어 선택합니다.

- 용어 임계치, 문서 임계치가 높은 순으로 Topic을 활용합니다.

( 교육 비용관련 Topic 도출 : " + 비싸다" / "너무" /  "비용" / "펴다" / "교육" )

 

* 주요 특성

SVD 레벨 설정에 따라 다양한 분석관점을 도출할 수 있습니다.

  • SVD 레벨이 높으면, 변수의 축소가 많습니다. 그 결과, 설명력이 우수하지만 Topic 수가 적습니다.

Ex) Topic 1 : 교육, 비용, 비싸다.

      Topic 2 : 교육, 활용, 만족하다.

 

  • SVD 레벨이 낮으면 설명력이 저하되고 Topic 수가 많아집니다.

Ex) Topic 1 : 교육, 비용

      Topic 2 : 비용, 비싸다.

      Topic 3 : 교육, 활용

      Topic 4 : 활용, 만족하다. 

 

* 활용 방안

  • 결과 데이터만으로 전체 텍스트의 수치적 요약이 가능합니다.
  • 용어리스트는 사전작성 시 용어 및 가중치 점수로 활용할 수 있습니다.
  • 임계치(용어, 문서) 설정으로 노이즈가 제거된 Topic을 생성 할 수 있습니다.

 

8. Taxonomy

특정 문서를 분류하거나 문서 특성을 정의하기 위한 분류체계로 상용 Taxonomy를 구매하거나 기존 분류체계를 분석관점에 맞게 수정하여 사용가능합니다.

 

* 주요 특성

  • 문서 자체의 분류 체계 또는 텍스트에서 추출하고자 하는 유의한 분석 변수의 계층적 리스트를 작성합니다.

 

* 구축 방법

  • 기존 코드 체계를 차용합니다.
  • 상용 Taxonomy 구매할 수 있습니다. ( Ex: WAND 회사는 7만개의 Taxonomy를 보유하고 있습니다.)
  • Wikipedia Taxonomy 사용할 수 있습니다.
  • 보유한 소스 텍스트에서 주요 키워드/ 표현을 추출해 그룹핑하여 설계합니다. ( Bottom - Up 방식을 사용합니다.)

 

* 유의 및 주의사항

  • 업무담당자 참여 및 Iteration 방법론에 의한 지속적인 검토가 필요합니다.
  • 해당 분류에는 Unique 텍사노미 작성을 통한 Uniqye 분류를 수행합니다.

 

9. Document Duplication Detection

문서간의 유사도를 체크하여 중복데이터로 인한 노이즈를 제거하는 방식입니다.

 

* 외부 데이터 소스 ( 트위터)

그림1.png

 

* 내부 데이터 소스

그림2.png

 

외부 데이터와 내부 데이터간 유사도를 산출하고 중복으로 판단할 Threshold를 설정합니다.

마지막으로 중복 처리 Policy를 설정합니다.

 

* 주요 특성

문서 기반 유사도를 분석합니다. 문서간 유사도를 측정하는 알고리즘은 다양하게 존재합니다.

Vectorial Similarity Model, Vector space model 등 다양한 모델이 있습니다.

 

예시)

문서 1 : 어벤저스 4 한국 촬영 루머의 시발점은 바로 스타그 인더스트리 서울 지사인 것이다.

> 빈도분석 : 어벤저스 4 [1번]  , 한국 [1번], 활영[1번], 루머[1번], 시발점[1번], 스트그[1번], 인더스트리[1번], 서울[1번], 지사[1번]

 

문서2 : 어벤저스 4 한국 촬영은 루머도 아니다 뿐더러 짜투리신을 한국 촬영하다는 것도 아니다고

> 빈도 분석 : 어벤저스4[1번], 한국[2번], 활영[2번], 루머[1번], 자투리신[1번]

 

결론 : Cosine Similarity(키워드 빈도 비교 방식)으로 0.9439

 

- 중복 판단 Threshold(임계값)을 0.9로 설정한 경우, 문서1과 문서2는 중복으로 판단합니다.

- 중복이 발생할 경우, 중복 문서를 버릴 것인지 인정할 것인지 등의 중복 처리 정책이 필요합니다.

 

Version history
Last update:
‎04-18-2021 11:35 AM
Updated by:
Contributors

sas-innovate-white.png

🚨 Early Bird Rate Extended!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.

 

Lock in the best rate now before the price increases on April 1.

Register now!

Article Labels
Article Tags