이번 게시글은 [SAS 활용 노하우 ] Text Analysis part2의 이어지는 글입니다.
7. Topic Analysis
SVD기법을 이용해 텍스트내의 주요 키워드 및 토픽 발굴입니다.
* Topic Analysis 결과 예시
[용어]
[Topic]
Cutoff Rule을 토픽 가중치는 0.4이상, 용어 임계치는 0.3이상, 문서 임계치는 0.25이상으로 설정하였습니다.
* 결과 해석
- Cutoff를 통과한 토픽 가중치 용어를 활용하여 Topic 생성용 용어 선택합니다.
- 용어 임계치, 문서 임계치가 높은 순으로 Topic을 활용합니다.
( 교육 비용관련 Topic 도출 : " + 비싸다" / "너무" / "비용" / "펴다" / "교육" )
* 주요 특성
SVD 레벨 설정에 따라 다양한 분석관점을 도출할 수 있습니다.
SVD 레벨이 높으면, 변수의 축소가 많습니다. 그 결과, 설명력이 우수하지만 Topic 수가 적습니다.
Ex) Topic 1 : 교육, 비용, 비싸다.
Topic 2 : 교육, 활용, 만족하다.
SVD 레벨이 낮으면 설명력이 저하되고 Topic 수가 많아집니다.
Ex) Topic 1 : 교육, 비용
Topic 2 : 비용, 비싸다.
Topic 3 : 교육, 활용
Topic 4 : 활용, 만족하다.
* 활용 방안
결과 데이터만으로 전체 텍스트의 수치적 요약이 가능합니다.
용어리스트는 사전작성 시 용어 및 가중치 점수로 활용할 수 있습니다.
임계치(용어, 문서) 설정으로 노이즈가 제거된 Topic을 생성 할 수 있습니다.
8. Taxonomy
특정 문서를 분류하거나 문서 특성을 정의하기 위한 분류체계로 상용 Taxonomy를 구매하거나 기존 분류체계를 분석관점에 맞게 수정하여 사용가능합니다.
* 주요 특성
문서 자체의 분류 체계 또는 텍스트에서 추출하고자 하는 유의한 분석 변수의 계층적 리스트를 작성합니다.
* 구축 방법
기존 코드 체계를 차용합니다.
상용 Taxonomy 구매할 수 있습니다. ( Ex: WAND 회사는 7만개의 Taxonomy를 보유하고 있습니다.)
Wikipedia Taxonomy 사용할 수 있습니다.
보유한 소스 텍스트에서 주요 키워드/ 표현을 추출해 그룹핑하여 설계합니다. ( Bottom - Up 방식을 사용합니다.)
* 유의 및 주의사항
업무담당자 참여 및 Iteration 방법론에 의한 지속적인 검토가 필요합니다.
해당 분류에는 Unique 텍사노미 작성을 통한 Uniqye 분류를 수행합니다.
9. Document Duplication Detection
문서간의 유사도를 체크하여 중복데이터로 인한 노이즈를 제거하는 방식입니다.
* 외부 데이터 소스 ( 트위터)
* 내부 데이터 소스
외부 데이터와 내부 데이터간 유사도를 산출하고 중복으로 판단할 Threshold를 설정합니다.
마지막으로 중복 처리 Policy를 설정합니다.
* 주요 특성
문서 기반 유사도를 분석합니다. 문서간 유사도를 측정하는 알고리즘은 다양하게 존재합니다.
Vectorial Similarity Model, Vector space model 등 다양한 모델이 있습니다.
예시)
문서 1 : 어벤저스 4 한국 촬영 루머의 시발점은 바로 스타그 인더스트리 서울 지사인 것이다.
> 빈도분석 : 어벤저스 4 [1번] , 한국 [1번], 활영[1번], 루머[1번], 시발점[1번], 스트그[1번], 인더스트리[1번], 서울[1번], 지사[1번]
문서2 : 어벤저스 4 한국 촬영은 루머도 아니다 뿐더러 짜투리신을 한국 촬영하다는 것도 아니다고
> 빈도 분석 : 어벤저스4[1번], 한국[2번], 활영[2번], 루머[1번], 자투리신[1번]
결론 : Cosine Similarity(키워드 빈도 비교 방식)으로 0.9439
- 중복 판단 Threshold(임계값)을 0.9로 설정한 경우, 문서1과 문서2는 중복으로 판단합니다.
- 중복이 발생할 경우, 중복 문서를 버릴 것인지 인정할 것인지 등의 중복 처리 정책이 필요합니다.
... View more