이번 게시글은 [SAS 활용 노하우 ] Text Analysis part2의 이어지는 글입니다.
SVD기법을 이용해 텍스트내의 주요 키워드 및 토픽 발굴입니다.
* Topic Analysis 결과 예시
[용어]
[Topic]
Cutoff Rule을 토픽 가중치는 0.4이상, 용어 임계치는 0.3이상, 문서 임계치는 0.25이상으로 설정하였습니다.
* 결과 해석
- Cutoff를 통과한 토픽 가중치 용어를 활용하여 Topic 생성용 용어 선택합니다.
- 용어 임계치, 문서 임계치가 높은 순으로 Topic을 활용합니다.
( 교육 비용관련 Topic 도출 : " + 비싸다" / "너무" / "비용" / "펴다" / "교육" )
* 주요 특성
SVD 레벨 설정에 따라 다양한 분석관점을 도출할 수 있습니다.
Ex) Topic 1 : 교육, 비용, 비싸다.
Topic 2 : 교육, 활용, 만족하다.
Ex) Topic 1 : 교육, 비용
Topic 2 : 비용, 비싸다.
Topic 3 : 교육, 활용
Topic 4 : 활용, 만족하다.
* 활용 방안
특정 문서를 분류하거나 문서 특성을 정의하기 위한 분류체계로 상용 Taxonomy를 구매하거나 기존 분류체계를 분석관점에 맞게 수정하여 사용가능합니다.
* 주요 특성
* 구축 방법
* 유의 및 주의사항
문서간의 유사도를 체크하여 중복데이터로 인한 노이즈를 제거하는 방식입니다.
* 외부 데이터 소스 ( 트위터)
* 내부 데이터 소스
외부 데이터와 내부 데이터간 유사도를 산출하고 중복으로 판단할 Threshold를 설정합니다.
마지막으로 중복 처리 Policy를 설정합니다.
* 주요 특성
문서 기반 유사도를 분석합니다. 문서간 유사도를 측정하는 알고리즘은 다양하게 존재합니다.
Vectorial Similarity Model, Vector space model 등 다양한 모델이 있습니다.
예시)
문서 1 : 어벤저스 4 한국 촬영 루머의 시발점은 바로 스타그 인더스트리 서울 지사인 것이다.
> 빈도분석 : 어벤저스 4 [1번] , 한국 [1번], 활영[1번], 루머[1번], 시발점[1번], 스트그[1번], 인더스트리[1번], 서울[1번], 지사[1번]
문서2 : 어벤저스 4 한국 촬영은 루머도 아니다 뿐더러 짜투리신을 한국 촬영하다는 것도 아니다고
> 빈도 분석 : 어벤저스4[1번], 한국[2번], 활영[2번], 루머[1번], 자투리신[1번]
결론 : Cosine Similarity(키워드 빈도 비교 방식)으로 0.9439
- 중복 판단 Threshold(임계값)을 0.9로 설정한 경우, 문서1과 문서2는 중복으로 판단합니다.
- 중복이 발생할 경우, 중복 문서를 버릴 것인지 인정할 것인지 등의 중복 처리 정책이 필요합니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.
Lock in the best rate now before the price increases on April 1.