이번 게시글은 [ SAS 활용 노하우 ] Text Analysis part1의 이어지는 글 입니다.
두개 이상의 키워드간의 상호 관련성을 수치적으로 표현하는 통계 기법입니다.
예시
* 주요 지표
지지도(Support)와 신뢰도(Confidence)는 연관성 분석에서 사용되는 주요 지표로서, 지지도는 해당 규칙이 전체 문서에서 갖는 통계적 중요성을 나타내며, 신뢰도는 해당 연관 규칙의 강도를 나타냅니다.
문서 X의 지지(Support) = x 열람인수 / 전체 열람인수
문서 X ↔ Y의 신뢰도 (Confidence) = X & Y 열람인수 / X 열람인수
* 분석 예시
1) 문서 A의 지지도(Support) = 3(직원 1,2,3) / 4(직원 1,2,3,4) = 0.75 (75%)
문서 A를 열람하지 않은 직원 4에게 문서 A를 추천
2) 문서 A ↔ B 신뢰도 (Confidence) = 2(직원 1,3) / 3(직원 1,2,3) = 0.67 (67%)
문서 A를 열람 & 문서 B를 열람하지 않은 직원 2에게 문서 B추천
Association Rule과 유사, 상호 연관성을 계층(Hierarchy) 관계까지 고려하여 분석
* 예시
제품 | Level | 상위 |
무지방 우유 | 1 | 우유 |
저지방 우유 | 1 | 우유 |
전지 우유 | 1 | 우유 |
우유 | 2 | 유제품 |
* 주요 기능
레벨이 다른 "4대강"과 "오염"은 지지도와 신뢰도가 낮아져 Rule이 채택되지 않습니다.
Ex) "저지방우유 - 스위스치즈" , "저지방우유 - 체다치즈" , "저지방우유 - 체다치즈" 모두 분석합니다.)
* 활용방안
다수의 변수를 갖는 데이터의 이해를 높이기 위해 변수를 통합/축소하는 기법으로 텍스트 데이터의 경우 주요 키워드 및 표현을 찾는데 활용됩니다.
* 정형데이터에서의 SVD예시
[소스 데이터]
국어 | 영어 | 음악 | 수학 | 과학 | 미술 | 윤리 | |
학생1 | 90 | 80 | 50 | 36 | 52 | 55 | 82 |
학생2 | 52 | 42 | 55 | 72 | 74 | 71 | 61 |
[중간데이터]
언어 | 수리 | 예능 | |
국어 | 0.95 | -0.7 | 0.1 |
영어 |
0.8 | -0.5 | 0.4 |
음악 | 0 | 0.2 | 0.7 |
수학 | -0.5 | 0.6 | -0.2 |
과학 | -0.4 | 0.8 | 0.1 |
[결과데이터]
언어 | 수리 | 예능 | |
학생1 | 127.1 | 54.1 | 28.1 |
학생2 | 41.2 | 120.0 | 94.1 |
* 결과의 해석
* 주요 특성
* Big Data 활용