BookmarkSubscribeRSS Feed

[ SAS 활용 노하우 ] Text Analysis part2

Started ‎04-09-2021 by
Modified ‎04-09-2021 by
Views 512

 

이번 게시글은 [ SAS 활용 노하우 ] Text Analysis part1의 이어지는 글 입니다.

 

4. Association Rules

두개 이상의 키워드간의 상호 관련성을 수치적으로 표현하는 통계 기법입니다.

 

예시

 

그림1.png

 

* 주요 지표 

지지도(Support)와 신뢰도(Confidence)는 연관성 분석에서 사용되는 주요 지표로서, 지지도는 해당 규칙이 전체 문서에서 갖는 통계적 중요성을 나타내며, 신뢰도는 해당 연관 규칙의 강도를 나타냅니다.

 

  • 해당 연관 규칙 R : X ↔ Y 의 규칙이 성립할 때, 

문서 X의 지지(Support) = x 열람인수 / 전체 열람인수

문서 X ↔ Y의 신뢰도 (Confidence) = X & Y 열람인수 / X 열람인수

 

* 분석 예시

1) 문서 A의 지지도(Support) = 3(직원 1,2,3) / 4(직원 1,2,3,4) = 0.75 (75%)

    문서 A를 열람하지 않은 직원 4에게 문서 A를 추천

2) 문서 A ↔ B 신뢰도 (Confidence) = 2(직원 1,3) / 3(직원 1,2,3) = 0.67 (67%)

    문서 A를 열람 & 문서 B를 열람하지 않은 직원 2에게 문서 B추천

 

5. Market Basket Analysis

Association Rule과 유사, 상호 연관성을 계층(Hierarchy) 관계까지 고려하여 분석

 

* 예시

제품 Level 상위
무지방 우유 1 우유
저지방 우유 1 우유
전지 우유 1 우유
우유 2 유제품

 

그림1.png

 

 

  • Taxonomy를 이용한 계층화된 데이터 구조를 활용하여 관련성 검사
  • “저지방 우유” ↔ “스위스 치즈”, “저지방 우유” ↔ ”체다 치즈” 는 지지도가 낮아 Rule 을 미채택합니다.
  •  “저지방 우유” ↔ “치즈” 지지도/신뢰도 상승으로 인한 Rule을 채택합니다.

 

* 주요 기능

  • 항목간의 독립으로 인해 발견하지 못하는 연관성이 발견됩니다. 

  레벨이 다른 "4대강"과 "오염"은 지지도와 신뢰도가 낮아져 Rule이 채택되지 않습니다.

 

  • 모든 계층내의 키워드간의 모든 경우의 수의 상관도를 분석합니다.

  Ex) "저지방우유 - 스위스치즈" , "저지방우유 - 체다치즈" , "저지방우유 - 체다치즈" 모두 분석합니다.)

 

* 활용방안

  • Association Rule에서 발견하지 못하는 미분류 데이터의 적합한 감성분석/분류분석 Rule을 도출합니다.
  • 감성분석/분류분석 Rule이 도출됩니다.
  • 계층데이터는 데이터 사전에 추가합니다.
  • 문서의 추천 기능

 

6. SVD (Singular Value Decomposition)

다수의 변수를 갖는 데이터의 이해를 높이기 위해 변수를 통합/축소하는 기법으로 텍스트 데이터의 경우 주요 키워드 및 표현을 찾는데 활용됩니다.

 

* 정형데이터에서의 SVD예시

[소스 데이터]

  국어 영어 음악 수학 과학 미술 윤리
학생1 90 80 50 36 52 55 82
학생2 52 42 55 72 74 71 61

 

[중간데이터]

  언어 수리 예능
국어 0.95 -0.7 0.1

영어

0.8 -0.5 0.4
음악 0 0.2 0.7
수학 -0.5 0.6 -0.2
과학 -0.4 0.8 0.1

 

[결과데이터]

  언어 수리 예능
학생1 127.1 54.1 28.1
학생2 41.2 120.0 94.1

 

* 결과의 해석

  •  과목별 점수를 이용하여 학생을 설명 (총 12 과목)
  • 12과목을 이용한 학생설명은 많은 시간이 소요
  • SVD를 이용하여 12개 과목을 3항목의 영역으로 통합
  • 국어, 영어는 언어영역을 설명하는 과목으로 분류
  • 각 학생의 과목별 점수가 아닌 영역별 점수를 이용하여 학생 설명
  • 학생1은 언어영역, 학생2는 수리영역으로 설명됨

 

* 주요 특성

  •  주성분 추출 - n개의 변수를 대표성이 있는 n보다 상당히 작은 K개로 축소합니다.
  • 전통적 분류분석과의 차이점 - 원천 데이터의 손상을 최소화하면서 변수의 특성을 가장 잘 통합할 수 있는 분석방법입니다.

 

* Big Data 활용

  •  차원에 적합한 정의를 통하여 Big Data 처리 속도, 분류율 향상 및 핵심 정보의 추출이 가능합니다.
  • Topic 분석에 활용합니다.
Version history
Last update:
‎04-09-2021 11:15 PM
Updated by:
Contributors

hackathon24-white-horiz.png

The 2025 SAS Hackathon Kicks Off on June 11!

Watch the live Hackathon Kickoff to get all the essential information about the SAS Hackathon—including how to join, how to participate, and expert tips for success.

YouTube LinkedIn

Article Labels
Article Tags