Application of Link Analysis to transactional data in SAS Enterprise Miner 12.3
1. 링크분석의 필요성
- 어느 웹사이트가 다른 어떤 사이트와 관련이 있을까?
- 누가 누구에게 전화를 걸까?
- 어떤 의사가 어느 환자에게 무슨 약을 처방할까?
-> 이러한 관계는 모두 데이터를 통해 볼 수 있고,
특히 이 관계는 대부분의 데이터 마이닝 기술은 직접적으로 이용할 수 없는
어떠한 풍부한 정보를 가지고 있습니다.
-> 즉, 링크 분석은 데이터 안에서의 관계와 연관성을 이해하는 필요성에 대해 이야기 해줍니다.
2. INPUT DATA
전형적인 트랜젝션 데이터는 ID, Target, 연속변수(선택적) 등을 포함합니다.
예를 들면, 아래와 같은 변수를 말할 수 있습니다.
고객을 정의하는 ID변수[CUSTOMER] – 0(비회원), 1(일반회원), 2(우수고객), …
상품을 정의하는 명목형 타겟 변수[PRODUCT] – Olives, Soda …
시간을 나타내는 연속형 변수 [TIME]– 0.0, 1.0, 2.0, …
5. STEP TWO! – Transformation
item constellation plot을 그리기 위해 규칙들을 노드와 링크로 변형합니다.
- 1-item set은 node data로 변경
- 2-item 연관성 (sequence) 규칙은 undirected (directed) links data로 변경
- 변경된 두 data를 바탕으로 item constellation plot을 그립니다.
6. STEP THREE! – Analysis
- node와 link data로 network analysis(연결망 분석)에 적용합니다.
* 중심성 측도(centrality measures) : 외향 중심성(out-degree centrality), 근접 중심성(closeness sentrality), clustering coefficient centrality 등
* item-clusters(communitues in network analysis) : 노드안에서는 연결 정도의 밀도가 높은
즉, 밀집되어 있지만 노드들 사이에서는 연결 정도의 밀도가 희박한 그룹을 말합니다.
7. STEP FOUR! – Visualization
- SAS Enterprise Miner Link Analysis node로 다양하게 시각화할 수 있습니다.
▶ items constellation plot
▶ exploratory plot for transactional data
▶ node frequency histogram
▶ centrality measures histogram
8. Link analysis scoring
◆ Recommendation Tables
- Generate Recommendation Tables 옵션을 Yes로 두기
[Scored data = Recommendation data]
◆ Segmentation Information
- Generate Recommendation Tables 옵션을 No로 두기
- Scored data는 각 고객(Customer)마다의 Segmentation Information이 컬럼으로
추가됩니다.
아래의 URL을 참고하세요 ^^
http://www.youtube.com/watch?v=-5Sx44C_RCo&feature=em-uploademail
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.