BookmarkSubscribeRSS Feed

[SAS 활용 노하우 ] Data Modeling part3

Started ‎02-28-2021 by
Modified ‎02-28-2021 by
Views 505

 

안녕하세요

이번 게시글은 Data Modeling part2의 이어지는 글 입니다.

 

7. Data Partition

기존의 전체 데이터를 목적에 따라서 분할하고 분할된 데이터를 분석에 활용하기 위해 데이터 셋의 분할함

 

* 데이터 분할 목정

  • 단순히 모델만 세우는 것이 아니라 여러 모델 중에서 가장 우수한 모델을 비교하고 평가하기 위해서는 목적을 달리하는 데이터 셋이 필요

  • 기존의 전체 데이터를 목적에 따라서 분할하고 분할된 데이터를 분석에 활용

* 데이터 셋의 종류

Data Set description
분석용(train)

주어진 모델을 세우기 위해 사용

검증용(validate)

모델 비교 노드에서 가장 좋은 모델을 선정하기 위해서 사용. 혹은 지정된 모델에 가장 좋은 결과를 주는 모수(parameter)를 찾기 위해 사용

평가용(test)  최종적으로 모델의 generalization error의 추정치를 구하기 위해서 사용

 

* Enterprise Miner Node

그림1.png

Data Partition 노드를 이용하여 데이터 분할을 수행할 수 있습니다.

 

 

* Data Partition Node 

 

그림1.png

 

1) 분할 방법 -  샘플링 방법을 선택. simple random, cluster, stratified 셋 중에서 하나를 선택할 수 있습니다.

 

Simple random

모든 데이터가 동일한 확률을 가지고 분할(기본값)

Cluster

클러스터 변수를 설정하고 이 변수에 의해서 분할됨.

주어진 데이터 셋의 비율이 아니라 클러스터 변수의 비율로 분할

Stratified

특정 변수를 subgroup으로 지정하고 그 변수의 레벨 별 비율이 동일하게 분할

 

2) 데이터셋 할당 - 각 데이터셋의 비율 할당 

 

 

8. Association

Association은 둘 이상의 Item간의 관계 규칙을 발견하는 Algorithm

 

* 개념

  • 규칙을 통해 하나의 거래나 사건에 포함되어 있는 둘 이상의 항목(item) 간의 상호 관련성을 발견하는 작업입니다.
  • ex) 맥주를 사는 고객의 70%가 기저귀를 함께 구매
  • 연관성 규칙을 해석하는데 있어 원인과 결과의 직접적인 인과 관계로 판단하는 것은 무리가 있으며 두 개 또는 그 이상의 항목 사이의 상호 관련성으로 해석하는 것이 바람직함
  • 대용량의 데이터에서 의미 있는 규칙을 찾아내는 것은 쉽지 않음. 실제로 수많은 연관성 규칙을 도출하지만 정량화된 기준을 통해 합리적으로 찾아내는 작업도 중요

* 이론

  •  Support(지지도): 전체자료에 대한 관심 항목들의 발생 확률
  • Confidence(신뢰도): 추가로 구매될 확률(조건부 확률)
  • Lift(향상도): 신뢰도를 독립가정에서의 신뢰도로 나눈 값

그림1.png

 

* Enterprise Miner

그림1.png

 

그림1.png

     [ 규칙 기술 ]                                [ 규칙 테이블 ]

 

규칙 기술 : 생성된 규칙을 A ⇒ B 형태로 기술한 표

규칙 테이블 : 생성된 규칙에 대한 신뢰도, 향상도 및 규칙에 포함된 항목 등을 정리한 표

 

* 관련 그래프 

그림1.png

 

  • 각 항목 간의 연관성을 그래프로 보여줌
  • 노드의 크기와 색깔은 거래 횟수에 따라 달라짐
  • 큰 노드일수록 작은 노드들보다 큰 비중의 거래를 의미함
  • 연결선의 두께 역시 규칙의 신뢰도 수준을 보여주는 척도

 

 

9. Path Analysis

Path Analysis는 둘 이상의 Item간의 관계 규칙을 발견하는 Algorithm

 

* 개념

  • 연관성 분석이나 장바구니 분석과 마찬가지로 웹 로그에서 어떤 순서로 웹 페이지의 방문이 이뤄지는지 그 순서에 대한 규칙을 찾아내는 것
  • 예를 들어 A 페이지를 방문한 사람들 중에서 높은 확률로 B 페이지를 이어서 방문한다면 A → B 라는 규칙을 찾아냄
  • 생성된 규칙으로부터 사용자들이 어떤 규칙을 따라 행동하는지를 파악할 수 있음
  • 가장 빈번하게 나타나는 경로를 따르는 사용자들이 누구인지 확인할 수 있음

 

* 입력 데이터의 구조

 

그림1.png

 

  • 사용자와 요청된 페이지와 요청이 이뤄진 페이지에 대한 정보를 담고 있는 데이터를 입력 데이터로 사용

 * Enterprise Miner

그림1.png

 

 

그림2.png

                 [ 규칙 테이블 ]                                                                [ 항목 도표 ]

 

1) 규칙 테이블

  • 각 규칙을 상세히 기술한 표
  • 지지도와 신뢰도, 규칙에 포함된 항목과 규칙의 길이 등 규칙과 관련된 모든 항목을 포함하고 있음

2) 항목 도표

  • 규칙에 포함된 항목으로 그린 산점도
  • 각 점의 색은 지지도 값에 의해 결정됨

 

그림3.png

                                

                                                           [ 경로 도표 ]

 

Version history
Last update:
‎02-28-2021 02:52 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags