안녕하세요
이번 게시글은 Data Modeling part2의 이어지는 글 입니다.
7. Data Partition
기존의 전체 데이터를 목적에 따라서 분할하고 분할된 데이터를 분석에 활용하기 위해 데이터 셋의 분할함
* 데이터 분할 목정
단순히 모델만 세우는 것이 아니라 여러 모델 중에서 가장 우수한 모델을 비교하고 평가하기 위해서는 목적을 달리하는 데이터 셋이 필요
기존의 전체 데이터를 목적에 따라서 분할하고 분할된 데이터를 분석에 활용
* 데이터 셋의 종류
Data Set | description |
분석용(train) |
주어진 모델을 세우기 위해 사용 |
검증용(validate) |
모델 비교 노드에서 가장 좋은 모델을 선정하기 위해서 사용. 혹은 지정된 모델에 가장 좋은 결과를 주는 모수(parameter)를 찾기 위해 사용 |
평가용(test) | 최종적으로 모델의 generalization error의 추정치를 구하기 위해서 사용 |
* Enterprise Miner Node
Data Partition 노드를 이용하여 데이터 분할을 수행할 수 있습니다.
* Data Partition Node
1) 분할 방법 - 샘플링 방법을 선택. simple random, cluster, stratified 셋 중에서 하나를 선택할 수 있습니다.
Simple random |
모든 데이터가 동일한 확률을 가지고 분할(기본값) |
Cluster |
클러스터 변수를 설정하고 이 변수에 의해서 분할됨. 주어진 데이터 셋의 비율이 아니라 클러스터 변수의 비율로 분할 |
Stratified |
특정 변수를 subgroup으로 지정하고 그 변수의 레벨 별 비율이 동일하게 분할 |
2) 데이터셋 할당 - 각 데이터셋의 비율 할당
8. Association
Association은 둘 이상의 Item간의 관계 규칙을 발견하는 Algorithm
* 개념
* 이론
* Enterprise Miner
[ 규칙 기술 ] [ 규칙 테이블 ]
규칙 기술 : 생성된 규칙을 A ⇒ B 형태로 기술한 표
규칙 테이블 : 생성된 규칙에 대한 신뢰도, 향상도 및 규칙에 포함된 항목 등을 정리한 표
* 관련 그래프
9. Path Analysis
Path Analysis는 둘 이상의 Item간의 관계 규칙을 발견하는 Algorithm
* 개념
* 입력 데이터의 구조
* Enterprise Miner
[ 규칙 테이블 ] [ 항목 도표 ]
1) 규칙 테이블
2) 항목 도표
[ 경로 도표 ]
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.