Data Mining이란?
대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정입니다.
통계학에서 패턴 인식에 다양한 계량 기법을 사용합니다.
Supervised Learning(지도학습)과 Unsupervised Learning(자율학습)으로 구분합니다.
1. 모델링의 유형
a. Supervise Learning
b. Unsupervised Learning
2. Modeling 절차
적용할 모델이 실세계를 적정 수준까지 끌어올리기 위해 일반화하는 과정
* 데이터 분할 & Training - Testing - Validation
* SAS Data 분할 Node
* Enterprise Guide에서 Modeling 절차
3. Classification & Clustering
자료 분류 Machine Learning Algorithm은 Classification과 Clustering으로 구분
Classification | Algorithm |
Enterprise Miner Node |
Decision Tree |
|
|
Boosting | ||
Naïve Bayes Classification |
- | |
K-Nearest Neighbor |
Clustering | Algorithm | Enterprise Miner Node |
Hierarchical Clustering |
||
K-Means |
4. Regression Analysis
Cause-Result(인과관계)분석으로서의 Regression은 추정할 목표변수에 따라 여러 가지Algorithm 유형으로 구분
* Regression 유형
Model | Y / 목표변수 유형 | 설명 |
Linear Regression | Continuous Interval |
Continuous, Interval, Ordinal 타입의 입력변수에 의해 설명되는 목표변수가 선형임을 가정 |
Non-Linear Regression | Continuous Interval |
Continuous, Interval, Ordinal 타입의 입력변수에 의해 설명되는 목표변수가 비선형임을 가정 |
Rank Regression | Ordinal |
Continuous, Interval, Ordinal 타입의 입력변수에 의해 설명되는 목표변수가 순위형임을 가정 |
Logistic Regression | Binary(0,1) |
Continuous, Interval, Ordinal 타입의 입력변수에 의해 설명되는 목표변수가 Binary임을 가정 |
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.
Early bird rate extended! Save $200 when you sign up by March 31.