BookmarkSubscribeRSS Feed

[SAS 활용 노하우 ] Data Modeling part1

Started ‎02-26-2021 by
Modified ‎02-26-2021 by
Views 447

 

Data Mining이란?

대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정입니다.

통계학에서 패턴 인식에 다양한 계량 기법을 사용합니다.

Supervised Learning(지도학습) Unsupervised Learning(자율학습)으로 구분합니다.

 

1. 모델링의 유형 

a. Supervise Learning

  • Training Data(훈련자료)로부터 함수[Y=f(Xn)]의 Y를 추정하기 위하여 ML의 방법으로 설명할 수 있는 변수(X1, X2, …, Xn)가 주어졌을 때, X 변수들의 값들을 다양한 방법으로 학습하여, 이용하여 Y를 추정하는 모델을 만들 수 있도록 고안된 알고리즘.
  • 연관성 분석, 클러스터링, 장바구니 분석, 경로분석 , 주성분 분석, Som / Kohonen

 

 b. Unsupervised Learning

  • 타겟 변수 Training Data(훈련자료)로 부터 속성들간의 유사 또는 이질 정도를 구분하는 학습으로 속성이 많을 때 자료 분류를 뚜렷하게 해주는 속성들로 변수 축소를 하는 ML방법
  • 자동신경망, DM신경망 , 신경망, 의사결정트리, Dmine 회귀분석, 부분최소제곱법 , 회귀, LARS , MBR

 

2. Modeling 절차

  • ML 기반의 모델링은 학습(Training)-시험(Testing)-입증(Validation)의 순서로 모델링을 진행
  • 적용할 모델이 실세계를 적정 수준까지 끌어올리기 위해 일반화하는 과정

* 데이터 분할 & Training - Testing - Validation 

 

스크린샷 2021-02-26 오후 8.44.13.png

 

* SAS Data 분할 Node

그림1.png

 

* Enterprise Guide에서 Modeling 절차

스크린샷 2021-02-26 오후 8.35.51.png

 

3. Classification & Clustering

자료 분류 Machine Learning Algorithm은 Classification과 Clustering으로 구분

  • Clustering은 사용자의 목적 여부와 무관하게 자동 학습을 하는 Data 탐색의 과정
  • Classification은 사용자가 그 분류를 정의하고 분석하고자 하는 목적이 포함

 

Classification   Algorithm

 Enterprise Miner Node

  Decision Tree

그림1.png

  Boosting  그림1.png
 

Naïve Bayes Classification

 

K-Nearest Neighbor

그림1.png

 

Clustering  Algorithm Enterprise Miner Node
 

Hierarchical Clustering

그림1.png
 

K-Means

그림1.png

 

4. Regression Analysis

Cause-Result(인과관계)분석으로서의 Regression은 추정할 목표변수에 따라 여러 가지Algorithm 유형으로 구분

 

* Regression 유형

Model Y / 목표변수 유형 설명
Linear Regression Continuous Interval

Continuous, Interval, Ordinal 타입의 입력변수에 의해 설명되는 목표변수가 선형임을 가정

Non-Linear Regression Continuous Interval

Continuous, Interval, Ordinal 타입의 입력변수에 의해 설명되는 목표변수가 비선형임을 가정

Rank Regression  Ordinal

Continuous, Interval, Ordinal 타입의 입력변수에 의해 설명되는 목표변수가 순위형임을 가정

Logistic Regression Binary(0,1)

Continuous, Interval, Ordinal 타입의 입력변수에 의해 설명되는 목표변수가 Binary임을 가정

 

 

Version history
Last update:
‎02-26-2021 07:16 AM
Updated by:
Contributors

sas-innovate-white.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.

 

Early bird rate extended! Save $200 when you sign up by March 31.

Register now!

Article Labels
Article Tags