BookmarkSubscribeRSS Feed

[ SAS 활용 노하우 ] Data Modeling part6

Started ‎03-14-2021 by
Modified ‎03-14-2021 by
Views 512

 

안녕하세요

이번 게시글은 [ SAS 활용 노하우 ] Data Modeling part5의 이어지는 글 입니다.

 

16. Regression

예측변수가 설명변수에 의해 어떻게 설명 또는 예측되는지 설명변수의 함수로 예측하는 분석방법입니다.

 

* Regression의 종류

1) Logistic Regression

종속변수의 범주가 0,1과 같이 이산형이고 설명변수가 k개인 경우에 적용합니다.

종속변수가 1또는 0이 될 확률을 설명할 수 있는 함수로 추정과 새로운 데이터가 각 범주에 속할 확률을 비교하여 판별 합니다.

 

2)Linear Regression

종속변수가 연속형이고 설명변수가 한 개 또는 k개인 경우에 적용합니다.

k개의 설명변수의 함수로서 종속변수와의 인과관계를 설명하는 정확한 예측을 수행합니다.

 

3) Non - Linear Regresssion

설명변수의 함수가 비선형 함수를 사용하는 회귀분석입니다.

 

4) Rank(ordinal) Logistic Regression

종속변수가 상,중,하와 같이 순서형 분류인 경우 사용합니다.

종속변수의 개수에 맞도록 확률을 추정합니다.

 

* Using Enterprise Miner 

회귀(Regression)노드를 이용하여 예측 모형 생성할 수 있습니다.

 

     그림1.png

 

 

 

* Regression 노드의 주요 속성

 

그림2.png

 

그림3.png

 

  1. 회위유형 : 사용자 회귀 유형 지정 (로지스틱/선형회귀)
  2. 다항식 항 : 비선형 회귀 분석을 수행을 위해 연속형 변수의 지정된 차수까지 모델 다항식항을 포함합니다.그림4.png
  3.  Ordinal Logistic Regression : 상, 중, 하가 있는 경우 변수 역할을 target, 레벨에서 ordinal로 선택하여 로지스틱 회귀를 수행합니다.

 

17. Neural Network

비선형 모형 중 하나로 반복적인 학습 과정을 거쳐 데이터에 내재되어 있는 패턴을 찾아가는 모델링 방법입니다.

 

* 신경망 구조

복잡한 구조를 가진 자료의 분류 및 예측에 사용되는 비선형 모형으로 입력층, 은닉층, 출력층으로 구성된 신경망을 MLP(Multi-Layer Perceptron ; 다층 신경망) 이라고 합니다.

 

입력층

(Input Layer)

각 입력 변수에 대응하는 마디

은닉층

(Hidden Layer)

입력층으로부터 전달되는 변수 값들의 선형 결합을 비선형 함수로 처리하여 출력층 또는 은닉층에 전달합니다.

출력층

(Output Layer)

타겟 변수에 대응하는 마디로 구성되며 여러 개의 타겟 변수 또는 세 개 이상의 수준을 사지는 범주형 타겟 변수가 있을 경우에는 여러 개의 출력마기가 존재합니다. 

 

* 결합/활성 함수

결합함수 : 입력층 또는 은닉층 마디 결합기능으로 대배분의 선형함수에 이용가능합니다.

활성함수 : 입력변수 또는 은닉 마디 결합을 변환하는 함수로 Logistic Function, Hypertangent Function등이 있습니다.

 

* Using Enterprise Miner

신경망(Neural Network) 노드를 이용하여 예측 모델을 생성합니다.

그림1.png

 

 

 

 

 

* Data Partition 노드의 주요 속성

 

그림2.png

 

1. 신경망 구조 : GLM , MLP, ORBFEQ, ORBFUN, NRBFEH 등 총 10가지 중 한 가지 선택가능합니다.

2. 은닉마디 수 : 은닉층에서 은닉 마디 수 설정 가능합니다. (1~64)

3. 은닉층 결합함수 : 신경망에서 사용될 결합함수

   종류: Linear, EQSlopes, EQRadial, EHRadial, EWRadial, EVRadial, Xradial 등

4. 은닉층 활성함수 : 신경망에서 사용될 활성함수 

    종류: Identify, Linear, Exponential, Reciprocal, Square, Logistic, Multiple Logistic 등

 

 

18. Two Stage

범주형 타겟과 연속형 타겟을 동시에 사용하며 모델링하는 방법

 

* Two Stage 목적

구매가 이루어졌다면 구매 금액이 얼마가 될지 예측하는 것처럼 구매여부(범주형 타겟), 금액(연속형 타겟)을 동시에 예측하고자 합니다.

 

* 방식

방법  

순차

(Sequential)

  • 범주형 타겟과 연속형 타겟에 대한 모델링이 각각 첫 번째와 두 번째 단계에서 실행합니다.
  • 전달 함수(Transfer function)와 필터링 옵션을 이용하여 두 번째 단계에서 어떤 데이터에 대해 모델을 생성할지 결정합니다.

병행

(Concurrent)

  • 연속형 타겟이 범주형 타겟에 비해 비이벤트 값을 모델링 전 결측치로 처리합니다.
  • 나머지 데이터를 이용하여 신경망 모델을 이용하여 모델링을 진행합니다.

 

* Using Enterprise Miner

Two Stage 노드를 이용하여 분석 예측 모델을 생성합니다.

그림1.png

 

 

 

 

 

* Two Stage 노드의 주요 속성

 

그림2.png

 

  1. 모델 유형 : 분석에 사용되는 모델링 방법 선택 ( 종류 : 순차, 병행 )
  2. 전이(Transfer) : 범주형 타겟 변수들 두 번째 단계의 모델로 통합하는 방법을 지정합니다.
    1. 확률 : 범주형 타겟의 이벤트 사후 확률을 이용합니다.
    2. 분류 : 예측 분류를 입력변수로 이용합니다.

 

그림3.png

 

  1. 병행 모델 : 병행 분석시 사용되는 신경망 모형 종류를 선택할 수 있습니다.

 

Version history
Last update:
‎03-14-2021 08:46 AM
Updated by:
Contributors

sas-innovate-white.png

🚨 Early Bird Rate Extended!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.

 

Lock in the best rate now before the price increases on April 1.

Register now!

Article Labels
Article Tags