BookmarkSubscribeRSS Feed

[ SAS 활용 노하우 ] Data Modeling part5

Started ‎03-08-2021 by
Modified ‎03-08-2021 by
Views 500

 

안녕하세요

이 포스팅은 [ SAS 활용 노하우 ] Data Modeling part4의 이어지는 게시글입니다.

 

13. PCA

PCA는 Principle Component Analysis는 관계성이 높은 변수들의 공통 성분을 추출하는 Algorithm입니다.

 

* 개념

가장 큰 분산을 가지는 방향이 첫 번째 주성분이며, 두번째로 가지는 방향이 두번째 주성분 이와 같은 방식으로 분서대로 이전 주성분과 서로 수직인 주성분이 구해집니다.

기존의 데이터를 새로운 축으로 사영(projection) 시키는 orthogonal Linear transformation

 

*목적

변수들간의 상과 관계(correlation)가 있는 것들은 서로 상관 관계가 없도록 변환하고,

입력 변수의 선형 결합(linear combination)으로 기존의 입력 변수 개수보다 적은 개수의 변수로도 분석이 가능합니다.

그 결과, 겉으로는 들어나지 않는 데이터의 특성을 파악 할 수 있습니다.

 

* 원리

  • 아래의 그림을 보면 데이터는 PC1축으로 사영 시켰을 때, 사영시킨 데이터들의 분산이 가장 큽니다. → 첫 번째 주성분 축
  • 첫 번째 주성분 축에 사영시킨 부분을 제외하고 나머지 부분에서 가장 큰 분산을 가지는 축을 찾아 두 번째 주성분으로 정의합니다.
  • 주성분을 찾기 위해서는 eigenvalue를 이용합니다.
  • 분산을 가장 크게 하는 단위 벡터 ( unit vector )를 찾는 것이 목적

그림1.png

 

* Enterprise Miner

 

그림2.png

 

 

그림1.png

 

[ 고유값 도표 ] 

각 주성분의 고유값을 나타내는 도표

파란 색 실선을 지정된 누적 고유값 임계치에 해당하는 주성분을 나타냅니다.

 

 

그림2.png

 

[ 주성분 행력 ] 

일부 주성분으로 각 타겟 레벨에 대한 상관관계 행렬을 보여줌

 

그림3.png

 

 각 주성분 별로 기존 입력 변수에 대한 계수를 도표로 나타냅니다.

계수의 절대값이 막대의 길이로 표현되고 막대의 색은 계수의 부호에 의해 결정됨

 

14. Variable Selection

입력변수들이 많을 때, 타겟변수와의 관계성이 높은 변수들만 추출하는 기법

 

* 목적

 타겟 변수와 무관한 입력 변수와 관련성이 높은 변수를 선택하여 이용함으로써 효율적 모형 구축 및 분석 비용과 시간 절약

 

* 절차

1. 이상치 데이터 제거

2. 변수에 대한 적절한 변환 또는 관측치의 대체

3. 로그 값을 변수 변환 실시

 

* 변수 선택 기준

 [ 명목형 변수 ]

  • 카이제곱(chi - sqaure) 통계량 이용
  • 의사결정트리 분석 과정과 유사하게 트리 구조 분석을 통해 입력 변수 선택
  • 입력 변수가 interval인 경우에 변수의 범위를 여러 구간으로 등분한 후 나눠진 변수를 class 변수로 간주하여 카이제곱 통계량을 구한 다음 변수 선택

[ 연속형 변수 ]

  • 결정계수(R 제곱) 이용
  • 타겟 변수와 관련성이 높은 입력 변수 선택
  • 각각의 입력 변수와 타겟 변수를 1:1로 대응시켜 각 입력 변수에 대한 결정계수 계산
  • 사전에 입력 변수에 대한 임계치를 지정하고 임계치와 결정계수를 비교하여 임계치보다 작은 결정계수를 가지는 입력 변수는 선택에서 제외
  • 입력 변수가 interval인 경우와 이산형인 경우 각각에 대해서 적절한 변환을 통해 복잡한 비선형(nonlinearity) 관계 파악

 

* Enterprise Miner

그림1.png

 

그림2.png

 

[ 모델 효과_ R square ]

정해진 개수 만큼 R 제곱 값이 큰 변수만 선택되어 R 제곱 값을 도표로 나타냄.

 

그림3.png

 

[ 카이 제곱 : 트리뷰 ]

카이제곱 타겟 모델에 의해 만들어진 트리맵을 제공합니다.

 

그림4.png

 

[ 변수 중요도 ]

입력 변수 중, 타겟 변수와 연관성 정도를 도표화합니다.

변수 별 요약 정보를 살펴볼 수 있는 기능을 제공합니다.

 

 

그림5.png

 

[ 모델 효과 _ R Square ]

정해진 개수 만큼 R 제곱 값이 큰 변수만 선택되어 R 제곱 값이 도표로 나타냅니다.

 

 

15. Decision Tree

의사결정트리는 자료를 분류(Classification)할 때 사용하는 ML로서 목표변수에 의해 지도학습이 이루어집니다. 자료를 분류할 때 의사 결정 규칙을 트리 구조로 도표화하여 분류 및 예측을 수행하는 분석 방법입니다.

 

  • Top-Down 트리 구조로 해석이 용이합니다.
  • 변수 간의 결합이 목표변수에 영향을 주는 정도를 규칙으로 제공하기 때문에 교호작용데 대해서는 해석이 용이합니다.
  • 연속형 자료가 정규화되어 있지 않더라도 자료 분류를 학습하는 비모수 모형

 

* 예시

 

그림1.png

 

1번 노드를 보면 전체 자료의 Good : Bad = 70 : 30의 비율이지만 DT Algorithm이 자료를 목표변수 Y를 추정(예측)하기 위해서 변수 경쟁(Competing)하는 분기 학습을 한 결과 3번 노드가 Good: Bad  = 86.9 : 11.1로 분기되면서 2,3번 노드의 순도가 증가하였습니다.

 

 * 분기 방법의 선택

 

카이제곱 통계량
  • p 값이 가장 작은 예측 변수와 그 때의 최적 분리에 의해 자식 노드를 형성합니다.
지니 지수
  • 불순도를 측정하는 하나의 지수로서 지니 지수를 가장 감소시켜주는 예측 변수와 그 때의 최적 분리에 의해 자식 노드를 형성합니다.
엔트로피 지수
  • 다항 분포에서의 우도비 검정 통계량을 사용할 때, 지수가 가장 작은 예측 변수와 그 때의 최적 분리에 의해 자식 노드를 형성합니다.

 

 

 * Enterprise Node

 

 그림1.png

 

그림2.png

 

[ 적합 통계량 ]

 

 

그림3.png

 

[ 변수 중요도 ]

 

 

Version history
Last update:
‎03-08-2021 01:40 AM
Updated by:
Contributors

sas-innovate-white.png

Missed SAS Innovate in Orlando?

Catch the best of SAS Innovate 2025 — anytime, anywhere. Stream powerful keynotes, real-world demos, and game-changing insights from the world’s leading data and AI minds.

 

Register now

Article Labels
Article Tags