안녕하세요
이 포스팅은 [ SAS 활용 노하우 ] Data Modeling part4의 이어지는 게시글입니다.
PCA는 Principle Component Analysis는 관계성이 높은 변수들의 공통 성분을 추출하는 Algorithm입니다.
* 개념
가장 큰 분산을 가지는 방향이 첫 번째 주성분이며, 두번째로 가지는 방향이 두번째 주성분 이와 같은 방식으로 분서대로 이전 주성분과 서로 수직인 주성분이 구해집니다.
기존의 데이터를 새로운 축으로 사영(projection) 시키는 orthogonal Linear transformation
*목적
변수들간의 상과 관계(correlation)가 있는 것들은 서로 상관 관계가 없도록 변환하고,
입력 변수의 선형 결합(linear combination)으로 기존의 입력 변수 개수보다 적은 개수의 변수로도 분석이 가능합니다.
그 결과, 겉으로는 들어나지 않는 데이터의 특성을 파악 할 수 있습니다.
* 원리
* Enterprise Miner
[ 고유값 도표 ]
각 주성분의 고유값을 나타내는 도표
파란 색 실선을 지정된 누적 고유값 임계치에 해당하는 주성분을 나타냅니다.
[ 주성분 행력 ]
일부 주성분으로 각 타겟 레벨에 대한 상관관계 행렬을 보여줌
각 주성분 별로 기존 입력 변수에 대한 계수를 도표로 나타냅니다.
계수의 절대값이 막대의 길이로 표현되고 막대의 색은 계수의 부호에 의해 결정됨
입력변수들이 많을 때, 타겟변수와의 관계성이 높은 변수들만 추출하는 기법
* 목적
타겟 변수와 무관한 입력 변수와 관련성이 높은 변수를 선택하여 이용함으로써 효율적 모형 구축 및 분석 비용과 시간 절약
* 절차
1. 이상치 데이터 제거
2. 변수에 대한 적절한 변환 또는 관측치의 대체
3. 로그 값을 변수 변환 실시
* 변수 선택 기준
[ 명목형 변수 ]
[ 연속형 변수 ]
* Enterprise Miner
[ 모델 효과_ R square ]
정해진 개수 만큼 R 제곱 값이 큰 변수만 선택되어 R 제곱 값을 도표로 나타냄.
[ 카이 제곱 : 트리뷰 ]
카이제곱 타겟 모델에 의해 만들어진 트리맵을 제공합니다.
[ 변수 중요도 ]
입력 변수 중, 타겟 변수와 연관성 정도를 도표화합니다.
변수 별 요약 정보를 살펴볼 수 있는 기능을 제공합니다.
[ 모델 효과 _ R Square ]
정해진 개수 만큼 R 제곱 값이 큰 변수만 선택되어 R 제곱 값이 도표로 나타냅니다.
의사결정트리는 자료를 분류(Classification)할 때 사용하는 ML로서 목표변수에 의해 지도학습이 이루어집니다. 자료를 분류할 때 의사 결정 규칙을 트리 구조로 도표화하여 분류 및 예측을 수행하는 분석 방법입니다.
* 예시
1번 노드를 보면 전체 자료의 Good : Bad = 70 : 30의 비율이지만 DT Algorithm이 자료를 목표변수 Y를 추정(예측)하기 위해서 변수 경쟁(Competing)하는 분기 학습을 한 결과 3번 노드가 Good: Bad = 86.9 : 11.1로 분기되면서 2,3번 노드의 순도가 증가하였습니다.
* 분기 방법의 선택
카이제곱 통계량 |
|
지니 지수 |
|
엔트로피 지수 |
|
* Enterprise Node
[ 적합 통계량 ]
[ 변수 중요도 ]
Catch the best of SAS Innovate 2025 — anytime, anywhere. Stream powerful keynotes, real-world demos, and game-changing insights from the world’s leading data and AI minds.