안녕하세요
이번 게시글은 [SAS 활용 노하우] Data Modeling part6의 이어지는 게시글입니다.
Support Vector Machine으로 선행학습을 통한 분류기준 알고리즘을 구축하도록 하는 기계학습 방법론입니다.
* 개념
Support Vector: 그룹간의 가장 인접한 벡터
초평면(Hyperplane) : 데이터를 분리하는 면
Maximum margin Hyperplane : 그룹 경계의 벡터(데이터)를 활용, Margin을 최대로 확보할 수 있는 선이나 면으로 설정할 수 있습니다.
* Classic Classification
* 초평면(Hyperplane)을 통한 분류
* Using Enterprise Miner
SVM 노드를 이용하여 분류 모델을 생성할 수 있습니다.
* SVM 노드의 주요 속성
- 커널 : 계산 시간 단축을 위해 3차원 벡터를 이용한 연산 없이 원래 차원인 2차원에서의 계산을 위한 함수 종류로 순차/병행이 있다.
둘 이상의 분석 방법을 하나의 결과로 결합하여 최종 예측 결과를 추정하느 방법입니다.
* 목적
다양한 방법으로 얻은 분석 모형을 결합하거나, 하나의 자료에서 다수의 분석용을 생성하여 각 분석자료에 대해 동일한 알고리즘으로 모형을 생성 후 그 결과를 결합하여 예측 정확도 향상을 목적으로 하고 있습니다.
* Ensemble 종류
1. 배깅 ( bagging ) : 트리모형, 신경망, 로지스틱 회귀모형 등 다양한 방법에 적용될 수 있지만, 계산속도가 빠른 트리모형에 적용이 효과적입니다. 그리고, 분석자료에 민감하여 새로운 자료에 대해 예측오류가 커질 방법에 적용할 경우 예측 정확성이 향상될 수 있습니다.
2. 부스팅 (Boosting) : 각 모형 생성을 위해 부트스트랩 표본 추출 시 분석 자료의 관측치에 대해 표본추출 확률을 단계별로 계산합니다. 표본추출 확률을 조장하여 Train이 미흡하여 오분류된 관측치에 대한 학습을 강화하여 예측 정확도 향상을 기대할 수 있습니다.
*Using Enterprise Miner
앙상블(Ensemble) 노드 또는 그룹시작/종류
* 앙상블 노드의 주요 속성
* 그룹 시작 노드의 주요 속성
1. 연속, 범주형 타겟에 대한 모델 결합 방법 : 평균, 최대, 대수결
2. 앙상블 기법 선택 - Bagging, Boosting 선택할 수 있습니다.
3. 인덱스 개수: 부트스트랩 표본추출 개수 선택할 수 있습니다.
4. 백분율 : 부트스트랩 표본추출 시 표본 비율을 입력할 수 있습니다.
같은 목적으로 여러 개의 모델을 생성하였을 때 이들을 서로 비교하여 가장 적합한 모델을 선정하는 방법입니다.
* 모델 비교시 사용하는 척도
분류 : ROC 커브, ROC 커브 아래의 면적 등의 척도
데이터마이닝: 리프트, 이익, 손실 등의 척도
통계 : BIC, AIC, Gini계수, Kolmogorov-Smirnov 통계량등의 척도
* 데이터 마이닝 척도
이익 차트와 리프트 차트가 가장 대표적인 데이터 마이닝 척도입니다.
데이터를 사후 확률에 대해 내림차순으로 정렬하여 분위수에 따라 그룹으로 나눈 다음 각 그룹에서는 반응률, 반응검출률, 리프트 등을 계산할 수 있습니다.
반응률(%Response) : 그룹 내에서 이벤트라고 예측한 수에 대해 실제 이벤트 수에대한 비율
반응검출률(%Captured Response) : 전체 이벤트 수 중에서 그룹 내에 실제 이벤트의 수의 비율
리프트(%Lift): 기준 대비 반응률
*Using Enterprise Miner
Model Comparision 노드를 이요하여 모델 비교/평가를 수행합니다.
* Model Comparison 노드의 주요 속성
1. 데이터 선택 - [ 통계량 선택 ] 에서 '기본'을 제외한 적합통계량을 지겆ㅂ 지정한 경우 어떤 종류의 데이터셋을 기준으로 모델을 선택할지 결정합니다.
2. 통게량 선택 - 모델 선택에 사용될 적합통계량을 지정합니다.
Akaike 정보 기준, 평균(Average) 제곱오차, 평균(Mean) 제곱오차, ROC , 검출률 이득, Gini 계수, Kolmogorov-Smirnov 통계, 리프트, 오분류 비율, 평균 이익/손실, 반응률, 누적검출률, 누적반응률, 누적리트르의 통계량을 선택할 수 있습니다.
성향이 비슷한 고객과의 비교를 통해 상품을 추천하며, 많은 정보를 통해 정확하고 복잡한 추천을 하는 방법
* 개념
* 장점
1. Machine-Analyzable content에 한정되지 않습니다.
2. Item에 대한 이해 없이 정확하고 복잡한 추천이 가능합니다.
*단점
1. Cold Start: 초기 자료 수집에 많은 시간이 필요합니다.
2. Sclability : 대용량 자료 처리 능력이 필요합니다.
3. Sparsity : 구매 수에 비해 후기 수가 적습니다.
* Using SAS
1. User-Search Matrix 생성합니다.
2. Proc Distance를 이용하여 유사성을 산출합니다.
* Syntax
proc distance data=b method=EUCLID out=c ;
var interval(x1 -- x5);
run;
이상으로 [SAS 활용 노하우] Data Modeling에 관한 포스팅이었습니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.