BookmarkSubscribeRSS Feed

[SAS 활용 노하우] Clustering Part1

Started ‎02-19-2023 by
Modified ‎02-19-2023 by
Views 271

군집화는 Unsupervised 개념으로 target variable이 없습니다.

고차원의 데이터 셋에서 관련없는 변수들을 선별하기 위해서 군집화 방법을 사용합니다.

군집화를 통해서 관련이 있는 변수들을 묶어 lower dimension 으로 차원을 줄일 수 있습니다.

또한, 변수들 간에 상관관계가 있는 변수들끼리 군집화를 형성하고 상관관계가 없는 변수들끼리는 되도록 다른 군집에 형성되게 하는 개념을 가지고 있습니다.

변수 군집화는 Principal Component(주성분 분석)를 바탕으로 형성됩니다.

SAS 에서는 아래의 Syntax를 통해 Clustering 을 진행합니다.

 

PROC VARCLUS DATA = data-ses <OPtions>;
VAR variables;
RUN;

 

아래는 air 라이브러리의 score data set을 사용해 변수 클러스터링 예제입니다.

 

proc varclus data=air.scoredata maxeigen=.7 hi short plots=dendrogram;
var  age academic_index high_school_percentile
     att_hrs_spr perc_hrs_comp_fall avg_income distance
     dropped hsrate1 mrate2 mrate1 drate1 bestscore
     extra_curr instate baptistnum legacynum stu_worker_ind
     pct_met transcrip gpa;
run;

 

score data는 numeric 변수와 missing 변수, dummy 변수가 있습니다. 

위의 예제에서 HI, MAXEIGN, SHORT, PLOT 옵션이 있습니다.

MAXIGEN = n 옵션은 클러스터의 최대 두 번째 고유값(eigenvalue)을 지정합니다.

SHORT 옵션은 큰 행렬의 표시를 막는 역할을 합니다.

 

 

image.png

 

Version history
Last update:
‎02-19-2023 09:06 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags