[SAS 활용 노하우] Clustering Part1

군집화는 Unsupervised 개념으로 target variable이 없습니다.

고차원의 데이터 셋에서 관련없는 변수들을 선별하기 위해서 군집화 방법을 사용합니다.

군집화를 통해서 관련이 있는 변수들을 묶어 lower dimension 으로 차원을 줄일 수 있습니다.

또한, 변수들 간에 상관관계가 있는 변수들끼리 군집화를 형성하고 상관관계가 없는 변수들끼리는 되도록 다른 군집에 형성되게 하는 개념을 가지고 있습니다.

변수 군집화는 Principal Component(주성분 분석)를 바탕으로 형성됩니다.

SAS 에서는 아래의 Syntax를 통해 Clustering 을 진행합니다.

PROC VARCLUS DATA = data-ses <OPtions>;
VAR variables;
RUN;

아래는 air 라이브러리의 score data set을 사용해 변수 클러스터링 예제입니다.

proc varclus data=air.scoredata maxeigen=.7 hi short plots=dendrogram;
var  age academic_index high_school_percentile
     att_hrs_spr perc_hrs_comp_fall avg_income distance
     dropped hsrate1 mrate2 mrate1 drate1 bestscore
     extra_curr instate baptistnum legacynum stu_worker_ind
     pct_met transcrip gpa;
run;

score data는 numeric 변수와 missing 변수, dummy 변수가 있습니다.

위의 예제에서 HI, MAXEIGN, SHORT, PLOT 옵션이 있습니다.

MAXIGEN = n 옵션은 클러스터의 최대 두 번째 고유값(eigenvalue)을 지정합니다.

SHORT 옵션은 큰 행렬의 표시를 막는 역할을 합니다.

[SAS 활용 노하우] Clustering Part1

Catch up on SAS Innovate 2026

Resources