BookmarkSubscribeRSS Feed

[SAS 활용 노하우] 변수 사용빈도 part2

Started ‎01-31-2023 by
Modified ‎01-31-2023 by
Views 284

이전 게시글에서 PROC MEANS syntax는 변수의 사용빈도를 알 수 있는 가장 간단한 방법 중 하나였습니다.

이번 게시글은 PROC CLUSTER syntax를 사용해서 categorical 변수를 여러개의 level로 나눌 수 있는 방법에 대해서 알아보겠습니다. 

PROC CLUSTER syntax 는 군집분석에 사용합니다.

군집분석이란 Distance Matrix(=거리행렬)을 기준으로 거리가 가까운 개체들은 한 군집에 묶고, 거리가 먼 객체들은 다른 군집으로 분류하는것입니다.

즉, 관측 대상들 간에 공통된 특징을 갖는 데이터끼리 군집을 형성하는 방법입니다.

많이 사용되는 데이터의 유사성 또는 거리는 유클리드 거리, 유클리드 제곱거리, 시티블록 거리, LM 거리, 쳬비세프 거리가 있습니다.

 

 

proc means data=donor.donor_score_data noprint nway;
class urbanicity;
output out = donor2 mean= cluster_code;
run;

proc print data = donor2;
run;

ods output clusterhistory=cluster;
proc cluster data = donor2 method=ward outtree=fortree
plots=(dendrogram(vertical height=rsq));
freq _freq_;
run;

 

image (2).png

 

 

image (3).png

 

PROC CLUSTER는 계층적 군집기법으로 여러가지 Matrix Distance 방법 중 하나를 사용해야합니다.

위의 예시에서는 'method = ward'로 Ward의 최소분산 기법을 기준으로 계층적 군집법을 사용하고 있습니다.

ward 이외에도 single(최단연결법), complete(최장연결법), average(평균연결법), centrid method(중심연결법) 등이 존재합니다.

'outtree=' 옵션은 트리그래프를 그리고 데이터 셋을 fortree라는 이름으로 저장하겠다라는 옵션입니다.

Version history
Last update:
‎01-31-2023 08:15 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags