Clusterプロシジャのkeep変数について

chie_sas · Posted 09-23-2019 10:17 PM

Clusterプロシジャの使用方法についてご質問です。

クラスタ分析（Ward法）をClusterプロシジャで行っているのですが、

使用するデータセットにkeep文で変数を絞り込むのと、絞り込まないのとで

クラスターの結果が異なってしまいます。

こちらはどういう仕様であるか、また、変数は絞り込むべきであるか否か、

ご存知でしょうか？

PROC CLUSTER DATA=WORK.dt1(keep=PARTS_ID var1)
METHOD=WARD
CCC
PSEUDO
OUTTREE=WORK.fotree
PRINT=15
PLOTS=PSF
PLOTS=PST2
PLOTS=CCC
;
VAR var1;
ID PARTS_ID;
RUN;
 
PROC TREE DATA=WORK.fotree
OUT=WORK.TREETreeData
ncl=3
;
ID PARTS_ID;
copy var1;
RUN;

chie_sas · Posted 09-23-2019 10:44 PM

元々のデータセットに_FREQ_変数があり、

_FREQ_変数を持ったデータセットをClusterプロシジャにかけると、度数を考慮してクラスタ分けするようです。

（FREQステートメントに度数変数を指定する場合と同じ動作をしているため。）

こんな仕様があるんですね。

Clusterプロシジャのkeep変数について

Re: Clusterプロシジャのkeep変数について

SAS Innovate 2025: Save the Date