[SAS] Clustering : K Means

이번 게시글은 SAS Studio를 활용해서 K-Means 활용 방법에 대해 알아보겠습니다.

메뉴 트리는 다음과 같습니다.

- 작업 및 유틸리티 > 작업 > 군집분석 > K 평균 군집화

K-Means 에 활용한 데이터는 SASHelp 에 있는 IRIS 데이터 입니다.

군집화에 사용할 변수는 IRIS에 있는 4개의 변수 SepalLength, SepalWidth, PetalLength, PetalWidth 모두 넣어 줍니다.

옵션은 다음과 같이 설정할 수 있습니다.

image (10).png

표준화: 변수들의 범위 차이가 큰 경우 가장 큰 범위를 가지는 변수가 가장 크게 영향을 미치게 됩니다. 즉, 데이터를 표준화함으로서 차이를 줄여주고 데이터들을 Z값으로 바꿔줍니다.
군집화: [최대 군집 개수] - 군집의 최대 개수를 설정하거나 , [최대 반복 횟수] - 군집 seed를 재계산하는 최대 반복 횟수를 지정할 수 잇습니다.

출력 데이터셋은 다음과 같이 지정할 수 있습니다.

image (11).png