BookmarkSubscribeRSS Feed

[SAS] Clustering : K Means

Started 3 weeks ago by
Modified 3 weeks ago by
Views 72

이번 게시글은 SAS Studio를 활용해서 K-Means 활용 방법에 대해 알아보겠습니다.

메뉴 트리는 다음과 같습니다.

- 작업 및 유틸리티 > 작업 > 군집분석 > K 평균 군집화

 
 
image (9).png

 

K-Means 에 활용한 데이터는 SASHelp 에 있는 IRIS 데이터 입니다.

군집화에 사용할 변수는 IRIS에 있는 4개의 변수 SepalLength, SepalWidth, PetalLength, PetalWidth 모두 넣어 줍니다.

옵션은 다음과 같이 설정할 수 있습니다.

 

image (10).png

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 표준화: 변수들의 범위 차이가 큰 경우 가장 큰 범위를 가지는 변수가 가장 크게 영향을 미치게 됩니다. 즉, 데이터를 표준화함으로서 차이를 줄여주고 데이터들을 Z값으로 바꿔줍니다.

  • 군집화: [최대 군집 개수] - 군집의 최대 개수를 설정하거나 , [최대 반복 횟수] - 군집 seed를 재계산하는 최대 반복 횟수를 지정할 수 잇습니다.

출력 데이터셋은 다음과 같이 지정할 수 있습니다.

 

 

 

image (11).png

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 군집 할당 데이터셋 생성 - 데이터셋 이름: 각 데이터가 어떤 군집에 속하는지 알 수 있으며, 새로운 데이터셋에 기존 데이터와 각 데이터가 특정 군집에 할당된 데이터를 함께 볼 수 있습니다.

 

image (12).png

 

 

 

  • 군집 중심 데이터셋 생성 - 데이터셋 이름: 각 군집의 중심 데이터를 포함하는 데이터셋입니다. 각 군집의 중심 좌표와 그 외의 정보가 포함됩니다. 군집의 특징이 무엇인지 파악할 수 있습니다.

 

image (13).png

 

위와 같이 옵션과 출력 데이터셋을 지정하면 코드가 자동으로 생성됩니다.

 

image (14).png

 

 

Run Icon을 클릭하게 되면 [출력 데이터]에 <군집 할당 데이터셋> 과 <군집 중심 데이터셋>을 확인할 수 있다.

 

image (15).png

Version history
Last update:
3 weeks ago
Updated by:
Contributors

Ready to join fellow brilliant minds for the SAS Hackathon?

Build your skills. Make connections. Enjoy creative freedom. Maybe change the world. Registration is now open through August 30th. Visit the SAS Hackathon homepage.

Register today!
Article Labels
Article Tags