이번 게시글은 SAS Studio를 활용해서 K-Means 활용 방법에 대해 알아보겠습니다.
메뉴 트리는 다음과 같습니다.
- 작업 및 유틸리티 > 작업 > 군집분석 > K 평균 군집화
K-Means 에 활용한 데이터는 SASHelp 에 있는 IRIS 데이터 입니다.
군집화에 사용할 변수는 IRIS에 있는 4개의 변수 SepalLength, SepalWidth, PetalLength, PetalWidth 모두 넣어 줍니다.
옵션은 다음과 같이 설정할 수 있습니다.
표준화: 변수들의 범위 차이가 큰 경우 가장 큰 범위를 가지는 변수가 가장 크게 영향을 미치게 됩니다. 즉, 데이터를 표준화함으로서 차이를 줄여주고 데이터들을 Z값으로 바꿔줍니다.
군집화: [최대 군집 개수] - 군집의 최대 개수를 설정하거나 , [최대 반복 횟수] - 군집 seed를 재계산하는 최대 반복 횟수를 지정할 수 잇습니다.
출력 데이터셋은 다음과 같이 지정할 수 있습니다.
군집 할당 데이터셋 생성 - 데이터셋 이름: 각 데이터가 어떤 군집에 속하는지 알 수 있으며, 새로운 데이터셋에 기존 데이터와 각 데이터가 특정 군집에 할당된 데이터를 함께 볼 수 있습니다.
군집 중심 데이터셋 생성 - 데이터셋 이름: 각 군집의 중심 데이터를 포함하는 데이터셋입니다. 각 군집의 중심 좌표와 그 외의 정보가 포함됩니다. 군집의 특징이 무엇인지 파악할 수 있습니다.
위와 같이 옵션과 출력 데이터셋을 지정하면 코드가 자동으로 생성됩니다.
Run Icon을 클릭하게 되면 [출력 데이터]에 <군집 할당 데이터셋> 과 <군집 중심 데이터셋>을 확인할 수 있다.
Build your skills. Make connections. Enjoy creative freedom. Maybe change the world. Registration is now open through August 30th. Visit the SAS Hackathon homepage.
Register today!