오늘은 드디어 clustering을 하는 날입니다!
우선, emp 파일을 열어보겠습니다. (가물가물 하신 분은 링크를 참조해 주시기 바랍니다. )
Build Clusters
다이어그램 창 위 툴바에서 탐색 탭을 클릭하여 클러스터링 노드를 끌어다가 필터링 옆에 살짝 놓아 둡니다.
[그림 5-1]
연속변수는 시간, 분, 원 등 각기 다른 단위를 나타냅니다. 그래서 클러스터링을 하기 위해서는 이러한 변수들을 표준화해야 합니다. 그렇지 않으면 더 큰 단위를 갖는 변수들이 영향을 더 크게 끼칩니다.
아래 [그림 5-2]처럼 왼쪽 하단의 속성 패널에서 [분석] 부분의 [내부 표준화]를 “Range”로 바꿉니다. 이 옵션은 각 변수들의 값을 0에서 1사이의 값으로 표준화 시킵니다.
또한, [선택 기준]에서 [클러스터링 방법]은 “Centroid”로 변환합니다. 이 방법은 통상적으로 데이터를 비교 처리 할 때 “Ward” 방법보다 좋다고 알려져 있습니다.
그리고, [초기 클러스터 시드] 부분의 [시드 초기화 방법]을 “Full Replacement”로 변경하여 각 군집간의 분리를 더유효하게 하는 seed를 선택할 수 있습니다.
[그림 5-2]
이제 다이어그램 안에 있는 클러스터링 노드를 실행시키겠습니다. 그리고 [실행 상태] 창에서 [결과] 버튼을 누르겠습니다.
[그림 5-3]
◎ 세그먼트 도표
[그림 5-4]
결과 중 세그먼트 도표는 클러스터링 변수들을 표시합니다. 연령, 성별, 변환한 로그 값들이 클러스터 간에 어떻게 분포하고 있는지 보여줍니다. 각 세그먼트 값들을 보려면 해당 그래프 색상을 클릭하시면 됩니다.
예를 들면, Gender 변수의 경우 1, 2 군집들은 여성들만 있으며, 3 군집은 성별을 알 수 없는 군집들이 있습니다. 4, 5 군집은 남성들로 이루어져 있다는 것을 한눈에 알아볼 수 있습니다.
◎ 세그먼트 크기
[그림 5-5]
세그먼트 크기는 파이 그래프에서 클러스터 각각의 크기를 나타냅니다. 파이 그래프를 클릭하면 해당 클러스터의 고객 수를 볼 수 있습니다. 우리가 분류한 총 5개의 클러스터를 나타내고 있습니다.
4번 군집의 크기가 가장 크고, 3번 군집의 크기가 제일 작은 것을 확인할 수 있습니다.
다음 글에서는 각 클러스터가 어떤 특성을 갖고 있는지 쉽게 살펴 볼 수 있는 세그먼트 프로파일을 다루도록 하겠습니다.
오늘까지 작업한 emp를 다운로드 하실 수 있습니다.
저는 SAS Enterprise Miner 14.1, Local 환경에서 작업했습니다.
하위 버전이거나, 서버환경 일 경우 실행이 되지 않으실 수 있으니 참고 바랍니다.
물론 같은 버전, 같은 환경이어도, 라이브러리 디렉토리(D:\TEMP\DMR_전략팀)가 다르면 실행되지 않습니다.
참조 : [Business Analytics Using SAS Enterprise Guide and SAS Enterprise Miner: A Beginner's Guide]
Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!