Enterprise Miner를 이용한 Cluster Analysis (1)

시작하면서…

안녕하십니까, 전보배 입니다.

몇 주간 [Business Analytics Using SAS Enterprise Guide and SAS Enterprise Miner: A Beginner's Guide]라는 저서를 참조하여, SAS Enterprise Miner (줄여서 ‘EM’)으로 비즈니스 분석 관련한 글을 올리려고 합니다.

지난 SAS Enterprise Guide에서의 글처럼 “차근차근 쉽게!”가 제가 가장 신경 쓰는 부분입니다.

실제 SAS 관련 강의를 나가보면, 가장 많이 하는 질문은 “강사님! 방금 그 버튼 어디 있어요?!” 입니다.

교재들에는 주요 화면만 실어놓기 때문에 중간중간 넘어가는 화면에서 흐름이 끊겨 따라오지 못하고 포기하는 경우가 실제로 많습니다.

그래서 최대한 모든 작업 화면을 캡쳐 하여 글을 쓰려고 합니다. 그래도 제가 놓치는 부분은 덧글로 달아주시면, 바로 바로 안내해 드리도록 하겠습니다.

EM은 그 어려운 모델링 작업들을 마우스로 클릭만 하면서 아주 쉽게 해나갈 수 있게 만들어 놓은 툴입니다. 그 목적에 맞추어 [Business Analytics Using SAS Enterprise Guide and SAS Enterprise Miner: A Beginner's Guide]의 내용을 한국어 버전 EM으로 설명 드리겠습니다. 실제 이 책에서도 아주 많은 부분을 생략해 놓았습니다.

다만 두려운 부분은 쉽게 설명하려다 보니, 다소 지루해질 수도 있습니다. 지루하신 분은 빠른 스크롤로 극복 부탁 드립니다. ㅠㅠ

혹시 덧글에 질문이 쑥쓰러우신 분은 trea.bobae@gmail.com 으로 메일 주시면, 비밀리에 답장 드리도록 하겠습니다.

오류 지적은 정말 감사하게 받겠습니다.

자, 그러면 본문 입니다.

Introduction

군집분석! Clustering! 혹은 Cluster Analysis! 어떻게 불려지든, 많이 쓰이는 모델링 기법 중 하나입니다. 오늘부터 몇 주간에 걸쳐 Enterprise miner를 통해 이 군집분석을 차근차근 해나가도록 하겠습니다.

이 분석에서 사용할 데이터는 “dmr_customer_base_kr.sas7bdat” 입니다.

가상의 DMR 출판사 고객 데이터이며, 16,019개의 데이터가 들어있습니다. 테이블 속성은 아래와 같습니다. 참조한 교재 데이터를 여러분이 이해하기 쉬우시도록 조금 수정했습니다.

[표 1-1]

이름	형식	길이	출력형식	입력형식	레이블
CUSTOMER_ID	문자	6	$CHAR6.	$CHAR6.	고객번호
GENDER	문자	1	$CHAR1.	$CHAR1.	성별
AGE	숫자	8	BEST12.	BEST12.	나이
HOUSEHOLD_INCOME	숫자	8	COMMA12.	COMMA12.	소득
YEARS_AS_CUSTOMER	숫자	8	BEST12.	BEST12.	고객연수
CUSTOMER_SUBSCRIPTION_COUNT	숫자	8	BEST12.	BEST12.	구독부수
CUSTOMER_REVENUE	숫자	8	COMMA12.	COMMA12.	수익성

이 데이터를 통해 비슷한 성격의 그룹끼리 묶어서 고객을 이해하려고 합니다. 고객 그룹들 사이의 차이점과 유사점들을 파악하면, 마케팅 전략이나 상품개발에 더 도움이 될 것입니다.

Cluster Analysis 란?

cluster analysis 또는 clustering은 유사성이 있는 그룹끼리 묶어 각 그룹간에 차이를 보여주는 과정이라고 할 수 있습니다. 고객을 그룹화하여 구분할 수 있는 기능 때문에 각 그룹별로 마케팅하기에 유용합니다.

SAS Enterprise Miner에서는 최소 하나의 정량변수와 씨드(seeds) 사이의 유클리드 거리를 계산하여 클러스터 분석을 수행합니다.

미리 군집의 수 k를 지정합니다.
각 군집에서 1개씩의 개체를 씨드로 지정하거나, 군집중심을 임시로 지정합니다.
모든 개체를 각각 가장 가까운 군집 중심, 혹은 씨드로 할당 합니다.
각 군집의 중심을 다시 산출 합니다.
원래의 군집 중심과 다시 산출된 군집 중심의 변화가 줄어 들거나, 사전에 설정한 정지 기준이 만족될 때까지 반복합니다.

Project 시작하기

저는 SAS Enterprise Miner 14.1로 작업을 하려고 합니다.

여러분이 사용하시는 버전과 다를 수 있으나 군집분석을 하는 데에는 크게 다름이 없으니 염려하지 않으셔도 됩니다.

[그림 1-1]

첫 화면은 [그림 1-1] 과 같습니다.

두 번째 줄의 [새로운 프로젝트…]를 클릭하겠습니다.

[그림 1-2]

프로젝트 이름은 “DMR_CLUSTERING”으로, SAS Server 디렉터리는 “D:\TEMP\DMR_전략팀”으로 설정하겠습니다.

물론 다르게 설정하셔도 상관없지만, 제가 작업한 내용들을 공유하시고자 하시면, 같은 디렉터리와 프로젝트 이름으로 하시는 것이 오류가 없어 편하실 겁니다 ^^

[그림 1-3]

새로운 프로젝트가 생성됐습니다. [마침] 버튼을 누르겠습니다.

[그림 1-4]

위 [그림 1-4]과 같은 화면이 나왔다면, 일단 Project 만들기를 성공하신겁니다.

오늘은 Library 할당까지 해보도록 하겠습니다.

분석을 할 데이터 “dmr_customer_base_kr.sas7bdat”는 “D:\TEMP\DMR_전략팀” 디렉터리에 담아두었습니다.

즉, 이 경로를 라이브러리로 할당해야 해당 데이터를 EM에서 분석할 수 있습니다.

[그림 1-5]

[그림 1-5]에서와 같이 상담의 메뉴에서 [파일 > 새로 만들기 > 라이브러리…]를 클릭합니다.

[그림 1-6]

[그림 1-7]

라이브러리 이름은 “DMR”, 경로는 “D:\TEMP\DMR_전략팀”로 입력합니다.

[그림 1-8]

[마침] 버튼을 누르면 라이브러리 할당이 됩니다.

다음 시간에는 이 라이브러리에 있는 데이터셋을 소스로 할당하고, 다이어그램을 생성하는 작업을 해보도록 하겠습니다.

감사합니다.

오늘까지 작업한 emp를 다운로드 하실 수 있습니다.
저는 SAS Enterprise Miner 14.1, Local 환경에서 작업했습니다.
하위 버전이거나, 서버환경 일 경우 실행이 되지 않으실 수 있으니 참고 바랍니다.
물론 같은 버전, 같은 환경이어도, 라이브러리 디렉토리(D:\TEMP\DMR_전략팀)가 다르면 실행되지 않습니다.

참조 : [Business Analytics Using SAS Enterprise Guide and SAS Enterprise Miner: A Beginner's Guide]

Enterprise Miner를 이용한 Cluster Analysis (1)

Resources