Enterprise Miner를 이용한 Cluster Analysis (3)

안녕하십니까, 전보배 입니다.

자, 지난 작업을 열어놓고 시작해 보도록 하겠습니다.

데이터 소스 결과 확인

[그림 3-1]

만약 [그림 3-1]에서와 같이 데이터 소스 노드 우측 하단에 초록색 동그라미의 체크 표시가 없다면, 아직 실행을 하지 않은 상태 입니다. 노드를 선택 하시고 실행을 해주셔야 합니다.

그러면, 가져온 데이터가 잘 들어왔는지, 확인해 보도록 하겠습니다.

[그림 3-2]

노드를 우클릭 하여 [결과]를 선택합니다.

[그림 3-3]

출력 창과 변수 창을 확인하실 수 있습니다. 이제부터 모든 노드들의 결과는 같은 방식으로 확인하실 수 있습니다.

이 데이터의 기초 통계량을 확인하실 수 있는 방법도 있습니다.

[그림 3-4]

기본 화면에서 데이터 소스 노드를 클릭하시면, 좌측 패널에서 [내보낸 데이터]라는 속성을 보실 수 있습니다. 우측의 […]버튼을 누릅니다.

[그림 3-5]

테이블 EMWS1.Ids_DATA 를 선택하시고, [탐색] 버튼을 누릅니다. 여기에서 “EMWS1.Ids_DATA” 테이블이 바로 우리가 가져온 데이터 소스 “DMR.dmr_customer_base_kr”를 Enterprise Miner(이하 “EM”으로 표기)에서 분석하기 위해 저장한 것입니다.

[그림 3-6]

데이터의 속성과 표본 통계량, 실제 데이터를 확인하실 수 있습니다.

이번에는 각각 변수들의 분포를 확인하는 방법을 알아보겠습니다.

[그림 3-7]

데이터 소스 노드에서 우클릭하여 [변수 편집…]을 선택합니다.

[그림 3-8]

변수 “AGE”를 선택한 후 우측 하단의 [탐색] 버튼을 누릅니다.

탐색창에서 우측 하단의 그래프를 보겠습니다.

[그림 3-9]

클러스터링을 하기 위해서 변수가 정규분포를 나타내는 종모양의 곡선을 그려야 합니다. 하지만 “AGE”는 좌측으로 치우쳐 있기 때문에 로그 변환이 필요하다는 것을 알 수 있습니다. 또, 다른 변수들도 각각 확인하여 변환 필요 여부를 결정해야 겠지요??

[그림 3-10]

[그림 3-11]

애석하게도(?) “나이”, “소득”, “고객연수” 모두 변수 변환이 필요합니다.

변수 변환

다이어그램 상단의 툴바에서 [수정]탭을 선택하시면, 가장 우측에 [변수 변환] 아이콘을 선택할 수 있습니다.

[그림 3-12]

아이콘을 쭉 끌어다가 [데이터 소스] 노드 옆에 놓습니다.

[그림 3-13]

그리고 [데이터 소스] 노드 우측 변에 마우스 포인터를 놓으면 포인터가 펜 모양으로 바뀝니다. 그 상태에서 [변수 변환] 노드까지 쭉~ 이어 줍니다.

그려면, EM에서 “DMR.dmr_customer_base_kr”데이터를 이용하여 이어서 작업할 수 있습니다.

[그림 3-14]

[변수 변환] 노드를 선택하신 후 왼쪽 [속성] 패널을 보시면, [변수 변환] 노드에서 할 수 있는 여러 작업들을 확인하실 수 있습니다. 이중에서 우리는 [수식(Formulas)]를 통해 변수 변환을 하겠습니다. [수식(Formulas)]의 우측 […]버튼을 클릭합니다.

[그림 3-15]

세가지 변수를 변환해야 하는데, 그 중 “AGE(나이)”를 선택 하신 후 상단에서 가장 좌측에 위치한 [생성] 아이콘을 클릭합니다.

[그림 3-16]

상단의 [이름] 부분을 “LOG_AGE”로 바꾼 후, [수식] 부분에 “log(AGE+1)”라고 입력 후 [확인] 버튼을 클릭합니다.

[그림 3-17]

그리고, 좌측 하단의 [미리 보기] 버튼을 클릭하시면, 변환된 변수의 분포를 확인 할 수 있습니다. 정규분포에 가까워 진 것이 보이시지요??

같은 방법으로 나머지 두 개의 변수를 변환하겠습니다.

한 번만 더 해볼까요?

[그림 3-18]

[수식]창 상단의 [생성] 버튼을 클릭 후 상단의 [이름] 부분을 “LOG_H_INCOME”로 바꾼 후, [수식] 부분에 “log(HOUSEHOLD_INCOME+120000)”라고 입력 후 [확인] 버튼을 클릭합니다.

[그림 3-19]

같은 방식으로 “LOG_YEARS”도 생성 합니다.

[그림 3-20]

모두 생성한 후 [확인] 버튼을 클릭합니다.

[그림 3-21]

그리고, [변수 변환] 노드 선택 후 실행을 하시면 됩니다.

[그림 3-22]

[그림 3-23]

[결과] 키를 눌러 볼까요?

[그림 3-24]

변수가 생성된 것을 볼 수 있습니다.

오늘은 변수 변환을 했습니다. EM은 따로 저장할 필요 없이 그냥 끄셔도 다음에 다시 불러 올 수 있습니다.

다음 시간에는 필터링에 대해 알아보겠습니다.

감사합니다.

오늘까지 작업한 emp를 다운로드 하실 수 있습니다.
저는 SAS Enterprise Miner 14.1, Local 환경에서 작업했습니다.
하위 버전이거나, 서버환경 일 경우 실행이 되지 않으실 수 있으니 참고 바랍니다.
물론 같은 버전, 같은 환경이어도, 라이브러리 디렉토리(D:\TEMP\DMR_전략팀)가 다르면 실행되지 않습니다.

참조 : [Business Analytics Using SAS Enterprise Guide and SAS Enterprise Miner: A Beginner's Guide]

Enterprise Miner를 이용한 Cluster Analysis (3)

Resources