BookmarkSubscribeRSS Feed

Enterprise Miner를 이용한 Cluster Analysis (3)

Started ‎06-10-2020 by
Modified ‎06-10-2020 by
Views 160

안녕하십니까, 전보배 입니다.

자, 지난 작업을 열어놓고 시작해 보도록 하겠습니다.

 

데이터 소스 결과 확인

 

[그림 3-1]

SE22019011417150570.png

 

만약 [그림 3-1]에서와 같이 데이터 소스 노드 우측 하단에 초록색 동그라미의 체크 표시가 없다면, 아직 실행을 하지 않은 상태 입니다. 노드를 선택 하시고 실행을 해주셔야 합니다.

그러면, 가져온 데이터가 잘 들어왔는지, 확인해 보도록 하겠습니다.

 

[그림 3-2]

SE22019011417151870.png

 

노드를 우클릭 하여 [결과]를 선택합니다.

 

[그림 3-3]

SE22019011417153970.png

 

출력 창과 변수 창을 확인하실 수 있습니다. 이제부터 모든 노드들의 결과는 같은 방식으로 확인하실 수 있습니다.

이 데이터의 기초 통계량을 확인하실 수 있는 방법도 있습니다.

 

[그림 3-4]

SE22019011417155570.png

 

기본 화면에서 데이터 소스 노드를 클릭하시면, 좌측 패널에서 [내보낸 데이터]라는 속성을 보실 수 있습니다. 우측의 […]버튼을 누릅니다.

 

[그림 3-5]

SE22019011417161170.png

 

테이블 EMWS1.Ids_DATA 를 선택하시고, [탐색] 버튼을 누릅니다. 여기에서 “EMWS1.Ids_DATA” 테이블이 바로 우리가 가져온 데이터 소스 “DMR.dmr_customer_base_kr”를 Enterprise Miner(이하 “EM”으로 표기)에서 분석하기 위해 저장한 것입니다.

 

[그림 3-6]

SE22019011417165970.png

 

데이터의 속성과 표본 통계량, 실제 데이터를 확인하실 수 있습니다.

이번에는 각각 변수들의 분포를 확인하는 방법을 알아보겠습니다.

 

[그림 3-7]

SE22019011417171370.png

 

데이터 소스 노드에서 우클릭하여 [변수 편집…]을 선택합니다.

 

[그림 3-8]

SE22019011417175070.png

 

변수 “AGE”를 선택한 후 우측 하단의 [탐색] 버튼을 누릅니다.

탐색창에서 우측 하단의 그래프를 보겠습니다.

 

[그림 3-9]

SE22019011417180470.png

 

클러스터링을 하기 위해서 변수가 정규분포를 나타내는 종모양의 곡선을 그려야 합니다. 하지만 “AGE”는 좌측으로 치우쳐 있기 때문에 로그 변환이 필요하다는 것을 알 수 있습니다. 또, 다른 변수들도 각각 확인하여 변환 필요 여부를 결정해야 겠지요??

 

[그림 3-10]

SE22019011417183470.png

 

[그림 3-11]

SE22019011417184870.png

 

애석하게도(?) “나이”, “소득”, “고객연수” 모두 변수 변환이 필요합니다.

 

 

 

변수 변환

다이어그램 상단의 툴바에서 [수정]탭을 선택하시면, 가장 우측에 [변수 변환] 아이콘을 선택할 수 있습니다.

 

[그림 3-12]

SE22019011417191070.png

 

아이콘을 쭉 끌어다가 [데이터 소스] 노드 옆에 놓습니다.

 

[그림 3-13]

SE22019011417192670.png

그리고 [데이터 소스] 노드 우측 변에 마우스 포인터를 놓으면 포인터가 펜 모양으로 바뀝니다. 그 상태에서 [변수 변환] 노드까지 쭉~ 이어 줍니다.

그려면, EM에서 “DMR.dmr_customer_base_kr”데이터를 이용하여 이어서 작업할 수 있습니다.

 

[그림 3-14]

SE22019011417193670.png

 

[변수 변환] 노드를 선택하신 후 왼쪽 [속성] 패널을 보시면, [변수 변환] 노드에서 할 수 있는 여러 작업들을 확인하실 수 있습니다. 이중에서 우리는 [수식(Formulas)]를 통해 변수 변환을 하겠습니다. [수식(Formulas)]의 우측 […]버튼을 클릭합니다.

 

[그림 3-15]

SE22019011417194770.png

 

세가지 변수를 변환해야 하는데, 그 중 “AGE(나이)”를 선택 하신 후 상단에서 가장 좌측에 위치한 [생성] 아이콘을 클릭합니다.

 

[그림 3-16]

SE22019011417200070.png

 

상단의 [이름] 부분을 “LOG_AGE”로 바꾼 후, [수식] 부분에 “log(AGE+1)”라고 입력 후 [확인] 버튼을 클릭합니다.

 

[그림 3-17]

SE22019011417201470.png

 

그리고, 좌측 하단의 [미리 보기] 버튼을 클릭하시면, 변환된 변수의 분포를 확인 할 수 있습니다. 정규분포에 가까워 진 것이 보이시지요??

같은 방법으로 나머지 두 개의 변수를 변환하겠습니다.

한 번만 더 해볼까요?

 

[그림 3-18]

SE22019011417202670.png

 

[수식]창 상단의 [생성] 버튼을 클릭 후 상단의 [이름] 부분을 “LOG_H_INCOME”로 바꾼 후, [수식] 부분에 “log(HOUSEHOLD_INCOME+120000)”라고 입력 후 [확인] 버튼을 클릭합니다.

 

[그림 3-19]

SE22019011417203770.png

 

같은 방식으로 “LOG_YEARS”도 생성 합니다.

 

[그림 3-20]

SE22019011417204870.png

 

모두 생성한 후 [확인] 버튼을 클릭합니다.

 

[그림 3-21]

SE22019011417210270.png

 

그리고, [변수 변환] 노드 선택 후 실행을 하시면 됩니다.

 

[그림 3-22]

SE22019011417211370.png

 

[그림 3-23]

SE22019011417212570.png

 

[결과] 키를 눌러 볼까요?

 

[그림 3-24]

SE22019011417213970.png

 

변수가 생성된 것을 볼 수 있습니다.

 

오늘은 변수 변환을 했습니다. EM은 따로 저장할 필요 없이 그냥 끄셔도 다음에 다시 불러 올 수 있습니다.

다음 시간에는 필터링에 대해 알아보겠습니다.

 

감사합니다.

 

 

오늘까지 작업한 emp를 다운로드 하실 수 있습니다.
저는 SAS Enterprise Miner 14.1, Local 환경에서 작업했습니다.
하위 버전이거나, 서버환경 일 경우 실행이 되지 않으실 수 있으니 참고 바랍니다.
물론 같은 버전, 같은 환경이어도, 라이브러리 디렉토리(D:\TEMP\DMR_전략팀)가 다르면 실행되지 않습니다.

 

참조 : [Business Analytics Using SAS Enterprise Guide and SAS Enterprise Miner: A Beginner's Guide]​  

Version history
Last update:
‎06-10-2020 10:46 PM
Updated by:
Contributors

sas-innovate-2024.png

Available on demand!

Missed SAS Innovate Las Vegas? Watch all the action for free! View the keynotes, general sessions and 22 breakouts on demand.

 

Register now!

Article Labels
Article Tags