Enterprise Guide를 이용한 Business Analytics (4)

안녕하세요, 가상의 DMR 출판사 전략팀 전보배 신입사원 입니다.

지난 시간 라이브러리 할당과 sas의 명명규칙에 대해 이야기를 했습니다.

우리가 저번까지 작업을 하고 있었던, DMR.egp 파일을 열어보겠습니다.

[그림 4-1]

[작업공간] 부분을 보시면 “데이터 가져오기” 작업 후에 “프로젝트 라이브러리 할당”이 있습니다. 이 순서를 바꿔두고 실행을 하셔야 오류가 나지 않습니다.

데이터 가져 오기한 파일을 “DMR_ST. DMR_Customer_Base_kr”로 저장 하는 것으로 저번 시간 작업을 수정했기 때문입니다.

순서를 바꾸는 방법은 간단합니다.

[작업공간]에서 “프로젝트 라이브러리 할당”을 클릭하고 “데이터 가져오기” 작업 위로 쭉 끌어다 놓습니다.

[그림 4-2]

[그림 4-2] 처럼 바뀌었으면, 이제 전체 프로젝트를 실행해보겠습니다.

[그림 4-3]

[그림 4-3]에서와 같이 작업공간의 툴바에 있는 [실행 > 프로세스 플로우 실행]을 누르시면 됩니다. 물론, 단축키 [F3]을 누르셔도 실행 하실 수 있습니다.

테이블이 잘 들어가 있는지, [서버리스트]의 “DMR_ST” 라이브러리를 클릭해 보겠습니다.

[그림 4-4]

자, 오늘은 이 “DMR_ST. DMR_Customer_Base_kr”을 이용하여 데이터 탐색을 하겠습니다.

데이터 탐색

작업을 본격적으로 시작하기 전에 EG에서 제공하는 리포트 형식들에 대해서 알려드리겠습니다.

[메뉴바 > 도구 > 옵션] 을 클릭하셔서 [결과 > 일반] 으로 들어갑니다.

[그림 4-5]

위 그림처럼 [RTF]를 체크하시면, SAS 리포트 외에 Microsoft Word와 호환이 잘 되는 RTF 파일 형식으로도 리포트를 출력하실 수 있습니다. 그 외에도 리포트를 HTML, PDF, 텍스트 형식으로 선택하여 작업하실 수 있습니다.

자, 이제 오늘의 하이라이트! “데이터 특성화”라는 작업을 통해 데이터 탐색을 해보겠습니다.

데이터 탐색을 하는 방법은 무수히 많지만, “데이터 특성화”작업은 우리에게 data set의 모든 변수에 대한 요약을 보여줍니다.

[메뉴바 > 작업 > 설명 > 데이터 특성화]로 작업을 선택합니다.

[그림 4-6]

우리가 작업하려고 하는 data set이 하나 있네요. “DMR_ST. DMR_Customer_Base_kr”을 선택 후 [다음] 버튼을 클릭하겠습니다.

[그림 4-7]

요약 리포트, 그래프, 결과 data set이 출력됩니다. [다음] 버튼을 클릭하겠습니다.

[그림 4-8]

변수당 리포팅되는 최대 범주형 값 개수가 디폴트값으로 “30”이 지정되어 있습니다. 우리는 처음 작업이니 아무런 조정 없이 [마침] 버튼을 클릭하겠습니다.

“라이브러리 할당”, “데이터 가져오기” 보다는 실행 시간이 오래 걸리죠?

작업이 완료되면, 여러 개의 결과물들을 보실 수 있습니다. “RTF-데이터 특성화”를 더블 클릭해 보시면 MS Word에서 열리는 결과물을 확인하실 수 있습니다. SAS리포트에서도 동일한 내용을 확인 하실 수 있으며, 결과 data set은 문자변수와 숫자변수를 구분하여 각각의 빈도수, 통계량 등을 담고 있습니다.

data set을 전반적으로 파악하기에 아주 편리한 기능입니다.

몇 가지 결과를 함께 보겠습니다.

“DMR_ST. DMR_Customer_Base_kr”은 우리나라 고객들의 수익, 구독 잡지 수, 고객의 세 가지 개인정보가 들어 있는 data set 이었던 것 기억 하시죠?

그 중 성별 관련 데이터를 보겠습니다.

[표 4-1]

Variable	Label	Value	Frequency Count	Percent of Total Frequency
GENDER	성별	M	9372	58.5055
		F	6140	38.3295
		U	507	3.1650

위 표에서와 같이 표본의 59%는 남성, 38%는 여성이며 3%는 성별 표기가 불확실 합니다. 여기에서 “U”는 “Unknown”의 줄임말입니다.

이번엔 숫자 변수 중 나이를 보겠습니다.

[표 4-2]

Variable	Label	N	NMiss	Total	Min	Mean	Median	Max	StdMean
AGE	나이	16019	0	579193	18	36.16	34	92	0.10

각 수치들의 뜻은 아래와 같습니다.

· N : 전체 고객 수

· NMiss : 나이 변수의 결측치 개수, 나이 변수에는 결측치가 없습니다.

· Total : 전체 나이 합, 여기에서는 의미가 없습니다.

· Min : 나이의 최소값

· Mean : 나이의 평균 (결측치 제외 후 계산)

· Median : 나이의 중앙값

· StdMean : 평균에 대한 표준편차

[그림 4-9]를 보면 나이에 의한 고객들의 분포를 보실 수 있습니다. 젊은 고객들이 많은 편이고 21세와 40세 사이에 분포가 집중되어 있는 것을 알 수 있습니다. 더 나아가서 90세 이상은 이상 값으로 처리해야 추후 회귀분석 같은 분석을 할 때 문제가 없을 것 같다는 판단도 하실 수 있습니다.

[그림 4-9]

오늘은 “데이터 특성화” 작업을 통해 우리가 갖고 있는 data set의 전반적인 내용을 훑어 봤습니다. 다음 시간에는 고객의 수익성을 여러 각도에서 분석하여 우리 DMR 출판사가 어떤 전략으로 시장에 접근하는 것이 좋을 지 알아 보도록 하겠습니다.

꼭 EGP 저장하시고, 다음 시간에 뵙도록 하겠습니다.

오늘까지 작업한 EGP를 다운로드 하실 수 있습니다.
저는 SAS Enterprise Guide 7.1, Local 환경에서 작업했습니다.
하위 버전이거나, 서버환경 일 경우 실행이 되지 않으실 수 있으니 참고 바랍니다.
물론 같은 버전, 같은 환경이어도, 라이브러리 디렉토리(D:\TEMP\DMR_전략팀)가 다르거나 불러오기 파일 위치(D:\Trea_SYSOP\Enterprise Guide를 이용한 Business Analytics)가 다르면 실행되지 않습니다.

참조 : [Business Analytics Using SAS Enterprise Guide and SAS Enterprise Miner: A Beginner's Guide]

Enterprise Guide를 이용한 Business Analytics (4)

SAS Innovate 2025: Call for Content

Resources