안녕하세요, 가상의 DMR 출판사 전략팀 전보배 신입사원 입니다.
지난 시간 라이브러리 할당과 sas의 명명규칙에 대해 이야기를 했습니다.
우리가 저번까지 작업을 하고 있었던, DMR.egp 파일을 열어보겠습니다.
[그림 4-1]
[작업공간] 부분을 보시면 “데이터 가져오기” 작업 후에 “프로젝트 라이브러리 할당”이 있습니다. 이 순서를 바꿔두고 실행을 하셔야 오류가 나지 않습니다.
데이터 가져 오기한 파일을 “DMR_ST. DMR_Customer_Base_kr”로 저장 하는 것으로 저번 시간 작업을 수정했기 때문입니다.
순서를 바꾸는 방법은 간단합니다.
[작업공간]에서 “프로젝트 라이브러리 할당”을 클릭하고 “데이터 가져오기” 작업 위로 쭉 끌어다 놓습니다.
[그림 4-2]
[그림 4-2] 처럼 바뀌었으면, 이제 전체 프로젝트를 실행해보겠습니다.
[그림 4-3]
[그림 4-3]에서와 같이 작업공간의 툴바에 있는 [실행 > 프로세스 플로우 실행]을 누르시면 됩니다. 물론, 단축키 [F3]을 누르셔도 실행 하실 수 있습니다.
테이블이 잘 들어가 있는지, [서버리스트]의 “DMR_ST” 라이브러리를 클릭해 보겠습니다.
[그림 4-4]
자, 오늘은 이 “DMR_ST. DMR_Customer_Base_kr”을 이용하여 데이터 탐색을 하겠습니다.
작업을 본격적으로 시작하기 전에 EG에서 제공하는 리포트 형식들에 대해서 알려드리겠습니다.
[메뉴바 > 도구 > 옵션] 을 클릭하셔서 [결과 > 일반] 으로 들어갑니다.
[그림 4-5]
위 그림처럼 [RTF]를 체크하시면, SAS 리포트 외에 Microsoft Word와 호환이 잘 되는 RTF 파일 형식으로도 리포트를 출력하실 수 있습니다. 그 외에도 리포트를 HTML, PDF, 텍스트 형식으로 선택하여 작업하실 수 있습니다.
자, 이제 오늘의 하이라이트! “데이터 특성화”라는 작업을 통해 데이터 탐색을 해보겠습니다.
데이터 탐색을 하는 방법은 무수히 많지만, “데이터 특성화”작업은 우리에게 data set의 모든 변수에 대한 요약을 보여줍니다.
[메뉴바 > 작업 > 설명 > 데이터 특성화]로 작업을 선택합니다.
[그림 4-6]
우리가 작업하려고 하는 data set이 하나 있네요. “DMR_ST. DMR_Customer_Base_kr”을 선택 후 [다음] 버튼을 클릭하겠습니다.
[그림 4-7]
요약 리포트, 그래프, 결과 data set이 출력됩니다. [다음] 버튼을 클릭하겠습니다.
[그림 4-8]
변수당 리포팅되는 최대 범주형 값 개수가 디폴트값으로 “30”이 지정되어 있습니다. 우리는 처음 작업이니 아무런 조정 없이 [마침] 버튼을 클릭하겠습니다.
“라이브러리 할당”, “데이터 가져오기” 보다는 실행 시간이 오래 걸리죠?
작업이 완료되면, 여러 개의 결과물들을 보실 수 있습니다. “RTF-데이터 특성화”를 더블 클릭해 보시면 MS Word에서 열리는 결과물을 확인하실 수 있습니다. SAS리포트에서도 동일한 내용을 확인 하실 수 있으며, 결과 data set은 문자변수와 숫자변수를 구분하여 각각의 빈도수, 통계량 등을 담고 있습니다.
data set을 전반적으로 파악하기에 아주 편리한 기능입니다.
몇 가지 결과를 함께 보겠습니다.
“DMR_ST. DMR_Customer_Base_kr”은 우리나라 고객들의 수익, 구독 잡지 수, 고객의 세 가지 개인정보가 들어 있는 data set 이었던 것 기억 하시죠?
그 중 성별 관련 데이터를 보겠습니다.
[표 4-1]
Variable |
Label |
Value |
Frequency Count |
Percent of Total Frequency |
GENDER |
성별 |
M |
9372 |
58.5055 |
F |
6140 |
38.3295 |
||
U |
507 |
3.1650 |
위 표에서와 같이 표본의 59%는 남성, 38%는 여성이며 3%는 성별 표기가 불확실 합니다. 여기에서 “U”는 “Unknown”의 줄임말입니다.
이번엔 숫자 변수 중 나이를 보겠습니다.
[표 4-2]
Variable |
Label |
N |
NMiss |
Total |
Min |
Mean |
Median |
Max |
StdMean |
AGE |
나이 |
16019 |
0 |
579193 |
18 |
36.16 |
34 |
92 |
0.10 |
각 수치들의 뜻은 아래와 같습니다.
· N : 전체 고객 수
· NMiss : 나이 변수의 결측치 개수, 나이 변수에는 결측치가 없습니다.
· Total : 전체 나이 합, 여기에서는 의미가 없습니다.
· Min : 나이의 최소값
· Mean : 나이의 평균 (결측치 제외 후 계산)
· Median : 나이의 중앙값
· StdMean : 평균에 대한 표준편차
[그림 4-9]를 보면 나이에 의한 고객들의 분포를 보실 수 있습니다. 젊은 고객들이 많은 편이고 21세와 40세 사이에 분포가 집중되어 있는 것을 알 수 있습니다. 더 나아가서 90세 이상은 이상 값으로 처리해야 추후 회귀분석 같은 분석을 할 때 문제가 없을 것 같다는 판단도 하실 수 있습니다.
[그림 4-9]
오늘은 “데이터 특성화” 작업을 통해 우리가 갖고 있는 data set의 전반적인 내용을 훑어 봤습니다. 다음 시간에는 고객의 수익성을 여러 각도에서 분석하여 우리 DMR 출판사가 어떤 전략으로 시장에 접근하는 것이 좋을 지 알아 보도록 하겠습니다.
꼭 EGP 저장하시고, 다음 시간에 뵙도록 하겠습니다.
오늘까지 작업한 EGP를 다운로드 하실 수 있습니다.
저는 SAS Enterprise Guide 7.1, Local 환경에서 작업했습니다.
하위 버전이거나, 서버환경 일 경우 실행이 되지 않으실 수 있으니 참고 바랍니다.
물론 같은 버전, 같은 환경이어도, 라이브러리 디렉토리(D:\TEMP\DMR_전략팀)가 다르거나 불러오기 파일 위치(D:\Trea_SYSOP\Enterprise Guide를 이용한 Business Analytics)가 다르면 실행되지 않습니다.
참조 : [Business Analytics Using SAS Enterprise Guide and SAS Enterprise Miner: A Beginner's Guide]
Are you ready for the spotlight? We're accepting content ideas for SAS Innovate 2025 to be held May 6-9 in Orlando, FL. The call is open until September 25. Read more here about why you should contribute and what is in it for you!