BookmarkSubscribeRSS Feed

Enterprise Guide를 이용한 Business Analytics (6) -완

Started ‎06-09-2020 by
Modified ‎06-09-2020 by
Views 136

오늘도 신나게 달려보겠습니다!

 

저장해 두었던 DMR.egp 파일을 열고, 라이브러리 할당 부분과, 질의빌더 부분을 우선 실행해 주시기 바랍니다.

(저처럼 만사 귀찮으신 분은 그냥 전체 실행 후 잠깐 물 한잔을 마십니다 ^^)

자, 그러면 저번 시간에 이어 작업 할 준비가 다 되었습니다.

 

잠깐 기억을 더듬어 볼까요?

 

저는 가상의 DMR 출판사, 전략팀에 신입사원이었습니다.

우리나라 출판시장 데이터를 분석하여 우리 DMR 출판사가 어떤 고객층에 전략적 마케팅을 해야 할 지 분석하여 신입사원으로써의 존재함을 과시하고 싶었습니다.

 

그래서 지난 시간까지 엑셀 파일을 sas data set으로 가져와 상위 25%의 고객이 유의미 한 것으로 판단하여, 상위 25% 인지 아닌지를 구분하는 칼럼을 생성하는 작업까지 했습니다.

 

실제로, 여기까지 오면서 여러분은 EG에서 라이브러리 할당, 데이터 가져오기, 데이터 특성화, 분포분석, 새로운 칼럼 생성 등의 스킬을 익히셨습니다.

 

오늘은 [Enterprise Guide를 이용한 Business Analytics]의 마지막 시간으로 새로운 칼럼을 생성했던 data set을 가지고 요약통계량, 테이블분석을 통해 데이터를 해석해 보는 시간을 갖기로 하겠습니다.

 

 

  1.  요약통계량

 

정말 상위 25%를 기준으로 통계량들이 달라지는 지 궁금하시죠? (궁금하다고 해주세요…)

질의빌더를 이용하여 [그림 6-1]와 같이 P_25 칼럼을 생성했던 data set을 이용하여 작업하도록 하겠습니다.

 

[그림 6-1]

SE22018112023173270.png

 

[메뉴바 > 설명 > 요약통계량]으로 들어가겠습니다.

 

[그림 6-2]

SE22018112023181670.png

 

[그림 6-2]와 같이 분석변수에는 “나이”, “소득”, “수익성”을 할당하고, 분류변수에는 “TOP_25”를 할당하겠습니다.

 

분석변수, 분류변수, 빈도변수 등… 언젠가 시간에 배웠던 단어들이 나오니 겁이 나시죠? 하지만 전~혀 걱정 없습니다. 각각의 변수를 클릭하면 그것에 대한 설명을 아래 패널에 띄워준답니다. ([그림 6-3]참조)

 

[그림 6-3]

SE22018112023184270.png

모두 할당하셨다면 왼쪽 패널의 [통계량 > 기본]을 클릭하겠습니다.

 

[그림 6-4]

SE22018112023185870.png

 

 [그림 6-4]과 같이 기본 통계량을 선택하겠습니다. 역시 이 통계량들도 각각의 이름을 클릭하면 아래 패널에서 그 정의를 확인하실 수 있습니다.

이번에는 [통계량 > 백분위수]를 클릭하셔서 “중위수”도 선택하겠습니다.

 

[그림 6-5]

SE22018112023191470.png

 

그리고 바로 [실행] 버튼을 클릭합니다.

 

[그림 6-6]

SE22018112023192570.png

 

[그림 6-6] 과 같은 결과를 얻으셨나요? 그렇다면 아주 잘 따라오고 계십니다!

 

결과를 함께 살펴보도록 하겠습니다.

 

·   나이 (AGE) : 수익성이 상위 25%의 나이의 평균은 34세, 하위 75%의 평균은 37세 입니다. 최빈값도 상위 25%는 21세, 아닌 쪽은 27세 입니다. 중위수도 상위 25%가 32세, 아닌 쪽이 34세 인 것으로 나타나고 있습니다.

 

·​   소득 (HOUSEHOLD_INCOME) : 수익성이 상위 25%인 쪽의 소득 평균이 약 9,300만원이고, 하위 75%는 5,800만원으로 나타나고 있습니다. 소득의 최빈값 중위수를 보더라도 두 그룹에 현저한 차이가 나타남을 보실 수 있습니다.

 

·​   수익성 (CUSTOMER_REVENUE) : 당연히 수익성을 기준으로 TOP_25를 생성했기 때문에 차이가 나타남을 쉽게 예상하실 수 있습니다. 그런데 합계 쪽을 확인 하시면 더 큰 의미를 발견하실 수 있습니다. 상위 25%의 수익성 합이 7억8천만이고, 하위 75%의 합은 6억 1천만 입니다. 다른 말로 하면, 상위 25%의 수익이 전체 수익의 반 이상을 차지하고 있다는 겁니다.

 

 

 

  1.  테이블 분석 (Chi-square tests)

 

성별에 따라서 수익성의 상위 25%와 하위 75%에 차이가 발생하는지를 분석할 수 있습니다. 성별, TOP_25는 범주형 변수이기 때문에 빈도분석을 사용하려고 합니다.

 

요약통계량에서 사용했던 그 data set([그림 6-1])을 선택하신 후 [메뉴바 > 작업 > 설명 > 테이블 분석]을 클릭합니다.

 

[그림 6-7]과 같이 테이블 변수에 “성별”과 “TOP_25”를 할당 합니다.

 

[그림 6-7]

SE22018112023211470.png

 

그리고 왼쪽 패널에서 [테이블]을 클릭합니다. [그림]에서 [테이블에 허용된 변수]에서 “GENDER”(성별)과 “TOP_25”를 끌어서 오른쪽 테이블에 열 맨 윗줄과 행 맨 왼쪽에 순서대로 놓습니다.

 

[그림 6-8]

SE22018112023212670.png

 

[그림 6-8] 과 같이 셋팅 되셨나요?

 

[그림 6-9]

SE22018112023213770.png

 

그리고 왼쪽 패널의 [테이블 통계량 > 연관성]을 클릭하시면 “카이제곱 검정”을 선택하실 수 있습니다.

 

[그림 6-10]

SE22018112023214870.png

 

“카이제곱 검정”을 체크한 후 [실행] 버튼을 클릭합니다.

 

[그림 6-11] 과 같은 결과가 나왔나요? 정말 잘 하셨습니다.

 

[그림 6-11]

SE22018112023215970.png

 

테이블 통계량에서 칼럼 백분율을 보시면, 하위 75%에서는 남성의 백분율이 73.62%로 가장 높은 비율이고, 여성이 71.32%로 가장 낮은 비율입니다. 하지만 상위 25%에서는 여성이 28.68%로 가장 높은 비율을 갖고 있습니다.

 

아래의 카이제곱 값을 확인해도 “p<0.0069” 로 통계적으로 유의미한 결과를 보여 줍니다. 여성이 남성이나 성별을 모르는 그룹에 비해 상위 25%에서 더 많은 비중을 차지할 가능성이 있다고 말할 수 있습니다.

 

그러니까, 신입사원인 제가 보고서를 낼 때에는 “상위 25% 중 특히 “여성”에 집중하여 마케팅을 하는 것이 효율적일 수 있다!” 라고 보고 하려고 합니다.

 

여기까지 “Enterprise Guide를 이용한 Business Analytics” 였습니다. 댓글에 질문을 달아주시면, 답변을 드리도록 하겠습니다. (염치 없지만, 오류, 오타 발견도… 부탁 드립니다.)

 

다음 시간부터는 제가 DMR 출판사에서 다른 데이터를 가지고 간단한 ‘시장분석’을 해보려고 합니다. 아마… 재미 있을지도… 모릅니다??

 

감기 조심하시고, 다음 시간에 뵙겠습니다 ^^

 

 

 

오늘까지 작업한 EGP를 다운로드 하실 수 있습니다.
저는 SAS Enterprise Guide 7.1, Local 환경에서 작업했습니다.
하위 버전이거나, 서버환경 일 경우 실행이 되지 않으실 수 있으니 참고 바랍니다.
물론 같은 버전, 같은 환경이어도, 라이브러리 디렉토리(D:\TEMP\DMR_전략팀)가 다르거나 불러오기 파일 위치(D:\Trea_SYSOP\Enterprise Guide를 이용한 Business Analytics)가 다르면 실행되지 않습니다.

 

참조 : [Business Analytics Using SAS Enterprise Guide and SAS Enterprise Miner: A Beginner's Guide]​  

Version history
Last update:
‎06-09-2020 04:42 AM
Updated by:
Contributors

SAS Innovate 2025: Call for Content

Are you ready for the spotlight? We're accepting content ideas for SAS Innovate 2025 to be held May 6-9 in Orlando, FL. The call is open until September 25. Read more here about why you should contribute and what is in it for you!

Submit your idea!

Article Labels
Article Tags