BookmarkSubscribeRSS Feed

[SAS University Edition] 제 3강 비교가 쉬워지는 SAS University Edition - "차이가 있는 것 같긴 한데..."

Started ‎10-23-2020 by
Modified ‎10-23-2020 by
Views 370

본 게시글은 https://www.sas.com/ko_kr/events/university-edition-webinar.html의 동영상을 바탕으로 제작되었습니다.

제 3강 비교가 쉬워지는 SAS UNIVERSITY EDITION "차이가 있는 것 같긴 한데..."

 

이번강의에는 이벤트 참여하기 버튼이 파란색일때와 빨간색일 때의 참여율을 알아보려고 합니다. 

1.png

어떤 버튼이 이벤트 참여율이 더 높을까?

 AB TEST : 2가지 방법 중 어떠한 방법이 좋은 결과를 도출하는가?

파란색 버튼과 빨간색 버튼중 어떠한 방법이 이벤트 참여율이 높은가?

 

2.png

전체 고객을 대상으로 실험을 하면 비용 등 여러 문제가 발생할 수 있어 파일럿 테스트를 진행합니다.

파일럿 테스트란, 전체 실험 대상 중 일부 실험 대상으로만 실험을 시행하는 것 입니다.    

하지만 전체 중 일부분이 남성만 뽑힌 경우, VIP 고객만 뽑힌경우 등의 경우로 표본이 전체를 대표하지 못하는 경우가 발생할 수 있습니다.

-> 불확실성이 내포되어있다.

 

 

3.png

[진짜 의미 있는 차이일까?]

전체 200명을 대상으로 실험을 진행하였습니다.

A: 파란색 버튼만 노출시켜 이벤트 참여율 확인 - 파란색 버튼을 본 사람의 22%(100명 중 22명)이 이벤트에 참가

B: 빨간색 버튼만 노출시켜 이벤트 참여율 확인 - 빨간색 버튼을 본 사람의 32%(100명 중 32명)이 이벤트에 참가

 

'정말 버튼색깔이 참여율에 영향을 미칠까?'이런 의구심이 듭니다.

 

 

4.png

방법1.카이제곱 검정  

종속변수: 질적변수 - 클릭여부(YES/NO)

독립변수: 질적변수 - 버튼유형(A/B)

 

5.png

방법2. 독립 T 검정

종속변수:양적변수 - 금액 

질적변수:질적변수 - 버튼유형(A/B)

Ex) 평균적인 금액의 차이가 있을까? 

 

 

6.png

이번 3강에서는 분석 프로세스 중 정규성 검정을 실행해 보겠습니다.

 

[데이터 구조]

1.고객 ID - id : 고객식별번호

2.그룹 - group : 테스트 대상 그룹 유형

3.클릭여부 - buy_yn : 1 or 0

4.구매여부 - buy_amt

 

[SAS UNIVERSITY]

7.png

샘플링을 위해 2강에서 만든 라이브러리: CUSTOMER_DEMO >  작업 및 유틸리티:확률표본 선택

확률표본 선택은 랜덤하게 추출을 위한 기능을 제공합니다.

 

 

8.png

프로세스 플로우1 > 확률포본 선택 클릭

-1) 데이터셋 이름을 바꾸기 위해 출력 데이터셋 > 데이터셋 이름 >  MY TASK > CUSTOMER_DEMO를 CUSTOMER_sampled로 바꿔줍니다.

-2) 옵션: 비복원 추출 & 표본 크기는 200 

         난수 초깃값 지정 > 난수 초깃값 > 123,123

-3) RUN!

 

 

9.png

이렇게 설정한 200명의 사람들을 가지고 파일럿 테스트를 진행할 것입니다.

 

10.png

-1)프로세스플로우 > 유틸리티: 데이터 가져오기 > 파일 선택 > 제 3강_파일럿테스트(PILOT_TEST)

-2)출력 데이터 > 변경 > 라이브러리: MYTASK, 데이터셋:  PILOT_TEST

-3)옵션 > 파일유형: CSV(쉼표로 구분된 파일)

-4)RUN!

 

11.png

-1)데이터 가져오기 > 작업 및 유틸리티: 막대 그리프 > 데이터 가져오기 - 막대그래프 연결

-2)막대그래프 > 데이터: MYTASK, 데이터셋: PILOT_TEST 

-3)범주 > group,  측도: 변수 , 변수: click_yn, 통계량: 평균

-4)모양 > 막대: 레이블 표시 체크 

-5)RUN!

 12.png

결과: 그림에서 그룹 A은 0.22, B는 0.32가 나왔습니다.

결론적으로 A그룹과 B그룹이 어느정도 차이가 있다라는 것을 알 수 있습니다.

 

 13.png

-1)플로세스 플로우 > 데이터 가져오기 - 막대 그래프 - 테이블 분석

-2)행 변수: click_yn, 칼럼변수: group

-3)옵션 : 통계량 > 카이제곱 통계량

-4)RUN!

 

14.png

결과값으로 빈도 테이블, 분포 그래프, click_yn*group 테이블에 대한 통계량이 나옵니다.

 

15.png

 

p-value는 통계적 유의성을 검증하는 가장 대중적인 지표입니다. 

p-value는 0.1112로 유의미한 차이가 아닙니다.

클릭률에 있어서는 차이가 있어보였지만 사실은 p-value를 보면 유의미한 차이가 아닙니다.

 

16.png

데이터 가져오기 - 데이터 필터 

-1)변수 1: buy_yn

-2)비교: 같음 , 값 유형 > 값 : 1 

-3)추력 데이터셋 > 데이터셋 이름 > 라이브러리: MYTASK, 데이터셋: PILOT_TEST를 PILOT_TEST_filter로 바꿉니다.

 -4)RUN!

 

17.png

buy_yn이 1인 값인 37개의 데이터가 출력됐습니다. 

 

18.png

막대그래프를 가지고 구매금액의 차이가 있는지 알아보겠습니다.

-1)데이터: MYTASK.PILOT_TEST_FILTER

-2)범주: group

-3)측도 > 변수 : but_amt , 통계량: 평균

-4)RUN!

 

19.png

그룹 A와 그룹 B간에 평균금액간의 차이가 있어보입니다.

그룹 A는 평균 50000원이고, 그룹 B는 30000원입니다.

 

 

20.png

위에서 클릭률에서 유의미한 차이가 있어 보였지만, 실제로 p-value를 보면 유의미한 차이가 아닌것처럼

t-검정 테스트를 통해 실제로 유의미한지 알아보겠습니다.

-1)역할 > t-검정: 이표본 검정

-2)분석변수: buy_amt

-3)그룹변수: group

-4)옵션: 도표 > 선택한 도표

-5)RUN!

 

21.png

정규성검정, 등분산 검정(Equality of Varience)등을 알 수 있습니다.

등분산 검정(Equal)에서 p-value가 0.001보다 작다는 것은 두 집단이 유의미한 차이가 있다라는 것을 의미합니다.

 

22.png

백분률에서 알 수 있듯이 금액간의 차이가 있습니다.

 

 

본 3강에서 수치적차이가 진짜 유의미한 차이가 있는지를 알아볼 수 있었고, 이를 통해 통계학적 의사결정을 할 수 있습니다.

Version history
Last update:
‎10-23-2020 08:31 PM
Updated by:
Contributors

Ready to join fellow brilliant minds for the SAS Hackathon?

Build your skills. Make connections. Enjoy creative freedom. Maybe change the world. Registration is now open through August 30th. Visit the SAS Hackathon homepage.

Register today!
Article Tags