[SAS University Edition] 제 3강 비교가 쉬워지는 SAS University Edition - "차이가 있는 것 같긴 한데..."

본 게시글은 https://www.sas.com/ko_kr/events/university-edition-webinar.html의 동영상을 바탕으로 제작되었습니다.

제 3강 비교가 쉬워지는 SAS UNIVERSITY EDITION "차이가 있는 것 같긴 한데..."

이번강의에는 이벤트 참여하기 버튼이 파란색일때와 빨간색일 때의 참여율을 알아보려고 합니다.

어떤 버튼이 이벤트 참여율이 더 높을까?

AB TEST : 2가지 방법 중 어떠한 방법이 좋은 결과를 도출하는가?

파란색 버튼과 빨간색 버튼중 어떠한 방법이 이벤트 참여율이 높은가?

전체 고객을 대상으로 실험을 하면 비용 등 여러 문제가 발생할 수 있어 파일럿 테스트를 진행합니다.

파일럿 테스트란, 전체 실험 대상 중 일부 실험 대상으로만 실험을 시행하는 것 입니다.

하지만 전체 중 일부분이 남성만 뽑힌 경우, VIP 고객만 뽑힌경우 등의 경우로 표본이 전체를 대표하지 못하는 경우가 발생할 수 있습니다.

-> 불확실성이 내포되어있다.

[진짜 의미 있는 차이일까?]

전체 200명을 대상으로 실험을 진행하였습니다.

A: 파란색 버튼만 노출시켜 이벤트 참여율 확인 - 파란색 버튼을 본 사람의 22%(100명 중 22명)이 이벤트에 참가

B: 빨간색 버튼만 노출시켜 이벤트 참여율 확인 - 빨간색 버튼을 본 사람의 32%(100명 중 32명)이 이벤트에 참가

'정말 버튼색깔이 참여율에 영향을 미칠까?'이런 의구심이 듭니다.

방법1.카이제곱 검정

종속변수: 질적변수 - 클릭여부(YES/NO)

독립변수: 질적변수 - 버튼유형(A/B)

방법2. 독립 T 검정

종속변수:양적변수 - 금액

질적변수:질적변수 - 버튼유형(A/B)

Ex) 평균적인 금액의 차이가 있을까?

이번 3강에서는 분석 프로세스 중 정규성 검정을 실행해 보겠습니다.

[데이터 구조]

1.고객 ID - id : 고객식별번호

2.그룹 - group : 테스트 대상 그룹 유형

3.클릭여부 - buy_yn : 1 or 0

4.구매여부 - buy_amt

[SAS UNIVERSITY]

샘플링을 위해 2강에서 만든 라이브러리: CUSTOMER_DEMO > 작업 및 유틸리티:확률표본 선택

확률표본 선택은 랜덤하게 추출을 위한 기능을 제공합니다.

프로세스 플로우1 > 확률포본 선택 클릭

-1) 데이터셋 이름을 바꾸기 위해 출력 데이터셋 > 데이터셋 이름 > MY TASK > CUSTOMER_DEMO를 CUSTOMER_sampled로 바꿔줍니다.

-2) 옵션: 비복원 추출 & 표본 크기는 200

난수 초깃값 지정 > 난수 초깃값 > 123,123

-3) RUN!

이렇게 설정한 200명의 사람들을 가지고 파일럿 테스트를 진행할 것입니다.

-1)프로세스플로우 > 유틸리티: 데이터 가져오기 > 파일 선택 > 제 3강_파일럿테스트(PILOT_TEST)

-2)출력 데이터 > 변경 > 라이브러리: MYTASK, 데이터셋: PILOT_TEST

-3)옵션 > 파일유형: CSV(쉼표로 구분된 파일)

-4)RUN!

-1)데이터 가져오기 > 작업 및 유틸리티: 막대 그리프 > 데이터 가져오기 - 막대그래프 연결

-2)막대그래프 > 데이터: MYTASK, 데이터셋: PILOT_TEST

-3)범주 > group, 측도: 변수 , 변수: click_yn, 통계량: 평균

-4)모양 > 막대: 레이블 표시 체크

-5)RUN!

결과: 그림에서 그룹 A은 0.22, B는 0.32가 나왔습니다.

결론적으로 A그룹과 B그룹이 어느정도 차이가 있다라는 것을 알 수 있습니다.

-1)플로세스 플로우 > 데이터 가져오기 - 막대 그래프 - 테이블 분석

-2)행 변수: click_yn, 칼럼변수: group

-3)옵션 : 통계량 > 카이제곱 통계량

-4)RUN!

결과값으로 빈도 테이블, 분포 그래프, click_yn*group 테이블에 대한 통계량이 나옵니다.

p-value는 통계적 유의성을 검증하는 가장 대중적인 지표입니다.

p-value는 0.1112로 유의미한 차이가 아닙니다.

클릭률에 있어서는 차이가 있어보였지만 사실은 p-value를 보면 유의미한 차이가 아닙니다.

데이터 가져오기 - 데이터 필터

-1)변수 1: buy_yn

-2)비교: 같음 , 값 유형 > 값 : 1

-3)추력 데이터셋 > 데이터셋 이름 > 라이브러리: MYTASK, 데이터셋: PILOT_TEST를 PILOT_TEST_filter로 바꿉니다.

-4)RUN!

buy_yn이 1인 값인 37개의 데이터가 출력됐습니다.

막대그래프를 가지고 구매금액의 차이가 있는지 알아보겠습니다.

-1)데이터: MYTASK.PILOT_TEST_FILTER

-2)범주: group

-3)측도 > 변수 : but_amt , 통계량: 평균

-4)RUN!

그룹 A와 그룹 B간에 평균금액간의 차이가 있어보입니다.

그룹 A는 평균 50000원이고, 그룹 B는 30000원입니다.

위에서 클릭률에서 유의미한 차이가 있어 보였지만, 실제로 p-value를 보면 유의미한 차이가 아닌것처럼

t-검정 테스트를 통해 실제로 유의미한지 알아보겠습니다.

-1)역할 > t-검정: 이표본 검정

-2)분석변수: buy_amt

-3)그룹변수: group

-4)옵션: 도표 > 선택한 도표

-5)RUN!

정규성검정, 등분산 검정(Equality of Varience)등을 알 수 있습니다.

등분산 검정(Equal)에서 p-value가 0.001보다 작다는 것은 두 집단이 유의미한 차이가 있다라는 것을 의미합니다.

백분률에서 알 수 있듯이 금액간의 차이가 있습니다.

본 3강에서 수치적차이가 진짜 유의미한 차이가 있는지를 알아볼 수 있었고, 이를 통해 통계학적 의사결정을 할 수 있습니다.

SAS Tech & Tip