본 게시글은 https://www.sas.com/ko_kr/events/university-edition-webinar.html의 동영상을 바탕으로 제작되었습니다.
제 3강 비교가 쉬워지는 SAS UNIVERSITY EDITION "차이가 있는 것 같긴 한데..."
이번강의에는 이벤트 참여하기 버튼이 파란색일때와 빨간색일 때의 참여율을 알아보려고 합니다.
어떤 버튼이 이벤트 참여율이 더 높을까?
AB TEST : 2가지 방법 중 어떠한 방법이 좋은 결과를 도출하는가?
파란색 버튼과 빨간색 버튼중 어떠한 방법이 이벤트 참여율이 높은가?
전체 고객을 대상으로 실험을 하면 비용 등 여러 문제가 발생할 수 있어 파일럿 테스트를 진행합니다.
파일럿 테스트란, 전체 실험 대상 중 일부 실험 대상으로만 실험을 시행하는 것 입니다.
하지만 전체 중 일부분이 남성만 뽑힌 경우, VIP 고객만 뽑힌경우 등의 경우로 표본이 전체를 대표하지 못하는 경우가 발생할 수 있습니다.
-> 불확실성이 내포되어있다.
[진짜 의미 있는 차이일까?]
전체 200명을 대상으로 실험을 진행하였습니다.
A: 파란색 버튼만 노출시켜 이벤트 참여율 확인 - 파란색 버튼을 본 사람의 22%(100명 중 22명)이 이벤트에 참가
B: 빨간색 버튼만 노출시켜 이벤트 참여율 확인 - 빨간색 버튼을 본 사람의 32%(100명 중 32명)이 이벤트에 참가
'정말 버튼색깔이 참여율에 영향을 미칠까?'이런 의구심이 듭니다.
방법1.카이제곱 검정
종속변수: 질적변수 - 클릭여부(YES/NO)
독립변수: 질적변수 - 버튼유형(A/B)
방법2. 독립 T 검정
종속변수:양적변수 - 금액
질적변수:질적변수 - 버튼유형(A/B)
Ex) 평균적인 금액의 차이가 있을까?
이번 3강에서는 분석 프로세스 중 정규성 검정을 실행해 보겠습니다.
[데이터 구조]
1.고객 ID - id : 고객식별번호
2.그룹 - group : 테스트 대상 그룹 유형
3.클릭여부 - buy_yn : 1 or 0
4.구매여부 - buy_amt
[SAS UNIVERSITY]
샘플링을 위해 2강에서 만든 라이브러리: CUSTOMER_DEMO > 작업 및 유틸리티:확률표본 선택
확률표본 선택은 랜덤하게 추출을 위한 기능을 제공합니다.
프로세스 플로우1 > 확률포본 선택 클릭
-1) 데이터셋 이름을 바꾸기 위해 출력 데이터셋 > 데이터셋 이름 > MY TASK > CUSTOMER_DEMO를 CUSTOMER_sampled로 바꿔줍니다.
-2) 옵션: 비복원 추출 & 표본 크기는 200
난수 초깃값 지정 > 난수 초깃값 > 123,123
-3) RUN!
이렇게 설정한 200명의 사람들을 가지고 파일럿 테스트를 진행할 것입니다.
-1)프로세스플로우 > 유틸리티: 데이터 가져오기 > 파일 선택 > 제 3강_파일럿테스트(PILOT_TEST)
-2)출력 데이터 > 변경 > 라이브러리: MYTASK, 데이터셋: PILOT_TEST
-3)옵션 > 파일유형: CSV(쉼표로 구분된 파일)
-4)RUN!
-1)데이터 가져오기 > 작업 및 유틸리티: 막대 그리프 > 데이터 가져오기 - 막대그래프 연결
-2)막대그래프 > 데이터: MYTASK, 데이터셋: PILOT_TEST
-3)범주 > group, 측도: 변수 , 변수: click_yn, 통계량: 평균
-4)모양 > 막대: 레이블 표시 체크
-5)RUN!
결과: 그림에서 그룹 A은 0.22, B는 0.32가 나왔습니다.
결론적으로 A그룹과 B그룹이 어느정도 차이가 있다라는 것을 알 수 있습니다.
-1)플로세스 플로우 > 데이터 가져오기 - 막대 그래프 - 테이블 분석
-2)행 변수: click_yn, 칼럼변수: group
-3)옵션 : 통계량 > 카이제곱 통계량
-4)RUN!
결과값으로 빈도 테이블, 분포 그래프, click_yn*group 테이블에 대한 통계량이 나옵니다.
p-value는 통계적 유의성을 검증하는 가장 대중적인 지표입니다.
p-value는 0.1112로 유의미한 차이가 아닙니다.
클릭률에 있어서는 차이가 있어보였지만 사실은 p-value를 보면 유의미한 차이가 아닙니다.
데이터 가져오기 - 데이터 필터
-1)변수 1: buy_yn
-2)비교: 같음 , 값 유형 > 값 : 1
-3)추력 데이터셋 > 데이터셋 이름 > 라이브러리: MYTASK, 데이터셋: PILOT_TEST를 PILOT_TEST_filter로 바꿉니다.
-4)RUN!
buy_yn이 1인 값인 37개의 데이터가 출력됐습니다.
막대그래프를 가지고 구매금액의 차이가 있는지 알아보겠습니다.
-1)데이터: MYTASK.PILOT_TEST_FILTER
-2)범주: group
-3)측도 > 변수 : but_amt , 통계량: 평균
-4)RUN!
그룹 A와 그룹 B간에 평균금액간의 차이가 있어보입니다.
그룹 A는 평균 50000원이고, 그룹 B는 30000원입니다.
위에서 클릭률에서 유의미한 차이가 있어 보였지만, 실제로 p-value를 보면 유의미한 차이가 아닌것처럼
t-검정 테스트를 통해 실제로 유의미한지 알아보겠습니다.
-1)역할 > t-검정: 이표본 검정
-2)분석변수: buy_amt
-3)그룹변수: group
-4)옵션: 도표 > 선택한 도표
-5)RUN!
정규성검정, 등분산 검정(Equality of Varience)등을 알 수 있습니다.
등분산 검정(Equal)에서 p-value가 0.001보다 작다는 것은 두 집단이 유의미한 차이가 있다라는 것을 의미합니다.
백분률에서 알 수 있듯이 금액간의 차이가 있습니다.
본 3강에서 수치적차이가 진짜 유의미한 차이가 있는지를 알아볼 수 있었고, 이를 통해 통계학적 의사결정을 할 수 있습니다.
Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!