[SAS University Edition] 제 4강 비교가 쉬워지는 SAS University Edition " 다양한 요인을 고려하는"

1 Like

본 게시글은 https://www.sas.com/ko_kr/events/university-edition-webinar.html의 동영상을 바탕으로 제작되었습니다.

본 4강에서는 다양한 요인을 고려하는 다중 분석을 실행하였습니다.

1.어떠한 매장에 키오스크를 도입하려 할 때, '어떠한 키오스크가 고객들에게 접근성이 좋을까?'

2.스마트폰 디자인 선호도를 조사하려고 합니다.

ANOVA?

통계학에서 두 개 이상 다수의 집단을 비교하고자 할 때 집단 내의 분산, 총평균과 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법입니다.

가정) 오차항은 서로 독립이고, 평균은 0이며, 분산은 시그마제곱이고 정규분포를 따르는 확률변수입니다.

블록과 공변량?

예를들어, 방문고객이 많은 매장이랑 적은 매장에는 이용빈도의 차이가 있을 수 있습니다. 또는, 키오스크 옆에 이용가이드가 유무에 따른 이용빈도의 차이가 있을 수 있습니다.

이렇게 이용빈도에 영향을 줄 수 있는 요인들을 양적변수/수치형변수는 공변량이고, 질적변수이면 블록이라고 합니다.

데이터 확인 > 분석 > 가정 검토 > 해석절차로 분석을 진행하겠습니다.

사용할 데이터는 [키오스크 이용률 데이터]와 [디자인 선호도 비교 데이터] 입니다.

[키오스크 이용률 데이터]는 전체 지점의 이용률 데이터가 아니라 특정 지점의 이용률데이터로 파일럿 테스트를 진행하는 것 입니다.

[디자인 선호도 비교 데이터]는 설문자 응답자를 대상으로한 데이터 입니다.

-1) 프로세스 플로우 > 데이터 가져오기 > 파일선택 > 4강_(1)키오스크이용률.csv

출력 데이터: 변경

라이브러리: MYTASK / 데이터셋:KIOSK_UR

옵션_파일유형 > csv(쉼표로 구분된 파일)

RUN!

2) 프로세스 플로우 > 데이터 가져오기 > 파일선택 > 4강_(2) 디자인선호도비교.csv

출력 데이터: 변경

라이브러리: MYTASK / 데이터셋:DESIGN_PREF

옵션_파일유형 > csv(쉼표로 구분된 파일)

RUN!

데이터 가져오기 - 일원산 분석을 컨트롤 포트로 연결해줍니다.

데이터 가져오기 > 일원산분산분석

-1) 데이터: MYTASK.KIOSK_UR

종속변수: utilization_cnt

범주변수: kiosk_type

-2)RUN!

+SAS U.E는 기본설정을 통상적으로 사용하는 통계분석 기법을 사용합니다.

실행결과 <Dependent Variable: utilization_cnt>로 분산분석의 결과가 나옵니다.

p-value가 0.001로 a,b,c간의 차이가 있는지를 확인할 수 있습니다.

Box plot을 통해 그룹간의 차이를 확인 할 수 있습니다.

A타입이 이용률이 가장 높습니다.

<Levene's Test for Homogenity of utilization_cnt Varience ANOVA of Squared Deviations from Group Means>는 등분산 검정의 결과값으로 0.8이 나왔으므로, 등분산을 만족한다는 것을 알 수 있습니다.

<Least Squares Means for effect kiosk_type>을 통해서 각 그룹간 차이가 유의미한가를 알 수 있습니다. A그룹과 B그룹간의 p 값이 0.001로 유의미한 차이가 있습니다. 그리고 A그룹과 C그룹간의 p 값이 0.001로 유의미한 차이가 있습니다. 하지만, B그룹과 C그룹간의 p 값이 0.9926으로 유의마한 차이가 있지 않습니다.

이 분석을 통해서 A 키오스크가 가장 사용빈도가 높아 A키오스크를 선택하면 될 것 같지만, 이 분석은 이용자 수를 고려하지 않은 분석으로 신뢰도가 높은 분석은 아닙니다.

이용자수를 고려하여 분석을 진행하기 위해서 공분산 분석을 실시하였습니다.

데이터 가져오기 - 일원산분석 - 공분산 분석

데이터: MYTASK.KIOSK_UR

종속변수: utilization_cnt

범주변수: kiosk_type

연속 공변량: visit_cnt

RUN!

결과값 중 visit_cnt*kiosk_type을 통해서 상호작용 효과의 값이 0.7264로 통계학적으로 유의미하지 않다는 것을 알 수 있습니다.

그러므로, 공분산 분석 > 옵션 > 기울기를 통해서 방문자수랑 키오스크 유형이 서로 시너지 효과가 있는지(=교호작용)를 조정할 수 있습니다.

시너지 효과가 있다면(=교호작용이 있다.) '기울기: 같지 않음'으로 하고, 시너지 효과가 없다면 '기울기: 같음'으로 하면됩니다.

시너지 효과가 없음으로 '기울기: 같음'으로 다시 한번 분석을 수행합니다.

방문자수의 증가에 따라 이용률이 증가함을 볼 수 있습니다.

이 효과를 제거하고 보면(=방문자수를 고려) B키오스크가 이용률이 높음을 볼 수 있습니다.

이번에는 A타입과 B타입 중 디자인 선호도 검사를 실시하겠습니다.

두개의 집단을 분석하기 때문에 t 검정을 실시하겠습니다.

DESIGN_PREF > 역할: t 검정: 이표본 검정

분석변수: pref_score

그룹변수: design_type

RUN!

평균값을 비교해보면 A타입은 26.5, B타입은 60으로 통계적으로 유의미한 차이가 있다라는 것을 확인 할 수 있습니다.

다른 분석방법으로 공분산분석을 진행하였습니다.

종속변수: pref_score

범주변수: design_type

연속 공변량: age

RUN!

p-value값이 0.0021로 유의미한 분석이 진행되었습니다. 상호작용효과는 0.4662로 유의미한 분석이 아닌 것 같다는 판단으로

공분산분석 > 기울기 > 같음으로 다시 분석을 실행하였습니다.

그 결과, '디자인에 대한 선호도 분석은 유의미하지 않다' 라는 결론이 내려졌습니다.

SAS Tech & Tip