BookmarkSubscribeRSS Feed

[SAS University Edition] 제 5강 관계파악이 쉬워지는 SAS University Edition "유용한 모형을 찾아서"

Started ‎10-30-2020 by
Modified ‎10-30-2020 by
Views 2,312

본 게시글은 https://www.sas.com/ko_kr/events/university-edition-webinar.html 동영상을 바탕으로 제작되었습니다.

 

[어떤 변수가 매출에 영향을 줄까?] 

 

1.png

 

A매장 매출을 올리고 싶을 때, 매출에 영향을 끼치는 요인을 분석하여 매출향상을 위해 선택과 집중을 하고자합니다..

 

 

[회귀분석]

2.png

 

회귀분석이란?

독립변수가 종속변수에 영향을 미치는지 알아보고자 할 때 실시하는 분석방법입니다. 단순 선형 회귀분석은 독립변수 X(설명변수; 매출에 영향을 끼치는 다양한 요인들)에 대하여 종속변수 Y(반응변수; 매출)들 사이의 관계를 수학적 모형을 이용하여 설명변수들의 변화로부터 종속변수의 변화를 예측하는 분석입니다.

 

회귀분석의 가정들

오차항은 서로 독립인 평균이 0이고, 분산이 σ^2인 정규분포를 따르는 확률변수이다.

-> 가정 위반시: 비모수 검정을 이용합니다.

  1. 독립변수와 종속변수는 선형관계

  2. 종속변수들은 서로 상관되어 있지 않다.

 

분석을 위해 사용할 데이터

3.png

 

SAS UNIVERSITY

4.png

출력 데이터 > 제 5강_상점매출(STORE_SALES).csv를 drag and drop

라이브러리:MYTASK

데이터셋:STORE_SALES

RUN!

 

변수파악

변수가 많으므로 기초통계량을 통해서 변수탐색을 진행하겠습니다.

방법1.[프레세스플로우] 데이터 가져오기 > 요약통계량

5.png

요약통계량은 기초통계량과 같이 데이터의 가장 기본적인 특징을 알려주는 값들입니다.

요약통계량

데이터:MYTASK.STORE_SALES.c

분석변수:X01~X11,Y(STORE_ID를 제외한 모든 변수)

옵션:출력되는 기초통계량 값을 선택할 수 있습니다.

옵션에서 기본 통계량 평균,표준편차,최솟값,관측값은 자동으로 선택되어 있습니다.

이 외에도 추가통계량(표준오차, 분산, 최빈값,범위 등), 백분위를 지정할 수 있습니다.

이번 강의에서는 도표 > 히스토그램을 통해서 변수를 파악하겠습니다.

 

방법2.[프로세스플로우] 데이터 가져오기 > 상관분석

6.png

상관분석이란?

A 변수가 증가함에 따라 B 변수도 증가되는지 혹은 감소하는지를 알 수 있는 분석 방법입니다. 상관분석에는 두 변수 사이의 선형적인 관계 정도를 나타내기 위해 상관계수(correlation coefficient)를 사용합니다

데이터:MYTASK.STORE_SALES

분석변수:X01(할인행사기간),X02(판촉행사기간),X03(광고선전비)

옵션 > 도표 > 도표 유형: 산점도행렬

할인행사기간과 판촉행사기간이 길어질수록 광고선전비가 증가할 것으로 예상되어 상관분석을 진행해보았습니다.

 

 

7.png

실행결과에서 산점도를 살펴보면 X01(할인행사기간), X02(판촉행사기간),X03(광고선전비) 각각의 변수들끼리 선형성을 띄므로 상관관계가 있어보입니다.

 

 

회귀분석

8.png

데이터 탐색을 끝내고 선형회귀를 진행하겠습니다.

[프로세스플로우] 데이터 가져오기 > 선형회귀

데이터: MYTASK.STORE_SALES

종속변수:Y(매출)

분류변수: X11(직영매장여부)

연속변수:X01~ X11

모델 > 편집

변수:X01 ~ X11

단일효과: 추가

절편체크 > 확인

자동으로 코드가 생성됩니다.

옵션 : 통계량: 통계량 표시 > 기본 및 선택 통계량 > 공선성 > 분석 팽창 요인

정보간 중첩이 있나를 알아보기 위해 공선성 > 분산 팽창 요인을 체크해 주세요.

분산팽창요인(VIF)이란?

다중회귀분석에서 다중공선성(독립변수들 간에 강한 상관관계)의 크기를 검증하는 방법 중 하나입니다. 값이 10이상이면 다중공선성 문제가 있다고 판단되어 변수를 제외하는 등의 조정이 필요할 수 있습니다.

 

 

회귀모형의 검정 및 적합도 파악

회귀식이 통계적으로 유의한지, 변수가 유의하게 영향을 미치는지 그리고 얼마 만큼의 설명력을 가지는지 등의 여부를 파악하기 위해 여러가지 방법으로 회귀모형의 검정 및 적합도 파악을 합니다.

 

9.png

회귀모형의 검정 및 적합도 파악을 위해 F-statistic, P-value, R^2를 활용할 수 있습니다.

F-statistic와 P-value는 회귀식 전체에 대한 유의성 검정을 나타냅니다.

H0 귀무가설: 회귀계수가 모두 0이다.

H1 대립가설: 회귀식이 유의하다 = 회귀계수 모두가 0이 아니다. = 회귀계수 중 적어도 하나라도 0이 아니다.

대개 유의수준 0.05일때 p-value가 0.05보다 작으므로 귀무가설을 기각한다.(= 대립가설을 채택한다. =회귀식이 유의하다)라고 합니다.

R^2는 결정계수로 회귀모형의 설명력을 표현하는 것입니다.

0과 1사이에 값으로 나타나는데 0에 가까울수록 설명력이 낮고 1에 가까울수록 설명력이 높다고 해석할 수 있습니다.

 

 

이상치 탐색

이상치:데이터 샘플에서 관찰된 한 값이 다른 관측값과 거리가 있을 때 이상치(outlier)라고 합니다. 이상치를 알아보기 위하여 잔차를 이용합니다.

출력 > 출력 데이터셋 > 관측값 방향 통계량 데이터셋 생성 > 잔차 > 스튜던트화 잔차

10.png

잔차란?

종속변수 관측치와 모형 적합치의 차이

잔차분석?

  1. 설명변수와 종속변수의 함수 관계는 선형인가? <=> 회귀계수 유의성 검정과 동일 <=> 오차항의 패턴 없이 무작위 형태

  2. 오차의 분산은 설명 변수의 값에 따른 변화는 없는가? (등분산성)

  3. 오차항은 서로 독립인가? (독립성) 오차항은 정규분포를 따르는가? (정규성)

  4. 이상치나 영향치가 존재하는가? 5) 고려된 설명 변수 이외 다른 주요한 설명 변수가 존재하지는 않는가? 잔차가 일 정한 패턴을 갖는다.

잔차의 종류

1)표준화 잔차 2)스튜던트화 잔차 3)표준화 제외 잔차 4)스튜던트 제외 잔차

본 강의에서는 스튜던트화 잔차를 이용합니다.

스튜던트화 잔차?

잔차를 t-분포를 따르는 통계량으로 만든 것으로 ±3 이면 이상치(혹은 영향치)로 판단 => hii 는 Hat 행렬의 대각 원소로 leverage 레버리지(지렛대)로 정의, 영향치 판단에 사용합니다.

 

 

11.png

[프로세스플로우] 데이터 가져오기 - 선형회귀 - 질의를 통해서 이상치 탐색.

테이블 선택

라이브러리:WORK

데이터셋:REG_STATS

 

 

칼럼 > 선택

12.png

1.Drag & Drop으로 모든 칼럼을 <선택>에 끌어 옵니다.

2.마지막 칼럼인 student_ 칼럼을 쓰레기통 아이콘을 통해서 제거합니다.

 

 

칼럼 > 필터 

13.png

  1. 칼럼 > 필터에서 student_칼럼을 Drag&Drop
  2. 연산자 Between, 망원경 icon클릭
  3. 값 범위: -2.5 ~ 2.5

출력된 결과를 살펴보면 250개의 데이터 중 248데이터가 출력됩니다. 2개의 이상치를 제거하고 다시 회귀분석을 진행할 수 있습니다.

 

주성분분석

14.png

서로 상관성이 높은 여러 변수들의 선형조합으로 만든 새로운 변수들로 요약, 축소하는 기법입니다.

데이터: MYTASK.STORE_SALES

역할 > 분석변수 > X01, X02, X03 넣기 > RUN!

 

결과

15.png

 

선형회귀와 주성분분석 이외에도 군집분석, 다양한 다변량 분석 등 여러가지 분석등을 코딩 없이 드래드 앤 드롭으로 분석을 진행하였습니다.

Version history
Last update:
‎10-30-2020 10:35 AM
Updated by:
Contributors

Ready to join fellow brilliant minds for the SAS Hackathon?

Build your skills. Make connections. Enjoy creative freedom. Maybe change the world. Registration is now open through August 30th. Visit the SAS Hackathon homepage.

Register today!
Article Tags