BookmarkSubscribeRSS Feed

[SAS 활용 노하우] Statistics with SAS part1

Started ‎01-25-2021 by
Modified ‎01-26-2021 by
Views 903

안녕하세요 

이번 게시글은 SAS Tool을 이용하여 기초 통계학 실행 방법에 관한 글 입니다.

 

1. Pick a Dataset

데이터를 분석하고자 할 때 먼저 원하는 데이터를 선택하여 분석을 할 수 있는 솔루션으로 import할 수 있습니다.

SAS Enterprise Guisde를 통해서는 분석가는 IT인력의 지원 없이 다양한 종류의 DB로부터 원하는 데이터를 직접 추출하여 분석 목적에 적합한 데이터로 생성하고 수정할 수 있습니다.

 

 

그림1.png

 

 

 

2. Descriptive Statistics & Percentile & Outliers

기술통계학(Descriptive Statistics)는 데이터를 수집, 정리하여 데이터가 갖는 특성을 표, 그래프, 또는 그림 등에 의하여 나타내거나 분석하는 통계학의 일부입니다.

 


스크린샷 2021-01-25 오후 11.49.13.png

 

< MEANS Procedure >

PROC MEANS DATA= sas-data-set  <통계량(s)> <option(s)> ;
CLASS variable(s); 
VAR variable(s); 
RUN;

 

•  SAS-data-set 에 관한 기술 통계량을 출력 합니다.

 

•  예시 : data set 인 sashelp.class에 대하여 Height, Weight각 변수에 대하여 개수, 평균, 최대값, 최소값, 범위, 표준편차등을 보여줌

 

proc means data=sashelp.class 
n mean max min range std;
output out = class;
   var Height Weight;
run;

 

3. Exploratory Data Analysis & Histograms

EDA란 데이터의 전반적인 형태, 구조, 특징을 조사하여 데이터의 변환이나 축약이 필요한가를 검토하는 작업

 

  • EDA의 4가지 주제

 - 1) 저항성  (Resistance) : 

자료의 일부가 기존과 현격히 다른 값으로 대체되었을 때 즉, 자료의 일부가 파손되었을 때 영향을 적게 받는 성질.

저항성이 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않습니다.

 

 - 2) 잔차의 해석 (Residual)

잔차란 관찰 값들이 주 경향으로부터 얼마나 벗어났는지를 말해줌. 즉, 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 찾아내야 합니다.

 

 - 3) 자료의 재표현 ( Re expression )

데이터분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도(로그/제곱근/역수변환)로 바꾸는 것을 의미합니다.

이와 같은변환을 통해 분포의 대칭성, 선형성, 분산의 안정성, 관련변수의 가법성이 나타나도록 자료를 재표현합니다.

 

 - 4) 자료의 현시성 ( Graphic Representation )

자료의 그래프에 의한 표현. 즉, 자료 안에 숨어 있는 정보를 시각적으로 나타내줌으로써 자료의 구조를 효율적으로 잘 파악할 수 있게 해줍니다. (box plot, histograms 등)

 

  • SAS Enterprise Guide

그림1.png

 

결과

그림2.png

 잔차분포

 

그림3.png그림4.png

                       예측값에 따른 잔차                                                    히스토그램

 

4. Skewness & Kurtosis

왜도는 관측치가 한쪽으로 기울어져 있는 비대칭 정도를 측정하는 단위이며, 첨도는 산술평균 주위에 대한 관측치의 밀집 정도를 측정하는 단위

 

  • Skewness : 관측치가 한쪽으로 기울어져 있는 비대칭 정도를 측정하는 단위

그림1.png  

     값이 0일 때 : 그래프가 좌우 대칭이다.

     값이 -1에 가까울 때 : 오른쪽으로 꼬리가 치우친 형태

     값이 1에 가까울 때 : 왼쪽에 꼬리가 치우친 상태

 

 

  • Kurtosis : 산술 평균 주위에 대한 관측치의 밀집 정도를 측정하는 단위

그림1.png

 

       값이 3일 때 : 정규분포

       값이 3보다 클 때 : 정규 분포에 비해 산술 평균 주위에 관측치가 밀집한 형태

       값이 3보다 작을 때: 정규 분포에 비해 관측치가 중심으로부터 풀어진 형태

 

SAS Enterprise Guide에서의 Skewness & Kurtosis

 

그림1.png

 

 

결과

그림1.png

 

 

5. ANOVA

분산분석(ANOVA)은 세 집단 이상의 집단 평균치 차이를 검정하고자 하는 경우에 사용하는 기법

 

ANOVA의 종류

  1. One-way ANOVA 

    분석하고자 하는 변수가 1개인 경우 (t-검정도 일원분산분석법의 일종)

    -  ex) 학력별 봉급 차이를 분석하는 경우

    -  H_0 : Means are equal

    -  H_1 : Means are not equal

  2. Two-way ANOVA

        분석하고자 하는 변수가 2개인 경우

        - ex) 남녀별/ 학력별 봉급 차이를 분석하는 경우

        - H_0 : All means are equal

        - H_1 : At least one mean is different

 

      3. Multi-way ANOVA

          독립변수가 3개 이상인 경우

 

분산분석법의 가정

  1. 집단간 서로 독립적이다.
  2. 표본평균의 분포가 정규분포를 따라야 한다. (Normally Distributed) : 정규분포를 따르지 않으면 F 통계량을 구할 수 없어 비 모수적 방법을 사용해야 함.

  3. 집단들은 거의 같은 분산을 가져야 한다. (Homogeneity of Variance)

 

PROC GLM DATA=SAS-data-set;
	CLASS variables;
	MODEL dependents=independents </ options>;
	MEANS effects </ options>;
	LSMEANS effects </ options>;
	OUTPUT OUT=SAS-data-set keyword=variable…;
RUN;
QUIT;

 

SAS Enterprise Guide

그림1.png

 

Version history
Last update:
‎01-26-2021 07:26 AM
Updated by:
Contributors

SAS Innovate 2025: Register Now

Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!

Article Labels
Article Tags