BookmarkSubscribeRSS Feed

[SAS 활용 노하우] Statistics with SAS part1

Started ‎01-25-2021 by
Modified ‎01-26-2021 by
Views 1,149

안녕하세요 

이번 게시글은 SAS Tool을 이용하여 기초 통계학 실행 방법에 관한 글 입니다.

 

1. Pick a Dataset

데이터를 분석하고자 할 때 먼저 원하는 데이터를 선택하여 분석을 할 수 있는 솔루션으로 import할 수 있습니다.

SAS Enterprise Guisde를 통해서는 분석가는 IT인력의 지원 없이 다양한 종류의 DB로부터 원하는 데이터를 직접 추출하여 분석 목적에 적합한 데이터로 생성하고 수정할 수 있습니다.

 

 

그림1.png

 

 

 

2. Descriptive Statistics & Percentile & Outliers

기술통계학(Descriptive Statistics)는 데이터를 수집, 정리하여 데이터가 갖는 특성을 표, 그래프, 또는 그림 등에 의하여 나타내거나 분석하는 통계학의 일부입니다.

 


스크린샷 2021-01-25 오후 11.49.13.png

 

< MEANS Procedure >

PROC MEANS DATA= sas-data-set  <통계량(s)> <option(s)> ;
CLASS variable(s); 
VAR variable(s); 
RUN;

 

•  SAS-data-set 에 관한 기술 통계량을 출력 합니다.

 

•  예시 : data set 인 sashelp.class에 대하여 Height, Weight각 변수에 대하여 개수, 평균, 최대값, 최소값, 범위, 표준편차등을 보여줌

 

proc means data=sashelp.class 
n mean max min range std;
output out = class;
   var Height Weight;
run;

 

3. Exploratory Data Analysis & Histograms

EDA란 데이터의 전반적인 형태, 구조, 특징을 조사하여 데이터의 변환이나 축약이 필요한가를 검토하는 작업

 

  • EDA의 4가지 주제

 - 1) 저항성  (Resistance) : 

자료의 일부가 기존과 현격히 다른 값으로 대체되었을 때 즉, 자료의 일부가 파손되었을 때 영향을 적게 받는 성질.

저항성이 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않습니다.

 

 - 2) 잔차의 해석 (Residual)

잔차란 관찰 값들이 주 경향으로부터 얼마나 벗어났는지를 말해줌. 즉, 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 찾아내야 합니다.

 

 - 3) 자료의 재표현 ( Re expression )

데이터분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도(로그/제곱근/역수변환)로 바꾸는 것을 의미합니다.

이와 같은변환을 통해 분포의 대칭성, 선형성, 분산의 안정성, 관련변수의 가법성이 나타나도록 자료를 재표현합니다.

 

 - 4) 자료의 현시성 ( Graphic Representation )

자료의 그래프에 의한 표현. 즉, 자료 안에 숨어 있는 정보를 시각적으로 나타내줌으로써 자료의 구조를 효율적으로 잘 파악할 수 있게 해줍니다. (box plot, histograms 등)

 

  • SAS Enterprise Guide

그림1.png

 

결과

그림2.png

 잔차분포

 

그림3.png그림4.png

                       예측값에 따른 잔차                                                    히스토그램

 

4. Skewness & Kurtosis

왜도는 관측치가 한쪽으로 기울어져 있는 비대칭 정도를 측정하는 단위이며, 첨도는 산술평균 주위에 대한 관측치의 밀집 정도를 측정하는 단위

 

  • Skewness : 관측치가 한쪽으로 기울어져 있는 비대칭 정도를 측정하는 단위

그림1.png  

     값이 0일 때 : 그래프가 좌우 대칭이다.

     값이 -1에 가까울 때 : 오른쪽으로 꼬리가 치우친 형태

     값이 1에 가까울 때 : 왼쪽에 꼬리가 치우친 상태

 

 

  • Kurtosis : 산술 평균 주위에 대한 관측치의 밀집 정도를 측정하는 단위

그림1.png

 

       값이 3일 때 : 정규분포

       값이 3보다 클 때 : 정규 분포에 비해 산술 평균 주위에 관측치가 밀집한 형태

       값이 3보다 작을 때: 정규 분포에 비해 관측치가 중심으로부터 풀어진 형태

 

SAS Enterprise Guide에서의 Skewness & Kurtosis

 

그림1.png

 

 

결과

그림1.png

 

 

5. ANOVA

분산분석(ANOVA)은 세 집단 이상의 집단 평균치 차이를 검정하고자 하는 경우에 사용하는 기법

 

ANOVA의 종류

  1. One-way ANOVA 

    분석하고자 하는 변수가 1개인 경우 (t-검정도 일원분산분석법의 일종)

    -  ex) 학력별 봉급 차이를 분석하는 경우

    -  H_0 : Means are equal

    -  H_1 : Means are not equal

  2. Two-way ANOVA

        분석하고자 하는 변수가 2개인 경우

        - ex) 남녀별/ 학력별 봉급 차이를 분석하는 경우

        - H_0 : All means are equal

        - H_1 : At least one mean is different

 

      3. Multi-way ANOVA

          독립변수가 3개 이상인 경우

 

분산분석법의 가정

  1. 집단간 서로 독립적이다.
  2. 표본평균의 분포가 정규분포를 따라야 한다. (Normally Distributed) : 정규분포를 따르지 않으면 F 통계량을 구할 수 없어 비 모수적 방법을 사용해야 함.

  3. 집단들은 거의 같은 분산을 가져야 한다. (Homogeneity of Variance)

 

PROC GLM DATA=SAS-data-set;
	CLASS variables;
	MODEL dependents=independents </ options>;
	MEANS effects </ options>;
	LSMEANS effects </ options>;
	OUTPUT OUT=SAS-data-set keyword=variable…;
RUN;
QUIT;

 

SAS Enterprise Guide

그림1.png

 

Version history
Last update:
‎01-26-2021 07:26 AM
Updated by:
Contributors

hackathon24-white-horiz.png

The 2025 SAS Hackathon Kicks Off on June 11!

Watch the live Hackathon Kickoff to get all the essential information about the SAS Hackathon—including how to join, how to participate, and expert tips for success.

YouTube LinkedIn

Article Labels
Article Tags