안녕하세요
이번 게시글은 SAS Tool을 이용하여 기초 통계학 실행 방법에 관한 글 입니다.
1. Pick a Dataset
데이터를 분석하고자 할 때 먼저 원하는 데이터를 선택하여 분석을 할 수 있는 솔루션으로 import할 수 있습니다.
SAS Enterprise Guisde를 통해서는 분석가는 IT인력의 지원 없이 다양한 종류의 DB로부터 원하는 데이터를 직접 추출하여 분석 목적에 적합한 데이터로 생성하고 수정할 수 있습니다.
2. Descriptive Statistics & Percentile & Outliers
기술통계학(Descriptive Statistics)는 데이터를 수집, 정리하여 데이터가 갖는 특성을 표, 그래프, 또는 그림 등에 의하여 나타내거나 분석하는 통계학의 일부입니다.
< MEANS Procedure >
PROC MEANS DATA= sas-data-set <통계량(s)> <option(s)> ;
CLASS variable(s);
VAR variable(s);
RUN;
• SAS-data-set 에 관한 기술 통계량을 출력 합니다.
• 예시 : data set 인 sashelp.class에 대하여 Height, Weight각 변수에 대하여 개수, 평균, 최대값, 최소값, 범위, 표준편차등을 보여줌
proc means data=sashelp.class
n mean max min range std;
output out = class;
var Height Weight;
run;
3. Exploratory Data Analysis & Histograms
EDA란 데이터의 전반적인 형태, 구조, 특징을 조사하여 데이터의 변환이나 축약이 필요한가를 검토하는 작업
- 1) 저항성 (Resistance) :
자료의 일부가 기존과 현격히 다른 값으로 대체되었을 때 즉, 자료의 일부가 파손되었을 때 영향을 적게 받는 성질.
즉 저항성이 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않습니다.
- 2) 잔차의 해석 (Residual)
잔차란 관찰 값들이 주 경향으로부터 얼마나 벗어났는지를 말해줌. 즉, 잔차를 구해봄으로써 데이터의 보통과 다른 특징을 찾아내야 합니다.
- 3) 자료의 재표현 ( Re expression )
데이터분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도(로그/제곱근/역수변환)로 바꾸는 것을 의미합니다.
이와 같은변환을 통해 분포의 대칭성, 선형성, 분산의 안정성, 관련변수의 가법성이 나타나도록 자료를 재표현합니다.
- 4) 자료의 현시성 ( Graphic Representation )
자료의 그래프에 의한 표현. 즉, 자료 안에 숨어 있는 정보를 시각적으로 나타내줌으로써 자료의 구조를 효율적으로 잘 파악할 수 있게 해줍니다. (box plot, histograms 등)
결과
잔차분포
예측값에 따른 잔차 히스토그램
4. Skewness & Kurtosis
왜도는 관측치가 한쪽으로 기울어져 있는 비대칭 정도를 측정하는 단위이며, 첨도는 산술평균 주위에 대한 관측치의 밀집 정도를 측정하는 단위
값이 0일 때 : 그래프가 좌우 대칭이다.
값이 -1에 가까울 때 : 오른쪽으로 꼬리가 치우친 형태
값이 1에 가까울 때 : 왼쪽에 꼬리가 치우친 상태
값이 3일 때 : 정규분포
값이 3보다 클 때 : 정규 분포에 비해 산술 평균 주위에 관측치가 밀집한 형태
값이 3보다 작을 때: 정규 분포에 비해 관측치가 중심으로부터 풀어진 형태
SAS Enterprise Guide에서의 Skewness & Kurtosis
결과
5. ANOVA
분산분석(ANOVA)은 세 집단 이상의 집단 평균치 차이를 검정하고자 하는 경우에 사용하는 기법
ANOVA의 종류
분석하고자 하는 변수가 1개인 경우 (t-검정도 일원분산분석법의 일종)
- ex) 학력별 봉급 차이를 분석하는 경우
- H_0 : Means are equal
- H_1 : Means are not equal
분석하고자 하는 변수가 2개인 경우
- ex) 남녀별/ 학력별 봉급 차이를 분석하는 경우
- H_0 : All means are equal
- H_1 : At least one mean is different
3. Multi-way ANOVA
독립변수가 3개 이상인 경우
분산분석법의 가정
표본평균의 분포가 정규분포를 따라야 한다. (Normally Distributed) : 정규분포를 따르지 않으면 F 통계량을 구할 수 없어 비 모수적 방법을 사용해야 함.
집단들은 거의 같은 분산을 가져야 한다. (Homogeneity of Variance)
PROC GLM DATA=SAS-data-set;
CLASS variables;
MODEL dependents=independents </ options>;
MEANS effects </ options>;
LSMEANS effects </ options>;
OUTPUT OUT=SAS-data-set keyword=variable…;
RUN;
QUIT;
SAS Enterprise Guide
Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!