■ 기초통계량
기초통계량은 데이터의 특성을 요약하고 설명하기 위해 통계적인 지표를 의비합니다.
기초통계량만으로도 데이터를 이해하고 데이터간의 패턴을 파악하거나 비교를 할 수 있습니다.
평균, 중앙값, 최빈값, 분산, 표준편차, 범위, 사분위수 등이 숫자형 변수의 기초통계량이고, 범주형 변수의 기초통계량의 경우에는 빈도수, 백분율, 상대 빈도 등을 통계량으로 요약할 수 있습니다.
[SAS] 기초통계량 part1에서는 PROC MEANS statement 에 대해서 알아보았습니다.
이번에는 PROC UNIVARIATE staetment 와 PROC FREQ stateement 에 대해서 알아보았습니다.
■ PROC UNIVARIATE syntax
Proc Univariate 에 대한 Synstanx는 아래와 같습니다.
PROC UNIVARIATE DATA = sas-data set options;
BY variables;
CLASS variables/ KEYLEVEL = 'value1';
FREQ variable;
HISTOGRAM variables /options;
ID variables;
INSET keywords/options;
OUTPUT OUT = SAS-data set;
PROBPLOT variables / options;
QQPLOT variables / options;
VAR variables;
WEIGHT variables;
RUN;
■ 기초통계량 - PROC UNIVARIATE
PROC UNIVARIATE는 일변량 기술통계량(descriptive staticstic)를 출력하는 프로시저이지만, PROC MEANS statement 보다 다양한 분석결과를 출력합니다.
PROC UNIBARIATE statement 는 아래와 같은 기술통계량을 출력합니다.
1) 적률(moment): 품질관리 / 생산성 분석, 마케팅 효과 분석 등 다양한 상황에서 성과를 측정하고 비교하는데 사용되며 특정작업, 프로세스, 계산의 성공 비율/확률을 나타내는 지표입니다.
즉, 어떤 일이나 사건이 얼마나 성공적으로 수행되거나 발생하는지를 나타냅니다.
10번의 시도 중 7번 성공했다면 적률은 (성공한 횟수 / 시도한 횟수) *100% 로 70%가 됩니다.
2) 극단값(Extreme Value), 중위수(Median), 4분위수(Quantiles)
3) Robust 추정값: 이상치나 극단값의 영향을 최소화하고 통계 추정치의 안성성을 높히기 위해 사용되는 추정방법으로 위치모수, 척도모수에서 절사평균 추정값을 계산합니다.
4) 신뢰구간: '추정치 ± 오차범위'로 표본 데이터를 기반으로 모집단 파라미터(평균, 분산 비율)에 대한 추정치입니다.
5) 정규성: 데이터가 정규분포를 따르는지 나타내는 지표로 정규성을 따르지 않을 경우 비모수적인 통계 분석 기법을 사용하는 것이 적절하다.
Are you ready for the spotlight? We're accepting content ideas for SAS Innovate 2025 to be held May 6-9 in Orlando, FL. The call is open until September 25. Read more here about why you should contribute and what is in it for you!