SAS에서 PROC FREQ는 데이터가 어떻게 생겼는지 파악할 수 있습니다.
PROC FREQ는 빈도, 누적 빈도, 비율, 누적 비율이 포함된 결과표를 출력합니다.
범주형 변수의 분포를 파악하기 위해서 자주 사용합니다.
PROC FREQ의 단순 빈도표, 교차표, 출력 옵션 활용 방법에 대해서 알아보겠습니다.
■ PROC FREQ - 빈도 분석
아래의 코드는 성별 변수를 대상으로 빈도표를 만드는 과정입니다.
성별, 전송, 과목코드같은 범주형 변수를 그룹화하여 데이터가 몇 번 등장하는지, 전체 대비 비율은 얼마인지 확인할 수 있습니다.
data class_data;
input name $ gender $ age course major $;
datalines;
Janny M 58 101 STAT
Amy F 28 101 HIST
Liz F 27 301 STAT
Jhon M 68 301 ENGG
Peter M 54 201 STAT
James M 35 101 HIST
Thomas M 34 301 ENGG
;
run;
proc freq data = class_data;
tables gender;
run;
Class_data 셋에 gender 변수에 대해 빈도표를 생성했습니다.
7명 중 남성이 5명(71.43%), 여성이 2명(28.57%)로 구성되었습니다.
■ PROC FREQ - 교차표(Crosstabulation)
두 범주형 변수 사이의 관계를 같이 확인하기 위해서 * 연산자로 교차표를 출력할 수 있습니다.
아래의 코드로 성별과 전공의 분포가 서로 어떻게 분포되어 있는지 확인할 수 있습니다.
proc freq data = class_data;
tables gender * major;
run;
table A * B
행은 A , 열은 B가 됩니다.
한 셀 안에 1. 빈도, 2.셀 비율, 3. 행 비율, 4. 열 비율 이 출력됩니다.
■ PROC FREQ - nocum
PROC FREQ의 nocum 옵션은 사용해서 누적 빈도(Culmulative Frequency)와 누적비율(Cumulative Percent) 열이 사라지고, 빈도와 개별 비율만 남게하는 옵션입니다.
proc freq data = class_data;
tables gender / nocum;
run;
■ PROC FREQ - nopercent
PROC FREQ의 nopercent 옵션은 비율 열만 제거하는 옵련으로 비율(%)과 누적 비율이 제거되고 누적 빈도만 표시합니다.
proc freq data = class_data;
tables gender / nopercent;
run;
Dive into keynotes, announcements and breakthroughs on demand.
Explore Now →