이전 게시글에서 PROC TABULATE의 기본적인 Syntax와 활용예제에 대해서 알아봤습니다.
이번에는 PROC TABULATE syntax에서 통계량을 활용하는 방법에 대해서 알아보겠습니다.
사용데이터는 sales라는 판매 데이터로 데이터 구조에 대한 설명은 PROC TABULATE 게시글에서 확인할 수 있습니다.
sales 데이터는 판매, 이익, 할인, 고객, 지역, 제품 등의 정보를 모두 포함하고 있습니다.
■ 활용예제1
FILENAME REFFILE '/home/u45061472/sales.xlsx';
PROC IMPORT DATAFILE=REFFILE
DBMS=XLSX
OUT=WORK.SALES ;
GETNAMES=YES;
RUN;
PROC TABULATE DATA = WORK.SALES;
CLASS PROVINCE;
VAR SALES;
TABLE PROVINCE, N SALES*SUM;
RUN;
PROC TABULATE: TABULATE 프로시저를 WORK 라이브러리 안에 있는 SALES라는 데이터를 활용해 실행합니다. SALES 데이터로 지역별 판매 데이터를 요약하는 교차표를 생성할 수 있습니다.
CLASS PROVINCE: PROVINCE 범주를 활용해 범주형 변수로 설정합니다. CLASS 옵션에서 지정된 변수는 테이블의 행이나 열을 구성합니다.
TABLE PROVINCE: 실제 테이블의 구조를 설정해 행에는 PROVINCE를 설정하고 N SALES*SUM으로 열에는 2가지의 통계량을 배치합니다. N은 각 지역별 관측치 개수/빈도를 의미하고 SALES*SUM은 SALES 변수의 합계를 표시합니다. 쉼표(,)를 통해서 행과 열을 구분할 수 있습니다.
위 코드를 통해서 지역별 판매 건수와 판매액을 확인할 수 있습니다.
■ 활용예제2
ROC TABULATE DATA = WORK.SALES;
CLASS PROVINCE;
VAR SALES;
TABLE PROVINCE, SALES*(N SUM MEAN STD MIN MAX);
RUN;
CLASS PROVINCE: PROVINCE 변수를 범주형 변수로 설정해 지역 단위로 데이터를 그룹화합니다.
VAR SALES: SALES는 매출액으로 분석 대상을 수치형 변수로 설정합니다.
TABLE PROVINCE, SALES*(N SUM MEAN STD MIN MAX): 행에는 PROVINCE 변수를 설정하고 열에는 SALES에 대한 N / SUM / MEAN / STD/ MIN / MAX 값을 출력합니다.
■ 활용예제3
PROC TABULATE DATA = WORK.SALES;
CLASS PROVINCE;
VAR SALES PROFIT Unit_Price;
TABLE PROVINCE, (SALES PROFIT Unit_Price)*(SUM MEAN);
RUN;
CLASS PROVINCE: PROVINCE 변수를 범주형 변수로 설정합니다.
VAR SALES PROFIT Unit_Price: SALES / PROFIT / UNIT_PRICE를 수치형 변수로 지정합니다.
TABLE PROVINCE, (SALES PROFIT Unit_Price)*(SUM MEAN): 행에는 PROVINCE 변수를 열에는 SALES / PROFIT / UNIT_PRICE 변수에 대해 SUM(합계)와 MEAN(평균)을 출력합니다.
Calling all data scientists and open-source enthusiasts! Want to solve real problems that impact your company or the world? Register to hack by August 31st!