SAS에서는 다양한 숫자형식을 지원하며 데이터를 효율적으로 관리하고 분석할 수 있습니다.
이번 글에서는 SAS의 주요 숫자 형식에 대해서 알아보겠습니다.
숫자를 쉼표와 소수점 자리수를 포함해서 보여주는 숫자형식입니다.
6은 소수점을 포함한 전체 자리수를 의미하고, 2는 소수점 아래 2자리를 표시합니다.
즉, 숫자를 소수 둘째 자리까지 표시하고, 총 6자리 안에서 쉼표를 붙혀줍니다.
DATA my_sales_data;
INPUT product $ sales_revenue;
FORMAT sales_revenue COMMA6.2;
DATALINES;
과자 1234.567
음료 5678.9
라면 98765.4
빵 1000
아이스크림 12.345
;
RUN;
위 데이터는 Product와 Sales_Revenue 칼럼으로 구성된 가상의 데이터셋(My_Sales_Data)입니다.
첫번째 행인 과자의 raw data는 1234.567에서 COMMA6.2 라는 숫자형식을 적용하게 되면, 소수점까지 포함한 6자리를 초과하기 때문에 소수 둘째 자리를 버리고 한자리만 표시해서 1234.6으로 결과값이 출력하게 됩니다.
5번째 행인 아이스크림의 경우 raw data가 12.345이지만, COMMA6.2 라는 포맷을 적용하게 되면 소수 둘째 자리에서 반올림을 하게 되어 12.35라는 값을 출력하게 됩니다.
통화와 관련된 데이터를 표시할 때 사용되며 총 길이는 숫자, 소수점, 쉼표, 달러 기호가 포함된 8자리이며 소수점은 2자리까지만 표기합니다.
쉼표는 천 단위마다 가독성을 위해서 ,를 자동으로 넣어주게 되어있습니다.
DATA sales;
INPUT product $ sales_amount;
FORMAT sales_amount DOLLAR8.2;
DATALINES;
컴퓨터 1234.56
모니터 567.89
키보드 9876.543
마우스 123456.7
;
RUN;
위 데이터는 가상의 데이터 SALES로 product 와 sales_amount라는 두 변수를 정의하고 있습니다.
INPUT 을 통해서 변수 이름과 형식을 지정합니다. PRODUCT $는 문자형 변수를 의미하고 $가 붙지 않으면 숫자형 변수를 의미합니다.
4번째 데이터인 마우스 데이터의 sales_amount 값을 보면 $ 달러 표기 없이 123456.7로 결과값이 출력되었습니다.
이는 자리수가 총 8자리를 초과할 경우 달러 기호가 잘려서 표기 되지 않습니다.
즉, $ 달러 표기 보다는 자리수를 우선시하고 있습니다.
Calling all data scientists and open-source enthusiasts! Want to solve real problems that impact your company or the world? Register to hack by August 31st!