BookmarkSubscribeRSS Feed

[SAS 활용 노하우] 데이터 표준화(Standardization)

Started ‎10-30-2022 by
Modified ‎10-30-2022 by
Views 4,810

데이터 표준화란변수의 평균을 0으로, 표준편차를 1로 되도록 데이터를 변환시킨 것 입니다.

데이터는 0~1 사이의 값을 가집니다. 

데이터 표준화를 하는 이유는 데이터의 컬럼 별로 단위가 다를 경우 비교가 불가능합니다. 

예를 들면, 100점 만점 수학 시험 점수와 990점 만점 토익점수 칼럼의 경우 직접적인 비교가 불가능해 데이터의 표준화를 해줍니다.

데이터 표준화(Standarization)는 데이터가 정규분포를 따른다는 가정으로 (종모양 분포) 평균 0을 기준으로 좌우로 데이터가 분포하는 것을 의미합니다.

데이터 표준화 공식은 아래와 같습니다.

 

 

image.png

 

 

 

여기서 X값은 데이터 값이고, m는 평균, δ 은 표준편차입니다.

데이터 표준화와 비슷한 개념으로 정규화(Normalization)이 있습니다.

정규화는 데이터 값을 0~1 사이의 값으로 변환한 것으로 데이터 중 가장 큰 값은 1이고, 가장 작은 값은 0으로 변환됩니다.

데이터 정규화 공식은 아래와 같습니다.

 

 

image.png

 

 

 

 

 

image.png
 
 
cd7a201f-8e97-4e8f-8cc7-4ccf3de23ed3.png

 [요약통계량]을 통해서 평균, 표준편차, 최솟값, 최댓값을 살펴보면 위와 같습니다.

 

 

 image (2).png

 

PRDSALE 데이터를 사용해서 Actual 값과 Predict 값의 데이터를 표준화해본다.

SASHELP 라이브러리에 있는 PRDSALE 데이터를 불러와 [표준화할 변수]에 Acutual, Predict, Quarter 변수를 추가합니다.

 

 

 

image (3).png

 

옵션으로 다양한 표준화 방법 중 하나를 선택할 수 있습니다.

 

 

image (4).png

 

 

 

 

 

 

 

또한, 결측값이 존재하는 경우 데이터를 삭제하거나

 

 

image (6).png

 

 

 

 

 

 

 

 

 

 

 

 

결측값을 평균으로 대체한 후 분석에 사용하기 위해서는 결측값을 칼럼의 평균값으로 바꾸는 옵션을 선택해야 합니다.

 

image (8).png

원래 데이터 칼럼 중 표준화가 필요한 칼럼은 제외하고 표준화된 변수만 포함하여 칼럼을 변경 및 저장할 수도 있습니다.

 

 

 

 

image (9).png

 

[Original Data Set]

 

image (10).png

[표준화된 데이터 셋]

그 결과 Actual 변수와 Predict 변수가 기존의 변수에 의해서 표준화 되고 대체된 것을 확인할 수 있다.

 

 

Version history
Last update:
‎10-30-2022 08:15 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags