BookmarkSubscribeRSS Feed

[SAS 활용 노하우] 결측값 Imputation

Started ‎01-29-2023 by
Modified ‎01-29-2023 by
Views 1,088

 

데이터 분석의 완성도를 높히기 위해서는 결측값이 없으면 없을수록 좋습니다.

분석 데이터 중 결측값이 있다면, 결측된 값과 데이터 간의 Bias가 생길 수도 있으며, 분석의 신뢰성이 떨어질 수도 있습니다.

이번 게시글에서는 결측값을 해결하기 위해서 간단한 방법인 Mean Imputation에 대해서 알아보려고 한다. 

 

9 19 12 null null  18

 

관측값의 평균 = (9 + 19 + 12 + 18) / 4 = 14.5

 

결측값을 제외한 관측값을 기준으로 평균을 imputataion 하는 것이 mean Imputation 입니다.

 

 

data imputationdata;
input x; 
if x=12 or x=13 then y=10;
datalines;
12 
13 
13 
11
11 
12 
11 
15
;
run;
proc print data =imputationdata;
run;

1.png

 

 

해당 데이터는 임의의 데이터로 y칼럼의 결측값이 존재하는 데이터입니다.

 

 

 

proc stdize data=imputationdata reponly
method = median
out=imputed;
run;

proc print data = imputed;
run;

 

2.png

 

 

 

 

 

 

 

 

위의 code는 imputationdata를 어떻게 결측 처리 syntax와 출력결과입니다.

PROC STDIZE 는 numeric input 변수에만 사용할 수 있는 결측값 대체할 수 있는 syntax로,

metod는 결측값을 어떻게 대체하는 옵션으로 mean, median, midrange 등을 사용할 수 있습니다. 

중요한 옵션 중 하나인 reponly는 결측값이 아니면 값을 변하지 않게(unchanged) 하는 옵션입니다.

Version history
Last update:
‎01-29-2023 06:05 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Tags