BookmarkSubscribeRSS Feed

[SAS 활용 노하우] 결측값 Imputation

Started ‎01-29-2023 by
Modified ‎01-29-2023 by
Views 1,292

 

데이터 분석의 완성도를 높히기 위해서는 결측값이 없으면 없을수록 좋습니다.

분석 데이터 중 결측값이 있다면, 결측된 값과 데이터 간의 Bias가 생길 수도 있으며, 분석의 신뢰성이 떨어질 수도 있습니다.

이번 게시글에서는 결측값을 해결하기 위해서 간단한 방법인 Mean Imputation에 대해서 알아보려고 한다. 

 

9 19 12 null null  18

 

관측값의 평균 = (9 + 19 + 12 + 18) / 4 = 14.5

 

결측값을 제외한 관측값을 기준으로 평균을 imputataion 하는 것이 mean Imputation 입니다.

 

 

data imputationdata;
input x; 
if x=12 or x=13 then y=10;
datalines;
12 
13 
13 
11
11 
12 
11 
15
;
run;
proc print data =imputationdata;
run;

1.png

 

 

해당 데이터는 임의의 데이터로 y칼럼의 결측값이 존재하는 데이터입니다.

 

 

 

proc stdize data=imputationdata reponly
method = median
out=imputed;
run;

proc print data = imputed;
run;

 

2.png

 

 

 

 

 

 

 

 

위의 code는 imputationdata를 어떻게 결측 처리 syntax와 출력결과입니다.

PROC STDIZE 는 numeric input 변수에만 사용할 수 있는 결측값 대체할 수 있는 syntax로,

metod는 결측값을 어떻게 대체하는 옵션으로 mean, median, midrange 등을 사용할 수 있습니다. 

중요한 옵션 중 하나인 reponly는 결측값이 아니면 값을 변하지 않게(unchanged) 하는 옵션입니다.

Version history
Last update:
‎01-29-2023 06:05 AM
Updated by:
Contributors

hackathon24-white-horiz.png

The 2025 SAS Hackathon Kicks Off on June 11!

Watch the live Hackathon Kickoff to get all the essential information about the SAS Hackathon—including how to join, how to participate, and expert tips for success.

YouTube LinkedIn

Article Tags