데이터 분석의 완성도를 높히기 위해서는 결측값이 없으면 없을수록 좋습니다.
분석 데이터 중 결측값이 있다면, 결측된 값과 데이터 간의 Bias가 생길 수도 있으며, 분석의 신뢰성이 떨어질 수도 있습니다.
이번 게시글에서는 결측값을 해결하기 위해서 간단한 방법인 Mean Imputation에 대해서 알아보려고 한다.
9 | 19 | 12 | null | null | 18 |
관측값의 평균 = (9 + 19 + 12 + 18) / 4 = 14.5
결측값을 제외한 관측값을 기준으로 평균을 imputataion 하는 것이 mean Imputation 입니다.
data imputationdata;
input x;
if x=12 or x=13 then y=10;
datalines;
12
13
13
11
11
12
11
15
;
run;
proc print data =imputationdata;
run;
해당 데이터는 임의의 데이터로 y칼럼의 결측값이 존재하는 데이터입니다.
proc stdize data=imputationdata reponly
method = median
out=imputed;
run;
proc print data = imputed;
run;
위의 code는 imputationdata를 어떻게 결측 처리 syntax와 출력결과입니다.
PROC STDIZE 는 numeric input 변수에만 사용할 수 있는 결측값 대체할 수 있는 syntax로,
metod는 결측값을 어떻게 대체하는 옵션으로 mean, median, midrange 등을 사용할 수 있습니다.
중요한 옵션 중 하나인 reponly는 결측값이 아니면 값을 변하지 않게(unchanged) 하는 옵션입니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.