BookmarkSubscribeRSS Feed

[BASE SAS기초] Validating and Cleaning Data(1)

Started ‎06-15-2020 by
Modified ‎06-15-2020 by
Views 82

[BASE SAS기초] Validating and Cleaning Data(1)

안녕하세요^^

 

오늘은 Validating and Cleaning Data의 첫 번째 시간으로,

Validating and Cleaning Data에 대한 소개를 하도록 하겠습니다.

 

  1.     Validating the Data

SE22015111802251570.png

일반적으로, SAS는 데이터를 분석하고, OUTPUT을 만들고, SAS files를 관리합니다.

또한, SAS 프로시저를 통해 invalid data를 검출할 수 있습니다.

 

 

(1)   Proc print 프로시저를 통해 데이터의 missing 값과 타당하지 않은 데이터를 확인할 수 있습니다. 예를 들면,

SE22015111802255570.png

 

위의 데이터의 AgeCHDdiag변수의 값이 missing인 것을 확인할 수 있습니다(invalid).

 

(2)   Proc freq프로시저를 통해서 변수 값으로 나올 수 없는 값이 있는지 확인할 수 있습니다. 예를들면,

 

SE22015111802264170.png

변수 Sex의 변수 값이 Female과 Male 이외의 값이 나오는지(invalid data가 존재하는지) 확인할 수 있습니다.

(3)   Proc means과 proc univariate 프로시저를 통해 변수 값이 특정 범위 안에 존재해야 하는 경우, 실제 데이터 값이 범위 안에 존재하는지를 확인할 수 있습니다.

​예를 들어, diastolic변수의 변수 값이 [50, 170]에 존재해야 한다면,

  

SE22015111802274670.png

 

SE22015111802280970.png

 

위의 결과표를 보고 diastolic변수의 변수 값들이 valid함을 확인할 수 있습니다.

즉, 데이터를 Validating한다는 것은 데이터의 값이 타당한 값인지 데이터 분석 전 단계에서 확인하는 과정을 의미합니다.

 

 

  1.     Cleaning the Data

 

다음으로, 데이터를 Cleaning 한다는 것은, 데이터가 타당한지 확인한 후, invalid data에 대해 cleaning하는 것을 의미합니다.

Invalid data는 SAS data set을 cleaning하는 것이 아니라 원시 데이터를 cleaning해야 합니다

.

데이터를 Cleaning하는 방법은 다양하지만, 앞으로 이어지는 글에서 원시데이터를 SAS를 이용하지 않고 editing하는 방법, VIEWTABLE을 이용해서 editing하는 방법과 DATA step을 통해 editing하는 방법에 대해 언급하도록 하겠습니다.

 

이상 Validating and Cleaning Data에 대해 알아보았습니다.

 

다음시간에는 데이터를 Validating하는 방법으로 사용하는 proc print와 proc freq문에 대해 공부하도록 하겠습니다.

읽어주셔서 감사합니다^^

 

 

 

Version history
Last update:
‎06-15-2020 09:19 PM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags