SAS Tech & Tip

BookmarkSubscribeRSS Feed

[SAS 활용 노하우] 데이터 샘플링

Started ‎10-29-2023 by
Modified ‎10-29-2023 by
Views 1,015

데이터가 많을 경우, 샘플링을 통해 데이터수를 줄일 수 있습니다.

대규모 데이터를 처리할 경우 분석 작업을 효율적으로 수행할 수 있습니다.

또한, 모든 데이터를 수집하고 분석하는데 상당한 시간과 비용을 샘플링을 통해서 절감할 수 있으며 데이터 품질을 관리하기 위해서는 샘플링을 수행합니다.

샘플링을 올바르게 수행하면 표본은 모집단을 대표할 수 있고 통계적으로 신뢰할 수 있는 방식으로 추정할 수 있습니다.

● 방법1. PROC SURVEYSELECT

PROC SURVEYSELECT 는 설문 조사나 표본 조사와 관련된 절차 중 하나입니다.

대규모 조사나 복잡한 설문 조사 데이터에서 표본을 무작위로 추출할 수 있습니다.

 

 

proc surveyselect data=WORK.testdata method=srsn=100 out=WORK.TESTDATA2;
run;

 

 

DATA: 원본 데이터 세트를 지정

METHOD: 샘플링 방법을 지정합니다. 'SRS'는 단순 무작위 샘플링을 의미합니다.

N: 추출할 표본할 크기로 위의 예제는 100개를 추출하는 예제입니다.

OUT: 결과 데이터 세트를 저장할 위치와 이름을 저장합니다.

 

 

image.png

 

 

 

● 방법2. IF RANUNI

 

data WORK.TESTDATA2;
  set WORK.TESTDATA;
  if ranuni(0) < 0.2 then output;
run;

 

데이터 행마다 난수를 생성하고 난숫값에 조건식을 적용하여 샘플링을 구현합니다.

RANUNI 함수는 uniform(균일한) 분포를 따르는 난수를 생성합니다.

0에서 1사이의 값을 갖는 무작위 숫자를 사용합니다.

균일한 분포의 랜덤 숫자를 생성하고 확률 0.2(20%)의 비율로 행을 추출합니다.

위의 코드는 전체의 데이터 중 20%가 랜덤 샘플로 WORK.TESTDATA2로 새로운 데이터가 생성한 코드입니다.

 

Version history
Last update:
‎10-29-2023 08:07 AM
Updated by:
Contributors

sas-innovate-white.png

Our biggest data and AI event of the year.

Don’t miss the livestream kicking off May 7. It’s free. It’s easy. And it’s the best seat in the house.

Join us virtually with our complimentary SAS Innovate Digital Pass. Watch live or on-demand in multiple languages, with translations available to help you get the most out of every session.

 

Register now!

Article Labels
Article Tags