BookmarkSubscribeRSS Feed

[SAS 활용 노하우] 데이터 샘플링

Started ‎10-29-2023 by
Modified ‎10-29-2023 by
Views 919

데이터가 많을 경우, 샘플링을 통해 데이터수를 줄일 수 있습니다.

대규모 데이터를 처리할 경우 분석 작업을 효율적으로 수행할 수 있습니다.

또한, 모든 데이터를 수집하고 분석하는데 상당한 시간과 비용을 샘플링을 통해서 절감할 수 있으며 데이터 품질을 관리하기 위해서는 샘플링을 수행합니다.

샘플링을 올바르게 수행하면 표본은 모집단을 대표할 수 있고 통계적으로 신뢰할 수 있는 방식으로 추정할 수 있습니다.

● 방법1. PROC SURVEYSELECT

PROC SURVEYSELECT 는 설문 조사나 표본 조사와 관련된 절차 중 하나입니다.

대규모 조사나 복잡한 설문 조사 데이터에서 표본을 무작위로 추출할 수 있습니다.

 

 

proc surveyselect data=WORK.testdata 
method=srs
n=100
out=WORK.TESTDATA2; run;

 

 

DATA: 원본 데이터 세트를 지정

METHOD: 샘플링 방법을 지정합니다. 'SRS'는 단순 무작위 샘플링을 의미합니다.

N: 추출할 표본할 크기로 위의 예제는 100개를 추출하는 예제입니다.

OUT: 결과 데이터 세트를 저장할 위치와 이름을 저장합니다.

 

 

image.png

 

 

 

● 방법2. IF RANUNI

 

data WORK.TESTDATA2;
  set WORK.TESTDATA;
  if ranuni(0) < 0.2 then output;
run;

 

데이터 행마다 난수를 생성하고 난숫값에 조건식을 적용하여 샘플링을 구현합니다.

RANUNI 함수는 uniform(균일한) 분포를 따르는 난수를 생성합니다.

0에서 1사이의 값을 갖는 무작위 숫자를 사용합니다.

균일한 분포의 랜덤 숫자를 생성하고 확률 0.2(20%)의 비율로 행을 추출합니다.

위의 코드는 전체의 데이터 중 20%가 랜덤 샘플로 WORK.TESTDATA2로 새로운 데이터가 생성한 코드입니다.

 

Version history
Last update:
‎10-29-2023 08:07 AM
Updated by:
Contributors

sas-innovate-white.png

🚨 Early Bird Rate Extended!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.

 

Lock in the best rate now before the price increases on April 1.

Register now!

Article Labels
Article Tags