데이터가 많을 경우, 샘플링을 통해 데이터수를 줄일 수 있습니다.
대규모 데이터를 처리할 경우 분석 작업을 효율적으로 수행할 수 있습니다.
또한, 모든 데이터를 수집하고 분석하는데 상당한 시간과 비용을 샘플링을 통해서 절감할 수 있으며 데이터 품질을 관리하기 위해서는 샘플링을 수행합니다.
샘플링을 올바르게 수행하면 표본은 모집단을 대표할 수 있고 통계적으로 신뢰할 수 있는 방식으로 추정할 수 있습니다.
● 방법1. PROC SURVEYSELECT
PROC SURVEYSELECT 는 설문 조사나 표본 조사와 관련된 절차 중 하나입니다.
대규모 조사나 복잡한 설문 조사 데이터에서 표본을 무작위로 추출할 수 있습니다.
proc surveyselect data=WORK.testdata
method=srs
n=100
out=WORK.TESTDATA2;
run;
DATA: 원본 데이터 세트를 지정
METHOD: 샘플링 방법을 지정합니다. 'SRS'는 단순 무작위 샘플링을 의미합니다.
N: 추출할 표본할 크기로 위의 예제는 100개를 추출하는 예제입니다.
OUT: 결과 데이터 세트를 저장할 위치와 이름을 저장합니다.
● 방법2. IF RANUNI
data WORK.TESTDATA2;
set WORK.TESTDATA;
if ranuni(0) < 0.2 then output;
run;
데이터 행마다 난수를 생성하고 난숫값에 조건식을 적용하여 샘플링을 구현합니다.
RANUNI 함수는 uniform(균일한) 분포를 따르는 난수를 생성합니다.
0에서 1사이의 값을 갖는 무작위 숫자를 사용합니다.
균일한 분포의 랜덤 숫자를 생성하고 확률 0.2(20%)의 비율로 행을 추출합니다.
위의 코드는 전체의 데이터 중 20%가 랜덤 샘플로 WORK.TESTDATA2로 새로운 데이터가 생성한 코드입니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.
Lock in the best rate now before the price increases on April 1.