BookmarkSubscribeRSS Feed

[SAS 프로그래밍] 2 표본추출방법 - 계통 추출, 층화 추출

Started ‎06-18-2020 by
Modified ‎06-18-2020 by
Views 7,702

안녕하세요.

 

오늘은 표본추출방법 중 계통추출과 층화추출에 대해 알아보도록 하겠습니다.

 

 

1-2 계통 추출 (Systematic sampling)

 

SE22019071514483770.png

 

계통추출법은 체계적 표집, 체계적 추출법(systematic sampling)이라고도 하며,
첫 번째 요소는 무작위로 선정한 후 목록의 매번 k번째 요소를 표본으로 선정하는 표집방법입니다. 모집단의 크기를 원하는 표본의 크기로 나누어 k를 계산합니다. 여기서 k는 표집간격입니다.

 

SAS를 활용한 계통 추출

※ 코드

 

SE22019071514470970.png

 

  • DATA       : 모집단 목록이 저장되어 있는 데이터 셋을 지정
  • OUT         : 추출된 표본 목록이 저장될 데이터 셋을 지정
    •  METHOD    : 표본추출방법을 지정함 ( SYS: 계통추출, SRS: 단순 임의추출)
  • SAMPSIZE   :  표본크기를 지정
  • SEED        : 난수 발생을 위한 초기값 지정 (동일한 표본 추출하려면 같은 SEED가 필요함) 

 

​ 결과

 

SE22019071514493770.png

 

장점 단점

1) 표본 추출이 간편하다.

2) 일반적으로 표본이 모집단 전체를 잘 반영한다.

1) 모집단 추출틀에 대한 추가적인 가정이 필요하다.

2) 표본의 대표성이 저해될 수 있다.

 

 

1-3 층화추출 (Stratified sampling)  

SE22019071514515170.png

 

층화 추출법은 모집단을 먼저 서로 겹치지 않는 여러 개의 층으로 분할한 후,
각 층에서 단순 임의추출법에 따라 배정된 표본을 추출하는 방법입니다.

모집단의 분할이 되는 부모집단을 층(stratum)이라고 하고, 각 층에서 임의추출을 하는 표본추출방법입니다.

전국 가구를 모집단으로 하는 “생활실태조사”  


전국 모든 구는 경제적 수준, 문화적·정치적 성향이 다름

단순임의추출을 하게 되면 일부 구의 과소/과다 현상이 불가피하게 발생하여 서울시 전 체에 대한 추정치가 불안정한 결과를 가져올 수 있음  =>  각 구를 층으로 하는 임의추출 

 

SAS를 활용한 층화 추출

※ 코드  

 

SE22019071514530870.png

 

층화 추출을 위해서는 모집단 목록과 층별 표본크기가 저장된 두 데이터셋이 층 변수에 의해 정렬되어 있어야 합니다.

 

  • METHOD    :   표본추출방법을 지정함 (SRS: 단순 임의추출, SYS: 계통추출)
    • SAMPSIZE   :  층별 표본크기가 정의된 데이터셋을 지정함. 층별 표본크기를 나타내는 변수 는 반드시Sample Size 또는 _NSIZE_라는 이름을 가져야 함
  • STRATA     :  층 변수들을 나열 함 

 

​ 결과

 

SE22019071514542970.png

 

장점 단점

1) 동질적 대상은 표본의 수가 적어도 대표성이 높다.

2) 각 층의 특성에 대한 추정과 비교가 가능하다.

1) 층화 시 시간이 많이 든다.

2) 모집단에 대한 지식이 필요하다.

 

 

*층화추출 표본배분 방법

 

층화추출 설계에서 층별 표본크기를 정할 때 4가지 방법을 사용할 수 있습니다.

 

1) 비례배분 (proportional allocation): 각 개체의 가중치가 균일하게 배정되는 것

SE22019071514555270.png

 

2) 균등 배분 (equal allocation)

SE22019071514563670.png

 

3) 네이만 배분 (Neyman allocation) : 산포가 큰 층에 보다 많은 표본을 배정

SE22019071514572070.png

 

4) 최적 배분 ( optimal allocation) : 산포의 차이와 조사 단가의 차이를 고려하여 배정 

SE22019071514575170.png

 

Ex) 표본배분 사례

SE22019071514585770.png

1) 비례 배분 :  1에 의 표본이 n1 = 400 ,  2에 n2 = 600 의 표본이 배정됨

 

2) 균등 배분 :  1에 의 표본이 n1 = 500 ,  2에 n3 = 500 의 표본이 배정됨


3) 네이만 배분 :
 1과 층 2의 산포에 대한 정보:   1과 층2의 표준편차가 S1 =2 S2 = 3 이라면
각 층의 산포를 고려한 네이만 배분 진행 해야됩니다.

SE22019071515010870.png

SE22019071515004370.png

 

4) 최적 배분 : - 추가적인 층1과 층2에서 각각 1 개체의 조사 비용이 C1=1 C2=3 이라면
각 층의 산포와 조사비용을 고려한 층 1과 층2의 표본크기 지정할 수 있습니다.

 SE22019071515035370.png

 

 

 

Ꮚˊ•ﻌ•ˋᏊ 지금까지 표본추출방법 계통추출, 층화추출을 알아보았습니다. ​Ꮚˊ•ﻌ•ˋᏊ 

감사합니다.

 

 

 

 

Version history
Last update:
‎06-18-2020 03:38 AM
Updated by:
Contributors

sas-innovate-white.png

🚨 Early Bird Rate Extended!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9.

 

Lock in the best rate now before the price increases on April 1.

Register now!

Article Labels
Article Tags