BookmarkSubscribeRSS Feed

[SAS 프로그래밍] 2 표본추출방법 - 계통 추출, 층화 추출

Started ‎06-18-2020 by
Modified ‎06-18-2020 by
Views 9,086

안녕하세요.

 

오늘은 표본추출방법 중 계통추출과 층화추출에 대해 알아보도록 하겠습니다.

 

 

1-2 계통 추출 (Systematic sampling)

 

SE22019071514483770.png

 

계통추출법은 체계적 표집, 체계적 추출법(systematic sampling)이라고도 하며,
첫 번째 요소는 무작위로 선정한 후 목록의 매번 k번째 요소를 표본으로 선정하는 표집방법입니다. 모집단의 크기를 원하는 표본의 크기로 나누어 k를 계산합니다. 여기서 k는 표집간격입니다.

 

SAS를 활용한 계통 추출

※ 코드

 

SE22019071514470970.png

 

  • DATA       : 모집단 목록이 저장되어 있는 데이터 셋을 지정
  • OUT         : 추출된 표본 목록이 저장될 데이터 셋을 지정
    •  METHOD    : 표본추출방법을 지정함 ( SYS: 계통추출, SRS: 단순 임의추출)
  • SAMPSIZE   :  표본크기를 지정
  • SEED        : 난수 발생을 위한 초기값 지정 (동일한 표본 추출하려면 같은 SEED가 필요함) 

 

​ 결과

 

SE22019071514493770.png

 

장점 단점

1) 표본 추출이 간편하다.

2) 일반적으로 표본이 모집단 전체를 잘 반영한다.

1) 모집단 추출틀에 대한 추가적인 가정이 필요하다.

2) 표본의 대표성이 저해될 수 있다.

 

 

1-3 층화추출 (Stratified sampling)  

SE22019071514515170.png

 

층화 추출법은 모집단을 먼저 서로 겹치지 않는 여러 개의 층으로 분할한 후,
각 층에서 단순 임의추출법에 따라 배정된 표본을 추출하는 방법입니다.

모집단의 분할이 되는 부모집단을 층(stratum)이라고 하고, 각 층에서 임의추출을 하는 표본추출방법입니다.

전국 가구를 모집단으로 하는 “생활실태조사”  


전국 모든 구는 경제적 수준, 문화적·정치적 성향이 다름

단순임의추출을 하게 되면 일부 구의 과소/과다 현상이 불가피하게 발생하여 서울시 전 체에 대한 추정치가 불안정한 결과를 가져올 수 있음  =>  각 구를 층으로 하는 임의추출 

 

SAS를 활용한 층화 추출

※ 코드  

 

SE22019071514530870.png

 

층화 추출을 위해서는 모집단 목록과 층별 표본크기가 저장된 두 데이터셋이 층 변수에 의해 정렬되어 있어야 합니다.

 

  • METHOD    :   표본추출방법을 지정함 (SRS: 단순 임의추출, SYS: 계통추출)
    • SAMPSIZE   :  층별 표본크기가 정의된 데이터셋을 지정함. 층별 표본크기를 나타내는 변수 는 반드시Sample Size 또는 _NSIZE_라는 이름을 가져야 함
  • STRATA     :  층 변수들을 나열 함 

 

​ 결과

 

SE22019071514542970.png

 

장점 단점

1) 동질적 대상은 표본의 수가 적어도 대표성이 높다.

2) 각 층의 특성에 대한 추정과 비교가 가능하다.

1) 층화 시 시간이 많이 든다.

2) 모집단에 대한 지식이 필요하다.

 

 

*층화추출 표본배분 방법

 

층화추출 설계에서 층별 표본크기를 정할 때 4가지 방법을 사용할 수 있습니다.

 

1) 비례배분 (proportional allocation): 각 개체의 가중치가 균일하게 배정되는 것

SE22019071514555270.png

 

2) 균등 배분 (equal allocation)

SE22019071514563670.png

 

3) 네이만 배분 (Neyman allocation) : 산포가 큰 층에 보다 많은 표본을 배정

SE22019071514572070.png

 

4) 최적 배분 ( optimal allocation) : 산포의 차이와 조사 단가의 차이를 고려하여 배정 

SE22019071514575170.png

 

Ex) 표본배분 사례

SE22019071514585770.png

1) 비례 배분 :  1에 의 표본이 n1 = 400 ,  2에 n2 = 600 의 표본이 배정됨

 

2) 균등 배분 :  1에 의 표본이 n1 = 500 ,  2에 n3 = 500 의 표본이 배정됨


3) 네이만 배분 :
 1과 층 2의 산포에 대한 정보:   1과 층2의 표준편차가 S1 =2 S2 = 3 이라면
각 층의 산포를 고려한 네이만 배분 진행 해야됩니다.

SE22019071515010870.png

SE22019071515004370.png

 

4) 최적 배분 : - 추가적인 층1과 층2에서 각각 1 개체의 조사 비용이 C1=1 C2=3 이라면
각 층의 산포와 조사비용을 고려한 층 1과 층2의 표본크기 지정할 수 있습니다.

 SE22019071515035370.png

 

 

 

Ꮚˊ•ﻌ•ˋᏊ 지금까지 표본추출방법 계통추출, 층화추출을 알아보았습니다. ​Ꮚˊ•ﻌ•ˋᏊ 

감사합니다.

 

 

 

 

Contributors
Version history
Last update:
‎06-18-2020 03:38 AM
Updated by:

sas-innovate-2026-white.png



April 27 – 30 | Gaylord Texan | Grapevine, Texas

Registration is open

Walk in ready to learn. Walk out ready to deliver. This is the data and AI conference you can't afford to miss.
Register now and lock in 2025 pricing—just $495!

Register now

Article Labels
Article Tags