BookmarkSubscribeRSS Feed

[SAS 프로그래밍] 1 표본추출방법 - 소개, 단순 임의추출

Started ‎06-18-2020 by
Modified ‎06-18-2020 by
Views 1,802

안녕하세요.

 

오늘은 표본추출방법의 소개와 단순임의추출에 대해 알아보도록 하겠습니다.

 

 

 

  1. 표본 추출방법

표본 추출 방법은 크게 확률적 표본추출과 비확률적 표본 추출로 분류됩니다.

 

확률 표본추출은 각 구성원이 모집단에서 동일한 확률로 표본에 선정 될수 있도록 체계적으로 사례를 추출하는 방법입니다. 

확률 표본추출은 단순임의추출, 계통추출, 층화추출, 집락추출 로 나뉘어 집니다.

비 확률 표본추출은 조사자의 의도가 표본추출과정에 개입되는 방법입니다. 

조사자의 편의, 판단, 지식 등을 통해서 표본을 추출합니다. 

비 확률표본추출은 임의 추출, 판단 추출 , 할당 추출, 누적 추출 방법으로 나뉘어 집니다.

 

SE22019071113154970.png

<그림1 표본추출방법의 종류> 

 

 

 

 

1-1. 단순 임의 추출 (Simple random sampling)

 

SE22019071113163370.png

<그림 2 단순 임의 추출>

 

단순 무작위 추출법은 통계학에서 사용하는, 모집단의 각각의 요소 또는 사례들이 표본으로 선택될 가능성이 같게 되는 표본 추출법입니다.

유한모집단에서 n개의 추출단위로 구성된 

모든 부분집합들이 표본으로 선택될 확률이 같도록 설계된 표본추출방법을 뜻합니다.

 

 

 

 

 

SAS를 활용한 비 복원 단순임의 추출

※ 코드

 

SE22019071113185770.png

 

•​ DATA     : 모집단 목록이 저장되어 있는 데이터 셋을 지정

• ​OUT      : 추출된 표본 목록이 저장될 데이터 셋을 지정

•​ METHOD   : 표본추출방법을 지정함 ( SYS: 계통추출, SRS: 단순 임의추출)

•​ SAMPSIZE : 표본크기를 지정 

•​ SEED     : 난수 발생을 위한 초기값 지정 (동일한 표본 추출하려면 같은 SEED가 필요함)

 

 

​ 결과

 

SE22019071113214570.png

이러한 과정을 통해 모집단으로부터 10개의 샘플 데이터를 만들 수 있습니다.

 

 

 

 장점

  단점 

1) 모집단에 대한 사전 지식이 불필요하다.

 

2) 자료 분류에서 오차의 개입이 적다.

 

3) 추출 기회가 동등하고 독립적이기 때문에 추출된 표본의 대표성이 매우 높다.

 

 

1) 표본의 규모가 커야 된다.


2) 모집단에 대해 가지고 있는 지식을 활용할 수 없다.


3) 표본 프레임 작성이 어렵다

모수에 대한 추정은 비율에 대한 추정과 비율에 대한 추정으로 나눌 수 있습니다.

 

 

 

 

​ 평균에 대한 추정

 

(1) 점 추정: 불편성 

 

SE22019071113215570.png

 

 

(2) 구간 추정:

 

SE22019071113220570.png

 

 

 

※ 코드

 

SE22019071113223470.png

 

  • DATA    :  조사된 내용이 저장되어 있는 데이터셋을 지정
  • VAR     :  평균 또는 비율 추정의 대상이 될 변수들을 나열함 
  • WEIGHT  :  가중치 변수를 지정함
  • TOTAL   :  모집단의 크기 or 모집단 크기가 지정되어 있는 데이터셋을 지정 

모집단 크기를 나타내는 변수는 반드시 _TOTAL_의 이름으로 주어야 함 

  • CLASS   :  범주형 변수들을 나열함 VAR 명령문에 지정된 변수들에 대해서는

범주 별 비율이 추정된 결과 제공

 

 

 

*결과

 

SE22019071113230570.png

Statistics의 Mean부분을 통해 평균에 대한 추정이 가능합니다.

 

 

 

*비율에 대한 추정

 

(1) 점 추정: 불편성  

 

SE22019071113232770.png

 

 

(2) 구간 추정 

 

SE22019071113233670.png

 

 

 

 

*코드 

 

SE22019071113235370.png

 

  • DATA    :  조사된 내용이 저장되어 있는 데이터셋을 지정
  • TOTAL   :  모집단의 크기 또는 모집단 크기가 지정되어 있는 데이터셋을 지정 모집단 크기를 나타내는 변수는 반드                   시 _TOTAL_의 이름으로 주어야 함 
  • TABLES  :  비율추정에 사용될 범주형 변수들을 나열함
  • CL(신뢰구간), ALPHA :  (유의수준 설정, 기본값=0.05) 등의 옵션 지정 가능 
  • WEIGHT :  가중치 변수를 지정

 

 

 

 

*결과

 

SE22019071113241270.png

Table of Gender 에서 percent를 통해 비율에 대한 추정을 할 수 있습니다. 

 

 

 

 

 

٩꒰⍢ ꒱۶⁼³₌₃지금까지 표본추출방법 소개, 단순임의추출을 알아보았습니다. ٩꒰⍢ ꒱۶⁼³₌₃

감사합니다.

 

Version history
Last update:
‎06-18-2020 03:33 AM
Updated by:
Contributors

sas-innovate-white.png

Our biggest data and AI event of the year.

Don’t miss the livestream kicking off May 7. It’s free. It’s easy. And it’s the best seat in the house.

Join us virtually with our complimentary SAS Innovate Digital Pass. Watch live or on-demand in multiple languages, with translations available to help you get the most out of every session.

 

Register now!

Article Labels
Article Tags