BookmarkSubscribeRSS Feed

[SAS 활용 노하우] Statistics with SAS part3

Started ‎01-31-2021 by
Modified ‎01-31-2021 by
Views 1,660

 

안녕하세요

이번 글은 Statistics with SAS part2의 이어지는 글 입니다.

 

11. P-value 

귀무가설 H0가 기각되는 최소의 유의수준입니다. 

 

• 귀무가설 H_0의 타당성 또는 신빙성에 대한 척도를 나타내는 값

• 귀무가설에 대한 모순을 극복할 표본을 얻을 확률. 즉, 표본으로부터 얻은 검정통계량의 값을 초과할 확률을 나타냄

• p-값이 작을수록 H_0에 대한 신빙성은 떨어지고 따라서 p-값이 유의수준 α보다 작으면 귀무가설을 기각

• p-값이 클수록 H_0에 대한 신빙성이 높아지고 따라서 p-값이 유의수준 α보다 크면 귀무가설을 채택

 

 

그림1.png

 

 

* SAS 분석 결과

그림1.png

 

2.png

 

 

12. Chi - Square Test 

그룹간에 차이가 있는지의 여부에 대해 Chi-square 분포를 사용해 가설검정을 하는 방법

 

* 카이제곱 검정 ( Chi-square Test )

H0: 두 변인은 서로 독립이다. 

H1: 두 변인은 서로 독립이 아니다

 

* 검정 통계량

그림1.png그림1.png  

 

기대도수가 5이하인 cell 수가 전체 20% 이상이고, 특히 p값이 작은 경우 카이제곱 검정의 신뢰성이 떨어지므로, 이 경우 Fisher의 Exact Test 수행

 

 * SAS Enterprise Guide

 

그림1.png

 

2.png

 

 

• 두 개의 범주형 변수들 사이에 연관성이 존재하는지를 검정하며 각 셀에 대한 관측 빈도와 기대 빈도와의 차이를 통해 검정

• 소표본의 경우, Fisher의 정확도 검정(Exact Test) 수행

 

13. 추정 ( Estimation )

 모집단으로부터 추출한 표본 특성을 분석하여, 모수에 대해 추측/추론을 하는 과정입니다.

 

* 추정의 종류

 

1.png

 

 

 

 

- 1) 점추정

2.png

  1. 집단에서 임의의 크기 n인 표본 추출
  2. 추정량 (Estimator)으로부터 추정치 ( Estimate )계산
  3. 표준오차 ( standard error ) : 추정량의 정확도에 대한 척도

 

3.png

 

대부분 σ를 모르기 때문에 표본표준편차 s로 추정하여 사용

4.png

 -2 ) 구간추정 (모평균 μ에 대한 추정을 중심으로)

 

•  구간추정(Interval Estimation): 추정량의 분포를 사용하여 표본으로부터 모수가 포함될 것이라 예상되는 구간추정

•  신뢰구간(Confidence Interval): 구간추정에서 제시되는 구간

•  신뢰구간은 (하한값, 상한값)의 형태로 구성

•  모집단에서 추출한 표본마다 계산되는 신뢰구간은 서로 다를 수 있음

•  신뢰수준(Confidence Level): 신뢰구간에 모수를 포함할 확률로 보통 90%, 95%, 99%를 사용

•  신뢰수준 또는 신뢰도는 100(1-α)% 또는 (1-α)로 표시

 
그림1.png
 

모집단에서 추출한 표본이 큰 경우(약 30이상) 중심극한정리에 의하여 표본평균 X ̅ (X bar )는 N(μ,σ^2/n)을 따름. 이 분포를 표준화하면 표준정규분포 N(0,1)이 되며, 식은

 
그림2.png

 

* 신뢰구간의 길이

조건이 모두 동일한 상태에서

- 신뢰도 100(1-α)% 가 커지거나

- 모집단에서 추출하는 표본의 개수 n이 작아지거나

- 분산 σ^2이 커지면

 

=> 신뢰구간의 길이는 커지게 됩니다. 

 

14. Least Square Fit

실제로 관측된 값과 이론적으로 가정된 기대값의 편차 제곱 합을 최소로 함으로써 ‘모집단에서의 값’ (파라메터)을 추정하는 방법

 

N회 측정한 측정값이 y1,y2,…,yn  이 어떤 측정값  x1,  x2, …,xn 의 함수라고 추정할 수 있을 때,  측정값 yi 와 함수값 f(xi)의 차이를 제곱한 것의 합 

스크린샷 2021-01-31 오후 5.25.12.png

 이 최소가 되도록 하는 f(x)를 구하는 것.

그림1.png

 

 

그림에서 표시된 각 점들은 측정값 (xi,yi )이고, 직선 (xi,f(xi) )는 최소제곱법을 사용해 구한, 측정값들의 분포를 가장 잘 나타내는 일차함수

 

그림2.png

 

 

 

 

그림3.png

  • 세 번의 관측결과를 바탕으로 별의 진정한 위치를 추정
  • 진정한 별의 위치를 (x, y)라 하면, 가장 합리적인 좌표는 모든 관측치로부터 가장 가까운 위치
  • D=d1+d2+d3 를 가장 작게 하는 (x, y)를 추정하는 문제

 

 

 

15. Maximum Likelihood Estimation ( MLE )

어떤 확률변수에서 표집한 값들을 토대로 그 확률변수의 모수를 구하는 방법으로, 어떤 모수가 주어졌을 때 원하는 값이 나올 확률(우도)을 최대로 만드는 모수를 선택하는 방법

 

  • 일반적으로 확률변수의 분포를 알고 있을 때 모수를 추정하는 방법
  • x1, x2,…, xn이라는 자료의 값이 주어졌을 때 이 값들의 분포가 f(x)라는 모수적 분포를 따른다고 가정
  • 알고 싶은 모수를 θ라고 할 때 가능도(likelihood)는

그림1.png

 

으로 표현됨. (x_1. x_2, …, x_n이 서로 독립이고 동일한 분포에서 나왔기 때문에 결합확률밀도함수로 표현).

즉, 모수 θ 의 함수인 L(θ; x_1, x_2, …,x_n)가 최대가 되는 θ값이 MLE라 함.

그림2.png

Ex )

  1. 주머니 안에 빨간 공과 검은 공이 있는 상황
  2. 빨간 공을 뽑을 확률은 p, 검은 공을 뽑을 확률은 (1-p)
  3. 모든 주머니의 p는 같다고 가정
  4. 총 3개의 빨간 공과 2개의 검은 공이 추출 -> p는 얼마인가? 

 => 결합확률(L)을 가장 크게 하는 p를 추정

 

그림3.png

 

Version history
Last update:
‎01-31-2021 03:26 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags