BookmarkSubscribeRSS Feed

[SAS 활용 노하우] Statistics with SAS part3

Started ‎01-31-2021 by
Modified ‎01-31-2021 by
Views 1,806

 

안녕하세요

이번 글은 Statistics with SAS part2의 이어지는 글 입니다.

 

11. P-value 

귀무가설 H0가 기각되는 최소의 유의수준입니다. 

 

• 귀무가설 H_0의 타당성 또는 신빙성에 대한 척도를 나타내는 값

• 귀무가설에 대한 모순을 극복할 표본을 얻을 확률. 즉, 표본으로부터 얻은 검정통계량의 값을 초과할 확률을 나타냄

• p-값이 작을수록 H_0에 대한 신빙성은 떨어지고 따라서 p-값이 유의수준 α보다 작으면 귀무가설을 기각

• p-값이 클수록 H_0에 대한 신빙성이 높아지고 따라서 p-값이 유의수준 α보다 크면 귀무가설을 채택

 

 

그림1.png

 

 

* SAS 분석 결과

그림1.png

 

2.png

 

 

12. Chi - Square Test 

그룹간에 차이가 있는지의 여부에 대해 Chi-square 분포를 사용해 가설검정을 하는 방법

 

* 카이제곱 검정 ( Chi-square Test )

H0: 두 변인은 서로 독립이다. 

H1: 두 변인은 서로 독립이 아니다

 

* 검정 통계량

그림1.png그림1.png  

 

기대도수가 5이하인 cell 수가 전체 20% 이상이고, 특히 p값이 작은 경우 카이제곱 검정의 신뢰성이 떨어지므로, 이 경우 Fisher의 Exact Test 수행

 

 * SAS Enterprise Guide

 

그림1.png

 

2.png

 

 

• 두 개의 범주형 변수들 사이에 연관성이 존재하는지를 검정하며 각 셀에 대한 관측 빈도와 기대 빈도와의 차이를 통해 검정

• 소표본의 경우, Fisher의 정확도 검정(Exact Test) 수행

 

13. 추정 ( Estimation )

 모집단으로부터 추출한 표본 특성을 분석하여, 모수에 대해 추측/추론을 하는 과정입니다.

 

* 추정의 종류

 

1.png

 

 

 

 

- 1) 점추정

2.png

  1. 집단에서 임의의 크기 n인 표본 추출
  2. 추정량 (Estimator)으로부터 추정치 ( Estimate )계산
  3. 표준오차 ( standard error ) : 추정량의 정확도에 대한 척도

 

3.png

 

대부분 σ를 모르기 때문에 표본표준편차 s로 추정하여 사용

4.png

 -2 ) 구간추정 (모평균 μ에 대한 추정을 중심으로)

 

•  구간추정(Interval Estimation): 추정량의 분포를 사용하여 표본으로부터 모수가 포함될 것이라 예상되는 구간추정

•  신뢰구간(Confidence Interval): 구간추정에서 제시되는 구간

•  신뢰구간은 (하한값, 상한값)의 형태로 구성

•  모집단에서 추출한 표본마다 계산되는 신뢰구간은 서로 다를 수 있음

•  신뢰수준(Confidence Level): 신뢰구간에 모수를 포함할 확률로 보통 90%, 95%, 99%를 사용

•  신뢰수준 또는 신뢰도는 100(1-α)% 또는 (1-α)로 표시

 
그림1.png
 

모집단에서 추출한 표본이 큰 경우(약 30이상) 중심극한정리에 의하여 표본평균 X ̅ (X bar )는 N(μ,σ^2/n)을 따름. 이 분포를 표준화하면 표준정규분포 N(0,1)이 되며, 식은

 
그림2.png

 

* 신뢰구간의 길이

조건이 모두 동일한 상태에서

- 신뢰도 100(1-α)% 가 커지거나

- 모집단에서 추출하는 표본의 개수 n이 작아지거나

- 분산 σ^2이 커지면

 

=> 신뢰구간의 길이는 커지게 됩니다. 

 

14. Least Square Fit

실제로 관측된 값과 이론적으로 가정된 기대값의 편차 제곱 합을 최소로 함으로써 ‘모집단에서의 값’ (파라메터)을 추정하는 방법

 

N회 측정한 측정값이 y1,y2,…,yn  이 어떤 측정값  x1,  x2, …,xn 의 함수라고 추정할 수 있을 때,  측정값 yi 와 함수값 f(xi)의 차이를 제곱한 것의 합 

스크린샷 2021-01-31 오후 5.25.12.png

 이 최소가 되도록 하는 f(x)를 구하는 것.

그림1.png

 

 

그림에서 표시된 각 점들은 측정값 (xi,yi )이고, 직선 (xi,f(xi) )는 최소제곱법을 사용해 구한, 측정값들의 분포를 가장 잘 나타내는 일차함수

 

그림2.png

 

 

 

 

그림3.png

  • 세 번의 관측결과를 바탕으로 별의 진정한 위치를 추정
  • 진정한 별의 위치를 (x, y)라 하면, 가장 합리적인 좌표는 모든 관측치로부터 가장 가까운 위치
  • D=d1+d2+d3 를 가장 작게 하는 (x, y)를 추정하는 문제

 

 

 

15. Maximum Likelihood Estimation ( MLE )

어떤 확률변수에서 표집한 값들을 토대로 그 확률변수의 모수를 구하는 방법으로, 어떤 모수가 주어졌을 때 원하는 값이 나올 확률(우도)을 최대로 만드는 모수를 선택하는 방법

 

  • 일반적으로 확률변수의 분포를 알고 있을 때 모수를 추정하는 방법
  • x1, x2,…, xn이라는 자료의 값이 주어졌을 때 이 값들의 분포가 f(x)라는 모수적 분포를 따른다고 가정
  • 알고 싶은 모수를 θ라고 할 때 가능도(likelihood)는

그림1.png

 

으로 표현됨. (x_1. x_2, …, x_n이 서로 독립이고 동일한 분포에서 나왔기 때문에 결합확률밀도함수로 표현).

즉, 모수 θ 의 함수인 L(θ; x_1, x_2, …,x_n)가 최대가 되는 θ값이 MLE라 함.

그림2.png

Ex )

  1. 주머니 안에 빨간 공과 검은 공이 있는 상황
  2. 빨간 공을 뽑을 확률은 p, 검은 공을 뽑을 확률은 (1-p)
  3. 모든 주머니의 p는 같다고 가정
  4. 총 3개의 빨간 공과 2개의 검은 공이 추출 -> p는 얼마인가? 

 => 결합확률(L)을 가장 크게 하는 p를 추정

 

그림3.png

 

Version history
Last update:
‎01-31-2021 03:26 AM
Updated by:
Contributors

hackathon24-white-horiz.png

The 2025 SAS Hackathon Kicks Off on June 11!

Watch the live Hackathon Kickoff to get all the essential information about the SAS Hackathon—including how to join, how to participate, and expert tips for success.

YouTube LinkedIn

Article Labels
Article Tags