BookmarkSubscribeRSS Feed

[SAS 활용 노하우] Statistics with SAS part2

Started ‎01-30-2021 by
Modified ‎01-30-2021 by
Views 1,496

 

안녕하세요 

이번 게시글은 Statistics with SAS part1의 이어지는 게시글 입니다.

 

6. Descriptive Statistics & Percentile & Outliers

 

  • 사분위수 범위( Interquartile range; I.Q.R ) : 범위의 이상치에 대한 영향을 제거한 산포도

      I.Q.R=Q2-Q1

 

-1) Stem-and-leaf (줄기-잎 그림)의 경우 이상치에 대한 정보를 완전히 제공하지 못함

 

 

그림1.png

 

 

 

 

 

 

 

 

    

-2 ) Box Plot (상자그림 ) :  꼬리부분에 대한 특성인 이상치에 대한 정보를 제공하고 자료의 흩어진 모양을 쉽게 알 수 있도록 자료를 요약합니다.

 

 

그림1.png

 

 

 

 

 

 

 

 

 

 

  • 백분위 ( Percentile )

데이터를 크기 순으로 배열 했을 때 데이터의 p% 가 어떤 임의의 값보다 작고 (100-p)%가 그 값보다 큰 경우 그 임의의 값을 p-th 백분위(percentile) 값이라 합니다. 

 

  • 이상치 ( Outlier )

관측된 데이터의 범위에서 벗어난 아주 작은 값이나 아주 큰 값 (보통 3σ를 벗어나면 이상치 라고 함)

 

 그림1.png

 

 

 

7. Probability Theory 

확률론이란 비결정론적인 현상을 수학적으로 기술하는 수학의 한 분야이며, 베이즈 정리는 특수한 현상이 주어진 조건에서,

어떠한 사상이 사실로 나타날 확률을 산출하는 기법입니다. 

 

  • Probability Theory

서로 배반적인 n개 사건 A1,⋯,An 이 

스크린샷 2021-01-31 오전 12.35.54.png

 

을 만족할 때, 어떤 사건 B가 나타났다는 가정에서의 조건부 확률 P(A│B)에 관한 정리

 

특수한 현상이 주어진 조건에서, 어떠한 사상이 사실로 나타날 확률을 산출하는 기법으로 사전확률 P(A)과 우도 P(B│A)를 안다면 사후확률 P(A│B)를 알 수 있다.

 

임상실험, 기상예보, 품질관리 등 다양한 분야에서 활용됩니다.

 

8. Central Limit Theorem , CLT

중심극한정리는 모집단의 분포에 상관없이 표본의 크기(n)이 큰 경우 표본평균의 분포는  정규분포에 근사합니다.

 

평균이 μ이고 분산이 σ^2 인 모집단으로부터 표본자료 X1,X2,…,Xn 이 추출되었다고 할 때, 표본평균 X (= X bar) 는 모집단의 분포에 상관없이 n이 충분히 클 때, 근사적으로 N(μ,σ^2/n)의 분포를 따릅니다. 

 

n이 충분히 클 때

스크린샷 2021-01-31 오전 12.44.08.png

모집단이 정규분포이면 표본의 크기에 상관없이 X ̅ (= X bar )의 분포는 정규분포이지만, 모집단이 정규분포가 아니라고 해도 표본의 크기가 30이상만 되면 X ̅ (= X bar )의 분포가 모집단의 분포에 상관없이 n이 커짐에 따라 정규분포에 근사해가는 것을 보여줍니다. 
 

 

그림1.png

 

 

Panel A는 population을 보여줍니다.(오른쪽으로 치우쳐 있으며, 0에서 절단되어 있음)

Panel B,C,D는 n의 크기가 15, 30, 60으로 커짐에 따라 표본분포가 점차 정규분포에 근사하고 있습니다. 

 

 

 9. Monte Carlo Method

 

 불확실한 상황 하에서 의사 결정을 목적으로 확률적 시스템의 모의 실험에 이용되는 절차입니다.

Monte Carlo Method는 모형에서 가정한 확률분포에 따라누적 확률분포를 설정하고, 확률적 또는 우연 결과를 발생시켜주는 도구를 통해서 무작위 표본추출을 하여 우연 결과를 발생시켜 구성한 누적확률분포에 따라 유의도를 검정합니다.

 

Monte Carlo Method는 함수의 계산값이 복잡하거나 닫히지 않은 경우, 이것을 근사적으로 표현하고자 할 때 사용됩니다.

 

예시)

 

title ' Monte Carlo Simulation of ODE '

proc model data = drive1 noprint;
   parm a 0.5;
   dert.y = a - a*y
   fit  y / outest = est ;
   by iter ;
run;
proc univariate data = est noprint ;
   var a;
   output out = monte mean = mean p5 = p5 p95 = p95;
run;

proc print data = monte;
run;

결과)

그림1.png

 

 

10. Hypothesis Testing

모집단 또는 모수에 대한 주장이나 예측에 대하여 이미 설정된 가설과 추출된 표본을 기초로 얻은 관찰 값에 의해, 설정된 가설에 대한 타당성을 검증하는 분석 방법입니다. 

 

  • 가설: 가설이란 검정할 목적으로 설정하는 모수에 대한 잠정적인 주장
  • 귀무가설: 모집단의 특성에 대해 옳다고 제안하는 잠정적인 주장 또는 명제를 말함 -> 진위를 검정하기 위하여 설정한 연구의 대상가설
  • 대립가설: 귀무가설의 주장이 틀렸다고 제안하는 가설로서 귀무가설이 기각되면 채택하게 되는 가설

 

* 가설의 검증 절차 

1) 귀무가설 및 대립 가설의 설정 : 귀무가설과 대립가설은 상호배타적으로 귀무가설이 기각되면 대립가설은 채택됨

2) 유의수준(a) 결정 : a 오류에 대한 최대 허용치

3) 기각영역 설정 : 유의수준에 해당되는 임계치, 기각영역 설정

4) 표본 통계량 계산 및 비교 : 임계치와 동일한 척도로 표본통계량을 계산하여 비교

5) 결론 : 표본통계량의 값이 기각영역에 있는 가로 가설의 진위를 판정

 

* 가설의 형태

[ 양측 검정 ]  H0: μ=μ0 VS H1: μ≠μ0

 그림1.png

 

 

[ 좌측 검정 ] H0: μ≥μ0 VS H1: μ<μ0

2.png

 

 

 

[우측 검정 ] H0: μ≤μ0 VS H1: μ>μ0

 

3.png

 

 

 

Version history
Last update:
‎01-30-2021 11:02 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags