안녕하세요
이번 게시글은 Statistics with SAS part1의 이어지는 게시글 입니다.
6. Descriptive Statistics & Percentile & Outliers
I.Q.R=Q2-Q1
-1) Stem-and-leaf (줄기-잎 그림)의 경우 이상치에 대한 정보를 완전히 제공하지 못함
-2 ) Box Plot (상자그림 ) : 꼬리부분에 대한 특성인 이상치에 대한 정보를 제공하고 자료의 흩어진 모양을 쉽게 알 수 있도록 자료를 요약합니다.
데이터를 크기 순으로 배열 했을 때 데이터의 p% 가 어떤 임의의 값보다 작고 (100-p)%가 그 값보다 큰 경우 그 임의의 값을 p-th 백분위(percentile) 값이라 합니다.
관측된 데이터의 범위에서 벗어난 아주 작은 값이나 아주 큰 값 (보통 3σ를 벗어나면 이상치 라고 함)
7. Probability Theory
확률론이란 비결정론적인 현상을 수학적으로 기술하는 수학의 한 분야이며, 베이즈 정리는 특수한 현상이 주어진 조건에서,
어떠한 사상이 사실로 나타날 확률을 산출하는 기법입니다.
서로 배반적인 n개 사건 A1,⋯,An 이
을 만족할 때, 어떤 사건 B가 나타났다는 가정에서의 조건부 확률 P(A│B)에 관한 정리
특수한 현상이 주어진 조건에서, 어떠한 사상이 사실로 나타날 확률을 산출하는 기법으로 사전확률 P(A)과 우도 P(B│A)를 안다면 사후확률 P(A│B)를 알 수 있다.
임상실험, 기상예보, 품질관리 등 다양한 분야에서 활용됩니다.
8. Central Limit Theorem , CLT
중심극한정리는 모집단의 분포에 상관없이 표본의 크기(n)이 큰 경우 표본평균의 분포는 정규분포에 근사합니다.
평균이 μ이고 분산이 σ^2 인 모집단으로부터 표본자료 X1,X2,…,Xn 이 추출되었다고 할 때, 표본평균 X (= X bar) 는 모집단의 분포에 상관없이 n이 충분히 클 때, 근사적으로 N(μ,σ^2/n)의 분포를 따릅니다.
n이 충분히 클 때
모집단이 정규분포이면 표본의 크기에 상관없이 X ̅ (= X bar )의 분포는 정규분포이지만, 모집단이 정규분포가 아니라고 해도 표본의 크기가 30이상만 되면 X ̅ (= X bar )의 분포가 모집단의 분포에 상관없이 n이 커짐에 따라 정규분포에 근사해가는 것을 보여줍니다.
Panel A는 population을 보여줍니다.(오른쪽으로 치우쳐 있으며, 0에서 절단되어 있음)
Panel B,C,D는 n의 크기가 15, 30, 60으로 커짐에 따라 표본분포가 점차 정규분포에 근사하고 있습니다.
9. Monte Carlo Method
불확실한 상황 하에서 의사 결정을 목적으로 확률적 시스템의 모의 실험에 이용되는 절차입니다.
Monte Carlo Method는 모형에서 가정한 확률분포에 따라누적 확률분포를 설정하고, 확률적 또는 우연 결과를 발생시켜주는 도구를 통해서 무작위 표본추출을 하여 우연 결과를 발생시켜 구성한 누적확률분포에 따라 유의도를 검정합니다.
Monte Carlo Method는 함수의 계산값이 복잡하거나 닫히지 않은 경우, 이것을 근사적으로 표현하고자 할 때 사용됩니다.
예시)
title ' Monte Carlo Simulation of ODE '
proc model data = drive1 noprint;
parm a 0.5;
dert.y = a - a*y
fit y / outest = est ;
by iter ;
run;
proc univariate data = est noprint ;
var a;
output out = monte mean = mean p5 = p5 p95 = p95;
run;
proc print data = monte;
run;
결과)
10. Hypothesis Testing
모집단 또는 모수에 대한 주장이나 예측에 대하여 이미 설정된 가설과 추출된 표본을 기초로 얻은 관찰 값에 의해, 설정된 가설에 대한 타당성을 검증하는 분석 방법입니다.
* 가설의 검증 절차
1) 귀무가설 및 대립 가설의 설정 : 귀무가설과 대립가설은 상호배타적으로 귀무가설이 기각되면 대립가설은 채택됨
2) 유의수준(a) 결정 : a 오류에 대한 최대 허용치
3) 기각영역 설정 : 유의수준에 해당되는 임계치, 기각영역 설정
4) 표본 통계량 계산 및 비교 : 임계치와 동일한 척도로 표본통계량을 계산하여 비교
5) 결론 : 표본통계량의 값이 기각영역에 있는 가로 가설의 진위를 판정
* 가설의 형태
[ 양측 검정 ] H0: μ=μ0 VS H1: μ≠μ0
[ 좌측 검정 ] H0: μ≥μ0 VS H1: μ<μ0
[우측 검정 ] H0: μ≤μ0 VS H1: μ>μ0
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.