안녕하세요
이번 글은 Statistics with SAS part3의 이어지는 글 입니다.
16. Confidence Interval
신뢰구간이란 대표적인 구간추정으로 이 구간 내에 모수가 존재할 것으로 예측되는 구간으로 정의됩니다.
* 모형균에 대한 신뢰구간
정규분포 가정하에 모평균의 신뢰구간은 모형균의 95% 신뢰구간 = X + 1.96*(s*root(n))
+) X : 표본평균 , s: 표본 표준편차 , n : 표본의 크기
* 표본들의 평균과 표준편차가 비슷하다면, 신뢰구간의 폭은 표본수의 영향을 받음
→ 표본수가 클수록 모평균은 정밀하게 추정
→ 표본수가 작으면 신뢰구간이 너무 넓어 모평균이 실제로 어디쯤 위치할지 예측하기 어려움
예시
* SAS Programming
PROC UNIVARIATE DATA=SAS-data-set;
VAR variables cibasic(alpha=𝜶);
RUN;
결과
* SAS Enterprise Guide
17. Kernel Density Estimate
확률변수(random variable)의 확률밀도함수(probability density function)를 추정하는 비모수적(non-parametric)방법입니다.
만약 x1, x2, …, xn ~ f이 서로 독립적이며 동일한 분포를 따르는(independent and identically-distributed, iid) 확률변수들의 표본이라면, 확률밀도함수의 kernel density approximation은
이며, 이때 K는 어떠한 kernel이고, h는 bandwidth라 불리는 평활모수(smoothing parameter)임. 종종 K는 평균이 0이고 분산이 1인 표정규분포를 취함. 따라서, 분산은 모수 h를 통해 간접적으로 제어됨.
* SAS Programming
PROC UNIVARIATE DATA=SAS-data-set;
histogram variable / kernel (𝑐 𝑘 𝑙);
RUN;
+) c: bandwith , k: kernel function , l: line type
* 예시
title 'FET Channel Length Analysis';
proc univariate
data=Channel noprint;
histogram Length /
kernel(c = 0.25 0.50
0.75 1.00 l = 1 20 2 34 noprint);
run;
결과
18. 상관분석 및 인과관계
Pearson CoEfficient는 가장 대표적인 Correlation 기법이고, Causation이란 일반적으로 어떤 선행사실(원인)과 후행사실(결과)의 필연적 관계를 의미입니다.
* Pearson CoEfficient
X의 증감에 따른 Y의 증감에 대한 척도로 -∞~∞ 사이의 값을 갖습니다.
변수 단위에 따라 그 값이 크게 변하는 성질이 있다. 따라서 Covariance의 값 만으로 두 변수 간의 상관성을 단정짓기에는 무리가 있습니다.
* Correlation
* Correlation 종류
*SAS Programming
PROC CORR DATA=SAS-data-set cov <options>;
VAR variables;
RUN;
예시
proc corr data=setosa sscp cov nosimple;
var sepallength sepalwidth;
with petallength petalwidth;
title 'Fisher (1936) Iris Setosa Data';
run;
결과
19. Euclidean Distance
두 점 사이의 거리를 계산할 때 사용되는 거리측도 중 대표적인 방법입니다.
* Euclidean Distance를 사용할 경우 발생하는 3가지 단점
* SAS Programming
PROC DISTANCE METHOD = EUCLID < options > ;
BY variables ;
COPY variables ;
FREQ variable ;
ID variable ;
VAR level (variables < / options >) ;
WEIGHT variable ;
예시
proc distance data=Protein out=Dist method=Euclid;
var interval(RedMeat--FruitVeg / std=Std);
id Country;
run;
proc print data=Dist(obs=10);
run;
결과
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.