BookmarkSubscribeRSS Feed

[ SAS 활용 노하우 ] Statistics with SAS part4

Started ‎02-06-2021 by
Modified ‎02-06-2021 by
Views 1,554

 

안녕하세요 

이번 글은 Statistics with SAS  part3의 이어지는 글 입니다. 

 

16. Confidence Interval 

신뢰구간이란 대표적인 구간추정으로 이 구간 내에 모수가 존재할 것으로 예측되는 구간으로 정의됩니다.

 

* 모형균에 대한 신뢰구간

  정규분포 가정하에 모평균의 신뢰구간은 모형균의 95% 신뢰구간 = X + 1.96*(s*root(n))

   +) X : 표본평균 , s: 표본 표준편차 , n : 표본의 크기

 

* 표본들의 평균과 표준편차가 비슷하다면, 신뢰구간의 폭은 표본수의 영향을 받음

   → 표본수가 클수록 모평균은 정밀하게 추정

   → 표본수가 작으면 신뢰구간이 너무 넓어 모평균이 실제로 어디쯤 위치할지 예측하기 어려움

 

예시

그림1.png

 

* SAS Programming

PROC UNIVARIATE DATA=SAS-data-set;
	VAR variables cibasic(alpha=𝜶);
RUN;

 결과그림1.png

 

* SAS Enterprise Guide

그림2.png

 

 

17. Kernel Density Estimate

확률변수(random variable)의 확률밀도함수(probability density function)를 추정하는 비모수적(non-parametric)방법입니다. 

 

만약 x1, x2, …, xn ~ f이 서로 독립적이며 동일한 분포를 따르는(independent and identically-distributed, iid) 확률변수들의 표본이라면, 확률밀도함수의 kernel density approximation은

스크린샷 2021-02-06 오후 9.42.12.png

 

이며, 이때 K는 어떠한 kernel이고, h는 bandwidth라 불리는 평활모수(smoothing parameter)임. 종종 K는 평균이 0이고 분산이 1인 표정규분포를 취함. 따라서, 분산은 모수 h를 통해 간접적으로 제어됨.

스크린샷 2021-02-06 오후 9.42.49.png

 

 * SAS Programming

PROC UNIVARIATE DATA=SAS-data-set;
	histogram variable / kernel (𝑐 𝑘 𝑙);
RUN;

+) c: bandwith , k: kernel function , l: line type

 

* 예시

title 'FET Channel Length Analysis'; 
proc univariate   
 data=Channel noprint;     
 histogram Length / 
 kernel(c = 0.25 0.50 
 0.75 1.00 l = 1 20 2 34  noprint); 
run; 

결과

그림1.png

 

 

 

18. 상관분석 및 인과관계

Pearson CoEfficient는 가장 대표적인 Correlation 기법이고, Causation이란 일반적으로 어떤 선행사실(원인)과 후행사실(결과)의 필연적 관계를 의미입니다.

 

* Pearson CoEfficient

  • X의 증감에 따른 Y의 증감에 대한 척도로 -∞~∞ 사이의  값을 갖습니다.

  • 변수 단위에 따라 그 값이 크게 변하는 성질이 있다. 따라서 Covariance의 값 만으로 두 변수 간의 상관성을 단정짓기에는 무리가 있습니다.

스크린샷 2021-02-06 오후 9.51.10.png

 

* Correlation

  • 측정단위나 대상에 관계없이 두 변수 사이의 일관된 선형관계를 나타내는 지표로, -1~1 사이의 값을 갖는다.
  • 공분산의 단점을 보안해주어, 좀 더 표준화된 상관성여부를 제공한다.
  • 0을 기준으로 양의 값 → 양의 상관관계
  • 0을 기준으로 음의 값 → 음의 상관관계
  • 절대값이 클수록 → 강한 상관관계
  • 절대값이 작을수록 → 약한 상관관계

* Correlation 종류

  1. Pearson 상관계수
  2. Spearman 서열상관관계
  3. Kendall’s tau
  4. Point-biserial r
  5. Phi-CoEfficient 등등

*SAS Programming

PROC CORR DATA=SAS-data-set cov <options>;
	VAR variables;
RUN;

예시

proc corr data=setosa sscp cov nosimple;
var sepallength sepalwidth;
   with petallength petalwidth;
title 'Fisher (1936) Iris Setosa Data';
run;

결과

그림1.png

 

 

19. Euclidean Distance

두 점 사이의 거리를 계산할 때 사용되는 거리측도 중 대표적인 방법입니다.

  • Euclidean Distance를 사용하여 유클리드 공간을 정의할 수 있습니다.
  • Euclidean Distance에 대응하는 norm을 Euclidean norm이라 합니다.
  • 직교 좌표계로 나타낸 점 p = (p1, p2,..., pn)와 q = (q1, q2,..., qn)가 있을때, 두 점 p, q 사이의 Euclidean Distance는 다음과 같이 정의합니다.

 

스크린샷 2021-02-06 오후 9.59.27.png

  

* Euclidean Distance를 사용할 경우 발생하는 3가지 단점

  1. 거리 측정이 입력 변수들에 대한 측정 단위 선택에 따라 달라진다.
  2. Euclidean Distance는 변수의 변동성을 반영하지 못한다.
  3. Euclidean Distance는 변수들 간의 상관관계를 무시한다.

* SAS Programming

PROC DISTANCE METHOD = EUCLID < options > ;
BY variables ;
COPY variables ;
FREQ variable ;
ID variable ;
VAR level (variables < / options >) ;
WEIGHT variable ;

 

예시

proc distance data=Protein out=Dist method=Euclid;
var interval(RedMeat--FruitVeg / std=Std);
id Country;
run;
proc print data=Dist(obs=10);
run;

결과

그림1.png

 

 

 

 

Version history
Last update:
‎02-06-2021 08:07 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags