BookmarkSubscribeRSS Feed

[SAS 활용 노하우] Data Handling with SAS part4

Started ‎01-16-2021 by
Modified ‎01-16-2021 by
Views 1,824

 

안녕하세요

이번 게시글은 [SAS 활용 노하우] Data Handling with sas with SAS part3의 이어지는 글 입니다.

 

16. PROC CORR

두 변수간의 (선형)상관관계를 분석하는 명령문입니다.

 

* 상관 분석의 과정

a)두 변인의 상관도(Scatter Plot)를 그려본다.(PROC PLOT이용)

b) 귀무가설과 대립가설을 세운다.

c) 표본 상관계수를 구한다.(PROC CORR 이용)

d) t-검정을 실시하여 결과를 분석한다.

 

상관분석

  • 두 변수간의 관계의 정도를 통계량으로 산출
  •  - 피어슨 상관계수로서  -1 < r < 1 이며, 양 극단에 가까울수록 강한 선형 관계이다.
  • 상관관계를 통해 변수의 관계를 파악 때 유용하다.
  •  - 종속변수와 독립 변수간의 관계 파악
  •  - 독립변수 간의 관계 파악을 통해 공선성 문제 확인
  • 선형의 관계가 아니라, 비선형의 관계가 있는 경우
  •  - 2차, 3차 항으로 비선형의 관계를 설명하거나
  • 비선형 회귀분석을 진행함.

 

PROC CORR nosimple rank;
   VAR oxy runtime age weight;    
RUN;

 

* 편상관계수(Partial Correlation)

변수의 상관관계를 분석할 때, 다른 변수의 효과를 고정시키고 분석하고자 하는 두 변수 사이의 순수한 상관관계를 구하고자 할때 사용 되는 기법

 

PROC CORR;
   VAR oxy runtime age weight; 
   Partial rstpulse;    
RUN;

 

* 순위 상관계수

두 변수의 원래 자료 대신에 순위를 구하여 순위에 대한 상관계수를 구한다. 변수 X,Y 자료 각각에 대하여 정렬하여 스피어만 상관계수를 구합니다.

 

PROC CORR SPEARMAN;
   VAR oxy runtime age weight;  
RUN;

 

 17. TABULATE

여러가지 요약 통계량을 다양한 테이블로 출력 가능하게 하는 명령문으로 TABULATE Procedure는 차원을 확장하여 행과 열로 이루어진 다차원 테이블 작성도 가능합니다.

 

< TABULATE Procedure > 

PROC TABULATE data = sas-data-set <option(s)>; 
CLASS variable(s) ; 
VAR analysis-variable(s); 
TABLE <<page-expression,> row-expression,> column-expression</ table-option(s)>; 
RUN; 

•  sas-data-set을 교차테이블 형식으로 변환하여 출력

•  CLASS : 분류 기준 변수 지정

•  VAR : 변환시 value로 사용할 변수 지정

•  TABLE : 테이블의 행과 열에 해당하는 분류 변수 지정

 

* TABULATE 예시

proc tabulate data=comprev;
   class country computer;
   var rev90 rev91 rev92;
   table computer*country,rev90 rev91 rev92 / rts=32;
 run;

 

그림1.png    ⇨    그림1.png

 

18. GCHART

여러가지 형태의 도표를 그리는 명령문입니다.

 

PROC GCHART <DATA=input-data-set>
<ANNOTATE=Annotate-data-set>
<GOUT=<libref.>output-catalog>
<IMAGEMAP=output-data-set>; 

 

•  텍스트 형태의 도표를 제공하는 CHART 프로시저와 사용방법이 유사하며, 그래픽 모드에서 적용되는 별도 옵션 사용 가능

•  GCHART Procedure는 블록도표, 수직막대도표, 수평막대도표, 파이도표, 별도표 등 의 모양을 제공

•  표현 가능한 통계량 : 빈도, 누적빈도, 백분율, 누적백분율, 합계, 평균

• 사용형식

   -  HBAR

   -  VBAR

  -  BLOCK

  -  PIE

  -  STAR

 

 * GCHART 예시

 

goptions reset=all border;
proc gchart data=sashelp.cars;
pie type / other=0
midpoints="Truck" "SUV" "Sedan" "Wagon" "Sports" "Hybrid"
value=none  percent=arrow  slice=arrow
noheading;
run; quit; 

 

그림1.png 

 

19. GPLOT 

 두 변수 간의 산점도를 포함한 다양한 형태의 2차원 그래프를 출력하는 명령문입니다.

 

PROC GPLOT <DATA=input-data-set>
 PLOT yvariable*xvariable / option(s);
 PLOT2 yvariable*xvariable / option(s);
 BUBBLE yvariable*xvariable=zvariable / option(s);
 BUBBLE2 yvariable*xvariable=zvariable / option(s);
RUN:

  

•  GPLOT에서 제공하는 그래프

    -  산점도(scatter plot)

    -  오버레이 플롯(overlay plot) : 여러 개의 그래프를 겹쳐서 하나로 그림

    -  거품도(bubble plot)

    -  기본적으로 PLOT procedure에서 사용하는 모든 문법을 사용할 수 있음

 

options nodate pageno=1 linesize=64 pagesize=25;
symbol i=needle value=dot;

proc gplot data = sashelp.class;
   plot height*age;
run;

 그림1.png

 

 

20. PROC PRINT

data-set의 내용을 Results Viewer에 출력하는 명령문입니다.

 

PROC PRINT DATA = sas-data-set <option>;
	VAR variable(s); 	WHERE where-expression;
	BY <DESCENDING) by-variable(s);
	PAGEBY variable(s);
	SUMvariable(s);
	SUMBYvariable(s);
	RUN;

 

•  LABEL 옵션 : 출력물의 칼럼 머릿글에 변수명 대신 라벨 표시

•  NOOBS 옵션 : 좌측 첫 변수로 보이는 OBS를 숨김

•  VAR 문장 : 출력하고자 하는 변수를 순서대로 지정

•  WHERE 문장 : 관측치 선택 조건을 지정

•  BY 문장 : BY 변수의 값마다 섹션을 나눔

•  PAGEBY : 지정된 PAGEBY 변수나 앞에서 지정된 BY 변수의 값이 변화할 때마다 새로운 페이지에서 출력

•  SUM : 지정된 변수들의 합을 출력

•  SUMBY : 지정된 SUMBY 변수나 앞에서 지정된 BY 변수의 값이 변화할 때마다 그 변수의 합을 출력

 

 

* PRINT 예시

PROC PRINT DATA = sashelp.class LABEL NOOBS;
	VAR name age sex ;
	WHERE age >= 13;
	BY sex;
RUN;

 

결과입니다.

그림1.png

그림1.png

 

Version history
Last update:
‎01-16-2021 07:17 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags