BookmarkSubscribeRSS Feed

[ SAS 활용 노하우 ] 데이터 시각화 part2

Started ‎06-22-2021 by
Modified ‎06-22-2021 by
Views 932

 

 

2020년 3월 1일 부터 2020년 4월 1일의 코로나 확진자 데이터를 가지고 데이터 분석을 실행해 보도록 하겠습니다. (데이터는 파일로 첨부하였습니다.)

 

 

 

1.png

 

데이터는 각 지역별 확진자 수로 이루어져 있습니다.

 

 

1. 데이터 가져오기

 

proc import datafile="/home/u45061472/region.csv" 
out=work.covid
dbms=csv
replace;
run;

 

work라이브러리에 covid 데이터를 불러왔습니다.

전체 행은 32개 이며, 칼럼의 수는 20개입니다.( 칼럼 : 날짜, 19개의 지역 )

 

 

 

 

 

 

2. 지역별 기초 통계량 구하기 

 

proc means data=work.covid;
run;

2.png

 

 

 

각 변수에 대하여 기초 통계량을 구해 보았습니다. 표를 보시면 각 변수에 대한 자료수, 평균, 표준편차, 최솟값, 최댓값이 나타나신 것을 볼 수 있습니다.

 

 

 

 

3. 제주 확진자 데이터로 분포와 확률도표 그리기

 

 

proc univariate data=work.covid plot;
var jeju;
run;

 3.png

 

4.png

 

 

 

기초통계량과 다양한 그래프가 나온 것을 볼 수 있습니다.

분석 결과 3월 한달에 제주에서 하루 평균 4.75 명 정도 확진자가 발생하였습니다.

막대그래프를 보면 한달동안 하루에 4명의 확진자가 발생한 것을 볼 수 있습니다.

또한, 분위수를 이용해 상자수염도를 표현하실 수 있습니다. 관측 값을 가지고 발생 빈도를 표에 그려서 점차 증가되는 그래프를 보실 수 있습니다.

 

 

  

 

 

4.  날짜별 대구 확진자 수 그래프

 

proc sgplot data=work.covid;
series x=day y=daegu;
run;

 

5.png

 

 

 

 

5. 코로나 감염 사망자 수 그래프 

 

이번 시각화는 total.csv를 이용하여 코로나 확진자 중 사망한 사람 수에 대한 그래프를 그려보고자 합니다.

total 데이터는 20201.03.01 ~ 2020.04.01 1달동안 코로나 검역 대상자, 확진자, 완치자, 사망자에 대한 데이터 입니다.

 

6.png

 

 

데이터는 date, total, confirmed, recovered, deaths 5개의 칼럼으로 이루어져 있습니다.

또한, 전체 데이터는 32개로 이루어져 있습니다.

 

 

proc import datafile="/home/u45061472/total.csv" 
out=work.total
dbms=csv
replace;
run;

proc sgplot data=work.total;
scatter x=confirmed y=deaths / markerattrs=(size=14 symbol=CircleFilled color='blue');
run;

 

 

7.png

 

산점도를 그려본 결과 거의 직선형태를 띄고 있으며 코로나 확진자중에서 사망자가 많이 나오고 있으며 양의 상관관계를 가지고 두 변간 영향을 주고 있는것으로 보입니다.

Version history
Last update:
‎06-22-2021 08:48 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags