TimeSeries08_ SAS University를 활용한 시계열 자료 모델링 및 예측, 계층시계열
[한국에 입국한 관광객 수를 시계열]
한국에 입국한 관광객 수 자료를 시계열로 표현하고자 합니다.
http://kto.visitkorea.or.kr/kor/notice/data/statis/tsta/profit/notice/inout/popup.kto에서 자료를 다운받으실 수 있습니다.
위 URL에서 1990년부터 2015년까지의 데이터만 추출하였습니다.
아시아 대륙에서는 타아완ㄹ 선택하였습니다
SAS University > [ 작업 및 유틸리티] > 모델링 예측
*25년간 대만 사람의 방문자 수를 확인하기 위해서
데이터에 csv/excel파일을 집어 넣고 종속변수와 시간ID를 넣으시면 됩니다.
[모델] > ARIMAX 모형으로 예측하고자 합니다.
예측 모델 유형에는 'ARIMAX, 확률보행, 이동 평균, 지수 평활, ARIMA, 비관측 성분'
시계열 자료는 지역이나 상품의 종류에 따라 계층구조를 취하기도 합니다.
국내 총 쌀 소비량을 전국, 도별, 시별, 구별로 각 단계별로 볼 수 있는데 이를 계층 시계열이라고 합니다.
*보정방법
Bottom up: 맨 하위 계층에서 시작하
특징) 수식이 쉽기는 하나 맨 하위계층의 시계열을 예측하는데 어려움이 있습니다.
Top-down: 맨 상위계층에서 시작하는 보정
특징)시계열을 합하는 것으로 하위계층의 시계열 특성, 변동, 이벤트 등을 찾기가 어렵습니다.
Middle out: 중간계층에서 시작하는 보정
> 주어진 자료의 특성에 맞는 방법을 선택해야 합니다.
1.한국에 들어온 총 관광객 수 |
2.대륙별 한국에 들어온 관광객 수 |
3.나라별로 한국에 들어온 관광객의 수 |
Bottom-up, Middle-out, top-down 방법으로 각 계층에서의 예측값을 구하고자 합니다.
[Bottom-up Code]
proc hpfreconcile disaggdata=level2_for aggdata=level1_for
direction=BU outfor=level1_recfor;
id newyear interval=year;
by region country;
run;
proc print data= level1_recfor(firstobs=25 obs=38) noobs label;
run;
proc sort data=level1_for;
by NEWYEAR;
run;
proc timeseries data=level1_for out=top_for;
by _NAME_;
id newyear interval=year;
var _NUMERIC_/ accumulate=total;
run;
proc hpfreconcile disaggdata=level1_recfor aggdata=top_for
direction=BU outfor=top_recfor;
id newyear interval=year;
by region;
run;
proc print data= top_recfor(firstobs=25 obs=38) noobs label;
run;
*SAS/HTF가 필요합니다.Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.