BookmarkSubscribeRSS Feed

SAS VDMML 한 눈에 알아보기 (3) 모델 비교 및 결과 도출

Started ‎06-09-2020 by
Modified ‎06-09-2020 by
Views 237

안녕하세요, Marketing 부서에 근무하고 있는 인턴 김규리입니다.

 

이번에는 이전 게시물에 이어서 ③ 모델 비교 및 결과 도출에 대해 알아보도록 하겠습니다.

 

  1.     모델링 결과 도출

SE22020022523555470.png

 

 

 

파이프라인 실행이 모두 완료되면 각 노드에 대한 결과를 조회할 수 있습니다.

 

노드의 〯버튼을 누르고 [결과]를 선택하시면 결과 요약 내용과 출력 데이터를 조회할 수 있습니다.

 

각 노드의 결과가 어떻게 나타났는지 간단히 살펴볼까요?

 

SE22020022523562870.png

 

첫 번째, 결측값 처리 노드 결과입니다.

 

위의 화면과 같이 결측값이 처리된 변수에 대한 결과를 확인할 수 있습니다.

 

제가 진행한 프로젝트에서 결측값이 처리된 변수는 Cylinders 1개이고 해당 변수에 대해 처리된 데이터 개수는 6개로 나타났습니다. 😊

 

그리고 결측값이 처리된 변수 이름은 IMP_(변수이름)으로 변경됩니다.

 

SE22020022523565970.png

 

또한 결과 요약 내용을 통해 자동 생성된 SAS 스코어 코드도 한 눈에 볼 수 있습니다.

 

자동으로 SAS 스코어 코드를 생성하므로, SAS 코드를 전혀 모르더라도 SAS VDMML을 초보자분들도 충분히 다룰 수 있습니다. 😊

 

SE22020022523571970.png

 

두 번째, 값 대체 노드 결과입니다.

 

위의 화면과 같이 값을 대체한 변수에 대한 결과를 확인할 수 있습니다.

 

결과를 통해 대체된 변수는 어떤 것인지, 몇 개가 대체가 되었는지 등을 한 눈에 볼 수 있습니다.

 

SE22020022523574070.png

 

제가 진행한 프로젝트에서 값이 대체된 변수는 8개, 각 변수마다 대체된 데이터 개수는 0~4 개 사이로 나타났습니다.

 

그리고 값이 대체된 변수 이름은 REP_(변수이름)으로 변경됩니다.

 

SE22020022523575670.png

 

결측값 처리 결과 창과 마찬가지로 SAS 스코어 코드가 자동으로 생성됩니다.

 

SE22020022523581070.png

 

세 번째, 변수 선택 노드 결과입니다.

 

위의 화면과 같이 선택된 변수에 대한 결과를 확인할 수 있습니다.

 

SE22020022523583070.png

 

그리고 선택한 변수들에 대한 설명 분산 비율도 자세히 확인할 수 있습니다.

 

SE22020022523585070.png

 

또한, SAS 코드뿐만 아니라 선택된 변수들에 대한 정보들(SSE, MSE, AIC 등)도 살펴볼 수 있습니다.

 

제가 진행한 프로젝트에서 선택된 변수는 총 6개로 나타났습니다. 😊

 

SE22020022523591070.png

 

네 번째, 모델 노드 결과입니다.

 

저는 그래디언트 부스팅, 선형 회귀, 의사결정트리 총 3가지의 모델링을 진행하였는데요, 각 모델의 결과를 살펴보도록 하겠습니다.

 

그래디언트 부스팅 경우, 위의 화면과 같이 오차 도표와 변수 중요도를 확인할 수 있습니다.

 

SE22020022523593770.png

 

트리 수에 따른 MSE(평균제곱오차)를 train, validate, test 그래프별로 조회할 수 있습니다.

 

SE22020022523595370.png

 

SE22020022600000770.png

 

두 번째 게시물에서 저는 자동 조율 방법을 사용했는데요, SAS VDMML이 최적의 옵션(학습률, 트리 수 등)을 설정하여 실행한 결과도 자세히 확인할 수 있습니다.

 

SE22020022600002370.png

 

마찬가지로, 모델에 대한 SAS 스코어 코드도 자동으로 생성됩니다.

 

SE22020022600003770.png

 

또한 Train, Validate, test에 따른 예측 평균과 적합 통계량도 확인할 수 있습니다.

 

SE22020022600005170.png

SE22020022600011370.png

 

x=y에 가까울수록 예측이 잘되었다고 말할 수 있습니다.

 

SE22020022600012670.png

 

선형 회귀의 경우, t값 등을 통해 모델링 결과를 보여주고 있습니다.

 

SE22020022600014370.png

SE22020022600015770.png

 

그래디언트 부스팅과 같이, 적합 모델에 대한 상세 정보와 예측 그래프도 조회할 수 있습니다.

 

SE22020022600021070.png

 

마지막으로 의사결정트리 경우, 트리 다이어그램과 트리맵을 통해 시각적으로 편하게 예측 기준을 확인할 수 있습니다.

 

SE22020022600022170.png

SE22020022600023270.png

 

구간을 클릭하면 해당되는 기준과 데이터 개수를 보여주며, 색이 진할수록 예측력이 높은 구간으로 이해하시면 좋을 것 같습니다. 😊

 

SE22020022600031870.png

 

SE22020022600034370.png

 

 

다른 모델과 마찬가지로, 자동 조율 결과 등도 조회할 수 있습니다. 😊

 

 

  1.     모델 비교

 

SE22020022600040270.png

 

파이프라인의 맨 밑의 모델 비교 노드를 통해 비교 결과를 조회할 수 있습니다.

 

SE22020022600041270.png

 

저는 3가지의 모델을 실행한 결과, 평균제곱오차, 제곱근 평균제곱오차가 가장 작은 선형회귀가 가장 좋은 모델로 나타났습니다.

 

SE22020022600042370.png

 

그래프와 적합통계량을 통해 모델을 비교하여 가장 좋은 모델을 선정할 수 있습니다.

 

 

 

위의 순서에 따라 진행하시면 모델 비교 및 결과 도출을 모두 마치셨습니다.

 

지금까지 VFL의 SAS VDMML 활용 과정을 3가지의 시리즈로 나눠서 게시물을 작성하였는데요,

여러분께 많은 도움이 되길 바랍니다.

 

감사합니다. 

Version history
Last update:
‎06-09-2020 09:44 PM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags