안녕하세요, Marketing 부서에 근무하고 있는 인턴 김규리입니다.
이번에는 이전 게시물에 이어서 ③ 모델 비교 및 결과 도출에 대해 알아보도록 하겠습니다.
파이프라인 실행이 모두 완료되면 각 노드에 대한 결과를 조회할 수 있습니다.
노드의 〯버튼을 누르고 [결과]를 선택하시면 결과 요약 내용과 출력 데이터를 조회할 수 있습니다.
각 노드의 결과가 어떻게 나타났는지 간단히 살펴볼까요?
첫 번째, 결측값 처리 노드 결과입니다.
위의 화면과 같이 결측값이 처리된 변수에 대한 결과를 확인할 수 있습니다.
제가 진행한 프로젝트에서 결측값이 처리된 변수는 Cylinders 1개이고 해당 변수에 대해 처리된 데이터 개수는 6개로 나타났습니다. 😊
그리고 결측값이 처리된 변수 이름은 IMP_(변수이름)으로 변경됩니다.
또한 결과 요약 내용을 통해 자동 생성된 SAS 스코어 코드도 한 눈에 볼 수 있습니다.
자동으로 SAS 스코어 코드를 생성하므로, SAS 코드를 전혀 모르더라도 SAS VDMML을 초보자분들도 충분히 다룰 수 있습니다. 😊
두 번째, 값 대체 노드 결과입니다.
위의 화면과 같이 값을 대체한 변수에 대한 결과를 확인할 수 있습니다.
결과를 통해 대체된 변수는 어떤 것인지, 몇 개가 대체가 되었는지 등을 한 눈에 볼 수 있습니다.
제가 진행한 프로젝트에서 값이 대체된 변수는 8개, 각 변수마다 대체된 데이터 개수는 0~4 개 사이로 나타났습니다.
그리고 값이 대체된 변수 이름은 REP_(변수이름)으로 변경됩니다.
결측값 처리 결과 창과 마찬가지로 SAS 스코어 코드가 자동으로 생성됩니다.
세 번째, 변수 선택 노드 결과입니다.
위의 화면과 같이 선택된 변수에 대한 결과를 확인할 수 있습니다.
그리고 선택한 변수들에 대한 설명 분산 비율도 자세히 확인할 수 있습니다.
또한, SAS 코드뿐만 아니라 선택된 변수들에 대한 정보들(SSE, MSE, AIC 등)도 살펴볼 수 있습니다.
제가 진행한 프로젝트에서 선택된 변수는 총 6개로 나타났습니다. 😊
네 번째, 모델 노드 결과입니다.
저는 그래디언트 부스팅, 선형 회귀, 의사결정트리 총 3가지의 모델링을 진행하였는데요, 각 모델의 결과를 살펴보도록 하겠습니다.
그래디언트 부스팅 경우, 위의 화면과 같이 오차 도표와 변수 중요도를 확인할 수 있습니다.
트리 수에 따른 MSE(평균제곱오차)를 train, validate, test 그래프별로 조회할 수 있습니다.
두 번째 게시물에서 저는 자동 조율 방법을 사용했는데요, SAS VDMML이 최적의 옵션(학습률, 트리 수 등)을 설정하여 실행한 결과도 자세히 확인할 수 있습니다.
마찬가지로, 모델에 대한 SAS 스코어 코드도 자동으로 생성됩니다.
또한 Train, Validate, test에 따른 예측 평균과 적합 통계량도 확인할 수 있습니다.
x=y에 가까울수록 예측이 잘되었다고 말할 수 있습니다.
선형 회귀의 경우, t값 등을 통해 모델링 결과를 보여주고 있습니다.
그래디언트 부스팅과 같이, 적합 모델에 대한 상세 정보와 예측 그래프도 조회할 수 있습니다.
마지막으로 의사결정트리 경우, 트리 다이어그램과 트리맵을 통해 시각적으로 편하게 예측 기준을 확인할 수 있습니다.
구간을 클릭하면 해당되는 기준과 데이터 개수를 보여주며, 색이 진할수록 예측력이 높은 구간으로 이해하시면 좋을 것 같습니다. 😊
다른 모델과 마찬가지로, 자동 조율 결과 등도 조회할 수 있습니다. 😊
파이프라인의 맨 밑의 모델 비교 노드를 통해 비교 결과를 조회할 수 있습니다.
저는 3가지의 모델을 실행한 결과, 평균제곱오차, 제곱근 평균제곱오차가 가장 작은 선형회귀가 가장 좋은 모델로 나타났습니다.
그래프와 적합통계량을 통해 모델을 비교하여 가장 좋은 모델을 선정할 수 있습니다.
위의 순서에 따라 진행하시면 모델 비교 및 결과 도출을 모두 마치셨습니다.
지금까지 VFL의 SAS VDMML 활용 과정을 3가지의 시리즈로 나눠서 게시물을 작성하였는데요,
여러분께 많은 도움이 되길 바랍니다.
감사합니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.