앞의 게시글에서 score code의 정의에 대해서 살펴보았습니다.
이번 게시글은 시나리오를 통해 score code가 사용된 예시를 살펴보겠습니다.
score code를 알아보기 위해 사용한 데이터는 함대(fleet)에 있는 트럭 데이터 입니다.
트럭에는 실시간으로 데이터를 수집하는 센서가 있습니다.
목표는 각 트럭에서 수집된 데이터를 바탕으로 향후 유지보수의 필요성을 예측하는 것입니다.
유지 보수에 관한 변수는 0과 1로 값으로 구성되어 있습니다.
데어터에는 12대의 함대가 있고 각 함대는 1대에서 8대의 트럭을 가지고 있습니다. training data는 8307개가 있습니다.
데이터 세트에는 트럭 센서 측정 변수(= truck sensor measurement)와 target variable이 포함되어 있습니다. target variable은 미래에 유지보수가 필요한지의 여부를 나타냅니다.
위의 데이터는 각 함대에 대한 target variable의 분포를 보여줍니다.
01013F1이라는 함대에는 트럭 유지보수가 없었다는 것을 알 수 있습니다.
Neural Network Model
Model Studio PipeLine
사용한 데이터는 SAS® Visual Statistics®의 모델로 신경망 모델(Neural Network Model)을 만들었습니다.
그런 다음 모델을 Model Studio로 전송하여 더 많은 모델을 구축하기 보다 강력한 기능 세트를 제공합니다. 여러 후보 모델을 훈련하고 비교하기 위해 모델 파이프 라인을 만들었습니다.
Neural Network 외에도,베이지안 네트워크 모형 및 그래디언트 부스팅 모형입니다.
후보 모델이 학습되면 SAS® Model Manager®에서 비교할 수 있습니다.
이제 모델 세트가 생겼고 모델 배포 프로세스를 시작할 수 있습니다.
model deployment의 첫 번째 단계는 생산에 사용될 모델을 선택하고 확인하는 것입니다.
비즈니스 프로세스를 계획할 때 사용할 수 있는 몇 가지 후보 모델이 있을 수 있습니다. 최상의 결과를 산출하는 모형을 원하지만 정확도와 다른 요인 간의 균형을 유지해야 합니다. 몇 기준을 알게 되면 모형 선택 프로세스를 시작할 수 있습니다.
선택된 모델이 비즈니스 요구에 부합하는지 확인해야 합니다.
모델이 개별 센서 판독값을 예측하지만 예기치 않은 유지보수에 대한 예측이 필요한 경우 모델을 사용하지 못할 수도 있습니다.
모델이 정확한 기간을 나타내는가를 확인해야 합니다. train data 에 7월을 기준으로 학습되었지만 실제 필요한 모델은 12월에 사용할 때에는 그 모델을 재고해야 될 필요가 있습니다.
모델은 얼마나 견고한지 살펴야 합니다.
기존에 존재하던 원래 모델과 새로 사용할 모델의 경우 다양한 통계와 비교하여 실행 시간 시스템 및 모델 성능이 크게 벗어나는 경우 모델을 사용하지 못할 수 있습니다.
각 모델과 연관된 속성, 변수, 통계를 비교해야 합니다.
각 모델에 필요한 데이터 변수에는 유의한 차이가 없지만 모델의 관측된 예상 성능에는 차이가 있는 경우가 아래의 결과와 같습니다.
Neural Network 모델은 과적합의 징후가 관찰됩니다.
훈련 데이터는(=갈색) 매우 훌륭한 performance를 보이지만, 파란색으로 표시된 test data는 특이한 볼록한 모양을 가지고 있고, performance가 좋지 않습니다.
이러한 과적합 문제가 나타난 이유는 사용한 데이터와 Neurl Network 모델이 맞지 않기 때문입니다. 다른 모델인 Bayesian Network와 Gradient Boosting은 교육 및 검증 통계에서 비슷한 성능을 보입니다.
모델을 평가 하기 위한 다른 방법은 model testing 입니다.
공통 테스트 세트에서 두 모델의 점수를 매길 수 있습니다. 결과는 차이점에 대한 세부 정보입니다.
테스트 세트를 생성하기 위해 목표 값이 1인 데이터의 처음 10개 행과 목표 값이 0인 데이터의 다음 10개 행을 선택했습니다.
결과를 살펴보면 그래디언트 부스팅 모형이표본의 목표값 1을 정확하게 예측하지 못하고 베이지안 네트워크는 둘 다 정확하게 예측합니다.
왼쪽의 테이블은 Bayesian Network 모델을 사용했을 시, 각 변수의 중요도를 나타냅니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.