BookmarkSubscribeRSS Feed

[SAS 활용 노하우] Score Code part3

Started ‎06-20-2022 by
Modified ‎06-20-2022 by
Views 274

 

 

Model Deployment

Score Code part1, part2 게시글에서는 Score Code의 정의와 시나리오를 통해 비즈니스에 적합한 모델을 선정하는 방법에 관하여 알아보았습니다.

이제는 Score Code 를 기반으로 선정된 모델을 비즈니스 응용 프로그램에 모델을 포함시켜야 합니다.

 

image (10).png

 

 

 

< Score Code 시나리오>

score code를 알아보기 위해 사용한 데이터는 함대(fleet)에 있는 트럭 데이터 입니다.

트럭에는 실시간으로 데이터를 수집하는 센서가 있습니다.

목표는 각 트럭에서 수집된 데이터를 바탕으로 향후 유지보수의 필요성을 예측하는 것입니다.

유지 보수에 관한 변수는 0과 1로 값으로 구성되어 있습니다.

데어터에는 12대의 함대가 있고 각 함대는 1대에서 8대의 트럭을 가지고 있습니다. training data는 8307개가 있습니다.

데이터 세트에는 트럭 센서 측정 변수(= truck sensor measurement)와 target variable이 포함되어 있습니다. target variable은 미래에 유지보수가 필요한지의 여부를 나타냅니다.

 

Score Code part2에서 시나리오를 바탕으로 Model criteria, Model Selection 을 통해서 시나리오에 맞는 Model 을 선정하였습니다.

이제, fleet 데이터에 맞는 model은 fleet management server로 이동합니다.

SAS는 전송 서비스를 제공하여 서버 간에 콘텐츠를 저장하고 이동할 수 있습니다.

production enviroment 에서 마지막 순간에 변경할 것으로 예상되는 경우 모델 및 규칙 세트를 포함한 모든 개발 아티팩트를 이동할 수 있습니다.

변경하지 않을 것으로 예상되는 경우 MAS 모듈만 프로덕션 서버로 이동할 수 있습니다.

 

 

 image (11).png

 

 

 

 

 

이 시나리오에서는 MAS 모듈을 프로덕션 서버로 이동하기만 하면 됩니다.

트럭 서비스 관리 애플리케이션은 새로운 데이터 관찰을 기록하고 최적의 결정을 내리기 위해 MAS 서비스를 호출하도록 프로그래밍됩니다.

일 데이터가 다운로드되고 스코어링 서비스를 통해 실행될 때 트럭이 밤새 저장될 때 발생할 수 있습니다.

트럭이 움직이고 센서 측정 데이터가 LTE 연결을 통해 차량 데이터 센터로 전송될 때 발생할 수 있습니다.

차량 관리 응용 프로그램은 새로운 변수를 받고 모델 점수 매기기 서비스를 실행하고 일련의 비즈니스 규칙을 실행하여 작업이 필요한지 여부를 결정하고 작업을 관리하기 위한 워크플로를 시작합니다.

결과적으로 트럭의 유지 보수 일정이 잡힙니다.

 

 

 

MODEL MONITORING

모델이 생산 시스템에 배포되면 새로운 데이터가 생성됩니다. 이 데이터는 나중에 분석을 위해 데이터 세트에 저장되어야 합니다. 이걸 모델 모니터링이라 합니다.

분석은 모델 모니터링으로 알려져 있습니다.

 

SAS® Model Manager®에는 Modle Monitoring을 위해서 다음과 같은 상황을 살펴봐야 합니다.

1) 입출력 데이터에 필요한 조치와 핵심 적합 통계를 계산한다.

2) 시간의 변화에 따라 데이터가 변화하는 상황을 봐야한다.

이유는 작은 데이터의 경우 모델의 accuracy에 큰 영향을 미치기 때문입니다.

3) PSI는 각각의 데이터 비율의 편차에 기초하여 계산됩니다.

 

 

 

 

트럭 차량 시나리오에서는 모델 모니터링을 4개월마다 계산하고 있습니다.

각 데이터는 10개로 나누어 표시 됩니다.

 

 

 image (12).png

 

위의 그림에서는 변수 분포도가 Throttle_Pos_Manifold 변수에 대한 각 빈의 편차를 보여 줍니다.

총 PSI별로 순위가 매겨진 상위 5개 변수가 각 시점(1,2,3,4)에 표시됩니다. 이러한 변수는 모델 성능의 저하를 초래할 가능성이 가장 높은 변수입니다.

PSI는 absolute measure of deviation으로 값이 클수록 편차의 양이 크다는 것을 나타냅니다.

PSI는 편차의 증가 또는 감소 방향을 표시하지 않습니다.

연속형 및 범주형 변수에 대해 PSI를 동일하게 계산할 수 있습니다. PSI를 사용하여 모델을 더 이상 신뢰할 수 없고 교체해야 하는 시기를 확인할 수 있습니다.

 

 

 

Model Analysis

 

 

image (13).png

 

 

 

 

표준 통계 모델링 도구를 사용하여 모델 성능의 변화를 분석할 수 있습니다.

(가변적 중요성을 부여하는 것 입니다.)

근본적인 원인 분석을 통해 어떤 요인이 실제로 정확도 변화에 영향을 미치는지 확인할 수 있습니다.

위의 분석에서는 예측 유지 관리(0,1)와 실제 유지 관리(0,1)의 차이로 잔차라는 새 변수를 만들었습니다.

그 결과로 SAS® Visual Analytics의 의사 결정 트리를 사용하여 표준 모델 예측 변수를 기반으로 잔차를 모델링합니다.

이 모형은 변수 Mass_Air_Flow_Rate, Engine_Oil_Temp, Engine_Load가 모델 오차의 가장 큰 원인이 됩니다.

기업은 엔지니어에게 트럭의 신뢰성을 향상시키기 위해 이러한 변수에 영향을 미치는 요인을 조사하도록 요청해야 합니다.

정확성을 향상시키기 위해 모델을 retrain 할 수도 있습니다.

data scientist는 모델에 대한 SAS® Model Manager®를 사용하여 retrain 할 수 있습니다.

Model Studio에서 개발하거나 직접 데이터를 재분석하고 새로운 모델을 만들 수 있습니다.

두 경우 모두 모델을 새 버전으로 원래 모델에 추가할 수 있습니다.

그런 다음 모델 선택, 테스트 및 배포 프로세스가 반복됩니다.

모델 모니터링 작업은 이후 몇 개월 동안 실행될 수 있으며, 프로젝트 모델의 성능은 배포된 모델의 여러 세대에 걸쳐 플롯되고 분석할 수 있습니다.

이러한 관점은 예측 모델이 비즈니스 결과에 미치는 영향에 대한 장기적인 관점을 제공합니다.

 

 

 

 

 image (14).png

 

 

 

 

 

 

 

모델을 retrain 해서 그 차트를 수정할 수 있습니다.

cumulative business performance 를 개선하기 위해 어떠한 조취를 취하는지 알아야 합니다.

매월 모형 정확도 데이터에는 후보 모형을 다시 훈련하는 데 필요한 정보가 들어 있습니다.

만약 우리가 매 달 retrain 을 한다면, 월간 모델 성능 저하가 변하지 않을 것이지만, 누적 성능 저하 모델 성능을 감소시켜야 합니다.

위의 plot의 빨간색 선은 매달 모형을 retrain 할 때의 기대 효과를 나타냅니다.

새로운 데이터가 도입되지 않고 새롭고 개선된 모델링 방법이 도입되지 않은 경우, 각 모델 재교육은 동일한 수준의 정확도를 달성해야 합니다.

월말에 모델 정확도가 예상된 양만큼 저하되었습니다. 이 경우, 누적 사업 손실은 최소 가치로 감소하고 그 금액에 머물러야 합니다.

모델을 적절하게 자주 retrain하면 최소한의 비즈니스 손실을 초래할 수 있습니다.

 

 

 

 

 

 

 image (16).png

 

 

 

 

하지만, retrain에는 단점이 있습니다. 새 데이터가 충분하지 않고어 모형의 정확도가 떨어지는 경우에는 모형을 retrain하면 안 됩니다.

예를 들어, 트럭이 3교대로 24시간 운행하는 경우 주변 온도가 더 높은 낮에 측정한 야간 교대조의 데이터에 대해 훈련된 모형을 적용하지 않을 수 있습니다.

모델 생성, 모델 배포 및 모델 모니터링의 현대 분석 수명 주기는 머신 러닝과 인공지능을 사용하여 비즈니스 성과를 개선할 수 있는 강력한 기반을 제공합니다.

하지만 자동화된 비즈니스 프로세스에 모델을 배치하기 위해 해결해야 할 세부 사항이 있습니다.

모델 선택, 테스트, 배포, 모니터링 및 분석의 부지런한 프로세스를 따르면 결과를 더욱 신뢰할 수 있고 효율적으로 만들 수 있습니다.

 

Version history
Last update:
‎06-20-2022 09:59 AM
Updated by:
Contributors

sas-innovate-wordmark-2025-midnight.png

Register Today!

Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.


Register now!

Article Labels
Article Tags