모델의 retrain 은 모델 수명 주기를 연장하는 일반적인 방법입니다.
'모델을 retrain 할 적당할 시기를 어떻게 아는가?'가 중요한 문제입니다.
모델이 다시 학습되면 모델을 다시 배포해야 하는 시기를 어떻게 결정하는가?
retrain 된 모델은 데이터에 적합할 것 인가?
이러한 질문에 일정 변동, 비즈니스 주기, 데이터 드리프트, 모델 성능 등 다양한 방법을 생각해야 합니다.
다양한 요소들을 고려하여 retrain 하기 위한 최적의 시간과 예측 모델의 재배포를 진행하여야 합니다.
최적의 비즈니스 성과를 유지하기 위한 목표로 모델을 retrain에 최적화하기 위한 다양한 방법에 대해 알아보려 합니다.
대부분의 데이터 마이닝 연구는 가장 정확한 예측 모델을 구축하는 데 중점을 둡니다.
Kaggle에서는 종종 하나의 큰 데이터 세트에서예측을 합니다.
하지만, 일반적으로 데이터를 기반으로한 예측은 최대 테스트 데이터 정확도로 하나의 예측 모델을 생성하도록 구성됩니다.
경쟁 모델은 종종 단일 대용량 데이터 세트의 고유한 목적 함수에주의 깊게 조정된 수식입니다. 경쟁이 완료되면 데이터 공급 업체는 경쟁 업체가 만든 지식을 수집합니다. 경쟁자들은 다음 도전으로 넘어갑니다. 그러나 데이터는 단일 시점으로 존재하지 않습니다. 실제 응용 프로그램에서 데이터는 운영 체제에서 지속적으로 수집되며 조건이 변경 될 수 있습니다. 두 번째 달에 수집된 데이터는 첫 번째 달에 수집된 데이터와 다를 수 있습니다. 따라서 두 번째 달 또는 그 이후에 새로운 모델을 만들어야 할 수도 있습니다. 데이터의 변화하는 패턴에 적응하기 위해 새로운 모델을 만드는 과정을 retrain 이라고합니다.
두 개의 plot 중 위쪽에 있는 plot에서 아래의 녹색 선은 적기에 개발한 model의 performance이고, 빨간선은 모델 붕괴의 이론적 형태를 보여줍니다.
두 개의 plot 중 아래쪽에 있는 plot에서 녹색선은 시간 경과에 따른 데이터 변경으로 인해 예측 정확도가 떨어지는 자연스러운 과정을 나타냅니다. 빨간색 선은 시간의 경과에 따라 모델의 예측 정확도가 떨어지면 retrain 후 다시 예측 정확도를 높이는 과정을 의미합니다.
하지만, 여러 기간을 생성하기 위해 overlay된 데이터를 기반으로 한 이론적 예제이기 때문에 모든 데이터에 시간이 지날수록 retrain 된 데이터가 original 생성된 모델보다 나은 퍼포먼스를 가진다라는 보장은 없습니다.
모델 성능을 모니터링하고 retrain 하기 위한 적절한 시기를 찾는 방법은 다양하게 있습니다.
또한 데이터 (=비즈니스 요구)에 따라 방법이 달라집니다.
일부 프로세스는 새 모델이 생성되고 검증될 때마다 해당 모델을 사용하기도 하며, 모델을 비교하기 위해 original 모델과 retrain 된 모델을 비교하기 위해서 생산되고 retrain 된 모델은 사용하지 않기도 합니다.
요점은 모델 모니터링 및 retrain은 비즈니스 요구에 맞추기 위해 적절한 시기 및 방법이 존재한다는 것 입니다.
모델 모니터링은 모델이 얼마나 잘 수행되고 있는지 또는 얼마나 잘 수행되고 있는지를 결정하기 위한 프로세스입니다.
모델 모니터링 프로세스는 아래와 같은 요인들을 고려해야 합니다.
1) Data Drift
데이터 값은 수많은 요인으로 인해 시간이 지남에 따라 자연스럽게 변화합니다.
경제는 침체되었다가 좋아질 수도 있습니다. 기계 부품이 부식되거나 업데이트됩니다.
데이터 값의 변화를 측정하는 것은 모델 또는 비즈니스 성과 변화의 초기 지표가 될 수 있지만 항상 그런 것은 아닙니다.
2) MODEL STABILITY
데이터 값의 변경으로 인해 모델 예측의 분포가 변경될 수 있습니다.
이러한 변경은 거의 확실히 비즈니스 성과 또는 계획에 영향을 미칩니다.
예를 들어, 트럭 유지 관리 필요성에 대한 예측이 증가하면 더 많은 트럭이 매장을 방문하도록 예약됩니다. 더 많은 방문은 예측 정확도와 상관없이 비용을 증가시킵니다.
3) MODEL ACCURACY
예측 대상 레이블을 사용할 수 있는 경우 모델 정확도를 계산할 수 있습니다. 허용 범위를 벗어난 모델 정확도의 저하는 모델 재교육의 필요성을 나타냅니다.
■ RETRAINING
모델 retrain은 새로운 모델에 대한 예측 또는 설명 모델을 재계산하는 프로세스입니다. 각 새로운 계수 또는 효과 집합은 새로운 모형으로 간주됩니다.
1) BUSINESS STRATEGY
허용 가능한 신용 위험 수준의 증가 또는 감소, 신제품 라인 성장에 대한 투자 등 비즈니스 측면으로 인해서 모델을 Retrain하거나 새 모델을 만들어야 할 필요가 있습니다.
2) EXTERNAL CONDITIONS
이자율, 새로운 데이터 소스 또는 실시간 트럭 메트릭의 공급업체와 같은 비즈니스 요인의 변경으로 인해 모델을 다시 교육해야 할 수 있습니다.
3) BUSINESS PERFORMANCE
사업 실적. 승진, 신용 상환, 트럭 수리 및 기타 수많은 조치에 대한 응답과 같은 조치의 변경은 필요 모델 재교육 및/또는 비즈니스 전략 검토를 생성합니다.
4) MODEL MONITORING
정확도, 데이터 드리프트 또는 안정성 저하로 인해서 모델 모니터링에서 보고된 측정값의 변경으로 인해 모델을 다시 학습해야 할 수도 있습니다.
조직이 예측 및 설명 모델을 구축하는 데에는 여러 가지 이유가 있습니다.
일부 모델은 비즈니스를 형성하는 프로세스 또는 새로운 전략의 예상되는 영향에 대해 자세히 알아보기 위한 추론에만 사용됩니다.
비즈니스를 보다 효율적으로 만들고, 성장을 주도하고, 충성도를 높이거나, 기타 체계적인 목표를 달성하기 위해 고객 및 비즈니스 접점과 상호 작용하는 운영 시스템에 통합하기 위해 다른 모델이 생성됩니다.
위의 plot ( 순서도)는 모델 관리 프로세스의 가능한 표현 중 하나일 뿐입니다.
프로세스 흐름은 주기적으로 데이터를 소비하고 생산하는 운영 비즈니스 프로세스에서 시작한다고 말할 수 있습니다.
모델을 모니터링하고 retrain 하는 프로세스를 그림으로 표현한 것 으로, 비즈니스 문제를 정의하고 초기 모델을 구축하는 프로세스를 나타내는 plot 은 아닙니다.
Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!