모든 데이터를 설명하는 전체 데이터 모델링을 구축할 수도 있지만 계절성, 장기 추세, 예측 및 중요한 사건 발생을 미리 파악할 수 없기 때문에 모든 데이터를 설명하기 위한 모델링 구축은 어려울 수 있습니다.
그래서 실제 비즈니스에서 모델 retrain 과정을 통해 모델을 개선한 후 새로운 데이터에 대한 모델을 평가해야 합니다.
3개월 Simulations
Decision Tree를 활용한 모델링이 다음 달에 어떻게 수행되는지 확인합니다.
데이터를 기반으로한 train data set은(첫 번째) 10월 훈련 샘플의 모델입니다.
그런 다음 10월, 11월, 12월의 모든 데이터에 대해 모델의 점수(test)를 측정합니다.
위의 플롯은 지연(late), 잘못 분류(missclassified), 올바르게 분류(correctly classified)된 항공편의 월별 비율을 보여줍니다.
모델 모니터링의 처음 3개월은 정확도가 감소하는 비율을 보여주고 산점도는 정확도와 늦은 비율 사이의 가능한 관계를 보여줍니다.
플롯은 추세를 보여주는 것처럼 보입니다. 연체율과 오분류율이 증가하고 있고, 양성률이 감소하고 있습니다. 이는 시간이 지남에 따라 데이터가 변경되어 모델 정확도와 성능이 저하되기 때문에 이론을 완벽하게 따르는 것으로 보입니다.
6개월 Simulations
먼저 10월 데이터를 기반으로 훈련한 단일 모델의 결과를 살펴보면,
12월에 모델 붕괴가 관찰된 후 1월, 2월, 3월에 모델이 더 정확하게 수행되었습니다.
비해익 연착 비율과 상관관계가 표시됩니다.
12월에는 연착 항공 패턴이 다른 월과는 다르다고 가정할 수 있습니다.
(플롯을 보면 흩어져 있어 결과는 확정적이지 않습니다.)
처음 6개월 동안 여러 달의 train 기간과 여러 달의 monitoring 기간이 포함됩니다.
24개의 다른 조합을 샘플링했습니다.
데이터 매트릭스는 위와 같은 히트맵을 생성하기 위해 PROC SGPLOT에 입력되었습니다. 색상 응답 통계는 평균입니다.
가장 정확한 모니터 기간은 개월 단위로 가장 많은 훈련 시간을 갖습니다. 샘플 전체에서 가장 좋은 연속 솔루션은 가능한 가장 많이 훈련된 월이 다음과 같은 대각선입니다.
다음 달에 모니터링되는 모델을 만드는 데 사용됩니다.
가장 좋은 불연속 솔루션은 3~4개월의 훈련 데이터가 5개월보다 나은 6개월까지의 대각선입니다.
2013년 3월은 데이터의 첫날 부터 25년 3개월이 지난 날입니다.
단일 모델(1-303) 전략이 이제 예상 결과를 생성합니다.
초록색 상단 라인은 기대값의 하향 추세를 보여주는 진정한 양성 비율인 TPR.
푸른색 중간선은 늦은 비행의 실제 비율로, 강한 장기성을 보이지 않습니다.
아래쪽 빨간색 선은 약간 상승한 월별 오분류율입니다.
하지만 초기의 모델링이 시간이 지난 후의 데이터에는 맞지 않는 패턴 변화가 보이지는 않습니다.
월 단위에서 연간 단위까지는 계절적 효과가 있습니다.
그래서 12개월과 18개월 히스토리에 대한 train 데이터를 추가로 테스트했습니다.
결과 시뮬레이션은 조금 더 나은 결과로 보입니다.
모델 모니터링 및 retrain 은 모든 운영 모델 scoring 프로세스의 핵심 부분입니다.
모델을 훈련하는 데 사용되는 데이터의 기간과 생산 중인 모델을 모니터링하는 시간의 길이는 수명 모델 정확도에 상당한 영향을 미칩니다.
데이터 과학자는 모델을 주의 깊게 모니터링하고 이러한 매개변수를 최적화하기 위한 실험을 수행해야 합니다.
이 데이터에 단기 및 장기 주기 효과가 모두 포함되어 있다는 것을 발견했습니다.
18개월 표본을 사용하여 6개월 간격을 예측합니다.
훈련 기간이 주기적인 효과를 수용할 수 있을 만큼 길어야 하며 모니터링 기간보다 길어야 합니다.
계절적 또는 장기적인 효과가 있는 경우에 모델이 재교육이 필요할 수 있는 시기를 추정하기 위해 예측을 사용하는 가능성을 고민해야 합니다.
또한, 최적화를 사용하여 교육 및 모니터링을 동적으로 조정해야 합니다.
마지막 핵심 발견은 SAS 시스템이 매우 많은 양의 데이터를 가져오고 정리하고 장기간에 걸쳐 데이터를 계산적으로 처리하기 위한 훌륭한 플랫폼을 만든다는 것입니다.
각 시뮬레이션은 몇 시간 내에 수백 번의 반복에 걸쳐 수십억 개의 레코드를 처리했습니다.
마지막에 동일한 소프트웨어가 결과를 요약하고 유용하고 전문적인 표와 그래프를 생성할 수 있었습니다.
Registration is now open for SAS Innovate 2025 , our biggest and most exciting global event of the year! Join us in Orlando, FL, May 6-9.
Sign up by Dec. 31 to get the 2024 rate of just $495.
Register now!