데이터 분할은 예측 모델을 평가할 때 필요한 전처리입니다.
학습 데이터와 검증 데이터는 같은 전처리를 사용하고, 예측 모델을 입력하기 직전에 분할해야합니다.
모델링을 위해서 Cross Validation은 교차검증으로 가장 많이 사용되는 검증방법입니다.
교차검증은 데이터를 N개의 데이터로 나누어 하나의 데이터는 평가용 데이터, 나머지 데이터는 모델학습을 수행합니다.
모든 데이터가 한번씩 평가용 데이터로 이용되도록 나눠진 수만큼 반복해서 정확도를 측정하여 모델을 평가합니다.
교차검증은 과적합(Overfitting_학습 데이터에 너무 맞게되어 새로운 데이터에 대한 예측능력이 떨어지는 것을 의미)의 영향을 배제하여 모델의 정확도를 측정할 수 있습니다.
과적합이란 학습데이터에서 19세의 데이터가 하나밖에 없고 175cm이면, 과적합으로인해 19세의 데이터는 반드시 175cm로 예측하게 됩니다.
교차수는 학습 데이터의 양과 계산량에 영향을 줍니다.
교차수가 2일 경우에는 학습 데이터 양은 50%만 사용하고 교차검증을 하지 않은 경우보다 정확도가 떨어집니다.
하지만 모델 구성과 검증을 두번만 하면 되기 때문에 계산 비용은 교차 검증을 하지 않을 때보다 두 배정도만 들게 됩니다.
교차수가 10일 경우에는, 학습데이터는 전체의 90%를 이용하고 교차 검증을 실행하지 않았을 떄와 크게 차이 나지 않습니다.
모델 구성과 검증은 10번 반복해서 교차 편집을 하지 않을 경우보다 10배정도의 계산량이 필요합니다.
● 교차 검증의 문제점
교차 검증을 반복하게 되면 교차 검증 모델의 정확도를 올리기 위한 튜징을 계속해 overfitting의 문제점이 생길 수 있습니다.
이러한 문제점을 대비하기 위해서는 Hold-Out Validation 으로 최종 정확도 검증을 위한 데이터를 미리 준비하고, 이 데이터를 사용하여 모델의 정확도를 검증할 수 있습니다.
하지만, 데이터양이 적을 경우에는 검증이 어려우며 데이터 양이 많을 때 홀드아웃 검증을 수행합니다.
Join us for SAS Innovate 2025, our biggest and most exciting global event of the year, in Orlando, FL, from May 6-9. Sign up by March 14 for just $795.