Validation set과 Test set

Original article can be found here (source): Deep Learning on Medium

학습 모델의 궁극적인 목표는 관찰되지 않은 데이터에 대한 정확한 예측이다. 그렇기 때문에 학습 모델의 성능 평가를 위한 test set은 모델의 학습 과정에 전혀 관여하지 않은 데이터셋을 이용해야만 한다.

보다 우수한 학습 모델을 만들기 위해서는 Validation set과 Test set을 구분하여 이용하는 것이 좋다.

  • Validation set: Training set으로 학습한 모델의 ‘유효성 검증’을 위한 데이터셋
  • Test set: 학습 모델의 최종 ‘성능 평가’를 위한 데이터셋

즉, Test set은 모델 학습 과정에는 전혀 입력되지 않고, 순수히 성능 평가에만 사용된다. 그렇기에 관찰되지 않은 데이터에 대한 예측 정확도를 짐작할 수 있다.