[데이터 분석] Train, Validation, Test Set / train_test_split 모듈
·
데이터 분석
Train, Validation, Test Set 우리는 모델을 개발할때, 범용적으로 사용할 수 있는 모델을 만들려고 한다. Unseen data에 대하여 예측 또는 분류를 하는 것이 목표이기 때문이다. 여기서 unseen data란, 우리의 모델이 처음 보는 데이터셋, 또는 학습해 보지 않은 데이터를 말한다. 모델이 실제로 적용되었을때는 처음보는 데이터에 대하여 예측 또는 분류를 할 것이기 때문에, 그만큼 모델의 unseen data에 대한 성능이 좋아야 한다는 것을 우리는 알 수 있다. 따라서 dataset을 나누지 않고 전부 학습에 사용한다면 해당 dataset에 대해서만 성능이 좋은 모델을 만들게 될 것이고, 개발한 모델에 대한 성능을 점검할 수 없을 뿐만 아니라 실제로 모델이 적용되었을 때 좋은..