들어가며 지난 글에서는 최종적으로 해쉬를 이용해서 테스트 세트를 추출하는 방법을 알아보았습니다. 훈련이 잘 진행되기 위해서는 샘플링(추출)된 데이터의 분포가 기존의 데이터 분포와 유사해야 합니다. 이를 위해 계층적 샘플링을 사용할 수 있습니다. 계층이란? 계층은 전체모수를 동질의 그룹으로 나누는 기준입니다. 계층적 샘플링이 필요한 이유? 모델을 학습시키거나 테스트를 할 때 사용되는 데이터가 편향적으로 전체 모수에서 추출된 경우 학습의 일반화가 제대로 진행되지 않기 때문에 전체 모수를 계층에 따라 나누고 추출된 데이터가 각 계층을 대표하도록 하여 편향을 방지하기 위해서입니다. 예시 기존의 설루션을 담당하는 전문가가 주택 중간 가격은 중간 수입과의 관계가 중요하다고 합니다. 중간수입과의 관계에 대해서 잘 학..