需注意的是,訓(xùn)練/測試集的劃分要盡可能保持?jǐn)?shù)據(jù)分布的一致性,避免因數(shù)據(jù)劃分過程引入額外的偏差而對最終結(jié)果產(chǎn)生影響,例如在分類任務(wù)中至少要保持樣本的類別比例相似.如果從采樣(sampling)的角度來看待數(shù)據(jù)集的劃分過程,則保留類別比例的采樣方式通常稱為“分層采樣”(stratifiedsampling).例如通過對D進(jìn)行分層采樣而獲得含70070樣本的訓(xùn)練集S和含30070樣本的測試集T,若D包含500個(gè)正例、500個(gè)反例,則分層采樣得到的S應(yīng)包含350個(gè)正例、350個(gè)反例,而T則包含150個(gè)正例和150個(gè)反例;若S、T中樣本類別比例差別很大,則誤差估計(jì)將由于訓(xùn)練/測試數(shù)據(jù)分布的差異而產(chǎn)生偏差,另一個(gè)需注意的問題是,即便在給定訓(xùn)練/測試集的樣本比例后,仍存在多種劃分方式對初始數(shù)據(jù)集D進(jìn)行分割.