2.2.2 交叉驗(yàn)證法
“交叉驗(yàn)證法”(cross validation)先將數(shù)據(jù)集D劃分為尼、個(gè)大小相似的互斥子集,即D= Di u D2 u...U Dk,DinDj=g(t≠j).每個(gè)子集Di都盡可能保持?jǐn)?shù)據(jù)分布的一致性,即從D中通過(guò)分層采樣得到.然后,每次用k-l個(gè)子集的并集作為訓(xùn)練集,余下的那個(gè)子集作為測(cè)試集;這樣就可獲得南組訓(xùn)練/測(cè)試集,從而可進(jìn)行庇次訓(xùn)練和測(cè)試,最終返回的是這庇個(gè)測(cè)試結(jié)果的均值,顯然,交叉驗(yàn)證法評(píng)估結(jié)果的穩(wěn)定性和保真性在很大程度上取決于忌的取值,為強(qiáng)調(diào)這一點(diǎn),通常把交叉驗(yàn)證法稱為“憊折交叉驗(yàn)證”(k-fold cross亦稱“忌倍交叉驗(yàn)證”,’validation).露最常用的取值是10,此時(shí)稱為10折交叉驗(yàn)證;其他常用的忌值有5、20等,圖2.2給出了10折交叉驗(yàn)證的示意圖.與留出法相似,將數(shù)據(jù)集D劃分為忌個(gè)子集同樣存在多種劃分方式.為減小因樣本劃分不同而引入的差別,尼折交叉驗(yàn)證通常要隨機(jī)使用不同的劃分重復(fù)p次,最終的評(píng)估結(jié)果是這p次后折交叉驗(yàn)證結(jié)果的均值,例如常見(jiàn)的有"10次10折交叉聰證法。