訓(xùn)練樣本相當(dāng)于給同學(xué)們練習(xí)的習(xí)題,測(cè)試過程則相當(dāng)于考試,顯然,若測(cè)試樣本被用作訓(xùn)練了,則得到的將是過于“樂觀”的估計(jì)結(jié)果.可是,我們只有一個(gè)包含m個(gè)樣例的數(shù)據(jù)集D=.[(z1,可1),(X2,y2),…,(Xm,Ym)].,既要訓(xùn)練,又要測(cè)試,怎樣才能做到呢?答案是:通過對(duì)D進(jìn)行適當(dāng)?shù)奶幚恚瑥闹挟a(chǎn)生出訓(xùn)練集S和測(cè)試集T.下面介紹幾種常見的做法.2.2.1留出法“留出法”(hold-out)直接將數(shù)據(jù)集D劃分為兩個(gè)互斥的集合,其中一個(gè)集合作為訓(xùn)練集S,另一個(gè)作為測(cè)試集T,即D=SUT,S nT=g.在S上訓(xùn)練出模型后,用T來評(píng)估其測(cè)試誤差,作為對(duì)泛化誤差的估計(jì).以二分類任務(wù)為例,假定D包含1000個(gè)樣本,將其劃分為S包含700個(gè)樣本,T包含300個(gè)樣本,用S進(jìn)行訓(xùn)練后,如果模型在T上有90個(gè)樣本分類錯(cuò)誤,那么其錯(cuò)誤率為(90/300)×100%=30%,相應(yīng)的,精度為1- 30070=70070.