第1章緒 論有時整個數(shù)據(jù)集亦稱一個“樣本”,因為它可看作對樣本空間的一個采樣:
通過上下文可判斷出“樣本”是指單個示例還是數(shù)據(jù)集.訓(xùn)練樣本亦稱“訓(xùn)練示例”(training instance)或“訓(xùn)練例”,學(xué)習(xí)算法通常有參數(shù)需設(shè)置,使用不同的參數(shù)值和(或)訓(xùn)練數(shù)據(jù),將產(chǎn)生不同的結(jié)果,將“l(fā)a bel”譯為“標記”而非“標簽”,是考慮到英文中“l(fā)abel”既可用作名詞、也可用作動詞.1.2基本術(shù)語要進行機器學(xué)習(xí),先要有數(shù)據(jù).假定我們收集了一批關(guān)于西瓜的數(shù)據(jù),例如(色澤=青綠;根蒂=蜷縮;敲聲=濁響),(色澤=烏黑;根蒂=稍蜷;敲聲:沉悶),(色澤=淺白;根蒂=硬挺;敲聲=清脆),……,每對括號內(nèi)是一條記錄,“=”意思是“取值為”,這組記錄的集合稱為一個“數(shù)據(jù)集”(data set),其中每條記錄是關(guān)于一個事件或?qū)ο螅ㄟ@里是一個西瓜)的描述,稱為一個“示例”(instance)或“樣本”(sample).反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項,例如“色澤”“根蒂”“敲聲”,稱為“屬性”(attribute)或“特征”(feature);屬性上的取值,例如“青綠”“烏黑”,稱為“屬性值”(attribute value).屬性張成的空間稱為“屬性空間”(attribute space)、“樣本空間”(sample space)或“輸入空間”,例如我們把“色澤”“根蒂”“敲聲”作為三個坐標軸,則它們張成一個用于描述西瓜的三維空間,每個西瓜都可在這個空間中找到自己的坐標位置,由于空間中的每個點對應(yīng)一個坐標向量,因此我們也把一個示例稱為一個“特征向量”(feature vector).