一般地,令D= {xi,X2,…,Xm].表示包含m個(gè)示例的數(shù)據(jù)集,每個(gè)示例由d個(gè)屬性描述(例如上面的西瓜數(shù)據(jù)使用了3個(gè)屬性),則每個(gè)示例X=(Xil;zi2;…;Xid)是d維樣本空間疋中的一個(gè)向量,xi∈疋,其中Xij是xi在第歹個(gè)屬性上的取值(例如上述第3個(gè)西瓜在第2個(gè)屬性上的值是“硬挺”),d稱為樣本xi的“維數(shù)”(dimensionality).
從數(shù)據(jù)中學(xué)得模型的過程稱為“學(xué)習(xí)”(learning)或“訓(xùn)練”(training),這個(gè)過程通過執(zhí)行某個(gè)學(xué)習(xí)算法來完成.訓(xùn)練過程中使用的數(shù)據(jù)稱為“訓(xùn)練數(shù)據(jù)”(training data),其中每個(gè)樣本稱為一個(gè)“訓(xùn)練樣本”(training sample),訓(xùn)練樣本組成的集合稱為“訓(xùn)練集”(training set).學(xué)得模型對(duì)應(yīng)了關(guān)于數(shù)據(jù)的某種潛在的規(guī)律,因此亦稱“假設(shè)”(hypothesis);這種潛在規(guī)律自身,則稱為“真相”或“真實(shí)”(ground-truth),學(xué)習(xí)過程就是為了找出或逼近真相.本書有時(shí)將模型稱為“學(xué)習(xí)器”(learner),可看作學(xué)習(xí)算法在給定數(shù)據(jù)和參數(shù)空間上的實(shí)例化.如果希望學(xué)得一個(gè)能幫助我們判斷沒剖開的是不是“好瓜”的模型,僅有前面的示例數(shù)據(jù)顯然是不夠的,要建立這樣的關(guān)于“預(yù)測”(prediction)的模型,我們需獲得訓(xùn)練樣本的“結(jié)果”信息,例如“((色澤=青綠;根蒂=蜷縮;敲聲=濁響),好瓜)”.這里關(guān)于示例結(jié)果的信息,例如“好瓜”,稱為“標(biāo)記”(label);擁有了標(biāo)記信息的示例,則稱為“樣例”(example). -般地,用1.2基本術(shù)語若將標(biāo)記看作對(duì)象本身的一部分,則“樣例”有時(shí)也稱為“樣本”.亦稱“負(fù)類”亦稱“測試示例”
(testing instance)或“測試?yán)?/p>