1.3假設(shè)空間
歸納(induction)與演繹(deduction)是科學(xué)推理的兩大基本手段.前者是從特殊到一般的“泛化”(generalization)過程,即從具體的事實歸結(jié)出一般性規(guī)律;后者則是從一般到特殊的“特化”(specialization)過程,即從基礎(chǔ)原理推演出具體狀況.例如,在數(shù)學(xué)公理系統(tǒng)中,基于一組公理和推理規(guī)則推導(dǎo)出與之相洽的定理,這是演繹;而“從樣例中學(xué)習(xí)”顯然是一個歸納的過程,因此亦稱“歸納學(xué)習(xí)”(inductive learning).
歸納學(xué)習(xí)有狹義與廣義之分,廣義的歸納學(xué)習(xí)大體相當(dāng)于從樣例中學(xué)習(xí),而狹義的歸納學(xué)習(xí)則要求從訓(xùn)練數(shù)據(jù)中學(xué)得概念(concept),因此亦稱為“概念學(xué)習(xí)”或“概念形成”,概念學(xué)習(xí)技術(shù)目前研究、應(yīng)用都比較少,因為要學(xué)得泛化性能好且語義明確的概念實在太困難了,現(xiàn)實常用的技術(shù)大多是產(chǎn)生“黑箱”模型.然而,對概念學(xué)習(xí)有所了解,有助于理解機器學(xué)習(xí)的一些基礎(chǔ)思想,概念學(xué)習(xí)中最基本的是布爾概念學(xué)習(xí),即對“是”“不是”這樣的可表示為0/1布爾值的目標(biāo)概念的學(xué)習(xí),舉一個簡單的例子,假定我們獲得了這樣一個訓(xùn)練數(shù)據(jù)集: 這里要學(xué)習(xí)的目標(biāo)是“好瓜”,暫且假設(shè)“好瓜”可由“色澤”“根蒂”
“敲聲”這三個因素完全確定,換言之,只要某個瓜的這三個屬性取值明確了,我們就能判斷出它是不是好瓜.于是,我們學(xué)得的將是,好瓜是某種色澤、某種根蒂、某種敲聲的瓜”這樣的概念,用布爾表達式寫出來則是“好瓜Hf色更一般的情況是考慮霽 澤=?)^(根蒂=?)^(敲聲:?)”,這里“?”表示尚未確定的取值,而我們的任如(A^B)V(G^D)的才J合范式 務(wù)就是通過對表1.1的訓(xùn)練集進行學(xué)習(xí),把“?”確定下來.讀者可能馬上發(fā)現(xiàn),表1.1第一行:“(色澤=青綠)^(根蒂:蜷縮)八(敲聲=濁響)”不就是好瓜嗎?是的,但這是一個已見過的瓜,別忘了我們學(xué)習(xí)的目的是“泛化”,即通過對訓(xùn)練集中瓜的學(xué)習(xí)以獲得對沒見過的瓜進行判斷的能力.如果僅僅把訓(xùn)練集中的瓜“記住”,今后再見到一模一樣的瓜當(dāng)然可判斷,但是,對沒見過的瓜,例如“(色澤=淺白)八(根蒂=蜷縮)八(敲聲=濁響)”