訓練集
訓練集
在機器學習中,一般將樣本分成獨立的三部分訓練集(train set),驗證集(validation set)和測試集(test set)。其中,訓練集用於建立模型。
目錄
在機器學習和模式識別等領域中,一般需要將樣本分成獨立的三部分訓練集(train set),驗證集(validation set ) 和測試集(test set)。其中訓練集用來估計模型,驗證集用來確定網路結構或者控制模型複雜程度的參數,而測試集則檢驗最終選擇最優的模型的性能如何。一個典型的劃分是訓練集佔總樣本的50%,而其它各佔25%,三部分都是從樣本中隨機抽取。
但是,當樣本總量少的時候,上面的劃分就不合適了。常用的是留少部分做測試集。然後對其餘N個樣本採用K折交叉驗證法。就是將樣本打亂,然後均勻分成K份,輪流選擇其中K-1份訓練,剩餘的一份做驗證,計算預測誤差平方和,最後把K次的預測誤差平方和再做平均作為選擇最優模型結構的依據。特別的K取N,就是留一法(leave one out)。
訓練集用於監督學習中,監督學習是指利用一組已知類別的樣本調整分類器的參數,使其達到所要求性能的過程,也稱為監督訓練或有教師學習。
監督學習是從標記的訓練數據來推斷一個功能的機器學習任務。訓練數據包括一套訓練示例。在監督學習中,每個實例都是由一個輸入對象(通常為矢量)和一個期望的輸出值(也稱為監督信號)組成。監督學習演演算法是分析該訓練數據,併產生一個推斷的功能,其可以用於映射出新的實例。一個最佳的方案將允許該演演算法來正確地決定那些看不見的實例的類標籤。這就要求學習演演算法是在一種“合理”的方式從一種從訓練數據到看不見的情況下形成。