什么是訓(xùn)練數(shù)據(jù)集對數(shù)據(jù)集訓(xùn)練時，只對訓(xùn)練集進(jìn)行訓(xùn)練還是都訓(xùn)練？

2021-03-16

2227

對數(shù)據(jù)集訓(xùn)練時，只對訓(xùn)練集進(jìn)行訓(xùn)練還是都訓(xùn)練？如果你想測試你自己的數(shù)據(jù)集，你需要把它分成訓(xùn)練集、驗證集和測試集。我們訓(xùn)練機(jī)器學(xué)習(xí)模型使用現(xiàn)有數(shù)據(jù)預(yù)測未知數(shù)據(jù)。我們通常把模型對未知數(shù)據(jù)的預(yù)測能力稱為泛化

對數(shù)據(jù)集訓(xùn)練時，只對訓(xùn)練集進(jìn)行訓(xùn)練還是都訓(xùn)練？

如果你想測試你自己的數(shù)據(jù)集，你需要把它分成訓(xùn)練集、驗證集和測試集。

我們訓(xùn)練機(jī)器學(xué)習(xí)模型使用現(xiàn)有數(shù)據(jù)預(yù)測未知數(shù)據(jù)。我們通常把模型對未知數(shù)據(jù)的預(yù)測能力稱為泛化能力。為了評價模型的泛化能力，通常將數(shù)據(jù)分為訓(xùn)練集和測試集。訓(xùn)練集用來訓(xùn)練模型，測試集用來評價模型的泛化能力。

這里有幾點需要注意：

通常80%的數(shù)據(jù)集用作訓(xùn)練集，20%用作測試集；

通常我們需要在開始構(gòu)建模型之前劃分?jǐn)?shù)據(jù)集，以防止數(shù)據(jù)窺探錯誤，也就是說，我們應(yīng)該避免過多地了解測試集的樣本特征，并且防止我們選擇對測試集數(shù)據(jù)有幫助的模型，這將導(dǎo)致過度的結(jié)果，一般來說，我們在建立模型時需要對數(shù)據(jù)進(jìn)行處理，包括一些數(shù)據(jù)清洗、數(shù)據(jù)特征縮放（標(biāo)準(zhǔn)化或規(guī)范化）。此時，我們只需要對訓(xùn)練集執(zhí)行這些操作，然后將從訓(xùn)練集獲得的參數(shù)應(yīng)用到測試集，也就是說在工作流中，您不能使用在測試數(shù)據(jù)集上計算的任何結(jié)果。例如，我們得到的屬性中可能缺少值，因為在這些操作之前，我們已經(jīng)將數(shù)據(jù)集劃分為訓(xùn)練集和測試集。通常的做法是通過計算屬性值的中值來填充缺少的值。請注意，屬性值的中值是由訓(xùn)練集中的數(shù)據(jù)計算的。當(dāng)我們得到一個模型時，如果你想在模型的測試誤差要被測試到近似泛化誤差的時候，測試集中可能會有一些缺失的值。此時，由訓(xùn)練集計算的中值填充相應(yīng)屬性的缺失值。

人工智能這么火，數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)有什么區(qū)別？

工作之后，我知道的第一個概念是數(shù)據(jù)挖掘，而不是機(jī)器學(xué)習(xí)。因此，我認(rèn)為數(shù)據(jù)挖掘的概念比較廣泛，屬于工程應(yīng)用范疇。五年前，我們公司談?wù)摂?shù)據(jù)挖掘并舉辦了這樣的比賽。掌握了數(shù)據(jù)挖掘的應(yīng)用軟件和標(biāo)準(zhǔn)流程，如SAS、Clementine等數(shù)據(jù)挖掘平臺。這些平臺大多基于圖形化操作，應(yīng)用門檻較低。直到最近兩年，我們才開始談?wù)摍C(jī)器學(xué)習(xí)、深度學(xué)習(xí)和人工智能。根據(jù)我的工作經(jīng)驗，數(shù)據(jù)挖掘是一個流行的概念。所有的業(yè)務(wù)部門都知道這個概念，而機(jī)器學(xué)習(xí)屬于專業(yè)化。現(xiàn)在業(yè)務(wù)部門仍然不知道什么是機(jī)器學(xué)習(xí)。事實上，很難嚴(yán)格區(qū)分兩者的關(guān)系。如果你看看最權(quán)威的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)教材，你會發(fā)現(xiàn)其中大部分都是重復(fù)的。因為他們是兩個名字，他們的重點應(yīng)該是不同的。我的理解是，數(shù)據(jù)挖掘的后端與機(jī)器學(xué)習(xí)的前端重復(fù)，機(jī)器學(xué)習(xí)的后端與深度學(xué)習(xí)的前端重復(fù)。數(shù)據(jù)挖掘的前端是數(shù)據(jù)的收集、清理和處理，與大數(shù)據(jù)相關(guān)，涉及到數(shù)據(jù)倉庫，而機(jī)器學(xué)習(xí)并不關(guān)心這些。也就是說，要為機(jī)器學(xué)習(xí)提前準(zhǔn)備好數(shù)據(jù)的原材料。機(jī)器學(xué)習(xí)更加關(guān)注學(xué)習(xí)問題，努力學(xué)習(xí)知識，像人類一樣理解世界。它們最大的區(qū)別在于：數(shù)據(jù)挖掘關(guān)注數(shù)據(jù)中的規(guī)則和知識，而不關(guān)心數(shù)據(jù)為什么產(chǎn)生這些規(guī)則和知識，也就是說，你只看到表象，卻不知道本質(zhì)原因。相反，機(jī)器學(xué)習(xí)更關(guān)注學(xué)習(xí)數(shù)據(jù)的生成機(jī)制，即數(shù)據(jù)是從什么概率模型生成的。有時機(jī)器學(xué)習(xí)也被稱為統(tǒng)計學(xué)習(xí)，這就是原因。當(dāng)數(shù)據(jù)生成機(jī)制出現(xiàn)時，數(shù)據(jù)中的規(guī)則將被自然地知道。正是因為機(jī)器學(xué)習(xí)注重數(shù)據(jù)生成機(jī)制的學(xué)習(xí)，產(chǎn)生了大量的研究內(nèi)容，發(fā)展了核機(jī)器、極大似然估計、最大熵模型、最大后驗估計、期望最大化算法、高斯過程、概率圖模型等，變分推理和其他工具。數(shù)據(jù)挖掘教科書通常沒有這些高級內(nèi)容。

傳統(tǒng)的機(jī)器學(xué)習(xí)一般對數(shù)據(jù)生成機(jī)制做一些先驗假設(shè)，比如假設(shè)數(shù)據(jù)是高斯分布生成的，然后學(xué)習(xí)高斯分布的參數(shù)。此外，如果沒有這樣的假設(shè)，應(yīng)該怎么做？一般采用非參數(shù)密度估計技術(shù)，如核估計、近年來流行的與深度學(xué)習(xí)相結(jié)合的方法，如生成對抗網(wǎng)絡(luò)、變分自編碼等。

卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

對數(shù)據(jù)集訓(xùn)練時，只對訓(xùn)練集進(jìn)行訓(xùn)練還是都訓(xùn)練？

人工智能這么火，數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)有什么區(qū)別？

相關(guān)推薦

人工智能這么火，數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)有什么區(qū)別？