卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

混淆矩陣 機(jī)器學(xué)習(xí)中訓(xùn)練集、驗(yàn)證集(開發(fā)集)、測(cè)試集如何劃分?需要注意什么?

機(jī)器學(xué)習(xí)中訓(xùn)練集、驗(yàn)證集(開發(fā)集)、測(cè)試集如何劃分?需要注意什么?首先,我們需要理解訓(xùn)練集、驗(yàn)證集和測(cè)試集的含義。簡單地說:1。訓(xùn)練集用來訓(xùn)練模型并調(diào)整相應(yīng)的參數(shù)(如權(quán)重)。驗(yàn)證集用于調(diào)整模型的超參數(shù)

機(jī)器學(xué)習(xí)中訓(xùn)練集、驗(yàn)證集(開發(fā)集)、測(cè)試集如何劃分?需要注意什么?

首先,我們需要理解訓(xùn)練集、驗(yàn)證集和測(cè)試集的含義。簡單地說:

1。訓(xùn)練集用來訓(xùn)練模型并調(diào)整相應(yīng)的參數(shù)(如權(quán)重)。驗(yàn)證集用于調(diào)整模型的超參數(shù)(如體系結(jié)構(gòu)、訓(xùn)練前已確定的參數(shù),如有多少高度)層,這就是為什么也稱為開發(fā)集的原因)

3。測(cè)試集是用來獲得最終模型的性能,比如精度

有了這個(gè)常識(shí),你就知道怎么劃分了。例如,如果你有一個(gè)數(shù)據(jù)集,你需要先做它

,如下圖所示,只有有了這個(gè)基礎(chǔ),測(cè)試和驗(yàn)證集才有意義。

至于如何劃分,我們需要看具體案例,參考斯坦福大學(xué)的深度學(xué)習(xí)課程https://cs230-stanford.github.io/train-dev-test-split.html沒有具體的標(biāo)準(zhǔn),但是盡量使驗(yàn)證集和測(cè)試集不要太少,例如1000000個(gè)圖片集,驗(yàn)證和測(cè)試集不應(yīng)小于10000,即1%。如果數(shù)據(jù)量不夠大,通常是80-10-10的比例:

注意:隨機(jī)不是完全隨機(jī)的,它需要保證可重復(fù)性

好的,關(guān)這個(gè)話題就到此為止。如果遇到類似問題,如何找到正確答案?首先,你需要找到第一手資料。與其在百度上搜索,不如直接找到基本信息。在這種情況下,斯坦福學(xué)校的課程作為輸入,所以你不會(huì)誤入歧途。

歡迎關(guān)注“行知漫步”學(xué)習(xí)和探討新技術(shù)的應(yīng)用

問題相當(dāng)廣泛。這取決于具體的場(chǎng)景。無論是站在求職者的角度還是企業(yè)管理的角度,前者在技術(shù)方面問題不大,有借鑒意義。很難給出分析思路,也很難建立一個(gè)基于業(yè)務(wù)場(chǎng)景的分析系統(tǒng)。幾乎沒有參考文獻(xiàn)。對(duì)于企業(yè)來說,數(shù)據(jù)治理通常是最大的問題,成本高且存在不確定因素。尤其是要進(jìn)行數(shù)字化轉(zhuǎn)型的傳統(tǒng)企業(yè),還有很長的路要走,坑也不少。

數(shù)據(jù)分析到底有多難?

現(xiàn)在互聯(lián)網(wǎng)上有很多公共數(shù)據(jù)集,所以您不需要自己收集它們。

除了使用基本搜索引擎搜索公共數(shù)據(jù)集外,最集中的地方是kaggle。

(kaggle網(wǎng)站截圖)

目前,kaggle上有7K個(gè)公共數(shù)據(jù)集。

此外,查找數(shù)據(jù)集的另一種技術(shù)是查找相關(guān)的公共部門網(wǎng)站或企業(yè)網(wǎng)站,以查看在確定主題后是否有可用的公共數(shù)據(jù)集?;蛘撸瑢ふ疫@一領(lǐng)域的論文,看看其他研究人員使用什么樣的數(shù)據(jù)集(如果他們自己收集和組織數(shù)據(jù)集,研究人員通常會(huì)將其公開)。

因此,在最終分析中,AI使用的數(shù)據(jù)要么收集要么合成。

比如go AI,學(xué)習(xí)人類棋手的棋譜,就是用數(shù)據(jù)采集,而go AI就是左右打斗,自己玩,學(xué)習(xí),就是用合成數(shù)據(jù)。

。它是對(duì)采集到的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,并在原始數(shù)據(jù)的基礎(chǔ)上合成新的數(shù)據(jù)。

人工智能(AI)用到的大數(shù)據(jù)是收集到的嗎?

首先,測(cè)試集的標(biāo)準(zhǔn)化平均值和標(biāo)準(zhǔn)差應(yīng)來自訓(xùn)練集。如果您熟悉Python的sklearn,您應(yīng)該知道應(yīng)該首先對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行擬合,得到包括均值和標(biāo)準(zhǔn)差的定標(biāo)器,然后分別變換訓(xùn)練集和驗(yàn)證集。這個(gè)問題其實(shí)很好。很多人不注意。最容易犯的錯(cuò)誤是在劃分訓(xùn)練測(cè)試集之前進(jìn)行規(guī)范化。

第二個(gè)問題是不同歸一化方法的選擇,如均值方差歸一化、最大最小歸一化等。歸一化的目的是調(diào)整每個(gè)場(chǎng)之間的數(shù)量級(jí)差異。均值-方差歸一化可能更適合不知道數(shù)據(jù)邊界在哪里的情況。最大和最小規(guī)格化相當(dāng)于積分到01,這意味著您知道該字段的邊界在哪里。所以我個(gè)人更喜歡均值方差的標(biāo)準(zhǔn)化。我只是憑經(jīng)驗(yàn)說的,不一定是對(duì)的。