數(shù)據(jù)歸一化處理的目的 數(shù)據(jù)歸一化是什么意思?
數(shù)據(jù)歸一化是什么意思?首先,測試集的標(biāo)準(zhǔn)化平均值和標(biāo)準(zhǔn)差應(yīng)該來自訓(xùn)練集。如果您熟悉Python的sklearn,您應(yīng)該知道應(yīng)該首先對訓(xùn)練集數(shù)據(jù)進行擬合,得到包括均值和標(biāo)準(zhǔn)差的定標(biāo)器,然后分別變換訓(xùn)練集
數(shù)據(jù)歸一化是什么意思?
首先,測試集的標(biāo)準(zhǔn)化平均值和標(biāo)準(zhǔn)差應(yīng)該來自訓(xùn)練集。如果您熟悉Python的sklearn,您應(yīng)該知道應(yīng)該首先對訓(xùn)練集數(shù)據(jù)進行擬合,得到包括均值和標(biāo)準(zhǔn)差的定標(biāo)器,然后分別變換訓(xùn)練集和驗證集。這個問題其實很好。很多人不注意。最容易犯的錯誤是在劃分訓(xùn)練測試集之前進行規(guī)范化。
第二個問題是不同歸一化方法的選擇,如均值方差歸一化、最大最小歸一化等。歸一化的目的是調(diào)整每個場之間的數(shù)量級差異。均值-方差歸一化可能更適合不知道數(shù)據(jù)邊界在哪里的情況。最大和最小規(guī)格化相當(dāng)于積分到01,這意味著您知道該字段的邊界在哪里。所以我個人更喜歡均值方差的標(biāo)準(zhǔn)化。我只是憑經(jīng)驗說的,不一定是對的。