語音數(shù)據(jù)包 微信對語音輸入的升級是否在收集大量訓練數(shù)據(jù)?
微信對語音輸入的升級是否在收集大量訓練數(shù)據(jù)?這是毫無疑問的。事實上,語音識別的算法近年來并沒有得到很大的更新,最重要的是依靠大量的數(shù)據(jù),通過大量的數(shù)據(jù)來訓練模型的準確性,這就是所謂的數(shù)據(jù)驅(qū)動方法。語音
微信對語音輸入的升級是否在收集大量訓練數(shù)據(jù)?
這是毫無疑問的。事實上,語音識別的算法近年來并沒有得到很大的更新,最重要的是依靠大量的數(shù)據(jù),通過大量的數(shù)據(jù)來訓練模型的準確性,這就是所謂的數(shù)據(jù)驅(qū)動方法。
語音識別在其早期發(fā)展中有兩個方向。一個方向是根據(jù)語法和語義進行識別,但這種方法長期以來沒有取得突破。第二個方向是讓計算機學習大量的數(shù)據(jù),然后通過大量的數(shù)據(jù)來訓練模型的準確性。這一方向在互聯(lián)網(wǎng)時代,已經(jīng)取得了長足的進步,并逐漸取得了主導(dǎo)地位。毫不夸張地說,當算法之間的差異不大時,數(shù)據(jù)量越大,精度就越好。微信此舉顯然正是出于這一考慮。
用同一數(shù)據(jù)集訓練神經(jīng)網(wǎng)絡(luò),每次訓練結(jié)果不一樣,有時正確率很高,有時很低,為什么?
其實這個問題的實質(zhì)是,如果我們用機器學習算法對數(shù)據(jù)集上的數(shù)據(jù)模型進行一次訓練,保存模型,然后用同樣的算法和同樣的數(shù)據(jù)集以及數(shù)據(jù)排序?qū)ζ溥M行再次訓練,那么第一個模型和第二個模型是一樣的嗎?
這可能是因為神經(jīng)網(wǎng)絡(luò)用增益或權(quán)重的隨機值初始化,然后每個模擬在訓練階段有不同的起點。如果您希望始終保持相同的初始權(quán)重,可以嘗試為初始權(quán)重修復(fù)種子以消除問題。
如果我們深入研究這個問題,我們可以根據(jù)ml算法的“確定性”來對其進行分類。當從同一個數(shù)據(jù)集進行訓練時:
一個是總是生成相同的模型,并且記錄以相同的順序呈現(xiàn);
另一個是總是生成不同的模型,并且記錄順序不同。
在實踐中,大多數(shù)是“不確定的”。模型變化的原因可能是機器學習算法本身存在隨機游走、不同權(quán)值的隨機初始化、不同分量的概率分布抽樣來分配優(yōu)化函數(shù)。
雖然模型的“不確定性”可能會對單個訓練結(jié)果造成干擾,但我們也可以用“不確定性”來確認模型的穩(wěn)定性,如決策樹、支持向量機(SVM)、神經(jīng)網(wǎng)絡(luò)等,最終可以通過多次迭代來確認模型的穩(wěn)定性。
是否存在通用的神經(jīng)網(wǎng)絡(luò)模型,可以處理圖像,語音以及NLP?
對于目前的深度學習模型,雖然深度學習的目標之一是設(shè)計能夠處理各種任務(wù)的算法,但是深度學習的應(yīng)用還需要一定的專業(yè)化,目前還沒有通用的神經(jīng)網(wǎng)絡(luò)處理模型。然而,每一種模式也在相互學習、相互融合、共同提高。例如,一些創(chuàng)新可以同時改進卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò),如批量標準化和關(guān)注度。一般模型需要在將來提出。
圖像和視頻處理,計算機視覺,最流行的是CNN,卷積神經(jīng)網(wǎng)絡(luò),它的變形和發(fā)展,CNN適合處理空間數(shù)據(jù),廣泛應(yīng)用于計算機視覺領(lǐng)域。例如,alexnet、vggnet、googlenet、RESNET等都有自己的特點。將上述模型應(yīng)用于圖像分類識別中。在圖像分割、目標檢測等方面,提出了更有針對性的模型,并得到了廣泛的應(yīng)用。
語音處理,2012年之前,最先進的語音識別系統(tǒng)是隱馬爾可夫模型(HMM)和高斯混合模型(GMM)的結(jié)合。目前最流行的是深度學習RNN遞歸神經(jīng)網(wǎng)絡(luò),其長、短期記憶網(wǎng)絡(luò)LSTM、Gru、雙向RNN、層次RNN等。
除了傳統(tǒng)的自然語言處理方法外,目前的自然語言處理深度學習模型也經(jīng)歷了幾個發(fā)展階段,如基于CNN的模型、基于RNN的模型、基于注意的模型、基于變壓器的模型等。不同的任務(wù)場景有不同的模型和策略來解決一些問題。