卷積神經(jīng)網(wǎng)絡(luò) 聲紋識(shí)別技術(shù)主要技術(shù)部分有哪些?
聲紋識(shí)別技術(shù)主要技術(shù)部分有哪些?聲紋的主要技術(shù)難點(diǎn)是如何從語(yǔ)音信號(hào)中提取和表達(dá)與說(shuō)話人相關(guān)的信息。一般來(lái)說(shuō),提取一段語(yǔ)音中與說(shuō)話人相關(guān)的特征主要按照?qǐng)D中所示的過(guò)程進(jìn)行:對(duì)于采集到的語(yǔ)音,首先進(jìn)行有效語(yǔ)
聲紋識(shí)別技術(shù)主要技術(shù)部分有哪些?
聲紋的主要技術(shù)難點(diǎn)是如何從語(yǔ)音信號(hào)中提取和表達(dá)與說(shuō)話人相關(guān)的信息。一般來(lái)說(shuō),提取一段語(yǔ)音中與說(shuō)話人相關(guān)的特征主要按照?qǐng)D中所示的過(guò)程進(jìn)行:對(duì)于采集到的語(yǔ)音,首先進(jìn)行有效語(yǔ)音檢測(cè)(VAD),去除采集到的語(yǔ)音中的非有效部分,然后進(jìn)行聲學(xué)特征提取。由于語(yǔ)音信號(hào)是一種短時(shí)非平穩(wěn)、不定長(zhǎng)的信號(hào),特征提取通常采用加窗的方法來(lái)提取幀內(nèi)特征。目前常用的聲學(xué)特征有經(jīng)典的Mel倒譜系數(shù)MFCC、當(dāng)前感知預(yù)測(cè)系數(shù)PLP和基于深度學(xué)習(xí)的熱特征深度特征。在得到聲學(xué)特征后,進(jìn)一步提取說(shuō)話人信息。采用向量算法和帶殘差處理的深度卷積神經(jīng)網(wǎng)絡(luò)算法。在建模之后,我們可以對(duì)語(yǔ)音進(jìn)行更深層次的特征表示,從而進(jìn)一步呈現(xiàn)出與說(shuō)話人相關(guān)的信息。最后,該模型可以將特征提取階段得到的特征進(jìn)一步轉(zhuǎn)化為能夠代表說(shuō)話人特征的樣本。這樣,我們就可以將特定說(shuō)話人的語(yǔ)音完全轉(zhuǎn)化為能夠代表說(shuō)話人特征的模型。識(shí)別和匹配階段相對(duì)容易理解。采集測(cè)試語(yǔ)音后,進(jìn)行相應(yīng)的特征提取操作,然后用模板庫(kù)中的所有模板樣本計(jì)算相似度距離,最后選擇最近的一個(gè)作為最終決策結(jié)果。(如下圖所示)]~][倒譜系數(shù)法]是利用倒譜系數(shù)進(jìn)行信號(hào)處理和檢測(cè)的方法。它是信號(hào)處理和信號(hào)檢測(cè)的經(jīng)典方法。倒譜信號(hào)經(jīng)過(guò)對(duì)數(shù)運(yùn)算后的傅里葉變換譜的逆傅里葉變換。倒譜系數(shù)的具體計(jì)算方法是先進(jìn)行預(yù)處理,然后加窗、傅立葉變換,得到功率譜,再得到其自然對(duì)數(shù),最后進(jìn)行DCT變換。離散余弦變換(DCT)全稱(chēng)為離散余弦變換(DCT),是指將一組光強(qiáng)數(shù)據(jù)轉(zhuǎn)換為頻率數(shù)據(jù),以了解光強(qiáng)的變化。