mfcc特征提取技術(shù) mfcc特征參數(shù)提取后怎么實(shí)現(xiàn)語音識別?
mfcc特征參數(shù)提取后怎么實(shí)現(xiàn)語音識別?1. 使用audioread(”)函數(shù)讀取計(jì)算機(jī)音頻文件參數(shù)audio file path:[sampledata,F(xiàn)S]=audioread(”F:1。MP3
mfcc特征參數(shù)提取后怎么實(shí)現(xiàn)語音識別?
1. 使用audioread(”)函數(shù)讀取計(jì)算機(jī)音頻文件參數(shù)audio file path:[sampledata,F(xiàn)S]=audioread(”F:1。MP3”)sampledata保存音頻信號數(shù)據(jù)FS audio rate MP3格式rate 44100;2。判斷音頻數(shù)據(jù)是否為雙通道雙通道,保留音頻通道數(shù)據(jù),使用calsample。M file函數(shù)完成函數(shù)文件內(nèi)容:function sample=calsample(sampledata,F(xiàn)S)tempusample=resample(sampledata,1,F(xiàn)S/11025)[M,n]=size(tempusample)if(n==2)sample=tempusample(:,1)elsesample=tempumfcc:Mel頻率倒譜系數(shù)的縮寫。Mel頻率是根據(jù)人的聽覺特性提出的,它與Hz頻率呈非線性關(guān)系。Mel倒譜系數(shù)(MFCC)是利用它們之間的關(guān)系計(jì)算出的頻譜特性。MFCC參數(shù)提取包括以下步驟:預(yù)濾波:抗混疊濾波,采用300-3400hz前端帶寬的編解碼器。A/D轉(zhuǎn)換:8kHz采樣頻率,12位線性量化精度。預(yù)強(qiáng)調(diào):通過一階有限激勵響應(yīng)高通濾波器,信號頻譜變得平坦,不易受到有限字長效應(yīng)的影響。分幀:根據(jù)語音的短時平穩(wěn)特性,可以對語音進(jìn)行分幀處理。實(shí)驗(yàn)中選取的語音幀長為32ms,幀堆棧為16ms,加窗:采用漢明窗對一幀進(jìn)行加窗,以減少Gibbs效應(yīng)的影響??焖俑盗⑷~變換(FFT):將時域信號轉(zhuǎn)換成信號的功率譜。
什么是mfcc特征及其提取過程?
頻譜的對數(shù)是倒譜。你可以把聲音的頻譜想象成包絡(luò)和共振峰的乘積。日志之后,可以將這兩個術(shù)語分開。此時,您可以制作IFFT來封裝信息。由于振幅變化不大,它將集中在倒譜的低頻端,而共振變化將集中在倒譜的高頻端。簡而言之,目的是分離我我們需要的信封和共振峰信息。