卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

中文開源語音識別引擎 語音識別的技術(shù)原理是什么?

語音識別的技術(shù)原理是什么?看圖編碼:把語音變成向量頻域信息:人類是通過振動頻率來判斷聲音的,所以要用傅里葉變換來完成時域頻域之間的轉(zhuǎn)換;特征:如,MFCC是依照人耳的聽聲特點提出的filter。然后我

語音識別的技術(shù)原理是什么?


看圖
  • 編碼:把語音變成向量
    • 頻域信息:人類是通過振動頻率來判斷聲音的,所以要用傅里葉變換來完成時域頻域之間的轉(zhuǎn)換;
    • 特征:如,MFCC是依照人耳的聽聲特點提出的filter。然后我們有了語音向量。
  • 訓(xùn)練:從數(shù)據(jù)中學(xué)習(xí)對語音的判斷,而不是用人工的規(guī)則。
    • 聲學(xué)模型(acoustic model):用于識別語音向量;可用GMM或DNN等方法來識別向量,用DTW或HMM或CTC來對齊(alignment)識別結(jié)果的輸出(單詞從何時開始,何時結(jié)束)
    • 字典(dictionary):多數(shù)模型并不是以單詞,而是以音素為識別單位。當(dāng)識別出? p l這三個音素時,利用字典,就可以判斷出所說的詞是apple。
    • 語言模型(language model):我們在聽老外說錯誤的中文時依然能夠識別內(nèi)容是因為我們有關(guān)于語法的知識,可以調(diào)整聲學(xué)模型所識別出的不合邏輯的詞語。這就是語言模型的作用
  • 解碼:用訓(xùn)練好的模型組合起來就可以通過判斷新的語音向量,來識別語音了。

在電腦上如何進行語音識別?

有幾種方法:使用電腦自帶的功能、使用第三方軟件、使用第三方網(wǎng)站。

無論是windows、Mac、還是Linux的一些發(fā)行版,都有自帶的語音識別工具。但是這些工具普遍性能一般,準確率不怎么高。一般在控制面板、系統(tǒng)設(shè)置之類的菜單中就可以找到。

用第三方軟件來語音識別更常見,效果也更好。訊飛、搜狗以及其他一些輸入法廠商都提供了語音輸入功能,可以借由連接遠程服務(wù)器,直接把說話的內(nèi)容轉(zhuǎn)化為文字。準確率比系統(tǒng)自帶的識別工具強一些。值得一提的是訊飛輸入法,是中文語音識別效果最好的產(chǎn)品。

網(wǎng)絡(luò)工具則更專注于把整段音頻轉(zhuǎn)化成文字。借助服務(wù)器的運算速度和龐大的語料庫與算法,這些工具往往可以提供比單機語音輸入更好的效果。

在這一類里推薦幾個:

Google的autosub,可以把音頻轉(zhuǎn)化成文字,支持九十多種語言,速度很快。

訊飛聽見,支持普通話和多種方言,有120分鐘的免費使用時間,超過了需要付款。

IBM 的watson Speech to Text 使用的是Watson人工智能系統(tǒng),可以支持不超過100M的文件。