中文開源語音識別引擎語音識別的技術(shù)原理是什么？

2021-03-12

2393

語音識別的技術(shù)原理是什么？看圖編碼：把語音變成向量頻域信息：人類是通過振動頻率來判斷聲音的，所以要用傅里葉變換來完成時域頻域之間的轉(zhuǎn)換；特征：如，MFCC是依照人耳的聽聲特點提出的filter。然后我

語音識別的技術(shù)原理是什么？

看圖

聲學(xué)模型（acoustic model）：用于識別語音向量；可用GMM或DNN等方法來識別向量，用DTW或HMM或CTC來對齊（alignment）識別結(jié)果的輸出（單詞從何時開始，何時結(jié)束）
字典（dictionary）：多數(shù)模型并不是以單詞，而是以音素為識別單位。當(dāng)識別出? p l這三個音素時，利用字典，就可以判斷出所說的詞是apple。
語言模型（language model）：我們在聽老外說錯誤的中文時依然能夠識別內(nèi)容是因為我們有關(guān)于語法的知識，可以調(diào)整聲學(xué)模型所識別出的不合邏輯的詞語。這就是語言模型的作用

有幾種方法：使用電腦自帶的功能、使用第三方軟件、使用第三方網(wǎng)站。

無論是windows、Mac、還是Linux的一些發(fā)行版，都有自帶的語音識別工具。但是這些工具普遍性能一般，準確率不怎么高。一般在控制面板、系統(tǒng)設(shè)置之類的菜單中就可以找到。

用第三方軟件來語音識別更常見，效果也更好。訊飛、搜狗以及其他一些輸入法廠商都提供了語音輸入功能，可以借由連接遠程服務(wù)器，直接把說話的內(nèi)容轉(zhuǎn)化為文字。準確率比系統(tǒng)自帶的識別工具強一些。值得一提的是訊飛輸入法，是中文語音識別效果最好的產(chǎn)品。

網(wǎng)絡(luò)工具則更專注于把整段音頻轉(zhuǎn)化成文字。借助服務(wù)器的運算速度和龐大的語料庫與算法，這些工具往往可以提供比單機語音輸入更好的效果。

在這一類里推薦幾個：

Google的autosub，可以把音頻轉(zhuǎn)化成文字，支持九十多種語言，速度很快。

訊飛聽見，支持普通話和多種方言，有120分鐘的免費使用時間，超過了需要付款。

IBM 的watson Speech to Text 使用的是Watson人工智能系統(tǒng)，可以支持不超過100M的文件。