你知道語音識別技術的發展歷程嗎?在人工智能皇冠上,語言是一顆明珠,代表著人工智能的最高水平。假如機器能與人交談,這臺機器就一定有強大的人工智能。現在,智能語音對話已成為人工智能最有發展前景的技術領域之一。舉例來說,在清晨起床時,我們向智能音箱發出語音指令以實現對它的操作。告訴它新聞播報的時候,可以實時收聽,告訴它播放音樂,立刻就可以實現。總之,所有這些看起來科幻的智能場景,實際上都是未來智能生活的一個標志。而語音識別則從智能單品走向智能場景,扮演著重要角色。接下來小編就給大家介紹一下語音識別技術的發展歷程,一起來看看吧。
語音識別技術的發展歷程
語音識別演示系統顯示了計算機自動將人類聲音內容轉換成相應文字的能力。聲音信號的預處理和特征提取,聲音模型和模式的匹配,語言模型和語言處理是語音識別的基本過程。
語音識別技術的原則如下:
對語音特征參數進行預分析,制作語音模型,并儲存在語音參數庫中。識別:對待識語音進行同樣的分析,得到語音參數,與庫中的參考模板進行比較,用判別法找到與語音特征最接近的模板,從而得到識別結果。辨識方法主要有:基于模式匹配的動態時間規整方法,基于統計模型的隱馬爾柯夫模型方法,基于統計模型的深度神經網絡方法。
語音識別技術的發展歷程
早在1952年,戴維斯等人就開發出了世界上第一套能夠識別10個英文數字發音的實驗系統,并正式開啟了語音識別的進程。聲音識別的發展至今已有70多年的歷史,但從技術方向上大致可分為三個階段。
從1993年至2009年,語音識別一直處于GMM-HMM時代,語音識別率的提高十分緩慢,尤其是在2000年至2009年,語音識別率的提高非常緩慢;2009年,深度學習技術,特別是DNN的興起,語音識別框架變成了DNN,語音識別進入了DNN時代,語音識別的精確度大大提高;2015年后,由于“端到端”技術的出現,語音識別進入了一個百花齊放的時代,語音界正在進行深度和復雜的網絡培訓,而端到端技術的應用,進一步大大提高了語音識別的性能,直到2017年微軟公司在Swichboard上達到了5.1%的準確率,從而使語音識別的準確率第一次超過了人類,當然,這是在某種限定條件下的一種實驗結果,還不具有普遍性。
在70年代,語音識別主要是針對小詞匯量、孤立詞的識別,采用的方法也主要是簡單的模板匹配法,即先提取語音信號的特征構造參數模板,然后將測試語音與參考模板參數一一比較匹配,并將與最接近樣本對應的詞標注為該語音信號的發音。這種方法可以有效地解決孤立詞識別問題,但不能有效地解決詞匯量大、個體差異大的連續語音識別問題。進入80年代以后,研究思路發生了很大變化,開始由傳統的基于模板匹配的技術思路轉變為基于統計模型的技術思路。
早在1970年左右,HMM的理論基礎就由Baum等人建立起來,后來被CMU的Baker和IBM的Jelinek等人應用于語音識別。該模型假設一個音素包含3-5種狀態,同一狀態下的發音相對穩定,不同狀態下的跳躍有一定概率;某一狀態下的特征分布可用概率模型描述,GMM是該模型中使用最廣泛的模型。所以GMM-HMM框架中,HMM描述了語音的短時、平穩動態,GMM用于描述HMM每個狀態內的語音特征。
在GMM-HMM框架的基礎上,研究人員提出了多種改進方法,如結合上下文信息的動態貝葉斯方法、區域訓練方法、自適應訓練方法和HMM/NN混合模型方法等。這一切都給語音識別研究帶來了深遠的影響,為下一代語音識別技術的發展奠定了基礎。90年代以來,隨著語音識別聲學模型的區分性訓練準則和模型自適應方法的提出,語音識別在很長一段時間里發展緩慢,語音識別中的誤識率那條線一直沒有明顯下降。
Hinton在2006年提出深度置信網絡(DBN),推動了深度神經網絡(DNN)研究的復蘇。Hinton在2009年利用DNN對語音進行聲學建模,在當時的TIMIT中取得了最佳效果。微軟研究院的俞棟、鄧力在2011年底又將DNN技術應用到大規模連續語音識別任務中,極大地降低了語音識別的錯誤率。從此以后,語音識別進入了DNN-HMM時代。
HMM主要用DNN模型來代替原始GMM模型來對每個狀態進行建模,DNN的優點是使人們不再需要假設語音數據的分布,它將連續的語音幀拼接在一起,包含了語音的序列結構信息,對于狀態的分類概率有了明顯的提高,同時DNN還具有強大的環境學習能力,可以提高對噪聲和重音的魯棒性。
簡而言之,DNN就是給出一系列特征輸入所對應的狀態概率。因為語音信號是連續的,不僅各音素、音節和詞之間沒有明顯的界限,而且各發音單位也會受到語境的影響。盡管拼框能增加上下文信息,但對語音來說還不夠。而且,遞歸神經網絡的出現能夠記憶更多的歷史信息,更有利于建立語音信號的上下文信息模型。
因為簡單RNN存在梯度爆炸和梯度消散問題,難以訓練,不能直接用于語音信號建模,所以學者們進一步探索,開發出許多適合語音建模的RNN結構,其中最著名的就是LSTM。通過輸入法、輸出法和遺忘法門,LSTM能更好地控制信息的流動和傳遞,具有較長的短時記憶能力。盡管LSTM的計算復雜度較DNN有所提高,但總體性能仍能穩定提高約20%。
由于BLSTM在LSTM的基礎上作了進一步的改進,不僅考慮了語音信號的歷史信息對當前幀的影響,而且還考慮了未來信息對當前幀的影響,使得它的網絡中有一個沿時間軸的正、反兩個信息傳遞過程,從而使模型能夠更加充分地考慮背景對當前幀的影響,從而大大提高了語音狀態分類的準確性。考慮到未來信息的代價,BLSTM模型需要進行句子級更新,模型訓練的收斂速度較慢,同時還會帶來解碼的延遲,針對這些問題,業屆都做了工程上的優化和改進,至今仍有許多大公司采用這種模型結構。
CNN是圖像識別的主流模型,而語音信號的時間頻率圖也可視為圖像,因此CNN也被引入到語音識別中。為了提高語音識別率,需要克服語音信號所面對的多樣性,包括說話者本身、說話者所在的環境、采集設備等,這些多樣性可以等價于各種濾波器和語音信號的卷積。與CNN等效,CNN設計了一系列具有局部聚焦特性的濾波器,通過訓練學習獲得濾波器的參數,從而從多種多樣的語音信號中提取不變的部分,CNN本質上也是一個不斷地從語音信號中提取特征的過程。與傳統的DNN模型相比,CNN模型在同樣的性能條件下,具有較少的參數。
從建模能力上看,DNN適合于將特征映射到獨立空間,而LSTM適合于長短記憶,CNN適合于減少語音信號的多樣性,因此,一個好的語音識別系統就是這些網絡的結合。
端到端的語音識別方法主要通過改變代價函數來實現,而神經網絡的模型結構變化不大。總而言之,端到端技術解決了輸入序列長度遠遠大于輸出序列長度的問題。端對端技術主要分為兩類:一類是CTC方法,另一類是Sequence-to-Sequence方法。在傳統語音識別DNN-HMM體系結構中,每個幀輸入對應一個標簽類別,標簽需要反復迭代,以確保更精確地匹配。
以損失函數為CTC的聲學模型序列,無需預對數據對齊,只需訓練一個輸入序列和一個輸出序列。CTC關心的是預測輸出的序列是否與實際輸出的序列相似,而不關心每一個預測輸出序列的結果是否與輸入的序列在時間點上完全對齊。
調制模擬單元是音素或單詞,所以它引入了Blank。對一個語音來說,CTC的最后輸出是尖峰序列,尖峰的位置與建模單元的Label相對應,其他位置為Blank。
最初,Sequence-to-Sequence方法主要應用于機器翻譯領域。Google在2017年將其應用到語音識別領域,取得了很好的效果,單詞錯誤率降至5.6%。如下圖所示,Google提出的新系統的框架由三個部分組成:Encoder編碼器編碼器組件,它類似于標準聲學模型,輸入語音信號的時間頻率特征;經過一系列神經網絡,將其映射為高級特征henc,然后傳遞到Attention組件,該組件利用henc特征來學習輸入x和預測子單元之間的對齊方式,子單元可以是一個音素或一個字。最終,attention模塊的輸出被傳遞到Decoder,產生類似于傳統語言模型的一系列假定單詞的概率分布。
端對端技術的突破,不再需要用HMM來描述音位內部狀態的變化,而是把語音識別的各個模塊統一到神經網絡模型中,使語音識別朝著更加簡單、高效和精確的方向發展。
聲音識別技術的現狀。
當前,主流的語音識別框架仍然是由三部分組成:聲音模型、語言模型和譯碼器,其中一部分還包括前處理和后處理。伴隨著各種深度學習網絡和端到端技術的興起,聲學模型成為近年來的研究熱點,業界紛紛推出自己的新型聲學模型結構,刷新了各數據庫的識別記錄。鑒于中文語音識別的復雜性,國內在聲學模型方面的研究進展較快,目前主流方向是深度和復雜度更高的端到端融合神經網絡技術。
2018年,科大訊飛提出深度全序列卷積神經網絡(DFCNN),DFCNN利用大量卷積直接對全句語音信號進行建模,主要借鑒了圖像識別的網絡結構,每個卷積層采用一個小的卷積核,在多個卷積層后加上一個池化層,通過累積非常多的卷積池化層對,可以看到更多的歷史信息。
在2018年,阿里提出了LFR-DFSMN。在此模型中,采用了低幀率和DFSMN兩種算法,使語音識別錯誤率降低了20%,解碼速度提高了3倍。該網絡通過在FNN的隱層中添加可學習記憶模塊,有效地建立了語音的長時相關模型。并且DFSMN可以通過跳躍來訓練更深層次的網絡結構,避免深層網絡梯度消失的問題。
在2019年,百度提出了流式多層次的截斷注意力模型SMLTA,它是一種基于LSTM和CTC的注意力機制,用于獲得更大范圍和更多層次的上下文信息。其中,流式表示可以直接對語音中的一小段進行增量解碼;多層次表示多層次注意模型的堆疊;截斷表示利用CTC模型的尖峰信息,將語音切成一小段,注意模型和解碼可在小段上展開。在在線語音識別率方面,該模型相對于百度上一代DeepPeak2模型提高了15%的識別率。
開放源碼語音識別Kaldi是該行業的基礎語音識別框架。DanielPovey,Kaldi的作者,一直推崇Chain模式。這種模式與CTC相似,其建模單位相對于傳統的狀態較粗,只有兩個狀態,一個狀態為CDPhone,另一個為空白CDPhone,訓練方法采用Lattice-FreeMMI訓練。這種模型的結構能夠在解碼時采用較低的幀率,其解碼幀率是傳統神經網絡聲學模型的1/3,準確率比傳統模型有很大的提高。
遠場語音識別技術主要用于解決真實場景中舒適距離內的人機任務對話和服務,其發展始于2015年后。遠場語音識別技術解決了復雜環境下的識別問題,使其廣泛應用于智能家居、智能汽車、智能會議、智能安防等領域。當前,國內遠場語音識別的技術框架主要是前端信號處理和后端語音識別,前端是利用麥克風陣列來進行信號處理,如去混響、波束形成等,以便使語音更加清晰,再送到后端語音識別引擎中。
另外兩個技術方面的語音識別:語言模型和譯碼器,目前在技術上還沒有太大的改變。目前,雖然神經網絡在語言模型方面也有一定的研究,但是在實際應用中,糾錯后處理方面的應用還比較多。譯碼器的核心指標是速度,行業內大多數譯碼器都是靜態譯碼,即構造WFST網絡,它包含了所有可能的路徑,譯碼就是在這個空間中進行搜索的過程。因為這一理論比較成熟,更多的是工程優化問題,所以無論是學術界還是工業界目前都很少關注。
語音識別技術發展趨勢
聲音識別技術主要趨向于遠場與融合,但是在遠場可靠性方面仍有許多難點尚未突破,如多輪交互、多人噪雜等場景尚待突破,還有更迫切需要的人聲分離等技術。這些問題應通過新技術徹底解決,使機器的聽力遠遠超過人類的感知能力。不僅僅是算法上的進步,還需要整個產業鏈共同的技術升級,包括更先進的傳感器和更強算力的芯片。
僅就遠場語音識別技術而言,仍有許多難題,包括:消除回聲技術。在傳統的單靠信號處理方法難以消除非線性失真的情況下,對語音交互系統的發展起到了一定的阻礙作用,而深度學習方法在消除非線性失真時,往往不能充分考慮信號的相位信息,而只能直接尋求各頻段上的增益,因此深度學習方法在擬合非線性失真時,與信號處理方法相結合可能是一個好的方向。二是在噪聲條件下的語音識別有待突破。擅長信號處理線性化,深度問題。
伴隨著人工智能語音技術的成熟和發展,智能語音產品不斷涌現,層出不窮。借著迅雷不及掩耳之勢迅速占領了市場,各大巨頭都看中了其中的商業價值空間,紛紛想要分一杯羹,一時間智能語音產業蓬勃發展。在這樣的市場背景下,語音識別方案也開始出現新一輪的變革,一方面是語音識別方案的蓬勃發展,另一方面是局部離線語音技術的興起。拿智能翻譯機器來說。云翻譯智能機,解決語言交流中的語言障礙,實現外語自然對話。智能化翻譯設備的出現打破了語言的束縛,解決了出國語言交流的難題。以上就是小編為大家介紹的語音識別技術的發展歷程,希望對您有幫助。
[免責聲明]
文章標題: 語音識別技術的發展歷程
文章內容為網站編輯整理發布,僅供學習與參考,不代表本網站贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請及時溝通。發送郵件至36dianping@36kr.com,我們會在3個工作日內處理。