國網(wǎng)公司對人工智能方向的研發(fā)一直是重點投入,設備運營管理是人工智能的核心應用領域之一,涉及到圖像識別、視頻分析、聲紋識別、知識圖譜、數(shù)據(jù)智能等多個領域。聲音識別技術(shù)能解決這些問題嗎?對變電設備異常工況的診斷與識別,如:變壓器、電抗器、斷路器、隔離開關等主要設備內(nèi)部不可見缺陷的準確診斷與識別,以及繞組變形、偏磁異常、內(nèi)部放電等的診斷與識別,正在進行探索與研究。聲紋識別技術(shù)究竟是怎么一回事?接下來小編就給大家解答一下人工智能黑科技——聲紋識別是什么,一起來看看吧。
人工智能黑科技——聲紋識別
聲音紋理(Voiceprint)是一種帶有言語信息的聲波頻譜,它是一種生物特征,它由一百多個維度組成,包括波長、頻率和強度,它具有穩(wěn)定性、可測量性和唯一性。
人的語言生成是人類語言中心和發(fā)音器官之間一個復雜的生理物理過程,舌、牙、喉、肺、鼻等發(fā)聲器官在大小和形狀上各不相同,因此對任何兩個人來說,聲紋圖譜都是不同的。
個體的語音聲學特征具有相對的穩(wěn)定性和可變性,且并非一成不變。這些變化可能來自生理、病理、心理、模擬、偽裝等,也可能與環(huán)境干擾有關。
然而,由于每個人的發(fā)音器官都不一樣,所以在一般情況下,人們?nèi)匀豢梢詤^(qū)分不同的人的聲音,或者判斷是否是同一個人發(fā)出的聲音。
每個人說話時所用的發(fā)聲器官在大小和形狀上都有很大的不同,因此任何兩個人的聲紋圖都有不同,主要體現(xiàn)在以下幾個方面:
共振模式特點:咽腔共振,鼻腔共振,口腔共振。
聲音純度特征:不同人的聲音,純度一般都不相同,大致可以分為高純度(明亮)、低純度(沙啞)和中純度三個等級。
均音高特點:均音高的高低即一般所說的嗓音是高還是低。
音高的高低是指人們通常所說的音色是否飽滿或干癟。
語譜圖中不同人聲的諧振峰分布情況不同,而聲紋識別則是通過比較兩段語音說話人的發(fā)音,判斷其是否屬于同一人聲,實現(xiàn)“聞聲識人”的功能。
在算法層面上,聲紋識別可以通過以下基本技術(shù)指標來判斷其性能,除此之外,還有其他一些指標,如:信道的魯棒性、時變的魯棒性、假冒攻擊的魯棒性、群體的普適性等,這部分后面將詳細展開。
FalseRejectionRate,FRR):在分類問題中,如果兩個樣本是相同的(相同的人),但被系統(tǒng)誤認為是不同的(不同的人),那么就是錯誤的拒絕案例。誤報率是指所有同類匹配案例中誤報率的百分比。
誤報率(FAR):在分類問題中,如果兩個樣本是異類(非同一人),但被系統(tǒng)誤認為是同類(同一人),那么就是錯誤接受情況。誤報率是指所有異類匹配病例中錯誤接受病例的比例。
等錯率:調(diào)整閾值,使誤拒絕率(FalseRejectionRate,FRR)等于誤接受率(FalseAcceptanceRate,FAR),此時FAR和FRR的值稱為等錯率。
精確度(Accuracy,ACC):調(diào)整閾值,使FAR+FRR最少,將其減至1,即ACC=1-min(FAR+FRR)
速率:(提取速度:提取聲紋速度與音頻時長相關,驗證比對速度):實時RealTimeFactor比(衡量提取時間與音頻時長的關系,例如:1秒可以處理80s的音頻,然后實時比是1:80)。校驗比值對速度是指平均每秒可以進行的聲紋比對次數(shù)。
ROC曲線:描述FAR和FRR之間變化關系的曲線,F(xiàn)AR為X軸,F(xiàn)RR為Y軸。在閾值增長的過程中,從左到右,每個時刻都有FAR和FRR兩個值,將這些值在圖上描點連接成曲線,即ROC曲線。
門限:在接受/拒絕二元分類系統(tǒng)中,通常設置一個門限,當分數(shù)超過這個值時,才會作出接受的決定。根據(jù)業(yè)務需求調(diào)整閾值可以平衡FAR和FRR。在設置高閾值時,系統(tǒng)對接受決策的評分要求更嚴格,F(xiàn)AR降低,F(xiàn)RR提高;在設置低閾值時,系統(tǒng)對接受決策的評分要求更寬松,F(xiàn)AR提高,F(xiàn)RR降低。對于不同應用場景,調(diào)節(jié)不同閾值,則可在安全性和便利性之間實現(xiàn)均衡。
聲源采樣率
人類語音的頻段集中于50Hz ~ 8KHz之間,尤其在4KHz以下頻段
離散信號覆蓋頻段為信號采樣率的一半(奈奎斯特采樣定理)
采樣率越高,信息量越大
常用采樣率:8KHz (即0 ~ 4KHz頻段),16KHz(即0 ~ 8KHz頻段)
信噪比(SNR)
信噪比衡量一段音頻中語音信號與噪聲的能量比,即語音的干凈程度
15dB以上(基本干凈),6dB(嘈雜),0dB(非常吵)
信道
不同的采集設備,以及通信過程會引入不同的失真
聲紋識別算法與模型需要覆蓋盡可能多的信道
手機麥克風、桌面麥克風、固話、移動通信(CDMA, TD-LTE等)、微信……
語音時長(包括注冊語音條數(shù))會影響聲紋識別的精度
有效語音時長越長,算法得到的數(shù)據(jù)越多,精度也會越高
短語音(1~3s)
長語音(20s+)
文本內(nèi)容
通俗地說,聲紋識別系統(tǒng)通過比對兩段語音的說話人在相同音素上的發(fā)聲來判斷是否為同一個人
固定文本:注冊與驗證內(nèi)容相同
半固定文本:內(nèi)容一樣但順序不同;文本屬于固定集合
自由文本
作為生物識別技術(shù)的一種,聲紋識別的應用場景很多,根據(jù)聲音的特性,以下從公共安全、金融、社會保障、智能硬件四個方面介紹了聲紋識別的應用。
1、安全保障。
作為一種生物特征,聲紋最早被成功地應用于刑偵、鑒定領域。近幾年來,由于因特網(wǎng)的發(fā)展,語音案件也呈現(xiàn)井噴式增長的趨勢,聲紋識別已成為唯一一種有效的技術(shù)偵查手段,通過聲紋識別和聲紋大數(shù)據(jù)技術(shù),對重點人員進行監(jiān)控,打擊電信詐騙、反恐、刑事案件偵破、身份查詢及驗證等,為公安工作提供有力的技術(shù)支撐,有效遏制和打擊犯罪,營造和強化安全的社會公共環(huán)境。
2、財務。
以銀行、互聯(lián)網(wǎng)金融等各類金融服務機構(gòu)為對象,利用聲紋識別技術(shù),提供用戶注冊、遠程驗證、金融生物識別等解決方案,大大提高了金融機構(gòu)風險防范系統(tǒng)的安全性,增強了風控能力,增強了用戶的安全性,防止了身份欺詐。
此外,在電話客服系統(tǒng)中,通過語音識別技術(shù)可以實時地識別用戶的身份,從而為用戶提供個性化的客服服務。
3、社會保障
對退休人員,我國每年至少要進行一次生存狀況核實,并以此為基礎發(fā)放養(yǎng)老金,目前可到指定的社保大廳或自助終端進行生存核實,對于一些行動不便的老人來說,這種方式也很不方便。語音識別技術(shù)在遠程認證方面有其天然優(yōu)勢,只要有一部電話(手機或固定電話都可以),就能完成生存認證,為參保人員提供方便,同時也為國家節(jié)省了大量費用,避免養(yǎng)老金流失。
4、智能硬件。
聲紋識別解決了目前智能產(chǎn)品只能識別用戶說話內(nèi)容而不能區(qū)分說話人身份的問題,使智能產(chǎn)品能夠區(qū)分不同角色,實現(xiàn)“聽、說、讀”。
使系統(tǒng)針對每一個人提供不同的內(nèi)容和服務,使人機交互更加簡單,讓用戶享受到更加輕松、個性化、安全的產(chǎn)品體驗。
作為生物識別技術(shù)的最前沿,聲紋識別技術(shù)隨著技術(shù)的成熟將在越來越多的應用場景中落地,相信在不遠的將來,第三代身份證上的聲紋將成為繼指紋、人像之后又一項新的公民身份標 識。在我們未來的科技生活中,聲音將扮演越來越重要的角色。以上就是小編為大家介紹的人工智能黑科技——聲紋識別是什么,希望對您有幫助。
[免責聲明]
文章標題: 人工智能黑科技——聲紋識別
文章內(nèi)容為網(wǎng)站編輯整理發(fā)布,僅供學習與參考,不代表本網(wǎng)站贊同其觀點和對其真實性負責。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時溝通。發(fā)送郵件至36dianping@36kr.com,我們會在3個工作日內(nèi)處理。