語音識(shí)別是一門交叉學(xué)科,也被稱為自動(dòng)語音識(shí)別。其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說話人識(shí)別及說話人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。
2月2日,人民網(wǎng)輿情數(shù)據(jù)中心與搜狗知音聯(lián)合發(fā)布了《智能語音大數(shù)據(jù)分析報(bào)告》,報(bào)告認(rèn)為社會(huì)已飛速進(jìn)入智能語音輸入時(shí)代,并深刻改變了網(wǎng)民的上網(wǎng)習(xí)慣及人們的社會(huì)生活。以搜狗知音為代表的智能語音技術(shù),準(zhǔn)確率達(dá)97%以上,并已經(jīng)在互聯(lián)網(wǎng)、教育醫(yī)療、車載軟件、智能家居等領(lǐng)域廣泛應(yīng)用,實(shí)現(xiàn)了從概念、技術(shù)到商業(yè)產(chǎn)品、功能應(yīng)用的跨越。其智能性、快速性、無需動(dòng)手性不但能滿足用戶多種復(fù)雜需求,也打破了中外語言、地區(qū)方言差異的壁壘,實(shí)現(xiàn)了無障礙交流溝通。
語音識(shí)別是一門交叉學(xué)科,也被稱為自動(dòng)語音識(shí)別。其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說話人識(shí)別及說話人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。
語音識(shí)別技術(shù)在國(guó)際的發(fā)展
早在三四十年前,美國(guó)的一些大學(xué)和實(shí)驗(yàn)室就開始了語音識(shí)別技術(shù)的研究,50年代的AT T Bell實(shí)驗(yàn)室研發(fā)的Audry系統(tǒng)第一個(gè)實(shí)現(xiàn)了可識(shí)別十個(gè)英文數(shù)字。60和70年代,提出了線性預(yù)測(cè)分析技術(shù)(LP)等相關(guān)理論并深入研究,創(chuàng)造出可以實(shí)現(xiàn)特定人孤立語音識(shí)別系統(tǒng);80年代和90年代是語音識(shí)別技術(shù)應(yīng)用研究方向的**,HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)的成功應(yīng)用,使得語音識(shí)別系統(tǒng)的性能比以往更優(yōu)異;伴隨著多媒體時(shí)代的來臨,微軟,Apple等著名公司都研發(fā)出相當(dāng)成功的商業(yè)應(yīng)用語音識(shí)別系統(tǒng),比如,Apple的Siri系統(tǒng),微軟的Phone Query(電話語音識(shí)別)引擎等。
語音識(shí)別技術(shù)在國(guó)內(nèi)的發(fā)展
我國(guó)的語音識(shí)別研究工作雖然起步較晚,但由于國(guó)家的重視,研究工作進(jìn)展順利,相關(guān)研究緊跟國(guó)際水平。由于中國(guó)有不可忽視的龐大市場(chǎng),國(guó)外對(duì)中國(guó)的語音識(shí)別技術(shù)也非常重視,漢語語音語義的特殊性也使得中文語音識(shí)別技術(shù)的研究更具有挑戰(zhàn)。但是,國(guó)內(nèi)研究機(jī)構(gòu)在進(jìn)行理論研究的同時(shí),應(yīng)注重語音識(shí)別系統(tǒng)在商業(yè)中的應(yīng)用,加快從實(shí)驗(yàn)室演示系統(tǒng)到商品的轉(zhuǎn)化。
二十世紀(jì)末,語音識(shí)別系統(tǒng)已經(jīng)在電腦游戲和玩具,不同樂器的控制,數(shù)據(jù)采集和聽寫等方面發(fā)現(xiàn)了廣泛的應(yīng)用。而在近二十年,由于人工智能和機(jī)器學(xué)習(xí)迅猛發(fā)展,語音識(shí)別技術(shù)取得顯著進(jìn)步,語音控制也變得更為實(shí)用,開始從實(shí)驗(yàn)室走向市場(chǎng)。
《互聯(lián)網(wǎng)趨勢(shì)》報(bào)告中曾談及語音將是人機(jī)交互的新范式,語音技術(shù)將解放人類雙手和眼睛,用戶以較低的成本實(shí)現(xiàn)隨時(shí)訪問。人們預(yù)計(jì),未來10年內(nèi),語音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。未來與智能家居、可穿戴設(shè)備、機(jī)器人等交互模式,語音將是最佳人機(jī)交互模式。
近二十年,語音識(shí)別技術(shù)取得顯著進(jìn)步,但識(shí)別的準(zhǔn)確性問題一直阻礙著智能語音的進(jìn)一步發(fā)展。目前在實(shí)際應(yīng)用中,我們看見語音識(shí)別多是在智能家居領(lǐng)域,比如智能家電或智能音箱。此時(shí),我們就需要考慮一個(gè)問題了,當(dāng)多個(gè)家庭成員同時(shí)講話時(shí),智能家電或智能音箱該執(zhí)行誰的命令呢?它們又如何能在眾多聲音中找出自己主人的命令?這些都是當(dāng)前語音識(shí)別所需要解決的問題,畢竟我們通常所說的語音識(shí)別不僅僅只是單純的對(duì)語音內(nèi)容進(jìn)行識(shí)別。
隨著準(zhǔn)確性的提升,語音識(shí)別應(yīng)用范圍將不斷拓寬,語音交互也逐漸成為可能。不過在語音識(shí)別更新迭代的過程中,新舊共存現(xiàn)象必可避免,在初期混亂的市場(chǎng)藍(lán)海中,只有看清發(fā)展大勢(shì),方能真正抓住機(jī)遇,迎來新發(fā)展。
文章編輯:CobiNet(寧波)
本公司專注于電訊配件,銅纜綜合布線系列領(lǐng)域產(chǎn)品研發(fā)生產(chǎn)超五類,六類,七類線,屏蔽模塊,配線架及相關(guān)模塊配件的研發(fā)和生產(chǎn)。
?2016-2019寧波科博通信技術(shù)有限公司版權(quán)所有浙ICP備16026074號(hào)