亚洲无码高清视频,色色视,口爆视频,日韩中文字幕视频

<pre id="tmt2j"></pre>

主頁 > 客服中心 > 常用知識 >

客服中心

聯(lián)系我們

聯(lián)系地址：廣東省廣州市天河區(qū)科新路優(yōu)可商務(wù)中心B棟3樓
服務(wù)熱線：400 605 3393
聯(lián)系電話：020-85550388 （10線） 020-85550288
傳真電話：020-85557779

語音識別,什么是語音識別

發(fā)表時間：2021年05月18日瀏覽量：

語音識別

　與機(jī)器進(jìn)行語音交流，讓機(jī)器明白你說什么，這是人們長期以來夢寐以求的事情。語音識別技術(shù)就是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。語音識別是一門交叉學(xué)科。近二十年來，語音識別技術(shù)取得顯著進(jìn)步，開始從實(shí)驗(yàn)室走向市場。人們預(yù)計(jì)，未來10年內(nèi)，語音識別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個領(lǐng)域。

　語音識別聽寫機(jī)在一些領(lǐng)域的應(yīng)用被美國新聞界評為1997年計(jì)算機(jī)發(fā)展十件大事之一。很多專家都認(rèn)為語音識別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。

　語音識別技術(shù)所涉及的領(lǐng)域包括：信號處理、模式識別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。

通過語音控制各種設(shè)備、與電腦進(jìn)行直接的交流是人類長期以來的夢想。在許多描述未來世界的電影、小說中，語音識別幾乎成為了人工智能的代名詞。從上世紀(jì)四十年代開始，隨著數(shù)字技術(shù)尤其是電腦的飛速發(fā)展，語音識別技術(shù)成為了科學(xué)研究的熱點(diǎn)。到八十年代，語音識別技術(shù)開始了從實(shí)驗(yàn)室到產(chǎn)品的轉(zhuǎn)移。

在語音識別技術(shù)領(lǐng)域的研發(fā)，開始于上世紀(jì)七十年代，目前已經(jīng)形成了以東京-劍橋-北京為中心的全球研發(fā)體系，開發(fā)出了包括中、日、英、法、德等十四種以上語言的語音識別系統(tǒng)。中國研發(fā)中心，從二零零一年成立以來，致力于中文（包含粵語及各種方言）語音識別技術(shù)的研發(fā)，開發(fā)了高性能的中文語音識別引擎，如下圖所示：

我們的語音識別技術(shù)支持不同層次的系統(tǒng)要求：

1. 高魯棒性嵌入式語音識別引擎，可以應(yīng)用到各種電子設(shè)備，從而利用語音來完成電子設(shè)備的自動控制等。特別在車載環(huán)境下，利用語音來控制各種設(shè)備的"hand-free"模式已經(jīng)成為語音識別技術(shù)最重要的應(yīng)用之一。

嵌入式語音識別引擎結(jié)合了高性能語音端點(diǎn)檢測技術(shù)、語音增強(qiáng)技術(shù)和特征補(bǔ)償技術(shù)，并采用了噪聲免疫訓(xùn)練，可以在各種噪聲環(huán)境下工作；特別針對汽車背景噪聲優(yōu)化，在極低信噪比環(huán)境下仍可使用。該引擎無需特別訓(xùn)練即可供不同說話人使用，并特別針對不同地方口音進(jìn)行優(yōu)化，可以同時支持不同口音的說話人。除了可以完成高精度的命令詞識別，東芝的嵌入式語音識別引擎支持大詞匯量的地址識別，結(jié)合在線文法生成功能和語音標(biāo)簽功能，使得聲控的汽車導(dǎo)航成為現(xiàn)實(shí)。此外，該引擎還支持中文數(shù)字串識別和人名識別等，可以輕松完成聲控?fù)芴?定位任務(wù)。引擎采用了高效的搜索算法和聲學(xué)模型壓縮等技術(shù)，可以在資源十分有限的條件下工作，目前已經(jīng)應(yīng)用到多款汽車導(dǎo)航系統(tǒng)中。

2. 語音對話系統(tǒng)和翻譯系統(tǒng)中的語音聽寫引擎。結(jié)合語音識別/合成和機(jī)器翻譯技術(shù)，不同語言間的自動語音翻譯已經(jīng)成為可能。

語音翻譯系統(tǒng)，目前已經(jīng)支持中、英、日三國語言的互譯。作為其中重要的模塊之一，我們開發(fā)了高性能的中文語音聽寫引擎（大詞表連續(xù)語音識別系統(tǒng)）。該系統(tǒng)采用了噪聲魯棒性技術(shù)，可以應(yīng)用到不同環(huán)境中。聲學(xué)模型訓(xùn)練中采用了區(qū)分性訓(xùn)練，并針對不同地方口音進(jìn)行了優(yōu)化；高性能的自適應(yīng)技術(shù)，可以在無監(jiān)督的模式下有效提高對不同口音和環(huán)境的適應(yīng)能力。該引擎支持大詞匯量的語音聽寫，并提供了用戶詞典功能；具有高可移植性，可以為不同領(lǐng)域快速定制識別引擎。

常用的一些聲學(xué)特征

　* 線性預(yù)測系數(shù)LPC：線性預(yù)測分析從人的發(fā)聲機(jī)理入手，通過對聲道的短管級聯(lián)模型的研究，認(rèn)為系統(tǒng)的傳遞函數(shù)符合全極點(diǎn)數(shù)字濾波器的形式，從而n 時刻的信號可以用前若干時刻的信號的線性組合來估計(jì)。通過使實(shí)際語音的采樣值和線性預(yù)測采樣值之間達(dá)到均方差最小LMS，即可得到線性預(yù)測系數(shù)LPC。對 LPC的計(jì)算方法有自相關(guān)法（德賓Durbin法）、協(xié)方差法、格型法等等。計(jì)算上的快速有效保證了這一聲學(xué)特征的廣泛使用。與LPC這種預(yù)測參數(shù)模型類似的聲學(xué)特征還有線譜對LSP、反射系數(shù)等等。

　　* 倒譜系數(shù)CEP：利用同態(tài)處理方法，對語音信號求離散傅立葉變換DFT后取對數(shù)，再求反變換iDFT就可得到倒譜系數(shù)。對LPC倒譜（LPCCEP），在獲得濾波器的線性預(yù)測系數(shù)后，可以用一個遞推公式計(jì)算得出。實(shí)驗(yàn)表明，使用倒譜可以提高特征參數(shù)的穩(wěn)定性。

　　* Mel倒譜系數(shù)MFCC和感知線性預(yù)測PLP：不同于LPC等通過對人的發(fā)聲機(jī)理的研究而得到的聲學(xué)特征，Mel倒譜系數(shù)MFCC和感知線性預(yù)測 PLP是受人的聽覺系統(tǒng)研究成果推動而導(dǎo)出的聲學(xué)特征。對人的聽覺機(jī)理的研究發(fā)現(xiàn)，當(dāng)兩個頻率相近的音調(diào)同時發(fā)出時，人只能聽到一個音調(diào)。臨界帶寬指的就是這樣一種令人的主觀感覺發(fā)生突變的帶寬邊界，當(dāng)兩個音調(diào)的頻率差小于臨界帶寬時，人就會把兩個音調(diào)聽成一個，這稱之為屏蔽效應(yīng)。Mel刻度是對這一臨界帶寬的度量方法之一。

　　MFCC的計(jì)算首先用FFT將時域信號轉(zhuǎn)化成頻域，之后對其對數(shù)能量譜用依照Mel刻度分布的三角濾波器組進(jìn)行卷積，最后對各個濾波器的輸出構(gòu)成的向量進(jìn)行離散余弦變換DCT，取前N個系數(shù)。PLP仍用德賓法去計(jì)算LPC參數(shù)，但在計(jì)算自相關(guān)參數(shù)時用的也是對聽覺激勵的對數(shù)能量譜進(jìn)行DCT的方法。

　語音識別系統(tǒng)的性能指標(biāo)主要有四項(xiàng)。①詞匯表范圍：這是指機(jī)器能識別的單詞或詞組的范圍，如不作任何限制，則可認(rèn)為詞匯表范圍是無限的。②說話人限制：是僅能識別指定發(fā)話者的語音，還是對任何發(fā)話人的語音都能識別。③訓(xùn)練要求：使用前要不要訓(xùn)練，即是否讓機(jī)器先“聽”一下給定的語音，以及訓(xùn)練次數(shù)的多少。④正確識別率：平均正確識別的百分?jǐn)?shù)，它與前面三個指標(biāo)有關(guān)。

小結(jié)

　　以上介紹了實(shí)現(xiàn)語音識別系統(tǒng)的各個方面的技術(shù)。這些技術(shù)在實(shí)際使用中達(dá)到了較好的效果，但如何克服影響語音的各種因素還需要更深入地分析。目前聽寫機(jī)系統(tǒng)還不能完全實(shí)用化以取代鍵盤的輸入，但識別技術(shù)的成熟同時推動了更高層次的語音理解技術(shù)的研究。由于英語與漢語有著不同的特點(diǎn)，針對英語提出的技術(shù)在漢語中如何使用也是一個重要的研究課題，而四聲等漢語本身特有的問題也有待解決。

<pre id="nup27"><ol id="nup27"></ol></pre>