語(yǔ)音識(shí)別聽(tīng)寫(xiě)機(jī)在一些領(lǐng)域的應(yīng)用被美國(guó)新聞界評(píng)為1997年計(jì)算機(jī)發(fā)展十件大事之一。很多專(zhuān)家都認(rèn)為語(yǔ)音識(shí)別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。 語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等等。
簡(jiǎn)介
與機(jī)器進(jìn)行語(yǔ)音交流,讓機(jī)器明白你說(shuō)什么,這是人們長(zhǎng)期以來(lái)夢(mèng)寐以求的事情。中國(guó)物聯(lián)網(wǎng)校企聯(lián)盟形象得把語(yǔ)音識(shí)別[1] 比做為“機(jī)器的聽(tīng)覺(jué)系統(tǒng)”。語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。
語(yǔ)音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。語(yǔ)音識(shí)別技術(shù)車(chē)聯(lián)網(wǎng)也得到了充分的引用,例如在翼卡車(chē)聯(lián)網(wǎng)中,只需按一鍵通客服人員口述即可設(shè)置目的地直接導(dǎo)航,安全、便捷。
發(fā)展史
1952年貝爾研究所Davis等人研究成功了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。
1960年英國(guó)的Denes等人研究成功了第一個(gè)計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)。
大規(guī)模的語(yǔ)音識(shí)別研究是在進(jìn)入了70年代以后,在小詞匯量、孤立詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展。
進(jìn)入80年代以后,研究的重點(diǎn)逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語(yǔ)音識(shí)別。在研究思路上也發(fā)生了重大變化,即由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)思路開(kāi)始轉(zhuǎn)向基于統(tǒng)計(jì)模型 (HMM)的技術(shù)思路。此外,再次提出了將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語(yǔ)音識(shí)別問(wèn)題的技術(shù)思路。
進(jìn)入90年代以后,在語(yǔ)音識(shí)別的系統(tǒng)框架方面并沒(méi)有什么重大突破。但是,在語(yǔ)音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。
DARPA(Defense Advanced Research Projects Agency)是在70年代由美國(guó)國(guó)防部遠(yuǎn)景研究計(jì)劃局資助的一項(xiàng)10年計(jì)劃,其旨在支持語(yǔ)言理解系統(tǒng)的研究開(kāi)發(fā)工作。
到了80年代,美國(guó)國(guó)防部遠(yuǎn)景研究計(jì)劃局又資助了一項(xiàng)為期10年的DARPA戰(zhàn)略計(jì)劃,其中包括噪聲下的語(yǔ)音識(shí)別和會(huì)話(口語(yǔ))識(shí)別系統(tǒng),識(shí)別任務(wù)設(shè)定為“(1000單詞)連續(xù)語(yǔ)音數(shù)據(jù)庫(kù)管理”。
到了90年代,這一DARPA計(jì)劃仍在持續(xù)進(jìn)行中。其研究重點(diǎn)已轉(zhuǎn)向識(shí)別裝置中的自然語(yǔ)言處理部分,識(shí)別任務(wù)設(shè)定為“航空旅行信息檢索”。
日本也在1981年的第五代計(jì)算機(jī)計(jì)劃中提出了有關(guān)語(yǔ)音識(shí)別輸入-輸出自然語(yǔ)言的宏偉目標(biāo),雖然沒(méi)能實(shí)現(xiàn)預(yù)期目標(biāo),但是有關(guān)語(yǔ)音識(shí)別技術(shù)的研究有了大幅度的加強(qiáng)和進(jìn)展。
1987年起,日本又?jǐn)M出新的國(guó)家項(xiàng)目---高級(jí)人機(jī)口語(yǔ)接口和自動(dòng)電話翻譯系統(tǒng)。
中國(guó)發(fā)展
中國(guó)的語(yǔ)音識(shí)別研究起始于1958年,由中國(guó)科學(xué)院聲學(xué)所利用電子管電路識(shí)別10個(gè)元音。直至1973年才由中國(guó)科學(xué)院聲學(xué)所開(kāi)始計(jì)算機(jī)語(yǔ)音識(shí)別。由于當(dāng)時(shí)條件的限制,中國(guó)的語(yǔ)音識(shí)別研究工作一直處于緩慢發(fā)展的階段。
進(jìn)入80年代以后,隨著計(jì)算機(jī)應(yīng)用技術(shù)在中國(guó)逐漸普及和應(yīng)用以及數(shù)字信號(hào)技術(shù)的進(jìn)一步發(fā)展,國(guó)內(nèi)許多單位具備了研究語(yǔ)音技術(shù)的基本條件。與此同時(shí),國(guó)際上語(yǔ)音識(shí)別技術(shù)在經(jīng)過(guò)了多年的沉寂之后重又成為研究的熱點(diǎn),發(fā)展迅速。就在這種形式下,國(guó)內(nèi)許多單位紛紛投入到這項(xiàng)研究工作中去。
1986年3月中國(guó)高科技發(fā)展計(jì)劃(863計(jì)劃)啟動(dòng),語(yǔ)音識(shí)別作為智能計(jì)算機(jī)系統(tǒng)研究的一個(gè)重要組成部分而被專(zhuān)門(mén)列為研究課題。在863計(jì)劃的支持下,中國(guó)開(kāi)始了有組織的語(yǔ)音識(shí)別技術(shù)的研究,并決定了每隔兩年召開(kāi)一次語(yǔ)音識(shí)別的專(zhuān)題會(huì)議。從此中國(guó)的語(yǔ)音識(shí)別技術(shù)進(jìn)入了一個(gè)前所未有的發(fā)展階段。
識(shí)別模式
這一時(shí)期的語(yǔ)音識(shí)別方法基本上是采用傳統(tǒng)的模式識(shí)別策略。其中以蘇聯(lián)的Velichko和Zagoruyko、日本的迫江和千葉,以及當(dāng)時(shí)在美國(guó)的板倉(cāng)等人的研究工作最具有代表性。
· 蘇聯(lián)的研究為模式識(shí)別應(yīng)用于語(yǔ)音識(shí)別這一領(lǐng)域奠定了基礎(chǔ);
· 日本的研究則展示了如何利用動(dòng)態(tài)規(guī)劃技術(shù)在待識(shí)語(yǔ)音模式與標(biāo)準(zhǔn)語(yǔ)音模式之間進(jìn)行非線性時(shí)間匹配的方法;
·板倉(cāng)的研究提出了如何將線性預(yù)測(cè)分析技術(shù)(LPC)加以擴(kuò)展,使之用于語(yǔ)音信號(hào)的特征抽取的方法。
數(shù)據(jù)庫(kù)
在語(yǔ)音識(shí)別的研究發(fā)展過(guò)程中,相關(guān)研究人員根據(jù)不同語(yǔ)言的發(fā)音特點(diǎn),設(shè)計(jì)和制作了以漢語(yǔ)(包括不同方言)、英語(yǔ)等各類(lèi)語(yǔ)言的語(yǔ)音數(shù)據(jù)庫(kù),這些語(yǔ)音數(shù)據(jù)庫(kù)可以為國(guó)內(nèi)外有關(guān)的科研單位和大學(xué)進(jìn)行漢語(yǔ)連續(xù)語(yǔ)音識(shí)別算法研究、系統(tǒng)設(shè)計(jì)、及產(chǎn)業(yè)化工作提供充分、科學(xué)的訓(xùn)練語(yǔ)音樣本。例如:MIT Media lab Speech Dataset(麻省理工學(xué)院媒體實(shí)驗(yàn)室語(yǔ)音數(shù)據(jù)集)、Pitch and Voicing Estimates for Aurora 2(Aurora2語(yǔ)音庫(kù)的基因周期和聲調(diào)估計(jì))、Congressional speech data(國(guó)會(huì)語(yǔ)音數(shù)據(jù))、Mandarin Speech Frame Data(普通話語(yǔ)音幀數(shù)據(jù))、用于測(cè)試盲源分離算法的語(yǔ)音數(shù)據(jù)等。
技術(shù)發(fā)展
目前在大詞匯語(yǔ)音識(shí)別方面處于領(lǐng)先地位的IBM語(yǔ)音研究小組,就是在70年代開(kāi)始了它的大詞匯語(yǔ)音識(shí)別研究工作的。AT&T的貝爾研究所也開(kāi)始了一系列有關(guān)非特定人語(yǔ)音識(shí)別的實(shí)驗(yàn)。這一研究歷經(jīng)10年,其成果是確立了如何制作用于非特定人語(yǔ)音識(shí)別的標(biāo)準(zhǔn)模板的方法。
這一時(shí)期所取得的重大進(jìn)展有:
?、烹[式馬爾科夫模型(HMM)技術(shù)的成熟和不斷完善成為語(yǔ)音識(shí)別的主流方法。
⑵以知識(shí)為基礎(chǔ)的語(yǔ)音識(shí)別的研究日益受到重視。在進(jìn)行連續(xù)語(yǔ)音識(shí)別的時(shí)候,除了識(shí)別聲學(xué)信息外,更多地利用各種語(yǔ)言知識(shí),諸如構(gòu)詞、句法、語(yǔ)義、對(duì)話背景方面等的知識(shí)來(lái)幫助進(jìn)一步對(duì)語(yǔ)音作出識(shí)別和理解。同時(shí)在語(yǔ)音識(shí)別研究領(lǐng)域,還產(chǎn)生了基于統(tǒng)計(jì)概率的語(yǔ)言模型。
?、?span id="smksm7c" class="hrefStyle">人工神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用研究的興起。在這些研究中,大部分采用基于反向傳播算法(BP算法)的多層感知網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)具有區(qū)分復(fù)雜的分類(lèi)邊界的能力,顯然它十分有助于模式劃分。特別是在電話語(yǔ)音識(shí)別方面,由于其有著廣泛的應(yīng)用前景,成了當(dāng)前語(yǔ)音識(shí)別應(yīng)用的一個(gè)熱點(diǎn)。
另外,面向個(gè)人用途的連續(xù)語(yǔ)音聽(tīng)寫(xiě)機(jī)技術(shù)也日趨完善。這方面,最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate系統(tǒng)。這些系統(tǒng)具有說(shuō)話人自適應(yīng)能力,新用戶不需要對(duì)全部詞匯進(jìn)行訓(xùn)練,便可在使用中不斷提高識(shí)別率。
中國(guó)的語(yǔ)音識(shí)別技術(shù)的發(fā)展 :
?、旁诒本┯兄锌圃郝晫W(xué)所、自動(dòng)化所、清華大學(xué)、北方交通大學(xué)等科研機(jī)構(gòu)和高等院校。另外,還有哈爾濱工業(yè)大學(xué)、中國(guó)科技大學(xué)、四川大學(xué)等也紛紛行動(dòng)起來(lái)。
?、片F(xiàn)在,國(guó)內(nèi)有不少語(yǔ)音識(shí)別系統(tǒng)已研制成功。這些系統(tǒng)的性能各具特色。
· 在孤立字大詞匯量語(yǔ)音識(shí)別方面,最具代表性的要數(shù)92年清華大學(xué)電子工程系與中國(guó)電子器件公司合作研制成功的THED-919特定人語(yǔ)音識(shí)別與理解實(shí)時(shí)系統(tǒng)。
· 在連續(xù)語(yǔ)音識(shí)別方面,91年12月四川大學(xué)計(jì)算機(jī)中心在微機(jī)上實(shí)現(xiàn)了一個(gè)主題受限的特定人連續(xù)英語(yǔ)——漢語(yǔ)語(yǔ)音翻譯演示系統(tǒng)。
·在非特定人語(yǔ)音識(shí)別方面,有清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系在87年研制的聲控電話查號(hào)系統(tǒng)并投入實(shí)際使用。
分類(lèi)應(yīng)用
根據(jù)識(shí)別的對(duì)象不同,語(yǔ)音識(shí)別任務(wù)大體可分為3類(lèi),即孤立詞識(shí)別(isolated word recognition),關(guān)鍵詞識(shí)別(或稱關(guān)鍵詞檢出,keyword spotting)和連續(xù)語(yǔ)音識(shí)別。其中,孤立詞識(shí)別 的任務(wù)是識(shí)別事先已知的孤立的詞,如“開(kāi)機(jī)”、“關(guān)機(jī)”等;連續(xù)語(yǔ)音識(shí)別的任務(wù)則是識(shí)別任意的連續(xù)語(yǔ)音,如一個(gè)句子或一段話;連續(xù)語(yǔ)音流中的關(guān)鍵詞檢測(cè)針對(duì)的是連續(xù)語(yǔ)音,但它并不識(shí)別全部文字,而只是檢測(cè)已知的若干關(guān)鍵詞在何處出現(xiàn),如在一段話中檢測(cè)“計(jì)算機(jī)”、“世界”這兩個(gè)詞。
根據(jù)針對(duì)的發(fā)音人,可以把語(yǔ)音識(shí)別技術(shù)分為特定人語(yǔ)音識(shí)別和非特定人語(yǔ)音識(shí)別,前者只能識(shí)別一個(gè)或幾個(gè)人的語(yǔ)音,而后者則可以被任何人使用。顯然,非特定人語(yǔ)音識(shí)別系統(tǒng)更符合實(shí)際需要,但它要比針對(duì)特定人的識(shí)別困難得多。
另外,根據(jù)語(yǔ)音設(shè)備和通道,可以分為桌面(PC)語(yǔ)音識(shí)別、電話語(yǔ)音識(shí)別和嵌入式設(shè)備(手機(jī)、PDA等)語(yǔ)音識(shí)別。不同的采集通道會(huì)使人的發(fā)音的聲學(xué)特性發(fā)生變形,因此需要構(gòu)造各自的識(shí)別系統(tǒng)。
語(yǔ)音識(shí)別的應(yīng)用領(lǐng)域非常廣泛,常見(jiàn)的應(yīng)用系統(tǒng)有:語(yǔ)音輸入系統(tǒng),相對(duì)于鍵盤(pán)輸入方法,它更符合人的日常習(xí)慣,也更自然、更高效;語(yǔ)音控制系統(tǒng),即用語(yǔ)音來(lái)控制設(shè)備的運(yùn)行,相對(duì)于手動(dòng)控制來(lái)說(shuō)更加快捷、方便,可以用在諸如工業(yè)控制、語(yǔ)音撥號(hào)系統(tǒng)、智能家電、聲控智能玩具等許多領(lǐng)域;智能對(duì)話查詢系統(tǒng),根據(jù)客戶的語(yǔ)音進(jìn)行操作,為用戶提供自然、友好的數(shù)據(jù)庫(kù)檢索服務(wù),例如家庭服務(wù)、賓館服務(wù)、旅行社服務(wù)系統(tǒng)、訂票系統(tǒng)、醫(yī)療服務(wù)、銀行服務(wù)、股票查詢服務(wù)等等。
識(shí)別方法
語(yǔ)音識(shí)別方法主要是模式匹配法。
在訓(xùn)練階段,用戶將詞匯表中的每一詞依次說(shuō)一遍,并且將其特征矢量作為模板存入模板庫(kù)。
在識(shí)別階段,將輸入語(yǔ)音的特征矢量依次與模板庫(kù)中的每個(gè)模板進(jìn)行相似度比較,將相似度最高者作為識(shí)別結(jié)果輸出。
主要問(wèn)題
語(yǔ)音識(shí)別主要有以下五個(gè)問(wèn)題:
?、睂?duì)自然語(yǔ)言的識(shí)別和理解。首先必須將連續(xù)的講話分解為詞、音素等單位,其次要建立一個(gè)理解語(yǔ)義的規(guī)則。
?、舱Z(yǔ)音信息量大。語(yǔ)音模式不僅對(duì)不同的說(shuō)話人不同,對(duì)同一說(shuō)話人也是不同的,例如,一個(gè)說(shuō)話人在隨意說(shuō)話和認(rèn)真說(shuō)話時(shí)的語(yǔ)音信息是不同的。一個(gè)人的說(shuō)話方式隨著時(shí)間變化。
?、痴Z(yǔ)音的模糊性。說(shuō)話者在講話時(shí),不同的詞可能聽(tīng)起來(lái)是相似的。這在英語(yǔ)和漢語(yǔ)中常見(jiàn)。
?、磫蝹€(gè)字母或詞、字的語(yǔ)音特性受上下文的影響,以致改變了重音、音調(diào)、音量和發(fā)音速度等。
?、淡h(huán)境噪聲和干擾對(duì)語(yǔ)音識(shí)別有嚴(yán)重影響,致使識(shí)別率低。
前端處理
前端處理是指在特征提取之前,先對(duì)原始語(yǔ)音進(jìn)行處理,部分消除噪聲和不同說(shuō)話人帶來(lái)的影響,使處理后的信號(hào)更能反映語(yǔ)音的本質(zhì)特征。最常用的前端處理有端點(diǎn)檢測(cè)和語(yǔ)音增強(qiáng)。端點(diǎn)檢測(cè)是指在語(yǔ)音信號(hào)中將語(yǔ)音和非語(yǔ)音信號(hào)時(shí)段區(qū)分開(kāi)來(lái),準(zhǔn)確地確定出語(yǔ)音信號(hào)的起始點(diǎn)。經(jīng)過(guò)端點(diǎn)檢測(cè)后,后續(xù)處理就可以只對(duì)語(yǔ)音信號(hào)進(jìn)行,這對(duì)提高模型的精確度和識(shí)別正確率有重要作用。語(yǔ)音增強(qiáng)的主要任務(wù)就是消除環(huán)境噪聲對(duì)語(yǔ)音的影響。目前通用的方法是采用維納濾波,該方法在噪聲較大的情況下效果好于其它濾波器。
聲學(xué)特征
聲學(xué)特征的提取與選擇是語(yǔ)音識(shí)別的一個(gè)重要環(huán)節(jié)。聲學(xué)特征的提取既是一個(gè)信息大幅度壓縮的過(guò)程,也是一個(gè)信號(hào)解卷過(guò)程,目的是使模式劃分器能更好地劃分。由于語(yǔ)音信號(hào)的時(shí)變特性,特征提取必須在一小段語(yǔ)音信號(hào)上進(jìn)行,也即進(jìn)行短時(shí)分析。這一段被認(rèn)為是平穩(wěn)的分析區(qū)間稱之為幀,幀與幀之間的偏移通常取幀長(zhǎng)的1/2或1/3。通常要對(duì)信號(hào)進(jìn)行預(yù)加重以提升高頻,對(duì)信號(hào)加窗以避免短時(shí)語(yǔ)音段邊緣的影響。
LPC
線性預(yù)測(cè)分析從人的發(fā)聲機(jī)理入手,通過(guò)對(duì)聲道的短管級(jí)聯(lián)模型的研究,認(rèn)為系統(tǒng)的傳遞函數(shù)符合全極點(diǎn)數(shù)字濾波器的形式,從而n 時(shí)刻的信號(hào)可以用前若干時(shí)刻的信號(hào)的線性組合來(lái)估計(jì)。通過(guò)使實(shí)際語(yǔ)音的采樣值和線性預(yù)測(cè)采樣值之間達(dá)到均方差最小LMS,即可得到線性預(yù)測(cè)系數(shù)LPC。對(duì) LPC的計(jì)算方法有自相關(guān)法(德賓Durbin法)、協(xié)方差法、格型法等等。計(jì)算上的快速有效保證了這一聲學(xué)特征的廣泛使用。與LPC這種預(yù)測(cè)參數(shù)模型類(lèi)似的聲學(xué)特征還有線譜對(duì)LSP、反射系數(shù)等等。
CEP
利用同態(tài)處理方法,對(duì)語(yǔ)音信號(hào)求離散傅立葉變換DFT后取對(duì)數(shù),再求反變換iDFT就可得到倒譜系數(shù)。對(duì)LPC倒譜(LPCCEP),在獲得濾波器的線性預(yù)測(cè)系數(shù)后,可以用一個(gè)遞推公式計(jì)算得出。實(shí)驗(yàn)表明,使用倒譜可以提高特征參數(shù)的穩(wěn)定性。
Mel
不同于LPC等通過(guò)對(duì)人的發(fā)聲機(jī)理的研究而得到的聲學(xué)特征,Mel倒譜系數(shù)MFCC和感知線性預(yù)測(cè) PLP是受人的聽(tīng)覺(jué)系統(tǒng)研究成果推動(dòng)而導(dǎo)出的聲學(xué)特征。對(duì)人的聽(tīng)覺(jué)機(jī)理的研究發(fā)現(xiàn),當(dāng)兩個(gè)頻率相近的音調(diào)同時(shí)發(fā)出時(shí),人只能聽(tīng)到一個(gè)音調(diào)。臨界帶寬指的就是這樣一種令人的主觀感覺(jué)發(fā)生突變的帶寬邊界,當(dāng)兩個(gè)音調(diào)的頻率差小于臨界帶寬時(shí),人就會(huì)把兩個(gè)音調(diào)聽(tīng)成一個(gè),這稱之為屏蔽效應(yīng)。Mel刻度是對(duì)這一臨界帶寬的度量方法之一。
MFCC
首先用FFT將時(shí)域信號(hào)轉(zhuǎn)化成頻域,之后對(duì)其對(duì)數(shù)能量譜用依照Mel刻度分布的三角濾波器組進(jìn)行卷積,最后對(duì)各個(gè)濾波器的輸出構(gòu)成的向量進(jìn)行離散余弦變換DCT,取前N個(gè)系數(shù)。PLP仍用德賓法去計(jì)算LPC參數(shù),但在計(jì)算自相關(guān)參數(shù)時(shí)用的也是對(duì)聽(tīng)覺(jué)激勵(lì)的對(duì)數(shù)能量譜進(jìn)行DCT的方法。
聲學(xué)模型
語(yǔ)音識(shí)別系統(tǒng)的模型通常由聲學(xué)模型和語(yǔ)言模型兩部分組成,分別對(duì)應(yīng)于語(yǔ)音到音節(jié)概率的計(jì)算和音節(jié)到字概率的計(jì)算。本節(jié)和下一節(jié)分別介紹聲學(xué)模型和語(yǔ)言模型方面的技術(shù)。
HMM聲學(xué)建模:馬爾可夫模型的概念是一個(gè)離散時(shí)域有限狀態(tài)自動(dòng)機(jī),隱馬爾可夫模型HMM是指這一馬爾可夫模型的內(nèi)部狀態(tài)外界不可見(jiàn),外界只能看到各個(gè)時(shí)刻的輸出值。對(duì)語(yǔ)音識(shí)別系統(tǒng),輸出值通常就是從各個(gè)幀計(jì)算而得的聲學(xué)特征。用HMM刻畫(huà)語(yǔ)音信號(hào)需作出兩個(gè)假設(shè),一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關(guān),另一是輸出值只與當(dāng)前狀態(tài)(或當(dāng)前的狀態(tài)轉(zhuǎn)移)有關(guān),這兩個(gè)假設(shè)大大降低了模型的復(fù)雜度。HMM的打分、解碼和訓(xùn)練相應(yīng)的算法是前向算法、Viterbi算法和前向后向算法。
語(yǔ)音識(shí)別中使用HMM通常是用從左向右單向、帶自環(huán)、帶跨越的拓?fù)浣Y(jié)構(gòu)來(lái)對(duì)識(shí)別基元建模,一個(gè)音素就是一個(gè)三至五狀態(tài)的HMM,一個(gè)詞就是構(gòu)成詞的多個(gè)音素的HMM串行起來(lái)構(gòu)成的HMM,而連續(xù)語(yǔ)音識(shí)別的整個(gè)模型就是詞和靜音組合起來(lái)的HMM。
上下文相關(guān)建模:協(xié)同發(fā)音,指的是一個(gè)音受前后相鄰音的影響而發(fā)生變化,從發(fā)聲機(jī)理上看就是人的發(fā)聲器官在一個(gè)音轉(zhuǎn)向另一個(gè)音時(shí)其特性只能漸變,從而使得后一個(gè)音的頻譜與其他條件下的頻譜產(chǎn)生差異。上下文相關(guān)建模方法在建模時(shí)考慮了這一影響,從而使模型能更準(zhǔn)確地描述語(yǔ)音,只考慮前一音的影響的稱為Bi- Phone,考慮前一音和后一音的影響的稱為T(mén)ri-Phone。
英語(yǔ)的上下文相關(guān)建模通常以音素為基元,由于有些音素對(duì)其后音素的影響是相似的,因而可以通過(guò)音素解碼狀態(tài)的聚類(lèi)進(jìn)行模型參數(shù)的共享。聚類(lèi)的結(jié)果稱為senone。決策樹(shù)用來(lái)實(shí)現(xiàn)高效的triphone對(duì)senone的對(duì)應(yīng),通過(guò)回答一系列前后音所屬類(lèi)別(元/輔音、清/濁音等等)的問(wèn)題,最終確定其HMM狀態(tài)應(yīng)使用哪個(gè)senone。分類(lèi)回歸樹(shù)CART模型用以進(jìn)行詞到音素的發(fā)音標(biāo)注。
語(yǔ)言模型
語(yǔ)言模型主要分為規(guī)則模型和統(tǒng)計(jì)模型兩種。統(tǒng)計(jì)語(yǔ)言模型是用概率統(tǒng)計(jì)的方法來(lái)揭示語(yǔ)言單位內(nèi)在的統(tǒng)計(jì)規(guī)律,其中N-Gram簡(jiǎn)單有效,被廣泛使用。
N-Gram:該模型基于這樣一種假設(shè),第n個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過(guò)直接從語(yǔ)料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
語(yǔ)言模型的性能通常用交叉熵和復(fù)雜度(Perplexity)來(lái)衡量。交叉熵的意義是用該模型對(duì)文本識(shí)別的難度,或者從壓縮的角度來(lái)看,每個(gè)詞平均要用幾個(gè)位來(lái)編碼。復(fù)雜度的意義是用該模型表示這一文本平均的分支數(shù),其倒數(shù)可視為每個(gè)詞的平均概率。平滑是指對(duì)沒(méi)觀察到的N元組合賦予一個(gè)概率值,以保證詞序列總能通過(guò)語(yǔ)言模型得到一個(gè)概率值。通常使用的平滑技術(shù)有圖靈估計(jì)、刪除插值平滑、Katz平滑和Kneser-Ney平滑。
搜索
連續(xù)語(yǔ)音識(shí)別中的搜索,就是尋找一個(gè)詞模型序列以描述輸入語(yǔ)音信號(hào),從而得到詞解碼序列。搜索所依據(jù)的是對(duì)公式中的聲學(xué)模型打分和語(yǔ)言模型打分。在實(shí)際使用中,往往要依據(jù)經(jīng)驗(yàn)給語(yǔ)言模型加上一個(gè)高權(quán)重,并設(shè)置一個(gè)長(zhǎng)詞懲罰分?jǐn)?shù)。
Viterbi:基于動(dòng)態(tài)規(guī)劃的Viterbi算法在每個(gè)時(shí)間點(diǎn)上的各個(gè)狀態(tài),計(jì)算解碼狀態(tài)序列對(duì)觀察序列的后驗(yàn)概率,保留概率最大的路徑,并在每個(gè)節(jié)點(diǎn)記錄下相應(yīng)的狀態(tài)信息以便最后反向獲取詞解碼序列。Viterbi算法在不喪失最優(yōu)解的條件下,同時(shí)解決了連續(xù)語(yǔ)音識(shí)別中HMM模型狀態(tài)序列與聲學(xué)觀察序列的非線性時(shí)間對(duì)準(zhǔn)、詞邊界檢測(cè)和詞的識(shí)別,從而使這一算法成為語(yǔ)音識(shí)別搜索的基本策略。
由于語(yǔ)音識(shí)別對(duì)當(dāng)前時(shí)間點(diǎn)之后的情況無(wú)法預(yù)測(cè),基于目標(biāo)函數(shù)的啟發(fā)式剪枝難以應(yīng)用。由于Viterbi算法的時(shí)齊特性,同一時(shí)刻的各條路徑對(duì)應(yīng)于同樣的觀察序列,因而具有可比性,束B(niǎo)eam搜索在每一時(shí)刻只保留概率最大的前若干條路徑,大幅度的剪枝提高了搜索的效率。這一時(shí)齊Viterbi- Beam算法是當(dāng)前語(yǔ)音識(shí)別搜索中最有效的算法。N-best搜索和多遍搜索:為在搜索中利用各種知識(shí)源,通常要進(jìn)行多遍搜索,第一遍使用代價(jià)低的知識(shí)源,產(chǎn)生一個(gè)候選列表或詞候選網(wǎng)格,在此基礎(chǔ)上進(jìn)行使用代價(jià)高的知識(shí)源的第二遍搜索得到最佳路徑。此前介紹的知識(shí)源有聲學(xué)模型、語(yǔ)言模型和音標(biāo)詞典,這些可以用于第一遍搜索。為實(shí)現(xiàn)更高級(jí)的語(yǔ)音識(shí)別或口語(yǔ)理解,往往要利用一些代價(jià)更高的知識(shí)源,如4階或5階的N-Gram、4階或更高的上下文相關(guān)模型、詞間相關(guān)模型、分段模型或語(yǔ)法分析,進(jìn)行重新打分。最新的實(shí)時(shí)大詞表連續(xù)語(yǔ)音識(shí)別系統(tǒng)許多都使用這種多遍搜索策略。
N-best搜索產(chǎn)生一個(gè)候選列表,在每個(gè)節(jié)點(diǎn)要保留N條最好的路徑,會(huì)使計(jì)算復(fù)雜度增加到N倍。簡(jiǎn)化的做法是只保留每個(gè)節(jié)點(diǎn)的若干詞候選,但可能丟失次優(yōu)候選。一個(gè)折衷辦法是只考慮兩個(gè)詞長(zhǎng)的路徑,保留k條。詞候選網(wǎng)格以一種更緊湊的方式給出多候選,對(duì)N-best搜索算法作相應(yīng)改動(dòng)后可以得到生成候選網(wǎng)格的算法。
前向后向搜索算法是一個(gè)應(yīng)用多遍搜索的例子。當(dāng)應(yīng)用簡(jiǎn)單知識(shí)源進(jìn)行了前向的Viterbi搜索后,搜索過(guò)程中得到的前向概率恰恰可以用在后向搜索的目標(biāo)函數(shù)的計(jì)算中,因而可以使用啟發(fā)式的A算法進(jìn)行后向搜索,經(jīng)濟(jì)地搜索出N條候選。
系統(tǒng)實(shí)現(xiàn)
語(yǔ)音識(shí)別系統(tǒng)選擇識(shí)別基元的要求是,有準(zhǔn)確的定義,能得到足夠數(shù)據(jù)進(jìn)行訓(xùn)練,具有一般性。英語(yǔ)通常采用上下文相關(guān)的音素建模,漢語(yǔ)的協(xié)同發(fā)音不如英語(yǔ)嚴(yán)重,可以采用音節(jié)建模。系統(tǒng)所需的訓(xùn)練數(shù)據(jù)大小與模型復(fù)雜度有關(guān)。模型設(shè)計(jì)得過(guò)于復(fù)雜以至于超出了所提供的訓(xùn)練數(shù)據(jù)的能力,會(huì)使得性能急劇下降。
聽(tīng)寫(xiě)機(jī):大詞匯量、非特定人、連續(xù)語(yǔ)音識(shí)別系統(tǒng)通常稱為聽(tīng)寫(xiě)機(jī)。其架構(gòu)就是建立在前述聲學(xué)模型和語(yǔ)言模型基礎(chǔ)上的HMM拓?fù)浣Y(jié)構(gòu)。訓(xùn)練時(shí)對(duì)每個(gè)基元用前向后向算法獲得模型參數(shù),識(shí)別時(shí),將基元串接成詞,詞間加上靜音模型并引入語(yǔ)言模型作為詞間轉(zhuǎn)移概率,形成循環(huán)結(jié)構(gòu),用Viterbi算法進(jìn)行解碼。針對(duì)漢語(yǔ)易于分割的特點(diǎn),先進(jìn)行分割再對(duì)每一段進(jìn)行解碼,是用以提高效率的一個(gè)簡(jiǎn)化方法。
對(duì)話系統(tǒng):用于實(shí)現(xiàn)人機(jī)口語(yǔ)對(duì)話的系統(tǒng)稱為對(duì)話系統(tǒng)。受目前技術(shù)所限,對(duì)話系統(tǒng)往往是面向一個(gè)狹窄領(lǐng)域、詞匯量有限的系統(tǒng),其題材有旅游查詢、訂票、數(shù)據(jù)庫(kù)檢索等等。其前端是一個(gè)語(yǔ)音識(shí)別器,識(shí)別產(chǎn)生的N-best候選或詞候選網(wǎng)格,由語(yǔ)法分析器進(jìn)行分析獲取語(yǔ)義信息,再由對(duì)話管理器確定應(yīng)答信息,由語(yǔ)音合成器輸出。由于目前的系統(tǒng)往往詞匯量有限,也可以用提取關(guān)鍵詞的方法來(lái)獲取語(yǔ)義信息。
適應(yīng)強(qiáng)健
語(yǔ)音識(shí)別系統(tǒng)的性能受許多因素的影響,包括不同的說(shuō)話人、說(shuō)話方式、環(huán)境噪音、傳輸信道等等。提高系統(tǒng)魯棒性,是要提高系統(tǒng)克服這些因素影響的能力,使系統(tǒng)在不同的應(yīng)用環(huán)境、條件下性能穩(wěn)定;自適應(yīng)的目的,是根據(jù)不同的影響來(lái)源,自動(dòng)地、有針對(duì)性地對(duì)系統(tǒng)進(jìn)行調(diào)整,在使用中逐步提高性能。以下對(duì)影響系統(tǒng)性能的不同因素分別介紹解決辦法。
解決辦法按針對(duì)語(yǔ)音特征的方法(以下稱特征方法)和模型調(diào)整的方法(以下稱模型方法)分為兩類(lèi)。前者需要尋找更好的、高魯棒性的特征參數(shù),或是在現(xiàn)有的特征參數(shù)基礎(chǔ)上,加入一些特定的處理方法。后者是利用少量的自適應(yīng)語(yǔ)料來(lái)修正或變換原有的說(shuō)話人無(wú)關(guān)(SI)模型,從而使其成為說(shuō)話人自適應(yīng)(SA)模型。
說(shuō)話人自適應(yīng)的特征方法有說(shuō)話人規(guī)一化和說(shuō)話人子空間法,模型方法有貝葉斯方法、變換法和模型合并法。
語(yǔ)音系統(tǒng)中的噪聲,包括環(huán)境噪聲和錄音過(guò)程加入的電子噪聲。提高系統(tǒng)魯棒性的特征方法包括語(yǔ)音增強(qiáng)和尋找對(duì)噪聲干擾不敏感的特征,模型方法有并行模型組合PMC方法和在訓(xùn)練中人為加入噪聲。信道畸變包括錄音時(shí)話筒的距離、使用不同靈敏度的話筒、不同增益的前置放大和不同的濾波器設(shè)計(jì)等等。特征方法有從倒譜矢量中減去其長(zhǎng)時(shí)平均值和RASTA濾波,模型方法有倒譜平移。
識(shí)別引擎
微軟在office和vista中都應(yīng)用了自己開(kāi)發(fā)的語(yǔ)音識(shí)別引擎,微軟語(yǔ)音識(shí)別引擎的使用是完全免費(fèi)的,所以產(chǎn)生了許多基于微軟語(yǔ)音識(shí)別引擎開(kāi)發(fā)的語(yǔ)音識(shí)別應(yīng)用軟件,例如《語(yǔ)音游戲大師》《語(yǔ)音控制專(zhuān)家》《芝麻開(kāi)門(mén)》《警衛(wèi)語(yǔ)音識(shí)別系統(tǒng)》等等軟件。其中《警衛(wèi)語(yǔ)音識(shí)別系統(tǒng)》是唯一可以控制單片機(jī)類(lèi)的硬件設(shè)施!!
2009年微軟發(fā)布windows 7操作系統(tǒng),語(yǔ)音識(shí)別軟件得到了更好的推廣!
性能指標(biāo)
指標(biāo)
語(yǔ)音識(shí)別系統(tǒng)的性能指標(biāo)主要有四項(xiàng)。①詞匯表范圍:這是指機(jī)器能識(shí)別的單詞或詞組的范圍,如不作任何限制,則可認(rèn)為詞匯表范圍是無(wú)限的。②說(shuō)話人限制:是僅能識(shí)別指定發(fā)話者的語(yǔ)音,還是對(duì)任何發(fā)話人的語(yǔ)音都能識(shí)別。③訓(xùn)練要求:使用前要不要訓(xùn)練,即是否讓機(jī)器先“聽(tīng)”一下給定的語(yǔ)音,以及訓(xùn)練次數(shù)的多少。④正確識(shí)別率:平均正確識(shí)別的百分?jǐn)?shù),它與前面三個(gè)指標(biāo)有關(guān)。
小結(jié)
以上介紹了實(shí)現(xiàn)語(yǔ)音識(shí)別系統(tǒng)的各個(gè)方面的技術(shù)。這些技術(shù)在實(shí)際使用中達(dá)到了較好的效果,但如何克服影響語(yǔ)音的各種因素還需要更深入地分析。目前聽(tīng)寫(xiě)機(jī)系統(tǒng)還不能完全實(shí)用化以取代鍵盤(pán)的輸入,但識(shí)別技術(shù)的成熟同時(shí)推動(dòng)了更高層次的語(yǔ)音理解技術(shù)的研究。由于英語(yǔ)與漢語(yǔ)有著不同的特點(diǎn),針對(duì)英語(yǔ)提出的技術(shù)在漢語(yǔ)中如何使用也是一個(gè)重要的研究課題,而四聲等漢語(yǔ)本身特有的問(wèn)題也有待解決。
最新進(jìn)展
近幾年來(lái),特別是2009年以來(lái),借助機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展,以及大數(shù)據(jù)語(yǔ)料的積累,語(yǔ)音識(shí)別技術(shù)得到突飛猛進(jìn)的發(fā)展。
1、技術(shù)新發(fā)展
1)將機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究引入到語(yǔ)音識(shí)別聲學(xué)模型訓(xùn)練,使用帶RBM預(yù)訓(xùn)練的多層神經(jīng)網(wǎng)絡(luò),極大提高了聲學(xué)模型的準(zhǔn)確率。在此方面,微軟公司的研究人員率先取得了突破性進(jìn)展,他們使用深層神經(jīng)網(wǎng)絡(luò)模型(DNN)后,語(yǔ)音識(shí)別錯(cuò)誤率降低了30%,是近20年來(lái)語(yǔ)音識(shí)別技術(shù)方面最快的進(jìn)步。
2)目前大多主流的語(yǔ)音識(shí)別解碼器已經(jīng)采用基于有限狀態(tài)機(jī)(WFST)的解碼網(wǎng)絡(luò),該解碼網(wǎng)絡(luò)可以把語(yǔ)言模型、詞典和聲學(xué)共享音字集統(tǒng)一集成為一個(gè)大的解碼網(wǎng)絡(luò),大大提高了解碼的速度,為語(yǔ)音識(shí)別的實(shí)時(shí)應(yīng)用提供了基礎(chǔ)。
3)隨著互聯(lián)網(wǎng)的快速發(fā)展,以及手機(jī)等移動(dòng)終端的普及應(yīng)用,目前可以從多個(gè)渠道獲取大量文本或語(yǔ)音方面的語(yǔ)料,這為語(yǔ)音識(shí)別中的語(yǔ)言模型和聲學(xué)模型的訓(xùn)練提供了豐富的資源,使得構(gòu)建通用大規(guī)模語(yǔ)言模型和聲學(xué)模型成為可能。在語(yǔ)音識(shí)別中,訓(xùn)練數(shù)據(jù)的匹配和豐富性是推動(dòng)系統(tǒng)性能提升的最重要因素之一,但是語(yǔ)料的標(biāo)注和分析需要長(zhǎng)期的積累和沉淀,隨著大數(shù)據(jù)時(shí)代的來(lái)臨,大規(guī)模語(yǔ)料資源的積累將提到戰(zhàn)略高度。
2、技術(shù)新應(yīng)用
近期,語(yǔ)音識(shí)別在移動(dòng)終端上的應(yīng)用最為火熱,語(yǔ)音對(duì)話機(jī)器人、語(yǔ)音助手、互動(dòng)工具等層出不窮,許多互聯(lián)網(wǎng)公司紛紛投入人力、物力和財(cái)力展開(kāi)此方面的研究和應(yīng)用,目的是通過(guò)語(yǔ)音交互的新穎和便利模式迅速占領(lǐng)客戶群。
目前,國(guó)外的應(yīng)用一直以蘋(píng)果的siri為龍頭。
而國(guó)內(nèi)方面,科大訊飛、云知聲、盛大、捷通華聲、搜狗語(yǔ)音助手、紫冬口譯、百度語(yǔ)音等系統(tǒng)都采用了最新的語(yǔ)音識(shí)別技術(shù),市面上其他相關(guān)的產(chǎn)品也直接或間接嵌入了類(lèi)似的技術(shù)。
語(yǔ)音識(shí)別技術(shù)的最新進(jìn)展體現(xiàn)在多個(gè)方面,包括技術(shù)提升、應(yīng)用場(chǎng)景拓展以及行業(yè)發(fā)展趨勢(shì)等。以下是對(duì)語(yǔ)音識(shí)別最新進(jìn)展的詳細(xì)分析:
一、技術(shù)提升
1、準(zhǔn)確率與魯棒性增強(qiáng):
隨著深度學(xué)習(xí)和自然語(yǔ)言處理技術(shù)的不斷進(jìn)步,語(yǔ)音識(shí)別的準(zhǔn)確率顯著提升,已經(jīng)能夠在多種語(yǔ)言環(huán)境下實(shí)現(xiàn)較高的識(shí)別準(zhǔn)確率。例如,基于深度學(xué)習(xí)的語(yǔ)音識(shí)別模型能夠在遠(yuǎn)場(chǎng)環(huán)境、噪聲干擾、多人語(yǔ)音混疊等復(fù)雜場(chǎng)景下保持較高的識(shí)別效果。
語(yǔ)音識(shí)別技術(shù)的魯棒性也得到增強(qiáng),能夠更好地適應(yīng)不同用戶的口音、語(yǔ)速和說(shuō)話習(xí)慣。
2、多模態(tài)融合:
未來(lái)的語(yǔ)音識(shí)別技術(shù)將逐漸融合視覺(jué)、語(yǔ)義等多模態(tài)信息,通過(guò)多源數(shù)據(jù)的互補(bǔ),進(jìn)一步提高識(shí)別的準(zhǔn)確性和用戶體驗(yàn)。
3、實(shí)時(shí)性與個(gè)性化:
實(shí)時(shí)語(yǔ)音識(shí)別技術(shù)的應(yīng)用越來(lái)越廣泛,如在線客服、智能助手等場(chǎng)景,能夠滿足用戶對(duì)于即時(shí)響應(yīng)的需求。
個(gè)性化語(yǔ)音識(shí)別技術(shù)能夠根據(jù)用戶的歷史數(shù)據(jù)和環(huán)境情境,提供更精準(zhǔn)和個(gè)性化的服務(wù)和反饋。
二、應(yīng)用場(chǎng)景拓展
1、智能家居:
語(yǔ)音識(shí)別技術(shù)已經(jīng)成為智能家居領(lǐng)域的重要組成部分,用戶可以通過(guò)語(yǔ)音指令控制家電設(shè)備、查詢天氣、播放音樂(lè)等,極大提升了家居生活的便捷性和舒適性。
2、智能車(chē)載:
在汽車(chē)行業(yè),語(yǔ)音識(shí)別技術(shù)被廣泛應(yīng)用于車(chē)載助理系統(tǒng),如語(yǔ)音導(dǎo)航、車(chē)載娛樂(lè)控制等,提高了駕駛的安全性和便利性。
3、智能客服:
語(yǔ)音識(shí)別技術(shù)在客服領(lǐng)域的應(yīng)用也日益廣泛,通過(guò)語(yǔ)音識(shí)別和自然語(yǔ)言處理技術(shù),智能客服系統(tǒng)能夠?qū)崿F(xiàn)對(duì)用戶語(yǔ)音的實(shí)時(shí)識(shí)別和響應(yīng),提升客服效率和服務(wù)質(zhì)量。
4、醫(yī)療與教育:
在醫(yī)療領(lǐng)域,語(yǔ)音識(shí)別技術(shù)可用于輔助病歷記錄、健康監(jiān)測(cè)等,提高醫(yī)療服務(wù)的效率和質(zhì)量。在教育領(lǐng)域,語(yǔ)音識(shí)別技術(shù)可用于語(yǔ)音筆記、語(yǔ)音翻譯等場(chǎng)景,提升學(xué)習(xí)效率和學(xué)習(xí)體驗(yàn)。
三、行業(yè)發(fā)展趨勢(shì)
1、市場(chǎng)需求持續(xù)增長(zhǎng):
隨著智能家居、智能車(chē)載、智能客服等領(lǐng)域的快速發(fā)展以及消費(fèi)者對(duì)智能語(yǔ)音助手等應(yīng)用的持續(xù)需求,語(yǔ)音識(shí)別技術(shù)的市場(chǎng)需求將持續(xù)增長(zhǎng)。
2、頭部企業(yè)主導(dǎo):
語(yǔ)音識(shí)別芯片和軟件行業(yè)呈現(xiàn)出頭部企業(yè)主導(dǎo)、中小企業(yè)并存的競(jìng)爭(zhēng)格局。頭部企業(yè)憑借技術(shù)實(shí)力和品牌影響力在市場(chǎng)中占據(jù)領(lǐng)先地位,而中小企業(yè)則通過(guò)差異化競(jìng)爭(zhēng)和細(xì)分市場(chǎng)拓展尋求發(fā)展空間。
3、政策支持加強(qiáng):
國(guó)家政策對(duì)語(yǔ)音識(shí)別技術(shù)的支持不斷加強(qiáng),為行業(yè)的發(fā)展提供了良好的外部環(huán)境。政策引導(dǎo)將推動(dòng)語(yǔ)音識(shí)別技術(shù)在更多領(lǐng)域的應(yīng)用和普及。
綜上所述,語(yǔ)音識(shí)別技術(shù)在準(zhǔn)確率、魯棒性、實(shí)時(shí)性、個(gè)性化以及應(yīng)用場(chǎng)景等方面均取得了顯著進(jìn)展,并且未來(lái)隨著技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的拓展,該行業(yè)將繼續(xù)保持快速增長(zhǎng)的態(tài)勢(shì)。
內(nèi)容來(lái)自百科網(wǎng)