无码三级中文高清,亚洲中文久久久久久国产精品

　語(yǔ)音識(shí)別聽(tīng)寫(xiě)機(jī)在一些領(lǐng)域的應(yīng)用被美國(guó)新聞界評(píng)為1997年計(jì)算機(jī)發(fā)展十件大事之一。很多專(zhuān)家都認(rèn)為語(yǔ)音識(shí)別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括：信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等等。

簡(jiǎn)介

　　與機(jī)器進(jìn)行語(yǔ)音交流，讓機(jī)器明白你說(shuō)什么，這是人們長(zhǎng)期以來(lái)夢(mèng)寐以求的事情。中國(guó)物聯(lián)網(wǎng)校企聯(lián)盟形象得把語(yǔ)音識(shí)別[1] 比做為“機(jī)器的聽(tīng)覺(jué)系統(tǒng)”。語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。

　　語(yǔ)音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。語(yǔ)音識(shí)別技術(shù)車(chē)聯(lián)網(wǎng)也得到了充分的引用，例如在翼卡車(chē)聯(lián)網(wǎng)中，只需按一鍵通客服人員口述即可設(shè)置目的地直接導(dǎo)航，安全、便捷。

發(fā)展史

　　1952年貝爾研究所Davis等人研究成功了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。

　　1960年英國(guó)的Denes等人研究成功了第一個(gè)計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)。

　　大規(guī)模的語(yǔ)音識(shí)別研究是在進(jìn)入了70年代以后，在小詞匯量、孤立詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展。

　　進(jìn)入80年代以后，研究的重點(diǎn)逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語(yǔ)音識(shí)別。在研究思路上也發(fā)生了重大變化，即由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)思路開(kāi)始轉(zhuǎn)向基于統(tǒng)計(jì)模型 (HMM）的技術(shù)思路。此外，再次提出了將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語(yǔ)音識(shí)別問(wèn)題的技術(shù)思路。

　　進(jìn)入90年代以后，在語(yǔ)音識(shí)別的系統(tǒng)框架方面并沒(méi)有什么重大突破。但是，在語(yǔ)音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。

　　DARPA(Defense Advanced Research Projects Agency）是在70年代由美國(guó)國(guó)防部遠(yuǎn)景研究計(jì)劃局資助的一項(xiàng)10年計(jì)劃，其旨在支持語(yǔ)言理解系統(tǒng)的研究開(kāi)發(fā)工作。

　　到了80年代，美國(guó)國(guó)防部遠(yuǎn)景研究計(jì)劃局又資助了一項(xiàng)為期10年的DARPA戰(zhàn)略計(jì)劃，其中包括噪聲下的語(yǔ)音識(shí)別和會(huì)話（口語(yǔ)）識(shí)別系統(tǒng)，識(shí)別任務(wù)設(shè)定為“（1000單詞）連續(xù)語(yǔ)音數(shù)據(jù)庫(kù)管理”。

　　到了90年代，這一DARPA計(jì)劃仍在持續(xù)進(jìn)行中。其研究重點(diǎn)已轉(zhuǎn)向識(shí)別裝置中的自然語(yǔ)言處理部分，識(shí)別任務(wù)設(shè)定為“航空旅行信息檢索”。

　　日本也在1981年的第五代計(jì)算機(jī)計(jì)劃中提出了有關(guān)語(yǔ)音識(shí)別輸入-輸出自然語(yǔ)言的宏偉目標(biāo)，雖然沒(méi)能實(shí)現(xiàn)預(yù)期目標(biāo)，但是有關(guān)語(yǔ)音識(shí)別技術(shù)的研究有了大幅度的加強(qiáng)和進(jìn)展。

　　1987年起，日本又?jǐn)M出新的國(guó)家項(xiàng)目---高級(jí)人機(jī)口語(yǔ)接口和自動(dòng)電話翻譯系統(tǒng)。

　　中國(guó)發(fā)展

　　中國(guó)的語(yǔ)音識(shí)別研究起始于1958年，由中國(guó)科學(xué)院聲學(xué)所利用電子管電路識(shí)別10個(gè)元音。直至1973年才由中國(guó)科學(xué)院聲學(xué)所開(kāi)始計(jì)算機(jī)語(yǔ)音識(shí)別。由于當(dāng)時(shí)條件的限制，中國(guó)的語(yǔ)音識(shí)別研究工作一直處于緩慢發(fā)展的階段。

　　進(jìn)入80年代以后，隨著計(jì)算機(jī)應(yīng)用技術(shù)在中國(guó)逐漸普及和應(yīng)用以及數(shù)字信號(hào)技術(shù)的進(jìn)一步發(fā)展，國(guó)內(nèi)許多單位具備了研究語(yǔ)音技術(shù)的基本條件。與此同時(shí)，國(guó)際上語(yǔ)音識(shí)別技術(shù)在經(jīng)過(guò)了多年的沉寂之后重又成為研究的熱點(diǎn)，發(fā)展迅速。就在這種形式下，國(guó)內(nèi)許多單位紛紛投入到這項(xiàng)研究工作中去。

　　1986年3月中國(guó)高科技發(fā)展計(jì)劃（863計(jì)劃）啟動(dòng)，語(yǔ)音識(shí)別作為智能計(jì)算機(jī)系統(tǒng)研究的一個(gè)重要組成部分而被專(zhuān)門(mén)列為研究課題。在863計(jì)劃的支持下，中國(guó)開(kāi)始了有組織的語(yǔ)音識(shí)別技術(shù)的研究，并決定了每隔兩年召開(kāi)一次語(yǔ)音識(shí)別的專(zhuān)題會(huì)議。從此中國(guó)的語(yǔ)音識(shí)別技術(shù)進(jìn)入了一個(gè)前所未有的發(fā)展階段。

　　識(shí)別模式

　　這一時(shí)期的語(yǔ)音識(shí)別方法基本上是采用傳統(tǒng)的模式識(shí)別策略。其中以蘇聯(lián)的Velichko和Zagoruyko、日本的迫江和千葉，以及當(dāng)時(shí)在美國(guó)的板倉(cāng)等人的研究工作最具有代表性。

　　· 蘇聯(lián)的研究為模式識(shí)別應(yīng)用于語(yǔ)音識(shí)別這一領(lǐng)域奠定了基礎(chǔ)；

　　· 日本的研究則展示了如何利用動(dòng)態(tài)規(guī)劃技術(shù)在待識(shí)語(yǔ)音模式與標(biāo)準(zhǔn)語(yǔ)音模式之間進(jìn)行非線性時(shí)間匹配的方法；

　　·板倉(cāng)的研究提出了如何將線性預(yù)測(cè)分析技術(shù)（LPC）加以擴(kuò)展，使之用于語(yǔ)音信號(hào)的特征抽取的方法。

　　數(shù)據(jù)庫(kù)

　　在語(yǔ)音識(shí)別的研究發(fā)展過(guò)程中，相關(guān)研究人員根據(jù)不同語(yǔ)言的發(fā)音特點(diǎn)，設(shè)計(jì)和制作了以漢語(yǔ)（包括不同方言）、英語(yǔ)等各類(lèi)語(yǔ)言的語(yǔ)音數(shù)據(jù)庫(kù)，這些語(yǔ)音數(shù)據(jù)庫(kù)可以為國(guó)內(nèi)外有關(guān)的科研單位和大學(xué)進(jìn)行漢語(yǔ)連續(xù)語(yǔ)音識(shí)別算法研究、系統(tǒng)設(shè)計(jì)、及產(chǎn)業(yè)化工作提供充分、科學(xué)的訓(xùn)練語(yǔ)音樣本。例如：MIT Media lab Speech Dataset（麻省理工學(xué)院媒體實(shí)驗(yàn)室語(yǔ)音數(shù)據(jù)集）、Pitch and Voicing Estimates for Aurora 2(Aurora2語(yǔ)音庫(kù)的基因周期和聲調(diào)估計(jì)）、Congressional speech data（國(guó)會(huì)語(yǔ)音數(shù)據(jù)）、Mandarin Speech Frame Data（普通話語(yǔ)音幀數(shù)據(jù)）、用于測(cè)試盲源分離算法的語(yǔ)音數(shù)據(jù)等。

　　技術(shù)發(fā)展

　　目前在大詞匯語(yǔ)音識(shí)別方面處于領(lǐng)先地位的IBM語(yǔ)音研究小組，就是在70年代開(kāi)始了它的大詞匯語(yǔ)音識(shí)別研究工作的。AT&T的貝爾研究所也開(kāi)始了一系列有關(guān)非特定人語(yǔ)音識(shí)別的實(shí)驗(yàn)。這一研究歷經(jīng)10年，其成果是確立了如何制作用于非特定人語(yǔ)音識(shí)別的標(biāo)準(zhǔn)模板的方法。

　　這一時(shí)期所取得的重大進(jìn)展有：

　?、烹[式馬爾科夫模型（HMM）技術(shù)的成熟和不斷完善成為語(yǔ)音識(shí)別的主流方法。

　　⑵以知識(shí)為基礎(chǔ)的語(yǔ)音識(shí)別的研究日益受到重視。在進(jìn)行連續(xù)語(yǔ)音識(shí)別的時(shí)候，除了識(shí)別聲學(xué)信息外，更多地利用各種語(yǔ)言知識(shí)，諸如構(gòu)詞、句法、語(yǔ)義、對(duì)話背景方面等的知識(shí)來(lái)幫助進(jìn)一步對(duì)語(yǔ)音作出識(shí)別和理解。同時(shí)在語(yǔ)音識(shí)別研究領(lǐng)域，還產(chǎn)生了基于統(tǒng)計(jì)概率的語(yǔ)言模型。

　?、?span id="smksm7c" class="hrefStyle">人工神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用研究的興起。在這些研究中，大部分采用基于反向傳播算法（BP算法）的多層感知網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)具有區(qū)分復(fù)雜的分類(lèi)邊界的能力，顯然它十分有助于模式劃分。特別是在電話語(yǔ)音識(shí)別方面，由于其有著廣泛的應(yīng)用前景，成了當(dāng)前語(yǔ)音識(shí)別應(yīng)用的一個(gè)熱點(diǎn)。

　　另外，面向個(gè)人用途的連續(xù)語(yǔ)音聽(tīng)寫(xiě)機(jī)技術(shù)也日趨完善。這方面，最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate系統(tǒng)。這些系統(tǒng)具有說(shuō)話人自適應(yīng)能力，新用戶不需要對(duì)全部詞匯進(jìn)行訓(xùn)練，便可在使用中不斷提高識(shí)別率。

　　中國(guó)的語(yǔ)音識(shí)別技術(shù)的發(fā)展：

　?、旁诒本┯兄锌圃郝晫W(xué)所、自動(dòng)化所、清華大學(xué)、北方交通大學(xué)等科研機(jī)構(gòu)和高等院校。另外，還有哈爾濱工業(yè)大學(xué)、中國(guó)科技大學(xué)、四川大學(xué)等也紛紛行動(dòng)起來(lái)。

　?、片F(xiàn)在，國(guó)內(nèi)有不少語(yǔ)音識(shí)別系統(tǒng)已研制成功。這些系統(tǒng)的性能各具特色。

　　· 在孤立字大詞匯量語(yǔ)音識(shí)別方面，最具代表性的要數(shù)92年清華大學(xué)電子工程系與中國(guó)電子器件公司合作研制成功的THED-919特定人語(yǔ)音識(shí)別與理解實(shí)時(shí)系統(tǒng)。

　　· 在連續(xù)語(yǔ)音識(shí)別方面，91年12月四川大學(xué)計(jì)算機(jī)中心在微機(jī)上實(shí)現(xiàn)了一個(gè)主題受限的特定人連續(xù)英語(yǔ)——漢語(yǔ)語(yǔ)音翻譯演示系統(tǒng)。

　　·在非特定人語(yǔ)音識(shí)別方面，有清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系在87年研制的聲控電話查號(hào)系統(tǒng)并投入實(shí)際使用。

分類(lèi)應(yīng)用

　　根據(jù)識(shí)別的對(duì)象不同，語(yǔ)音識(shí)別任務(wù)大體可分為3類(lèi)，即孤立詞識(shí)別（isolated word recognition），關(guān)鍵詞識(shí)別（或稱關(guān)鍵詞檢出，keyword spotting）和連續(xù)語(yǔ)音識(shí)別。其中，孤立詞識(shí)別的任務(wù)是識(shí)別事先已知的孤立的詞，如“開(kāi)機(jī)”、“關(guān)機(jī)”等；連續(xù)語(yǔ)音識(shí)別的任務(wù)則是識(shí)別任意的連續(xù)語(yǔ)音，如一個(gè)句子或一段話；連續(xù)語(yǔ)音流中的關(guān)鍵詞檢測(cè)針對(duì)的是連續(xù)語(yǔ)音，但它并不識(shí)別全部文字，而只是檢測(cè)已知的若干關(guān)鍵詞在何處出現(xiàn)，如在一段話中檢測(cè)“計(jì)算機(jī)”、“世界”這兩個(gè)詞。

　　根據(jù)針對(duì)的發(fā)音人，可以把語(yǔ)音識(shí)別技術(shù)分為特定人語(yǔ)音識(shí)別和非特定人語(yǔ)音識(shí)別，前者只能識(shí)別一個(gè)或幾個(gè)人的語(yǔ)音，而后者則可以被任何人使用。顯然，非特定人語(yǔ)音識(shí)別系統(tǒng)更符合實(shí)際需要，但它要比針對(duì)特定人的識(shí)別困難得多。

　　另外，根據(jù)語(yǔ)音設(shè)備和通道，可以分為桌面（PC）語(yǔ)音識(shí)別、電話語(yǔ)音識(shí)別和嵌入式設(shè)備（手機(jī)、PDA等）語(yǔ)音識(shí)別。不同的采集通道會(huì)使人的發(fā)音的聲學(xué)特性發(fā)生變形，因此需要構(gòu)造各自的識(shí)別系統(tǒng)。

　　語(yǔ)音識(shí)別的應(yīng)用領(lǐng)域非常廣泛，常見(jiàn)的應(yīng)用系統(tǒng)有：語(yǔ)音輸入系統(tǒng)，相對(duì)于鍵盤(pán)輸入方法，它更符合人的日常習(xí)慣，也更自然、更高效；語(yǔ)音控制系統(tǒng)，即用語(yǔ)音來(lái)控制設(shè)備的運(yùn)行，相對(duì)于手動(dòng)控制來(lái)說(shuō)更加快捷、方便，可以用在諸如工業(yè)控制、語(yǔ)音撥號(hào)系統(tǒng)、智能家電、聲控智能玩具等許多領(lǐng)域；智能對(duì)話查詢系統(tǒng)，根據(jù)客戶的語(yǔ)音進(jìn)行操作，為用戶提供自然、友好的數(shù)據(jù)庫(kù)檢索服務(wù)，例如家庭服務(wù)、賓館服務(wù)、旅行社服務(wù)系統(tǒng)、訂票系統(tǒng)、醫(yī)療服務(wù)、銀行服務(wù)、股票查詢服務(wù)等等。

識(shí)別方法

　　語(yǔ)音識(shí)別方法主要是模式匹配法。

　　在訓(xùn)練階段，用戶將詞匯表中的每一詞依次說(shuō)一遍，并且將其特征矢量作為模板存入模板庫(kù)。

　　在識(shí)別階段，將輸入語(yǔ)音的特征矢量依次與模板庫(kù)中的每個(gè)模板進(jìn)行相似度比較，將相似度最高者作為識(shí)別結(jié)果輸出。

主要問(wèn)題

　　語(yǔ)音識(shí)別主要有以下五個(gè)問(wèn)題：

　?、睂?duì)自然語(yǔ)言的識(shí)別和理解。首先必須將連續(xù)的講話分解為詞、音素等單位，其次要建立一個(gè)理解語(yǔ)義的規(guī)則。

　?、舱Z(yǔ)音信息量大。語(yǔ)音模式不僅對(duì)不同的說(shuō)話人不同，對(duì)同一說(shuō)話人也是不同的，例如，一個(gè)說(shuō)話人在隨意說(shuō)話和認(rèn)真說(shuō)話時(shí)的語(yǔ)音信息是不同的。一個(gè)人的說(shuō)話方式隨著時(shí)間變化。

　?、痴Z(yǔ)音的模糊性。說(shuō)話者在講話時(shí)，不同的詞可能聽(tīng)起來(lái)是相似的。這在英語(yǔ)和漢語(yǔ)中常見(jiàn)。

　?、磫蝹€(gè)字母或詞、字的語(yǔ)音特性受上下文的影響，以致改變了重音、音調(diào)、音量和發(fā)音速度等。

　?、淡h(huán)境噪聲和干擾對(duì)語(yǔ)音識(shí)別有嚴(yán)重影響，致使識(shí)別率低。

前端處理

　　前端處理是指在特征提取之前，先對(duì)原始語(yǔ)音進(jìn)行處理，部分消除噪聲和不同說(shuō)話人帶來(lái)的影響，使處理后的信號(hào)更能反映語(yǔ)音的本質(zhì)特征。最常用的前端處理有端點(diǎn)檢測(cè)和語(yǔ)音增強(qiáng)。端點(diǎn)檢測(cè)是指在語(yǔ)音信號(hào)中將語(yǔ)音和非語(yǔ)音信號(hào)時(shí)段區(qū)分開(kāi)來(lái)，準(zhǔn)確地確定出語(yǔ)音信號(hào)的起始點(diǎn)。經(jīng)過(guò)端點(diǎn)檢測(cè)后，后續(xù)處理就可以只對(duì)語(yǔ)音信號(hào)進(jìn)行，這對(duì)提高模型的精確度和識(shí)別正確率有重要作用。語(yǔ)音增強(qiáng)的主要任務(wù)就是消除環(huán)境噪聲對(duì)語(yǔ)音的影響。目前通用的方法是采用維納濾波，該方法在噪聲較大的情況下效果好于其它濾波器。

聲學(xué)特征

　　聲學(xué)特征的提取與選擇是語(yǔ)音識(shí)別的一個(gè)重要環(huán)節(jié)。聲學(xué)特征的提取既是一個(gè)信息大幅度壓縮的過(guò)程，也是一個(gè)信號(hào)解卷過(guò)程，目的是使模式劃分器能更好地劃分。由于語(yǔ)音信號(hào)的時(shí)變特性，特征提取必須在一小段語(yǔ)音信號(hào)上進(jìn)行，也即進(jìn)行短時(shí)分析。這一段被認(rèn)為是平穩(wěn)的分析區(qū)間稱之為幀，幀與幀之間的偏移通常取幀長(zhǎng)的1/2或1/3。通常要對(duì)信號(hào)進(jìn)行預(yù)加重以提升高頻，對(duì)信號(hào)加窗以避免短時(shí)語(yǔ)音段邊緣的影響。

　　LPC

　　線性預(yù)測(cè)分析從人的發(fā)聲機(jī)理入手，通過(guò)對(duì)聲道的短管級(jí)聯(lián)模型的研究，認(rèn)為系統(tǒng)的傳遞函數(shù)符合全極點(diǎn)數(shù)字濾波器的形式，從而n 時(shí)刻的信號(hào)可以用前若干時(shí)刻的信號(hào)的線性組合來(lái)估計(jì)。通過(guò)使實(shí)際語(yǔ)音的采樣值和線性預(yù)測(cè)采樣值之間達(dá)到均方差最小LMS，即可得到線性預(yù)測(cè)系數(shù)LPC。對(duì) LPC的計(jì)算方法有自相關(guān)法（德賓Durbin法）、協(xié)方差法、格型法等等。計(jì)算上的快速有效保證了這一聲學(xué)特征的廣泛使用。與LPC這種預(yù)測(cè)參數(shù)模型類(lèi)似的聲學(xué)特征還有線譜對(duì)LSP、反射系數(shù)等等。

　　CEP

　　利用同態(tài)處理方法，對(duì)語(yǔ)音信號(hào)求離散傅立葉變換DFT后取對(duì)數(shù)，再求反變換iDFT就可得到倒譜系數(shù)。對(duì)LPC倒譜（LPCCEP），在獲得濾波器的線性預(yù)測(cè)系數(shù)后，可以用一個(gè)遞推公式計(jì)算得出。實(shí)驗(yàn)表明，使用倒譜可以提高特征參數(shù)的穩(wěn)定性。

　　Mel

　　不同于LPC等通過(guò)對(duì)人的發(fā)聲機(jī)理的研究而得到的聲學(xué)特征，Mel倒譜系數(shù)MFCC和感知線性預(yù)測(cè) PLP是受人的聽(tīng)覺(jué)系統(tǒng)研究成果推動(dòng)而導(dǎo)出的聲學(xué)特征。對(duì)人的聽(tīng)覺(jué)機(jī)理的研究發(fā)現(xiàn)，當(dāng)兩個(gè)頻率相近的音調(diào)同時(shí)發(fā)出時(shí)，人只能聽(tīng)到一個(gè)音調(diào)。臨界帶寬指的就是這樣一種令人的主觀感覺(jué)發(fā)生突變的帶寬邊界，當(dāng)兩個(gè)音調(diào)的頻率差小于臨界帶寬時(shí)，人就會(huì)把兩個(gè)音調(diào)聽(tīng)成一個(gè)，這稱之為屏蔽效應(yīng)。Mel刻度是對(duì)這一臨界帶寬的度量方法之一。

　　MFCC

　　首先用FFT將時(shí)域信號(hào)轉(zhuǎn)化成頻域，之后對(duì)其對(duì)數(shù)能量譜用依照Mel刻度分布的三角濾波器組進(jìn)行卷積，最后對(duì)各個(gè)濾波器的輸出構(gòu)成的向量進(jìn)行離散余弦變換DCT，取前N個(gè)系數(shù)。PLP仍用德賓法去計(jì)算LPC參數(shù)，但在計(jì)算自相關(guān)參數(shù)時(shí)用的也是對(duì)聽(tīng)覺(jué)激勵(lì)的對(duì)數(shù)能量譜進(jìn)行DCT的方法。

聲學(xué)模型

　　語(yǔ)音識(shí)別系統(tǒng)的模型通常由聲學(xué)模型和語(yǔ)言模型兩部分組成，分別對(duì)應(yīng)于語(yǔ)音到音節(jié)概率的計(jì)算和音節(jié)到字概率的計(jì)算。本節(jié)和下一節(jié)分別介紹聲學(xué)模型和語(yǔ)言模型方面的技術(shù)。

　　HMM聲學(xué)建模：馬爾可夫模型的概念是一個(gè)離散時(shí)域有限狀態(tài)自動(dòng)機(jī)，隱馬爾可夫模型HMM是指這一馬爾可夫模型的內(nèi)部狀態(tài)外界不可見(jiàn)，外界只能看到各個(gè)時(shí)刻的輸出值。對(duì)語(yǔ)音識(shí)別系統(tǒng)，輸出值通常就是從各個(gè)幀計(jì)算而得的聲學(xué)特征。用HMM刻畫(huà)語(yǔ)音信號(hào)需作出兩個(gè)假設(shè)，一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關(guān)，另一是輸出值只與當(dāng)前狀態(tài)（或當(dāng)前的狀態(tài)轉(zhuǎn)移）有關(guān)，這兩個(gè)假設(shè)大大降低了模型的復(fù)雜度。HMM的打分、解碼和訓(xùn)練相應(yīng)的算法是前向算法、Viterbi算法和前向后向算法。

　　語(yǔ)音識(shí)別中使用HMM通常是用從左向右單向、帶自環(huán)、帶跨越的拓?fù)浣Y(jié)構(gòu)來(lái)對(duì)識(shí)別基元建模，一個(gè)音素就是一個(gè)三至五狀態(tài)的HMM，一個(gè)詞就是構(gòu)成詞的多個(gè)音素的HMM串行起來(lái)構(gòu)成的HMM，而連續(xù)語(yǔ)音識(shí)別的整個(gè)模型就是詞和靜音組合起來(lái)的HMM。

　　上下文相關(guān)建模：協(xié)同發(fā)音，指的是一個(gè)音受前后相鄰音的影響而發(fā)生變化，從發(fā)聲機(jī)理上看就是人的發(fā)聲器官在一個(gè)音轉(zhuǎn)向另一個(gè)音時(shí)其特性只能漸變，從而使得后一個(gè)音的頻譜與其他條件下的頻譜產(chǎn)生差異。上下文相關(guān)建模方法在建模時(shí)考慮了這一影響，從而使模型能更準(zhǔn)確地描述語(yǔ)音，只考慮前一音的影響的稱為Bi- Phone，考慮前一音和后一音的影響的稱為T(mén)ri-Phone。

　　英語(yǔ)的上下文相關(guān)建模通常以音素為基元，由于有些音素對(duì)其后音素的影響是相似的，因而可以通過(guò)音素解碼狀態(tài)的聚類(lèi)進(jìn)行模型參數(shù)的共享。聚類(lèi)的結(jié)果稱為senone。決策樹(shù)用來(lái)實(shí)現(xiàn)高效的triphone對(duì)senone的對(duì)應(yīng)，通過(guò)回答一系列前后音所屬類(lèi)別（元/輔音、清/濁音等等）的問(wèn)題，最終確定其HMM狀態(tài)應(yīng)使用哪個(gè)senone。分類(lèi)回歸樹(shù)CART模型用以進(jìn)行詞到音素的發(fā)音標(biāo)注。

語(yǔ)言模型

　　語(yǔ)言模型主要分為規(guī)則模型和統(tǒng)計(jì)模型兩種。統(tǒng)計(jì)語(yǔ)言模型是用概率統(tǒng)計(jì)的方法來(lái)揭示語(yǔ)言單位內(nèi)在的統(tǒng)計(jì)規(guī)律，其中N-Gram簡(jiǎn)單有效，被廣泛使用。

　　N-Gram：該模型基于這樣一種假設(shè)，第n個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān)，而與其它任何詞都不相關(guān)，整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過(guò)直接從語(yǔ)料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

　　語(yǔ)言模型的性能通常用交叉熵和復(fù)雜度（Perplexity）來(lái)衡量。交叉熵的意義是用該模型對(duì)文本識(shí)別的難度，或者從壓縮的角度來(lái)看，每個(gè)詞平均要用幾個(gè)位來(lái)編碼。復(fù)雜度的意義是用該模型表示這一文本平均的分支數(shù)，其倒數(shù)可視為每個(gè)詞的平均概率。平滑是指對(duì)沒(méi)觀察到的N元組合賦予一個(gè)概率值，以保證詞序列總能通過(guò)語(yǔ)言模型得到一個(gè)概率值。通常使用的平滑技術(shù)有圖靈估計(jì)、刪除插值平滑、Katz平滑和Kneser-Ney平滑。

搜索

　　連續(xù)語(yǔ)音識(shí)別中的搜索，就是尋找一個(gè)詞模型序列以描述輸入語(yǔ)音信號(hào)，從而得到詞解碼序列。搜索所依據(jù)的是對(duì)公式中的聲學(xué)模型打分和語(yǔ)言模型打分。在實(shí)際使用中，往往要依據(jù)經(jīng)驗(yàn)給語(yǔ)言模型加上一個(gè)高權(quán)重，并設(shè)置一個(gè)長(zhǎng)詞懲罰分?jǐn)?shù)。

　　Viterbi：基于動(dòng)態(tài)規(guī)劃的Viterbi算法在每個(gè)時(shí)間點(diǎn)上的各個(gè)狀態(tài)，計(jì)算解碼狀態(tài)序列對(duì)觀察序列的后驗(yàn)概率，保留概率最大的路徑，并在每個(gè)節(jié)點(diǎn)記錄下相應(yīng)的狀態(tài)信息以便最后反向獲取詞解碼序列。Viterbi算法在不喪失最優(yōu)解的條件下，同時(shí)解決了連續(xù)語(yǔ)音識(shí)別中HMM模型狀態(tài)序列與聲學(xué)觀察序列的非線性時(shí)間對(duì)準(zhǔn)、詞邊界檢測(cè)和詞的識(shí)別，從而使這一算法成為語(yǔ)音識(shí)別搜索的基本策略。

　　由于語(yǔ)音識(shí)別對(duì)當(dāng)前時(shí)間點(diǎn)之后的情況無(wú)法預(yù)測(cè)，基于目標(biāo)函數(shù)的啟發(fā)式剪枝難以應(yīng)用。由于Viterbi算法的時(shí)齊特性，同一時(shí)刻的各條路徑對(duì)應(yīng)于同樣的觀察序列，因而具有可比性，束B(niǎo)eam搜索在每一時(shí)刻只保留概率最大的前若干條路徑，大幅度的剪枝提高了搜索的效率。這一時(shí)齊Viterbi- Beam算法是當(dāng)前語(yǔ)音識(shí)別搜索中最有效的算法。N-best搜索和多遍搜索：為在搜索中利用各種知識(shí)源，通常要進(jìn)行多遍搜索，第一遍使用代價(jià)低的知識(shí)源，產(chǎn)生一個(gè)候選列表或詞候選網(wǎng)格，在此基礎(chǔ)上進(jìn)行使用代價(jià)高的知識(shí)源的第二遍搜索得到最佳路徑。此前介紹的知識(shí)源有聲學(xué)模型、語(yǔ)言模型和音標(biāo)詞典，這些可以用于第一遍搜索。為實(shí)現(xiàn)更高級(jí)的語(yǔ)音識(shí)別或口語(yǔ)理解，往往要利用一些代價(jià)更高的知識(shí)源，如4階或5階的N-Gram、4階或更高的上下文相關(guān)模型、詞間相關(guān)模型、分段模型或語(yǔ)法分析，進(jìn)行重新打分。最新的實(shí)時(shí)大詞表連續(xù)語(yǔ)音識(shí)別系統(tǒng)許多都使用這種多遍搜索策略。

　　N-best搜索產(chǎn)生一個(gè)候選列表，在每個(gè)節(jié)點(diǎn)要保留N條最好的路徑，會(huì)使計(jì)算復(fù)雜度增加到N倍。簡(jiǎn)化的做法是只保留每個(gè)節(jié)點(diǎn)的若干詞候選，但可能丟失次優(yōu)候選。一個(gè)折衷辦法是只考慮兩個(gè)詞長(zhǎng)的路徑，保留k條。詞候選網(wǎng)格以一種更緊湊的方式給出多候選，對(duì)N-best搜索算法作相應(yīng)改動(dòng)后可以得到生成候選網(wǎng)格的算法。

　　前向后向搜索算法是一個(gè)應(yīng)用多遍搜索的例子。當(dāng)應(yīng)用簡(jiǎn)單知識(shí)源進(jìn)行了前向的Viterbi搜索后，搜索過(guò)程中得到的前向概率恰恰可以用在后向搜索的目標(biāo)函數(shù)的計(jì)算中，因而可以使用啟發(fā)式的A算法進(jìn)行后向搜索，經(jīng)濟(jì)地搜索出N條候選。

系統(tǒng)實(shí)現(xiàn)

　　語(yǔ)音識(shí)別系統(tǒng)選擇識(shí)別基元的要求是，有準(zhǔn)確的定義，能得到足夠數(shù)據(jù)進(jìn)行訓(xùn)練，具有一般性。英語(yǔ)通常采用上下文相關(guān)的音素建模，漢語(yǔ)的協(xié)同發(fā)音不如英語(yǔ)嚴(yán)重，可以采用音節(jié)建模。系統(tǒng)所需的訓(xùn)練數(shù)據(jù)大小與模型復(fù)雜度有關(guān)。模型設(shè)計(jì)得過(guò)于復(fù)雜以至于超出了所提供的訓(xùn)練數(shù)據(jù)的能力，會(huì)使得性能急劇下降。

　　聽(tīng)寫(xiě)機(jī)：大詞匯量、非特定人、連續(xù)語(yǔ)音識(shí)別系統(tǒng)通常稱為聽(tīng)寫(xiě)機(jī)。其架構(gòu)就是建立在前述聲學(xué)模型和語(yǔ)言模型基礎(chǔ)上的HMM拓?fù)浣Y(jié)構(gòu)。訓(xùn)練時(shí)對(duì)每個(gè)基元用前向后向算法獲得模型參數(shù)，識(shí)別時(shí)，將基元串接成詞，詞間加上靜音模型并引入語(yǔ)言模型作為詞間轉(zhuǎn)移概率，形成循環(huán)結(jié)構(gòu)，用Viterbi算法進(jìn)行解碼。針對(duì)漢語(yǔ)易于分割的特點(diǎn)，先進(jìn)行分割再對(duì)每一段進(jìn)行解碼，是用以提高效率的一個(gè)簡(jiǎn)化方法。

　　對(duì)話系統(tǒng)：用于實(shí)現(xiàn)人機(jī)口語(yǔ)對(duì)話的系統(tǒng)稱為對(duì)話系統(tǒng)。受目前技術(shù)所限，對(duì)話系統(tǒng)往往是面向一個(gè)狹窄領(lǐng)域、詞匯量有限的系統(tǒng)，其題材有旅游查詢、訂票、數(shù)據(jù)庫(kù)檢索等等。其前端是一個(gè)語(yǔ)音識(shí)別器，識(shí)別產(chǎn)生的N-best候選或詞候選網(wǎng)格，由語(yǔ)法分析器進(jìn)行分析獲取語(yǔ)義信息，再由對(duì)話管理器確定應(yīng)答信息，由語(yǔ)音合成器輸出。由于目前的系統(tǒng)往往詞匯量有限，也可以用提取關(guān)鍵詞的方法來(lái)獲取語(yǔ)義信息。

適應(yīng)強(qiáng)健

　　語(yǔ)音識(shí)別系統(tǒng)的性能受許多因素的影響，包括不同的說(shuō)話人、說(shuō)話方式、環(huán)境噪音、傳輸信道等等。提高系統(tǒng)魯棒性，是要提高系統(tǒng)克服這些因素影響的能力，使系統(tǒng)在不同的應(yīng)用環(huán)境、條件下性能穩(wěn)定；自適應(yīng)的目的，是根據(jù)不同的影響來(lái)源，自動(dòng)地、有針對(duì)性地對(duì)系統(tǒng)進(jìn)行調(diào)整，在使用中逐步提高性能。以下對(duì)影響系統(tǒng)性能的不同因素分別介紹解決辦法。

　　解決辦法按針對(duì)語(yǔ)音特征的方法（以下稱特征方法）和模型調(diào)整的方法（以下稱模型方法）分為兩類(lèi)。前者需要尋找更好的、高魯棒性的特征參數(shù)，或是在現(xiàn)有的特征參數(shù)基礎(chǔ)上，加入一些特定的處理方法。后者是利用少量的自適應(yīng)語(yǔ)料來(lái)修正或變換原有的說(shuō)話人無(wú)關(guān)（SI）模型，從而使其成為說(shuō)話人自適應(yīng)（SA）模型。

　　說(shuō)話人自適應(yīng)的特征方法有說(shuō)話人規(guī)一化和說(shuō)話人子空間法，模型方法有貝葉斯方法、變換法和模型合并法。

　　語(yǔ)音系統(tǒng)中的噪聲，包括環(huán)境噪聲和錄音過(guò)程加入的電子噪聲。提高系統(tǒng)魯棒性的特征方法包括語(yǔ)音增強(qiáng)和尋找對(duì)噪聲干擾不敏感的特征，模型方法有并行模型組合PMC方法和在訓(xùn)練中人為加入噪聲。信道畸變包括錄音時(shí)話筒的距離、使用不同靈敏度的話筒、不同增益的前置放大和不同的濾波器設(shè)計(jì)等等。特征方法有從倒譜矢量中減去其長(zhǎng)時(shí)平均值和RASTA濾波，模型方法有倒譜平移。

識(shí)別引擎

　　微軟在office和vista中都應(yīng)用了自己開(kāi)發(fā)的語(yǔ)音識(shí)別引擎，微軟語(yǔ)音識(shí)別引擎的使用是完全免費(fèi)的，所以產(chǎn)生了許多基于微軟語(yǔ)音識(shí)別引擎開(kāi)發(fā)的語(yǔ)音識(shí)別應(yīng)用軟件，例如《語(yǔ)音游戲大師》《語(yǔ)音控制專(zhuān)家》《芝麻開(kāi)門(mén)》《警衛(wèi)語(yǔ)音識(shí)別系統(tǒng)》等等軟件。其中《警衛(wèi)語(yǔ)音識(shí)別系統(tǒng)》是唯一可以控制單片機(jī)類(lèi)的硬件設(shè)施！！

　　2009年微軟發(fā)布windows 7操作系統(tǒng)，語(yǔ)音識(shí)別軟件得到了更好的推廣！

性能指標(biāo)

　　指標(biāo)

　　語(yǔ)音識(shí)別系統(tǒng)的性能指標(biāo)主要有四項(xiàng)。①詞匯表范圍：這是指機(jī)器能識(shí)別的單詞或詞組的范圍，如不作任何限制，則可認(rèn)為詞匯表范圍是無(wú)限的。②說(shuō)話人限制：是僅能識(shí)別指定發(fā)話者的語(yǔ)音，還是對(duì)任何發(fā)話人的語(yǔ)音都能識(shí)別。③訓(xùn)練要求：使用前要不要訓(xùn)練，即是否讓機(jī)器先“聽(tīng)”一下給定的語(yǔ)音，以及訓(xùn)練次數(shù)的多少。④正確識(shí)別率：平均正確識(shí)別的百分?jǐn)?shù)，它與前面三個(gè)指標(biāo)有關(guān)。

　　小結(jié)

　　以上介紹了實(shí)現(xiàn)語(yǔ)音識(shí)別系統(tǒng)的各個(gè)方面的技術(shù)。這些技術(shù)在實(shí)際使用中達(dá)到了較好的效果，但如何克服影響語(yǔ)音的各種因素還需要更深入地分析。目前聽(tīng)寫(xiě)機(jī)系統(tǒng)還不能完全實(shí)用化以取代鍵盤(pán)的輸入，但識(shí)別技術(shù)的成熟同時(shí)推動(dòng)了更高層次的語(yǔ)音理解技術(shù)的研究。由于英語(yǔ)與漢語(yǔ)有著不同的特點(diǎn)，針對(duì)英語(yǔ)提出的技術(shù)在漢語(yǔ)中如何使用也是一個(gè)重要的研究課題，而四聲等漢語(yǔ)本身特有的問(wèn)題也有待解決。

語(yǔ)音識(shí)別

簡(jiǎn)介

發(fā)展史

分類(lèi)應(yīng)用

識(shí)別方法

主要問(wèn)題

前端處理

聲學(xué)特征

聲學(xué)模型

語(yǔ)言模型

搜索

系統(tǒng)實(shí)現(xiàn)

適應(yīng)強(qiáng)健

識(shí)別引擎

性能指標(biāo)

最新進(jìn)展

一、技術(shù)提升

二、應(yīng)用場(chǎng)景拓展

三、行業(yè)發(fā)展趨勢(shì)

語(yǔ)音識(shí)別

簡(jiǎn)介

發(fā)展史

分類(lèi)應(yīng)用

識(shí)別方法

主要問(wèn)題

前端處理

聲學(xué)特征

聲學(xué)模型

語(yǔ)言模型

搜索

系統(tǒng)實(shí)現(xiàn)

適應(yīng)強(qiáng)健

識(shí)別引擎

性能指標(biāo)

最新進(jìn)展

一、技術(shù)提升

二、應(yīng)用場(chǎng)景拓展

三、行業(yè)發(fā)展趨勢(shì)

一、技術(shù)提升