亚洲精品无码免费在线视频_ 基于VC和Matlab的實(shí)時(shí)語(yǔ)音識別系統研究

論文導讀:：可以借助VC實(shí)現對語(yǔ)音信號的采集。同時(shí)通過(guò)Matlab強。而MFCC則是構造人的聽(tīng)覺(jué)模型。本文用小詞匯量的DTW方法。非特定人孤立詞語(yǔ)音識別算法。
論文關(guān)鍵詞：VC，Matlab，實(shí)時(shí)語(yǔ)音識別，MFCC，DTW，非特定人，MEX

　　1引言
　　VC和Matlab的混合編程共同運用于語(yǔ)音識別，可以借助VC實(shí)現對語(yǔ)音信號的采集，同時(shí)通過(guò)Matlab強
　　大的矩陣計算功能，簡(jiǎn)便化的編程方法，實(shí)現對語(yǔ)音
　　信號的識別處理。
　　其中，VC主要做語(yǔ)音信號的采集，通過(guò)借助于微
　　軟提供的WindowsMultimedia API 開(kāi)發(fā)了在線(xiàn)實(shí)時(shí)語(yǔ)
　　音采集程序，實(shí)現了人機在線(xiàn)實(shí)時(shí)交互。
　　2 語(yǔ)音識別系統概述
　　語(yǔ)音信號的一般處理過(guò)程如圖 1所示，其中首先對語(yǔ)音信號進(jìn)行預處理DTW，其中預處理包括預濾波、采樣和量化、加窗、端點(diǎn)檢測、預加重等。然后是信號特征量的提取，本文對信號的特征量進(jìn)行Mel 頻率倒譜系數（Mel-Frequency Cepstrum Coefficients）處理。最后通過(guò)對已經(jīng)建立好的參數模板進(jìn)行對比，測試的依據是失真度最小準測，如本文用到的動(dòng)態(tài)時(shí)間規整: DTW（DynamicTime Warping）。
　　

　　圖 1 語(yǔ)音識別過(guò)程基本流程圖
　　3 語(yǔ)音信號的采集
　　語(yǔ)音信號的兩個(gè)過(guò)程為：對語(yǔ)音信號進(jìn)行實(shí)時(shí)
　　的采集，對采集的語(yǔ)音信號做出識別。本文對語(yǔ)音信號的采集是通過(guò)VC調用Microsoft的Windows系統中提供了多媒體應用程序接口（Multimedia API）實(shí)現。
　　3.1 用VC生成動(dòng)態(tài)鏈接庫供Matlab調用
　　通過(guò)mex文件來(lái)實(shí)現VC與Matlab的混合編程。mex
　　代表 MatlabExecutable。Matlab中可以調用的C或
　　Fortran語(yǔ)言程序稱(chēng)為mex文件。mex文件是一種特殊的動(dòng)態(tài)連接庫函數，它能夠在MATLAB里像一般的M函數那樣來(lái)執行。
　　VC編譯的時(shí)候應該包含頭文件mex.h。與C中的主函數main()函數一樣，mex程序中的開(kāi)始函數為：
　　void mexFunction(int nlhs,mxArray *plhs[], int nrhs, const mxArray *prhs[])其中
　　nlhs指的是在調用函數時(shí)返回值的個(gè)數;
　　plhs[]是每個(gè)返回值(在MATLAB中都是矩陣)的指針；
　　nrhs指的是調用函數時(shí)的參數個(gè)數;
　　prhs[]是每個(gè)參數的指針。
　　對mexFunction的參數是進(jìn)行指針操作的，不能用單純的return返回值。mex程序傳送回來(lái)的整數數據要變?yōu)殡p精度型數據，才能為其它函數所處理。
　　3.2 Multimedia API函數介紹
　　API（ApplicationProgramming Interface,應用程序編程接口）是一些預先定義的函數，目的是提供應用程序與開(kāi)發(fā)人員基于某軟件或硬件的以訪(fǎng)問(wèn)一組例程的能力，而又無(wú)需訪(fǎng)問(wèn)源碼，或理解內部工作機制的細節。
　　MultimediaAPI 函數主要有以下幾個(gè)：獲取音頻設備信的函數waveInGetNumDevs()，該函數用于獲取當前系統中所安裝的音頻輸入設備的數目。
　　查詢(xún)音頻設備的能力函數waveInOpen()，該函數的作用是打開(kāi)波形輸入輸入設備。
　　通過(guò)CALLBACK_FUNCTION命令來(lái)打開(kāi)設備。錄音緩沖區的組織WAVEHDR結構，一般都是設置雙緩存區對語(yǔ)音信號進(jìn)行平穩緩沖論文網(wǎng)站。開(kāi)始和停止錄音時(shí)用到waveInStart()和waveInStop()兩個(gè)函數。
　　4 用Matlab實(shí)現語(yǔ)音識別過(guò)程
　　4.1 端點(diǎn)檢測
　　從背景噪聲中找出語(yǔ)音的開(kāi)始和終止點(diǎn)這是在很多語(yǔ)音處理應用中的基本問(wèn)題。端點(diǎn)檢測對于語(yǔ)音識別有著(zhù)重要的意義。本文主要采用短時(shí)能量與短時(shí)平均過(guò)零率雙門(mén)限結合的方式，來(lái)對漢語(yǔ)語(yǔ)音的起止點(diǎn)進(jìn)行檢測。短時(shí)能量和過(guò)零率分別確定兩個(gè)門(mén)限, 信號必須達到比較高的強度, 該門(mén)限才可能被超過(guò)。且低門(mén)限被超過(guò)未必就是語(yǔ)音的開(kāi)始, 有可能是由短時(shí)間的噪聲引起; 高門(mén)限被超過(guò)則可以基本確定是由于語(yǔ)音信號引起的。
　　
　　%每幀過(guò)零率
　　4.2 特征函數的提取
　　語(yǔ)音信號完成分幀處理和端點(diǎn)檢測后，下一步就是特征參數的提取。目前在語(yǔ)音識別中較為常用的特征參數是線(xiàn)性預測倒譜系數（LPCC，LinearPredictive Cepstrum Coefficients）和Mel頻率倒譜系數（MFCCDTW，Mel-FrequencyCepstrum Coefficients），這兩種特征參數都是將語(yǔ)音信號從時(shí)域變換到倒頻域上。LPCC從人的發(fā)聲模型角度出發(fā)，利用線(xiàn)性預測編碼（LPC，LinearPredictive Coding）技術(shù)求出倒譜系數，而MFCC則是構造人的聽(tīng)覺(jué)模型，把通過(guò)該模型（濾波器組）的語(yǔ)音輸出為聲學(xué)特征，直接通過(guò)離散傅立葉變換（DFT，DiscreteFourier Transform）進(jìn)行變換。本文采用MFCC方法。Mel頻率倒譜系數,即MFCC為：
　　
　　其中，S(m)為語(yǔ)音信號通過(guò)預加重、離散傅里葉變換、通過(guò)MEL濾波器、并通過(guò)對數能量處理等得到的對數頻譜。
　　4.3 非特定人孤立詞語(yǔ)音識別算法
　　通常，語(yǔ)音識別的方法可以大致分為三類(lèi)，即模板匹配法、隨機模型法、和概率語(yǔ)法分析法。這三類(lèi)方法都屬于統計模式識別方法。其中模板匹配法是將測試語(yǔ)音與參考模板的參數逐一進(jìn)行比較和匹配，判決的依據是失真測度最小準測，隨機模型法是使用隱馬爾可夫模型（HMM，HiddenMarkov Model）來(lái)對似然函數進(jìn)行估計與判決，從而得到相應的識別結果。而概率語(yǔ)法分析法利用連續語(yǔ)音中的語(yǔ)法約束知識來(lái)對似然函數進(jìn)行估計和判決，更適用于大規模連續語(yǔ)音識別。本文用小詞匯量的DTW方法。動(dòng)態(tài)時(shí)間規整（DTW）是采用動(dòng)態(tài)規劃（DP，DynamicProgramming）技術(shù)，將一個(gè)復雜的全局最優(yōu)化問(wèn)題轉化為許多局部最優(yōu)化問(wèn)題DTW，一步一步地進(jìn)行決策。假設時(shí)間規整函數為：其中，表示時(shí)間規整函數中的第個(gè)匹配點(diǎn)對
　　這個(gè)匹配點(diǎn)對是由待測語(yǔ)音的第個(gè)特征矢量和參考模板第個(gè)特征矢量構成的，其中兩者之間的距離（或失真值）稱(chēng)為局部匹配距離，記做，處于最優(yōu)時(shí)間規整情況下兩矢量的距離稱(chēng)為全局匹配距離，記做，表達式如下所示：
　　由于DTW不斷地計算兩矢量的距離以尋找最優(yōu)的匹配路徑，所以得到的兩矢量的匹配距離是累計距離最小的規整函數，這就保證了它們之間存在最大的聲學(xué)相似特性。
　　5 結束語(yǔ)
　　在本語(yǔ)音識別系統中, 設定采樣率為11025Hz，幀數為300幀，幀長(cháng)為240點(diǎn)，則最長(cháng)的語(yǔ)音段長(cháng)度不會(huì )超過(guò)300*240/11025=6.5秒。采樣樣本為男女各5個(gè)人的數碼語(yǔ)音資料, 實(shí)驗表明, 系統達到了較好的實(shí)時(shí)性和較高的識別率。由于Matlab功能強大, 在處理中可直接利用許多現成的函數, 編程方便, 結果可視化也容易實(shí)現。

參考文獻
[1]楊熙,蘇娟,趙鵬.MATLAB環(huán)境下的語(yǔ)音識別系統[J].電聲技術(shù),2007,31(2): 51-53.
[2]龍銀東，劉宇紅，敬嵐，等.在MATLAB環(huán)境下實(shí)現的語(yǔ)音識別[J]

本站僅提供存儲服務(wù)，所有內容均由用戶(hù)發(fā)布，如發(fā)現有害或侵權內容，請點(diǎn)擊舉報。

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久