欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
基于VC和Matlab的實(shí)時(shí)語(yǔ)音識別系統研究
論文導讀::可以借助VC實(shí)現對語(yǔ)音信號的采集。同時(shí)通過(guò)Matlab強。而MFCC則是構造人的聽(tīng)覺(jué)模型。本文用小詞匯量的DTW方法。非特定人孤立詞語(yǔ)音識別算法。
論文關(guān)鍵詞:VC,Matlab,實(shí)時(shí)語(yǔ)音識別,MFCC,DTW,非特定人,MEX

  1引言
  VC和Matlab的混合編程共同運用于語(yǔ)音識別,可以借助VC實(shí)現對語(yǔ)音信號的采集,同時(shí)通過(guò)Matlab強
  大的矩陣計算功能,簡(jiǎn)便化的編程方法,實(shí)現對語(yǔ)音
  信號的識別處理。
  其中,VC主要做語(yǔ)音信號的采集,通過(guò)借助于微
  軟提供的WindowsMultimedia API 開(kāi)發(fā)了在線(xiàn)實(shí)時(shí)語(yǔ)
  音采集程序,實(shí)現了人機在線(xiàn)實(shí)時(shí)交互。
  2 語(yǔ)音識別系統概述
  語(yǔ)音信號的一般處理過(guò)程如圖 1所示,其中首先對語(yǔ)音信號進(jìn)行預處理DTW,其中預處理包括預濾波、采樣和量化、加窗、端點(diǎn)檢測、預加重等。然后是信號特征量的提取,本文對信號的特征量進(jìn)行Mel 頻率倒譜系數(Mel-Frequency Cepstrum Coefficients)處理。最后通過(guò)對已經(jīng)建立好的參數模板進(jìn)行對比,測試的依據是失真度最小準測,如本文用到的動(dòng)態(tài)時(shí)間規整: DTW(DynamicTime Warping)。
  

  圖 1 語(yǔ)音識別過(guò)程基本流程圖
  3 語(yǔ)音信號的采集
  語(yǔ)音信號的兩個(gè)過(guò)程為:對語(yǔ)音信號進(jìn)行實(shí)時(shí)
  的采集,對采集的語(yǔ)音信號做出識別。本文對語(yǔ)音信號的采集是通過(guò)VC調用Microsoft的Windows系統中提供了多媒體應用程序接口(Multimedia API)實(shí)現。
  3.1 用VC生成動(dòng)態(tài)鏈接庫供Matlab調用
  通過(guò)mex文件來(lái)實(shí)現VC與Matlab的混合編程。mex
  代表 MatlabExecutable。Matlab中可以調用的C或
  Fortran語(yǔ)言程序稱(chēng)為mex文件。mex文件是一種特殊的動(dòng)態(tài)連接庫函數,它能夠在MATLAB里像一般的M函數那樣來(lái)執行。
  VC編譯的時(shí)候應該包含頭文件mex.h。與C中的主函數main()函數一樣,mex程序中的開(kāi)始函數為:
  void mexFunction(int nlhs,mxArray *plhs[], int nrhs, const mxArray *prhs[])其中
  nlhs指的是在調用函數時(shí)返回值的個(gè)數;
  plhs[]是每個(gè)返回值(在MATLAB中都是矩陣)的指針;
  nrhs指的是調用函數時(shí)的參數個(gè)數;
  prhs[]是每個(gè)參數的指針。
  對mexFunction的參數是進(jìn)行指針操作的,不能用單純的return返回值。mex程序傳送回來(lái)的整數數據要變?yōu)殡p精度型數據,才能為其它函數所處理。
  3.2 Multimedia API函數介紹
  API(ApplicationProgramming Interface,應用程序編程接口)是一些預先定義的函數,目的是提供應用程序與開(kāi)發(fā)人員基于某軟件或硬件的以訪(fǎng)問(wèn)一組例程的能力,而又無(wú)需訪(fǎng)問(wèn)源碼,或理解內部工作機制的細節。
  MultimediaAPI 函數主要有以下幾個(gè):獲取音頻設備信的函數waveInGetNumDevs(),該函數用于獲取當前系統中所安裝的音頻輸入設備的數目。
  查詢(xún)音頻設備的能力函數waveInOpen(),該函數的作用是打開(kāi)波形輸入輸入設備。
  通過(guò)CALLBACK_FUNCTION命令來(lái)打開(kāi)設備。錄音緩沖區的組織WAVEHDR結構, 一般都是設置雙緩存區對語(yǔ)音信號進(jìn)行平穩緩沖論文網(wǎng)站。開(kāi)始和停止錄音時(shí)用到waveInStart()和waveInStop()兩個(gè)函數。
  4 用Matlab實(shí)現語(yǔ)音識別過(guò)程
  4.1 端點(diǎn)檢測
  從背景噪聲中找出語(yǔ)音的開(kāi)始和終止點(diǎn)這是在很多語(yǔ)音處理應用中的基本問(wèn)題。端點(diǎn)檢測對于語(yǔ)音識別有著(zhù)重要的意義。本文主要采用短時(shí)能量與短時(shí)平均過(guò)零率雙門(mén)限結合的方式,來(lái)對漢語(yǔ)語(yǔ)音的起止點(diǎn)進(jìn)行檢測。短時(shí)能量和過(guò)零率分別確定兩個(gè)門(mén)限, 信號必須達到比較高的強度, 該門(mén)限才可能被超過(guò)。且低門(mén)限被超過(guò)未必就是語(yǔ)音的開(kāi)始, 有可能是由短時(shí)間的噪聲引起; 高門(mén)限被超過(guò)則可以基本確定是由于語(yǔ)音信號引起的。
  

  
%每幀過(guò)零率
  4.2 特征函數的提取
   語(yǔ)音信號完成分幀處理和端點(diǎn)檢測后,下一步就是特征參數的提取。目前在語(yǔ)音識別中較為常用的特征參數是線(xiàn)性預測倒譜系數(LPCC,LinearPredictive Cepstrum Coefficients)和Mel頻率倒譜系數(MFCCDTW,Mel-FrequencyCepstrum Coefficients),這兩種特征參數都是將語(yǔ)音信號從時(shí)域變換到倒頻域上。LPCC從人的發(fā)聲模型角度出發(fā),利用線(xiàn)性預測編碼(LPC,LinearPredictive Coding)技術(shù)求出倒譜系數,而MFCC則是構造人的聽(tīng)覺(jué)模型,把通過(guò)該模型(濾波器組)的語(yǔ)音輸出為聲學(xué)特征,直接通過(guò)離散傅立葉變換(DFT,DiscreteFourier Transform)進(jìn)行變換。本文采用MFCC方法。Mel頻率倒譜系數,即MFCC為:
  

  其中,S(m)為語(yǔ)音信號通過(guò)預加重、離散傅里葉變換、通過(guò)MEL濾波器、并通過(guò)對數能量處理等得到的對數頻譜。
  4.3 非特定人孤立詞語(yǔ)音識別算法
  通常,語(yǔ)音識別的方法可以大致分為三類(lèi),即模板匹配法、隨機模型法、和概率語(yǔ)法分析法。這三類(lèi)方法都屬于統計模式識別方法。其中模板匹配法是將測試語(yǔ)音與參考模板的參數逐一進(jìn)行比較和匹配,判決的依據是失真測度最小準測,隨機模型法是使用隱馬爾可夫模型(HMM,HiddenMarkov Model)來(lái)對似然函數進(jìn)行估計與判決,從而得到相應的識別結果。而概率語(yǔ)法分析法利用連續語(yǔ)音中的語(yǔ)法約束知識來(lái)對似然函數進(jìn)行估計和判決,更適用于大規模連續語(yǔ)音識別。本文用小詞匯量的DTW方法。動(dòng)態(tài)時(shí)間規整(DTW)是采用動(dòng)態(tài)規劃(DP,DynamicProgramming)技術(shù),將一個(gè)復雜的全局最優(yōu)化問(wèn)題轉化為許多局部最優(yōu)化問(wèn)題DTW,一步一步地進(jìn)行決策。假設時(shí)間規整函數為:
其中,
表示時(shí)間規整函數中的第
個(gè)匹配點(diǎn)對
  這個(gè)匹配點(diǎn)對是由待測語(yǔ)音的第
個(gè)特征矢量和參考模板第
個(gè)特征矢量構成的,其中
兩者之間的距離(或失真值)稱(chēng)為局部匹配距離,記做
,處于最優(yōu)時(shí)間規整情況下兩矢量的距離稱(chēng)為全局匹配距離,記做
,表達式如下所示:

  由于DTW不斷地計算兩矢量的距離以尋找最優(yōu)的匹配路徑,所以得到的兩矢量的匹配距離是累計距離最小的規整函數,這就保證了它們之間存在最大的聲學(xué)相似特性。
  5 結束語(yǔ)
  在本語(yǔ)音識別系統中, 設定采樣率為11025Hz,幀數為300幀,幀長(cháng)為240點(diǎn),則最長(cháng)的語(yǔ)音段長(cháng)度不會(huì )超過(guò)300*240/11025=6.5秒。采樣樣本為男女各5個(gè)人的數碼語(yǔ)音資料, 實(shí)驗表明, 系統達到了較好的實(shí)時(shí)性和較高的識別率。由于Matlab功能強大, 在處理中可直接利用許多現成的函數, 編程方便, 結果可視化也容易實(shí)現。

參考文獻
[1]楊熙,蘇娟,趙鵬.MATLAB環(huán)境下的語(yǔ)音識別系統[J].電聲技術(shù),2007,31(2): 51-53.
[2]龍銀東,劉宇紅,敬嵐,等.在MATLAB環(huán)境下實(shí)現的語(yǔ)音識別[J]
  
本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
語(yǔ)音識別
matlab處理音頻信號
CTI論壇: 認準語(yǔ)音識別的“內核”
語(yǔ)音識別在家電遙控器中的應用
人機交互的語(yǔ)音識別技術(shù)
轉帖————關(guān)于怎么做matlab的com組件,被vc調用的例子
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久