欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
Mel倒譜系數

Mel倒譜系數:MFCC


 


Mel頻率倒譜系數(Mel Frequency Cepstrum Coefficient)的縮寫(xiě)是MFCC,Mel頻率是基于人耳聽(tīng)覺(jué)特性提出來(lái)的,它與Hz頻率成非線(xiàn)性對應關(guān)系。Mel頻率倒譜系數(MFCC)則是利用它們之間的這種關(guān)系,計算得到的Hz頻譜特征。


 


用錄音設備錄制一段模擬語(yǔ)音信號后,經(jīng)由自定的取樣頻率(如8000 Hz、16000 Hz等)采樣后轉換(A/D)為數字語(yǔ)音信號。由于在時(shí)域(time domain)上語(yǔ)音信號的波形變化相當快速、不易觀(guān)察,因此一般都會(huì )在頻域(frequency domain)上來(lái)觀(guān)察,其頻譜是隨著(zhù)時(shí)間而緩慢變化的,因此通??梢约僭O在一較短時(shí)間中,其語(yǔ)音信號的特性是穩定的,通常我們定義這個(gè)較短時(shí)間為一幀(frame),根據人的語(yǔ)音的音調周期值的變化,一般取10~20ms。


 


Mel-frequency cepstrum coefficient


作用:和線(xiàn)性預測倒譜系數LPCC一起用于描述語(yǔ)音特征的參數:能量,基音頻率,共振峰值等。


詳解幾個(gè)概念:


1.Mel頻率:



是模擬人耳對不同頻率語(yǔ)音的感知。


人類(lèi)對不同頻率語(yǔ)音有不同的感知能力:對1kHz以下,與頻率成線(xiàn)性關(guān)系,對1kHz以上,與頻率成對數關(guān)系。頻率越高,感知能力就越差了。因此,在應用中常常只使用低頻MFCC,而丟棄中高頻MFCC。


在Mel頻域內,人對音調的感知能力為線(xiàn)性關(guān)系,如果兩段語(yǔ)音的Mel頻率差兩倍,則人在感知上也差兩倍。 轉換公式:B(f)=1125ln(1+f/700) 其中f為頻率,B為Mel-頻率。



2.倒譜:


同態(tài)處理的結果,分為復數和實(shí)數倒譜,常用實(shí)數倒譜,是語(yǔ)音識別中的重要系數。



具體過(guò)程:傅里葉變換----->對數運算----->傅里葉反變換。


語(yǔ)音的產(chǎn)生用源、濾波器模型來(lái)表示,即把聲帶振動(dòng)看作激勵源e(n),把聲道看成一個(gè)濾波器h(n),兩者在時(shí)域進(jìn)行卷積,得到語(yǔ)音信號s(n)。為了更好地處理語(yǔ)音,則需要分析s(n)以分別得到e(n)和h(n),這個(gè)過(guò)程稱(chēng)為解卷過(guò)程。abs(DFT)、Log、IDFT三步為一個(gè)卷積同態(tài)信號處理系統,經(jīng)過(guò)這三步之后,倒譜域上
s\'(n)=e\'(n)+h\'(n)
激勵源和信道已經(jīng)變成了相加的關(guān)系,這時(shí)候通過(guò)一個(gè)倒濾波器,即圖中的Cepstral Liftering,就可以把激勵源和信道分開(kāi)了。


3.提取流程 (摘):


MFCC參數的提取包括以下幾個(gè)步驟:


1. 預濾波:CODEC(所謂Codec,就是編碼-解碼器“Coder-Decoder”的縮寫(xiě)。說(shuō)得通俗一點(diǎn),對于音頻就是A/D和D/A轉換。)前端帶寬為300-3400Hz(語(yǔ)音能量主要集中在250~4500Hz)。的抗混疊濾波器。


工程測量中采樣頻率不可能無(wú)限高也不需要無(wú)限高,因為一般只關(guān)心一定頻率范圍內的信號成份。為解決頻率混疊,在對模擬信號進(jìn)行離散化采集前,采用低通濾波器濾除高于1/2采樣頻率的頻率成份。實(shí)際儀器設計中,這個(gè)低通濾波器的截止頻率(fc) 為:


 

  截止頻率(fc)= 采樣頻率(fs) / 2.56


2. A/D變換:8kHz的采樣頻率,12bit的線(xiàn)性量化精度。


3. 預加重:通過(guò)一個(gè)一階有限激勵響應高通濾波器,使信號的頻譜變得平坦,不易受到有限字長(cháng)效應的影響。


許多實(shí)際的消息信號,例如語(yǔ)言、音樂(lè )等,它們的功率譜隨頻率的增加而減小,其大部分能量集中在低頻范圍內。這就造成消息信號高頻端的信噪比可能降到不能容許的程度。但是由于消息信號中較高頻率分量的能量小,很少有足以產(chǎn)生最大頻偏的幅度,因此產(chǎn)生最大頻偏的信號幅度多數是由信號的低頻分量引起。平均來(lái)說(shuō),幅度較小的高頻分量產(chǎn)生的頻偏小得多。所以調頻信號并沒(méi)有充分占用給予它的帶寬。因為調頻系統的傳輸帶寬是由需要傳送的消息信號(調制信號)的最高有效頻率和最大頻偏決定的。然而,接收端輸入的噪聲頻譜卻占據了整個(gè)調頻帶寬。這就是說(shuō),在鑒頻器輸出端噪聲功率譜在較高頻率上已被加重了。 為了抵消這種不希望有的現象,在調頻系統中人們普遍采用了一種叫做預加重和去加重措施,其中心思想是利用信號特性和噪聲特性的差別來(lái)有效地對信號進(jìn)行處理。即在噪聲引入之前采用適當的網(wǎng)絡(luò )(預加重網(wǎng)絡(luò )),人為地加重(提升)發(fā)射機輸入調制信號的高頻分量。然后在接收機鑒頻器的輸出端,再進(jìn)行相反的處理,即采用去加重網(wǎng)絡(luò )把高頻分量去加重,恢復原來(lái)的信號功率分布。在去加重過(guò)程中,同時(shí)也減小了噪聲的高頻分量,但是預加重對噪聲并沒(méi)有影響,因此有效地提高了輸出信噪比。


4. 分幀:根據語(yǔ)音的短時(shí)平穩特性,語(yǔ)音可以以幀為單位進(jìn)行處理,實(shí)驗中選取的語(yǔ)音幀長(cháng)為32ms,幀疊為16ms。


5. 加窗:采用哈明窗對一幀語(yǔ)音加窗,以減小吉布斯效應的影響。


吉布斯現象Gibbs phenomenon(又叫吉布斯效應): 將具有不連續點(diǎn)的周期函數(如矩形脈沖)進(jìn)行傅立葉級數展開(kāi)后,選取有限項進(jìn)行合成。當選取的項數越多,在所合成的波形中出現的峰起越靠近原信號的不連續點(diǎn)。當選取的項數很大時(shí),該峰起值趨于一個(gè)常數,大約等于總跳變值的9%。這種現象稱(chēng)為吉布斯現象。


6. 快速傅立葉變換(Fast Fourier Transformation, FFT):將時(shí)域信號變換成為信號的功率譜。


 


7. 三角窗濾波:用一組Mel頻標上線(xiàn)性分布的三角窗濾波器(共24個(gè)三角窗濾波器),對信號的功率譜濾波,每一個(gè)三角窗濾波器覆蓋的范圍都近似于人耳的一個(gè)臨界帶寬,以此來(lái)模擬人耳的掩蔽效應。


 


8. 求對數:三角窗濾波器組的輸出求取對數,可以得到近似于同態(tài)變換的結果。


9. 離散余弦變換(Discrete Cosine Transformation, DCT):去除各維信號之間的相關(guān)性,將信號映射到低維空間。


10. 譜加權:由于倒譜的低階參數易受說(shuō)話(huà)人特性、信道特性等的影響,而高階參數的分辨能力比較低,所以需要進(jìn)行譜加權,抑制其低階和高階參數。


11. 倒譜均值減(Cepstrum Mean Subtraction, CMS):CMS可以有效地減小語(yǔ)音輸入信道對特征參數的影響。 
12. 差分參數:大量實(shí)驗表明,在語(yǔ)音特征中加入表征語(yǔ)音動(dòng)態(tài)特性的差分參數,能夠提高系統的識別性能。在本系統中,我們也用到了MFCC參數的一階差分參數和二階差分參數。 
13. 短時(shí)能量:語(yǔ)音的短時(shí)能量也是重要的特征參數,本系統中我們采用了語(yǔ)音的短時(shí)歸一化對數能量及其一階差分、二階差分參數。


 總結如下:


Mel頻率倒譜系數(MFCC)參數的提取步驟


(1) 預加重(pre-emphasis)


將經(jīng)采樣后的數字語(yǔ)音信號s(n)通過(guò)一個(gè)高通濾波器(high pass filter): H(z)= 1 – a×z -1 , 0.9  a  1.0 (一般取0.95左右)。經(jīng)過(guò)預加重后的信號為: (n)= s(n)– a×s(n-1)。 因為發(fā)聲過(guò)程中聲帶和嘴唇的效應,使得高頻共振峰的振幅低于低頻共振峰的振幅,進(jìn)行預加重的目的就是為了消除聲帶和嘴唇的效應,來(lái)補償語(yǔ)音信號的高頻部分。


(2) 分幀(frame blocking)


一般取10-20ms為一幀,為了避免窗邊界對信號的遺漏,因此對幀做偏移時(shí)候,要有幀迭(幀與幀之間需要重疊一部分)。一般取幀長(cháng)的一半作為幀移,也就是每次位移一幀的二分之一后再取下一幀,這樣可以避免幀與幀之間的特性變化太大。


(3) 計算短時(shí)能量(energy)


短時(shí)能量代表著(zhù)音量的高低,亦即聲音振幅的大小,可以根據此能量的值來(lái)過(guò)濾掉語(yǔ)音信號中的一些細微噪聲。當一幀的能量值低于我們定的門(mén)檻值(threshold)時(shí),則將此幀作為靜音段(silence)。


(4) 加窗(hamming window)


語(yǔ)音在長(cháng)范圍內是不停變動(dòng)的,沒(méi)有固定的特性無(wú)法做處理,所以將每一幀代入窗函數,窗外的值設定為0,其目的是消除各個(gè)幀兩端可能會(huì )造成的信號不連續性。常用的窗函數有方窗、漢明窗和漢寧窗等,根據窗函數的頻域特性,常采用漢明窗。公式是在加窗范圍內,w(n)=0.54-0.46*cos(2*pi*n/(n-1))。


(5) 快速傅立葉變換(FFT transform)


由于語(yǔ)音信號在時(shí)域上的變化快速而不穩定,所以通常都將它轉換到頻域上來(lái)觀(guān)察,此時(shí)它的頻譜會(huì )隨著(zhù)時(shí)間作緩慢的變化。所以通常將加窗后的幀經(jīng)過(guò)FFT (Fast Fourier Transform)求出每幀的頻譜參數。


(6) 三角形帶通濾波器(triangular band-pass filter)


將每幀的頻譜參數通過(guò)一組N個(gè)三角形帶通濾波器(N一般為20~30個(gè))所組成的梅爾刻度濾波器,將每個(gè)頻帶的輸出取對數,求出每一個(gè)輸出的對數能量(log energy),k = 1,2,… N。 再將此N個(gè)參數進(jìn)行余弦變換(cosine transform)求出L階的Mel-scale cepstrum參數。

本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
語(yǔ)音特征參數MFCC提取過(guò)程詳解
MFCC特征提取及MATLAB代碼分析(一)
mfcc
MFCC詳細步驟及解析
語(yǔ)音特征參數MFCC的提取及識別
聲音特征提?。篗FCC向量
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久