
會(huì )議電視常用音頻協(xié)議介紹及對比白皮書(shū)
一、數字化音頻原理:聲音其實(shí)是一種能量波,因此也有頻率和振幅的特征,頻率對應于時(shí)間軸線(xiàn),振幅對應于電平軸線(xiàn)。通常人耳可以聽(tīng)到的頻率在20Hz到20KHz的聲波稱(chēng)為為可聽(tīng)聲,低于20Hz的成為次聲,高于20KHz的為超聲,多媒體技術(shù)中只研究可聽(tīng)聲部分。
可聽(tīng)聲中,話(huà)音信號的頻段在80Hz到3400Hz之間,音樂(lè )信號的頻段在20Hz-20kHz之間,語(yǔ)音(話(huà)音)和音樂(lè )是多媒體技術(shù)重點(diǎn)處理的對象。
由于模擬聲音在時(shí)間上是連續的,麥克風(fēng)采集的聲音信號還需要經(jīng)過(guò)數字化處理后才能由計算機處理。通常我們采用PCM編碼(脈沖代碼調制編碼),即通過(guò)采樣、量化、編碼三個(gè)步驟將連續變化的模擬信號轉換為數字編碼。
1、采樣
采樣,就是每隔一段時(shí)間間隔讀一次聲音的幅度。單位時(shí)間內采樣的次數稱(chēng)為采樣頻率。顯然采樣頻率越高,所得到的離散幅值的數據點(diǎn)就越逼近于連續的模擬音頻信號曲線(xiàn),同時(shí)采樣的數據量也越大。
為了保證數字化的音頻能夠準確(可逆)地還原成模擬音頻進(jìn)行輸出,采樣定理要求:采樣頻率必須大于等于模擬信號頻譜中的最高頻率的2倍。
常用的音頻采樣率有:8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz。
例如:話(huà)音信號頻率在0.3~3.4kHz范圍內,用8kHz的抽樣頻率(fs),就可獲得能取代原來(lái)連續話(huà)音信號的抽樣信號,而一般CD采集采樣頻率為44.1kHz。
2、量化
量化,就是把采樣得到的聲音信號幅度轉換成數字值,用于表示信號強度。
量化精度:用多少個(gè)二進(jìn)位來(lái)表示每一個(gè)采樣值,也稱(chēng)為量化位數。聲音信號的量化位數一般是 4,6,8,12或16 bits 。
由采樣頻率和量化精度可以知道,相對自然界的信號,音頻編碼最多只能做到無(wú)限接近,在計算機應用中,能夠達到最高保真水平的就是PCM編碼,通常PCM約定俗成了無(wú)損編碼。
3、編碼
一個(gè)采樣率為44.1kHz,量化精度為16bit,雙聲道的PCM編碼輸出,它的數據速率則為 44.1K×16×2 =1411.2Kbps,存儲一秒鐘需要176.4KB的空間,1分鐘則約為10.34M,因此,為了降低傳輸或存儲的費用,就必須對數字音頻信號進(jìn)行編碼壓縮。
到目前為止,音頻信號經(jīng)壓縮后的數碼率降低到32至256kbit/s,語(yǔ)音可以低至8kbit/s以下。
對數字音頻信息的編碼進(jìn)行壓縮的目的是在不影響人們使用的情況下使數字音頻信息的數據量最少。通常用如下6個(gè)屬性來(lái)衡量:
—比特率;
—信號的帶寬。
—主觀(guān)/客觀(guān)的語(yǔ)音質(zhì)量;
—延遲;
—計算復雜度和對存儲器的要求;
—對于通道誤碼的靈敏度;
為使編碼后的音頻信息可以被廣泛地使用,在進(jìn)行音頻信息編碼時(shí)需要采用標準的算法。傳統會(huì )議電視設備主要采用ITU-T推薦的G.711、G.722、G.728和AAC_LD等音頻標準。
二、常用音頻協(xié)議簡(jiǎn)介:1、
ITU-T G.728
1992年ITU-T發(fā)布的電話(huà)聲音信號編碼方式推薦標準。采用LD-CELP編碼方式,采樣率為8KHz,以16kb/秒的速度傳送聲音信號,傳送延遲時(shí)間極短,僅有0.625 ms 的算法編碼延遲。
2、
ITU-T G.711
標準公布于1972年,其語(yǔ)音信號編碼是非均勻量化PCM。語(yǔ)音的采樣率為8KHz,每個(gè)樣值采用8bit量化,輸出的數據率為64kbps。這種窄帶編碼支持對300到 3,400赫茲的音頻進(jìn)行壓縮。但雖然壓縮質(zhì)量不錯,但是消耗的帶寬相對較大,主要用于數字PBX/ISDN上的數字式電話(huà)。
3、
ITU-T G.722
ITU-TG.722標準是第一個(gè)用于 16 KHZ 采樣率的標準化寬帶語(yǔ)音編碼算法,1984年被CCITT定義為標準,而且現今還在使用。.G.722編解碼器在 16 kHz 頻率上接收 16 位數據(帶寬從 50 Hz 至 7 kHz),并將其壓縮為 64、56 與 48Kbit/s,其總延遲約 3 ms,能夠提供更好的通話(huà)質(zhì)量。
G.722的優(yōu)點(diǎn)是延時(shí)和傳輸位誤差率非常低,且沒(méi)有任何的專(zhuān)利技術(shù),費用低廉。因此G.722在無(wú)線(xiàn)通信系統,VoIP生產(chǎn)商,個(gè)人通信服務(wù),視頻會(huì )議應用等廣泛應用。
4、
G.722.1
G.722.1基于 Polycom 的第三代 Siren 7 壓縮技術(shù),1999年被ITU-T批準為G.722.1標準。G.722.1采用16 KHZ采樣頻率,16 位數據量化,支持從 50 Hz 至 7 kHz頻率范圍的音頻采樣,并將其壓縮為 32 與 24 Kbit/s。它采用20ms封幀,提供40ms的算法延遲。
G722.1可實(shí)現比 G.722 編解碼器更低的比特率以及更大的壓縮。目標是以大約一半的比特率實(shí)現與 G.722 大致相當的質(zhì)量。這種編碼使用許可需要獲得Polycom公司的授權。
5、
G722.1 Annex C
G722.1 Annex C基于 Polycom 的Siren 14 壓縮技術(shù), 采用32kHz采樣頻率,支持從 50 Hz 至 14 kHz頻率范圍的音頻采樣,并將其壓縮為 24、32或48 kbps。采用20ms封幀,提供40毫秒演算延遲。
2005年中,國際電信聯(lián)盟(ITU)批準Polycom Siren 14™
技術(shù)為14 kHz超寬帶音頻編碼新標準。同時(shí)進(jìn)入作為ITU-T建議的G.722.1 Annex C。
G722.1 Annex C具有低運算能力,低帶寬的優(yōu)點(diǎn)。適于處理語(yǔ)音、音樂(lè )與自然界聲音。
6、
AAC-LD
AAC(AdvancedAudioCoding,高級音頻編碼)是由Fraunhofer研究院(MP3格式的創(chuàng )造者)、杜比(DOLBY)試驗室和AT&T(美國電話(huà)電報公司)共同研發(fā)出的一種音頻壓縮格式,是MPEG-2規范的一部分,并在1997年3月成為國際標準。隨著(zhù)MPEG-4標準在2000年成型后,MPEG2AAC也被作為核心編碼技術(shù),并增加了一些新的編碼特性,又叫MPEG-4 AAC。
MPEG-4 AAC家族目前共有九種編碼規格,AAC-LD(Low Delay,低延遲規格)是用在低碼率下編碼。它支持8K~48K采樣率的,可以64Kbps的碼率輸出接近 CD 音質(zhì)的音頻,并支持多聲音通道,AAC-LD 算法延遲僅為 20ms。
AAC因為其模塊化設計,功能更為強大。本身的框架結構能夠被不斷的新的東西填充,這就使得不同發(fā)展方面的內核相互融合,彼此吸收精華成為可能。
7、
各種音頻協(xié)議的主要參數對比:
采樣頻率
支持音頻帶寬
輸出碼率
最低算法延遲
G711
8KHz
300 Hz ~ 3,400 Hz
64 Kbps
<1ms
G722
16kHz
50 Hz ~ 7 kHz
64 Kbps
3ms
G722.1
16kHz
50 Hz ~7 kHz
24、32 Kbps
40ms
G722.1 C
32kHz
50 Hz~14 kHz
24、32、48Kbps
40ms
AAC-LD
48kHz
20 Hz-20kHz
48~64 Kbps
20ms
三、AAC_LD與G722. Annex C優(yōu)缺點(diǎn)對比:
G722.1 C
AAC_LD
采樣音頻頻率范圍支持50 Hz~14 kHz,接近CD音質(zhì),但丟失了高頻部分。
支持20 Hz-20kHz全頻段的采樣,音頻更加接近CD音質(zhì)。
輸出碼率24、32、48Kbps,帶寬低于A(yíng)AC-LD,但是以犧牲高頻為代價(jià)的。
48~64 Kbps,并支持大于64Kbps的輸出,為更好的音頻質(zhì)量提供了可能。
算法復雜性算法復雜度低,CPU占用率略好于A(yíng)AC-LD
模塊化設計,功能更為強大,有TI等專(zhuān)用芯片支持
最低延遲采用20ms封幀,40ms算法延遲
20ms算法延遲,好于G722.1 C
多聲道可以支持雙聲道
AAC支持多達48個(gè)音軌、15個(gè)低頻音軌
標準通用性G722.1-C 由Polycom制定開(kāi)發(fā),使用需要Polycom授權,目前只有Polycom和極少數會(huì )議電視廠(chǎng)商使用。
作為MPEG4核心標準,受到Apple、諾基亞、松下等支持,并被泰德等眾多會(huì )議電視廠(chǎng)商所采用,應用前景更廣闊。
由Fraunhofer研究院的調查對比圖可以知道,在相同的采樣頻率下,AAC-LD可以提供比G722.1C、MP3等更好的音質(zhì)。AAC-LD實(shí)現了超寬頻音頻編碼中最短的延時(shí),并保證接近CD的音質(zhì),達到音質(zhì)、比特率和延時(shí)三者的最佳組合,是會(huì )議電視領(lǐng)域的最優(yōu)選擇。
此文章來(lái)自:中國視訊論壇 http://www.vctech.cn/,原文地址:http://www.vctech.cn/viewthread.php?tid=3913
聯(lián)系客服