| 引言 MP3是現在非常流行的一種數字音頻的壓縮技術(shù),它能夠用12:1的壓縮比將高保真的數字音頻進(jìn)行壓縮,使得一張MP3光盤(pán)上能夠放下十幾張激光唱片的歌曲,而保證回放質(zhì)量依然和激光唱盤(pán)一樣?,F在不光是計算機能夠播放MP3,國內不少超級VCD廠(chǎng)家也紛紛推出了具有播放MP3碟片功能的超級VCD。下面綜合一些外文資料,對MP3做一些簡(jiǎn)單地介紹。 目錄 MP3的歷史 聲音質(zhì)量 感知音頻編碼的基礎 MP3的常見(jiàn)問(wèn)題 MP3的歷史 1987年,IIS開(kāi)始在EUREKA項目EU147框架下的數字聲音廣播(DAB)中的感知音頻編碼問(wèn)題上進(jìn)行研究工作。在Erlangen大學(xué)(Dieter Seitzer教授)的協(xié)作下,最終IIS設計出了一個(gè)非常好的,壓縮比很大的算法,這就是后來(lái)被指定為ISO-MPEG音頻壓縮第三層(MP3)標準的算法。(IS 11172-3 and IS 13818-3)。 沒(méi)有數據的損失,典型的數字音頻信號由高于實(shí)際音頻帶寬(如激光唱盤(pán)采用44.1kHz)兩倍以上的采樣頻率所采集的樣本記錄組成。所以你最終需要用1.400M位的空間來(lái)表示具有CD聲音質(zhì)量的立體聲音樂(lè )中僅僅一秒的內容。通過(guò)使用MPEG音頻編碼,你可以用1:12的壓縮比來(lái)大大縮減CD上的原始聲音數據而不會(huì )影響聲音質(zhì)量。即使是1:24甚至更高的壓縮比也依然能夠保持聲音質(zhì)量,比你靠降低采樣頻率來(lái)獲得你的樣本要好的多?;旧?,這由從事人耳能感知的聲音波形的感知編碼技術(shù)所實(shí)現。 利用MPGE音頻,你可以得到很好的數據壓縮而依然保持CD聲音質(zhì)量的原樣。 | 1:4 | 第一層(符合384kbps立體聲信號) | | 1:6…1:8 | 第二層(符合256..192kbps立體聲信號) | | 1:10…1:12 | 第三層(符合128..112kbps立體聲信號) | 為了加強立體聲效果和限制音頻帶寬,編碼計劃應該在一個(gè)足夠低的位速率(bitrates)下達到一個(gè)能接受的聲音質(zhì)量。MPEG第三層是MPEG音頻編碼家族中壓縮功能最強的一個(gè)成員。對一個(gè)給定的音頻質(zhì)量水平,他只要求最低的位速率或者一個(gè)給定的位速率,就能達到最高的音頻質(zhì)量。 聲音質(zhì)量 一些MPEG第三層數據的典型性能: | 聲音質(zhì)量 | 帶 寬 | 模 式 | 位速率 | 壓縮比 | | 電話(huà)聲音 | 2.5kHz | 單聲道 | 8kbps* | 96:1 | | 高于短波的質(zhì)量 | 4.5kHz | 單聲道 | 16kbps | 48:1 | | 高于調幅的質(zhì)量 | 7.5kHz | 單聲道 | 32kbps | 24:1 | | 類(lèi)似調頻廣播 | 11kHz | 立體聲 | 56..64kbps | 26..24:1 | | 接近CD | 15kHz | 立體聲 | 96kbps | 16:1 | | CD質(zhì)量 | >15kHz | 立體聲 | 112..128kbps | 14..12:1 | *使用的非ISO的MPEG第三層來(lái)提高壓縮質(zhì)量(MPEG 2.5) 在所有的國際收聽(tīng)測試中,MPEG第三層在1:12的壓縮比下(每一個(gè)聲道64kbps)依然保持原始的聲音質(zhì)量,充分證明了他的高超性能。如果應用系統能夠容忍10kHz的帶寬限制,那么可以采用1:24的壓縮比來(lái)獲得立體聲信號的聲音質(zhì)量。 對于象每聲道60kbps位速率的廣播應用系統那樣要采用低位速率的應用的地方,ITU-R推薦使用MPEG第三層(ITU-R doc.BS.1115)。 感知音頻編碼的基礎 導言 音頻壓縮、音頻編碼和音頻解碼這幾個(gè)概念目前定義還有些混亂,這一部分將對音頻編碼究竟是什么做一個(gè)簡(jiǎn)要地介紹。 音頻壓縮的目的 直到音頻壓縮出現以前,高品質(zhì)的數字音頻數據要耗費很多的磁盤(pán)空間來(lái)存儲或者要更多的頻道帶寬來(lái)傳輸。 我們來(lái)看一個(gè)小例子。你想把把你喜歡的一首一分鐘長(cháng)的歌采樣下來(lái)并存儲到你的硬盤(pán)上。你希望獲得的是CD那樣的音樂(lè )品質(zhì),所以你要采用44.1kHz的采樣頻率,立體聲,量化精度采用每個(gè)樣本16位來(lái)表示。 44.1kHz意味著(zhù)每秒將有44,100個(gè)值從你的聲卡或聲音文件中傳進(jìn)來(lái),由于是雙聲道立體聲,所以要乘以2,由于量化精度是16位,也就是兩個(gè)字節,所以還要再乘一個(gè)2,于是這首歌要用你磁盤(pán)上 44,100樣本/秒*2頻道*2字節/樣本*60秒/分鐘 = 大約10M字節 的存儲空間.如果你要從因特網(wǎng)上下載,假如調制解調速率是28.800,他將耗費你 10,000,000字節*8位/字節/(28.800位/秒*60秒/分) = 大約49分鐘。 僅僅為了下載一分鐘的立體聲音樂(lè ) 數字音頻編碼(本文中他和數字音頻壓縮是同一個(gè)概念)是音頻數據所需要的壓縮存儲空間或頻道帶寬的壓縮藝術(shù)?,F代感知音頻編碼技術(shù)(如MPEG 第三層或MPEG-2 AAC)能夠用12:1的壓縮比來(lái)大幅度縮減數據量而不損失或者只是很小地損失了聲音能夠感知的質(zhì)量,其失真度是人耳所不能(或不易)察覺(jué)的。 因此,這種方案是高質(zhì)量低位速率的應用的技術(shù)關(guān)鍵。這種應用包括CD-ROM游戲的聲音軌道,聲音晶體存儲器,因特網(wǎng)聲音,數字音頻廣播系統等。 音頻壓縮的兩個(gè)部分 音頻壓縮確實(shí)包括兩個(gè)部分。第一個(gè)部分是編碼,他將用WAVE文件表示的聲音信號轉變成高壓縮形式的位流或音頻數據編碼。如果要在聲卡上播放這個(gè)位流,你需要第二個(gè)部分—解碼部分。解碼將處理位流使得他還原成WAVE文件。 如何工作的? 高效率的編碼在于去掉冗余信號以及人的聽(tīng)音系統并不能感受到的頻率范圍中的不必要的信號。 所有的編碼器用相同的基本結構。編碼方案可以描述成“感知噪音形態(tài)”或“感知子帶(subband)/變換編碼”。編碼器通過(guò)對聲音信號的光譜組成分析,計算出轉換的過(guò)濾帶,并且通過(guò)一個(gè)心理分析模型,來(lái)估計出剛好能被人感知的噪音的級別。在他的量化和編碼進(jìn)程中,編碼器試圖分配適當的數據位數量,使得在某種程度上能夠符合位速率和需求屏蔽的需要。 解碼器的復雜度要小的多。他唯一的任務(wù)就是根據光譜組成的編碼,合成聲音信號。 壓縮比,位速率和質(zhì)量 這些問(wèn)題只到現在還沒(méi)有明確論及:在編碼和解碼之后得到的最終聲音文件不再和以前的聲音文件一樣了,因為所有的多余信息(精確一點(diǎn)講是聲音信號中的多余部分和人無(wú)法感知到的無(wú)關(guān)部分)都被排除掉了。重新組合出來(lái)的WAVE文件和原始的WAVE文件是有區別的,但是他們的聲音是同樣的。區別的大小要看他的壓縮比如何了。 因為壓縮比在某種情況下是比較難度量的,所以在討論對聲音的壓縮能力的時(shí)候專(zhuān)家采用位速率的概念。位速率表示一秒鐘聲音數據將要使用的平均位數量。位速率通常的單位是kbps,即每秒多少k位(1k=1024)。 對于CD中的數字音頻信號,其位速率是1411.2kbps。近似CD的聲音質(zhì)量采用了96kbps。 MP3常見(jiàn)問(wèn)題 問(wèn):是的,MP3顯然是很多應用的關(guān)鍵。那MP3有什么局限性呢? 答:MP3是感知音頻編碼的方案,他是為人耳設計的一種聲音工具,他力圖維持原始聲音質(zhì)量。 相比較而言,專(zhuān)門(mén)的語(yǔ)音多媒體數字信號編碼器是嗓音領(lǐng)域的一種工具,他要力圖維持語(yǔ)音信號的可理解度。高級的語(yǔ)音編碼方案(比如CS-ACELP[LD-CELP]被ITU規定為標準化為G.723.1[G.728])在低到5.3kbps的位速率下達到了可用的語(yǔ)音再復制,其多媒體數字信號編碼器的延遲低于40ms。在這樣低的位速率下,他們的在純語(yǔ)音信號處理中表現要比MP3好,他們提供的低延遲很適合完全的語(yǔ)音通話(huà)場(chǎng)合。 在MPEG-4方案中,一種綜合處理語(yǔ)音信息和感知音頻編碼的可升級的方案被設計出來(lái)。 問(wèn):你提出的多媒體數字信號編碼器,我可以了解的更多一點(diǎn)嗎? 答:標準中給出了一些理論上的最小延遲: - 第一層:19ms(<50ms)
- 第二層:35ms(100ms)
- 第三層:59ms(150ms)
實(shí)際值要比理論值大。由于實(shí)際值依賴(lài)于具體的執行,所以不了能給出精確值。括號內的值只是一個(gè)大概的數值,真正的多媒體數字信號編碼將顯示更高的器值。一般只有特定的應用不能忍受這種延遲,如遠程通訊中的反饋鏈。對大多數其他應用對這種延遲都能容忍。 問(wèn):什么是MPEG? 答:MPEG是“運動(dòng)圖像專(zhuān)家組”(Moving Picture Experts Group)在國際標準化組織(ISO)和國際電工委員會(huì )的聯(lián)合指導下開(kāi)展工作。這個(gè)小組的工作主要針對運動(dòng)圖像和音頻的編碼標準。MPEG有他自己的主頁(yè),提供關(guān)于這個(gè)標準的很多方面的信息。 問(wèn):MPEG-3和MPEG第三層是一樣的嗎? 答:不一樣。第三層是一個(gè)功能強大的編碼方案他是MPEG標準中的一個(gè)。第三層是已經(jīng)有的幾個(gè)國際標準中關(guān)于聲音的一個(gè),這幾個(gè)標準還包括MPEG-1和MPEG-2。但是并沒(méi)有所謂的MPEG-3的定義。 問(wèn):如何得到MPEG文檔? 答:你可以到ISO站點(diǎn)上去查詢(xún)。 問(wèn):有可用的公共C語(yǔ)言源代碼嗎? 答:在很多站點(diǎn)上有公共C語(yǔ)言源代碼,比如ftp://ftp.iis.fhg.de/pub/layer3/public c/。這個(gè)代碼僅僅只是為了說(shuō)明問(wèn)題,所以不要指望他有多好的性能。 問(wèn):談?wù)撽P(guān)于MPEG音頻,我總是聽(tīng)到“第一、二、三層”。他們是什么意思? 答:MPEG描述的是用高性能的感知編碼方案進(jìn)行的音頻信號的壓縮。在這個(gè)音頻編碼方案家族中有三個(gè)方案,簡(jiǎn)稱(chēng)為第一層、第二層和第三層。從第一層到第三層,編碼器的復雜度和性能(每位速率的聲音質(zhì)量)都在提高。 這三種多媒體數字信號編碼器在分層結構上是兼容的,也就是說(shuō)第N層的解碼器可以解碼第N層和低于N層的編碼器編碼的位流。 問(wèn):我們有了3個(gè)聲音編碼方案的家族,那MPEG的準確定義是什么? 答:對于每一層,標準詳細說(shuō)明了位流的格式和解碼器。為了適應以后的發(fā)展,他沒(méi)有特別定義編碼器,但是每一層都有一個(gè)章節給出編碼器實(shí)現的一個(gè)例子。 問(wèn):這三個(gè)音頻層次的共同點(diǎn)是什么? 答:所有的層次用相同的基本結構。編碼方案可以描述成“感知噪音形態(tài)”或“感知子帶(subband)/變換編碼”。編碼器通過(guò)對聲音信號的光譜組成分析,計算出轉換的過(guò)濾帶,并且通過(guò)一個(gè)心理分析模型,來(lái)估計出剛好能被人感知的噪音的級別。在他的量化和編碼進(jìn)程中,編碼器試圖分配適當的數據位數量,使得在某種程度上能夠符合位速率和需求屏蔽的需要。 解碼器的復雜度要小的多。他唯一的任務(wù)就是根據光譜組成的編碼,合成聲音信號。 所有的層用相同的分析過(guò)濾帶(有32個(gè)子帶的多個(gè)相)。第三層加上一個(gè)MDCT轉換來(lái)增加頻率分析。所有的層在其位流中用相同的信號頭,以支持標準的層次結構。 所有的層有相似的位錯誤敏感;都支持在他們的音頻數據位流中增加和程序相關(guān)聯(lián)的信息;都用32,44.1或者48kHz采樣頻率;都允許在相似的位速率下工作(第一層從32kbps到448kbps;第二層32kbps到384kbps;第三層從32kbps到320kbps) 問(wèn):從全局看,這三層之間的主要區別是什么? 答:從第一層到第三層,復雜程度在增加(主要是編碼器上),總體上看,多媒體數字信息編碼器的延遲時(shí)間在增加,性能也在增長(cháng)(每個(gè)位速率的聲音質(zhì)量)。 問(wèn):在音頻部分,MPEG-1和MPEG-2之間的主要區別是什么? 答:MPEG-1和MPEG-2用同一個(gè)家族的聲音多媒體數字信息編碼器,不管是第一層,第二層還是第三層。MPEG-2的新的音頻特性是“低采樣頻率的擴展”和“多聲道擴展”。“低采樣頻率的擴展”是指為那些限制了帶寬需求的位速率非常低的應用系統服務(wù)的場(chǎng)合,新的采樣頻率是16,22.05或24kHz,位速率擴展到8kbps以下。“多聲道擴展”是指服務(wù)于那些擁有5個(gè)主要聲道(左、右、中置、左環(huán)繞和右環(huán)繞)的環(huán)繞聲系統,有的環(huán)繞聲系統甚至還要額外加一個(gè)低頻增進(jìn)聲道來(lái)處理低頻音信號,對這種系統,“多聲道擴展”允許包含直至7個(gè)聲道。 問(wèn):所有的兼容是相互的嗎? 答:或多或少有一點(diǎn)。說(shuō)有,是基于低采樣頻率的擴展上說(shuō)的。顯然,一個(gè)純粹的MPEG-1解碼器不能處理新的采樣頻率。 問(wèn):你的意思是兼容?包括所有額外的聲道?請解釋。 答:在MPEG-2的定義階段,兼容性是個(gè)主要的課題。主要的思想是采用和MPEG-1一樣的基本位流格式,主要的數據域象以前那樣運載左右聲道的信號,附加的數據域運載擴展的多聲道信息。在細節上沒(méi)有什么太大的區別,在這里有兩個(gè)術(shù)語(yǔ)要做解釋?zhuān)?/span>“向前兼容”:MPEG-2的解碼器可以接受MPEG-1的音頻位流(他只有單聲道或雙聲道);“向后兼容”:MPEG-1的解碼器至少能夠解碼MPEG-2的音頻位流中的主數據域的兩個(gè)聲道的信息,而MPEG-2的音頻位流矩陣能夠將環(huán)繞信息溶入到左右聲道中,其方法是:左聲道=左聲道信號+a*中置信號+b*左環(huán)繞信號;右聲道=右聲道信號+a*中置信號+b*右環(huán)繞信號。這樣MPEG-1解碼器就能夠全面地再現所有5個(gè)聲道的信息了。一個(gè)MPEG-2解碼器用多聲道擴展信號(多余3個(gè)的音頻信號)來(lái)再現5個(gè)環(huán)繞信道。 問(wèn):在你的腳注中,你指出為了在比如8kbps的單聲道這樣極低的位速率下能獲得很好的性能,你們采用了一種叫MPEG2.5的非ISO擴展的多媒體數字信號解碼器,對這一點(diǎn)你有什么說(shuō)明的嗎? 答:哦,是的,作為低采樣頻率的擴展,MPEG-2標準允許位速率低到8kbps。在這樣低的位速率下,有效的音頻帶寬被限制了,比如到3kHz,因此實(shí)際的采樣頻率可以下降,比如到8kHz。采樣頻率越低,頻率的解析就越好,相反,時(shí)間解析就越差,而控制信號和在位流格式中的音頻有效載荷之間的比值就越好。由于MPEG-2標準定義16kHz作為最低的采樣頻率,我們建議更多的擴展應該建立在對MPEG-2的采樣頻率不斷2分的基礎上,也就是說(shuō)我們建議8,11.025和12kHz,我們稱(chēng)這種擴展為MPEG2.5。 問(wèn):我看了你關(guān)于“類(lèi)似CD”性能的說(shuō)明,你說(shuō),在第一層數據壓縮比可以達到4:1(或者384kbps的總位速率),在第二層壓縮比為6..8:1(或256..192kbps總位速率),在第三層壓縮比為12..14:1(或128..112kbps總位速率),你能更詳細低解釋一下嗎? 答:好的,每一個(gè)層次都在一定的程度上有所改進(jìn)。最簡(jiǎn)單的形式是第一層,他主要是針對DCC(數字小型盒式錄音機)來(lái)設計的,主要采用384kbps。第二層是針對復雜性和性能均衡來(lái)設計的。他能夠在位速率下降到192kbps的情況下保證聲音質(zhì)量。再往下聲音質(zhì)量就會(huì )受到影響。而第三層正是從此開(kāi)始專(zhuān)為低位速率設計的,他在第二層的基礎上增加了一些“高級的特色”:頻率的解析提高了18倍,這使得第三層的編碼器能夠在屏蔽極限內更好地適應量化噪音。只有第三層采用熵編碼來(lái)更好的減少冗余,也只有第三層采用一個(gè)位蓄積來(lái)減少人為的因素,同時(shí)第三層采用更先進(jìn)聯(lián)合立體聲編碼方案。 問(wèn):哦?,F在請告訴我們更多的有關(guān)聲音質(zhì)量的東西,你們如何評定聲音質(zhì)量的? 答:現在不可選擇的要用昂貴的聽(tīng)音測試了。在ISO-MPEG制定過(guò)程中,一個(gè)由很多經(jīng)過(guò)訓練的試聽(tīng)者組織的一系列國際性的聽(tīng)音測試已經(jīng)進(jìn)行過(guò)了。所有的這些測試采用了“三元刺激,隱蔽鑒定”的方法和“CCIR(國際無(wú)線(xiàn)電咨詢(xún)委員會(huì ))損傷等級”來(lái)評估聲音的質(zhì)量。聽(tīng)力序列采用“ABC”,A=原始的,BC=一對原始/編碼信號的隨機序列,試聽(tīng)者必須用一個(gè)1.0到5.0之間的數對A和B進(jìn)行評估。這個(gè)值的含義是5.0=透明(這就是原始數據),4.0=可察覺(jué)的,但不讓人討厭的(第一個(gè)能注意到的差別),3.0=稍微討厭點(diǎn)的,2.0=討厭的,1.0=非常討厭的。 問(wèn):聽(tīng)音測試確實(shí)非常昂貴,他真的不可選擇嗎? 答:至少現在是這樣的。以后也許不一樣。為了對感知的多媒體數字信號編碼器進(jìn)行聲音質(zhì)量評定,所有常規的“質(zhì)量”參數(如信噪比,失真度,帶寬)就無(wú)效了,只要多媒體數字信號編碼器的引入噪音和失真不影響感覺(jué)聲音的質(zhì)量就行。所以聽(tīng)音測試是必須的,而且如果精心準備和執行,他們能得到可靠的結果。 然而,IIS也在致力于聲音質(zhì)量評估工具的標準和發(fā)展的研究。并且有了第一個(gè)可用的產(chǎn)品,一個(gè)實(shí)時(shí)衡量工具能夠精細地提供對感知聲音多媒體數字信息編碼器的分析。 問(wèn):好的,回到聽(tīng)音測試和性能評估上來(lái),下面告訴我們一些有關(guān)結果 答:你可能要學(xué)習很多關(guān)于AES文件和MPEG文檔的細節的知識。對于MPEG第三層,主要結果是他總能在低位速率(每聲道64kbps或更低)下獲得好的性能。還不止這個(gè),雖然第三層采用和第二層一樣的工具集,但是有了一些針對非常低位速率的譯碼附加的高級譯碼特性。一個(gè)很好的例子是ISO-MPEG聽(tīng)音測試94年9月在日本完成的(doc. ISO/IEC JTC1/SC29/WG11 N0848, 11, Nov. 94)。另一個(gè)有趣的結果是ITU-R內部的TG 10/2任務(wù)小組得出的結論,他們在數字聲音廣播應用系統建議使用低位速率的音頻譯碼。(ITU doc. BS. 1115)。 問(wèn):很有意思!能更詳細的談?wù)勥@一建議嗎? 答:TG 10/2任務(wù)小組在93年10月完成的這個(gè)任務(wù)。該建議定義了三個(gè)領(lǐng)域的廣播應用,建議每頻道180kbps的第二層應用于發(fā)行和投稿領(lǐng)域(20kbps帶寬,能在5層的多媒體數字信號編碼器中聽(tīng)不到任何損傷),建議每頻道128kbps的第二層應用于發(fā)射領(lǐng)域(20kHz帶寬),建議MPEG第三層使用60(120)kbps應用于單聲道(立體聲)信號于實(shí)況報道領(lǐng)域(15kHz帶寬)。 問(wèn):在哪能得到更多的信息? 答:在大約10年之間,感知音頻編碼在很多的學(xué)術(shù)會(huì )議上是一個(gè)長(cháng)久的話(huà)題:例如AES(音頻工程協(xié)會(huì ))組織每年兩次的常規會(huì )議。你將發(fā)現下列有幫助的論文: |