一.音頻基礎學習
1.1 聲音是怎么產生的?
認識聲音
振動的物體能使鄰近的空氣分子振動,這些分子又引起它們鄰近的空氣分子振動,從而產生聲音(Sound),聲音以聲波的形式傳遞,這種傳遞過程叫聲輻射(Sound Radiation)。聲波僅存在于聲源周圍的媒質中,沒有空氣的空間里不可能有聲波。聲音不僅可在空氣內傳遞,也可在水、土、金屬等物體內傳遞。聲音在空氣中的傳播速度為340m/s(15℃時)。
聲音三要素
- 響度
- 響度,又稱聲強或音量,它表示的是聲音能量的強弱程度,主要取決于聲波振幅的大小。
- 響度度是聽覺的基礎
- 聽力可及的音域,是從20HZ—20000HZ之間;而能承受的音壓的范圍是從0dB(分貝)到120dB(分貝)之內.
聲音 | 聲音的強弱(dB) | 聽覺效果(感覺) |
---|---|---|
樹葉微動 | 10 | 寂靜 |
輕聲交談 | 20~30 | 安靜 |
正常說話 | 40~50 | 正常 |
大聲呼喊 | 70~80 | 較吵 |
汽車喇叭 | 90 | 很響 |
載重汽車 | 100~110 | 震耳 |
飛機發動機 | 120~130 | 疼痛難忍 |
- 音調
- 音高也稱音調,表示人耳對聲音調子高低的主觀感受。
- 客觀上音高大小主要取決于聲波基頻的高低,頻率高則音調高,反之則低,單位用赫茲(Hz)表示
- 根據人耳對音高的實際感受,人的語音頻率范圍可放寬到80Hz-12kHz,樂音較寬,效果音則更寬。
- 音色
- 音色又稱音品。聲音波形的基頻所產生的聽得最清楚的音稱為基音,各次諧波的微小振動所產生的聲音稱泛音。單一頻率的音稱為純音,具有諧波的音稱為復音。
- 高保真(Hi—Fi)音響的目標就是要盡可能準確地傳輸、還原重建原始聲場的一切特征,使人們其實地感受到諸如聲源定位感、空間包圍感、層次厚度感等各種臨場聽感的立體環繞聲效果。
二.數字音頻
數字音頻是一種利用數字化手段對聲音進行錄制、存放、編輯、壓縮或播放的技術,它是隨著數字信號處理技術、計算機技術、多媒體技術的發展而形成的一種全新的聲音處理手段。數字音頻的主要應用領域是音樂后期制作和錄音。
計算機數據的存儲是以0、1的形式存取的,那么數字音頻就是首先將音頻文件轉化,接著再將這些電平信號轉化成二進制數據保存,播放的時候就把這些數據轉換為模擬的電平信號再送到喇叭播出,數字聲音和一般磁帶、廣播、電視中的聲音就存儲播放方式而言有著本質區別。相比而言,它具有存儲方便、存儲成本低廉、存儲和傳輸的過程中沒有聲音的失真、編輯和處理非常方便等特點。
模擬音頻信號數字化過程
模擬音頻信號轉化為數字音頻信號:模擬音頻信號是一個在時間上和幅度上都連續的信號,它的數字化過程如下所述。
采樣:
在時間軸上對信號數字化。也就是,按照固定的時間間隔抽取模擬信號的值,這樣,采樣后就可以使一個時間連續的信息波變為在時間上取值數目有限的離散信號。量化:
在幅度軸上對信號數字化。也就是,用有限個幅度值近似還原原來連續變化的幅度值,把模擬信號的連續幅度變為有限數量的有一定間隔的離散值。-
編碼:
用二進制數表示每個采樣的量化值(十進制數)。
音頻編碼的格式有很多種,而通常所說的音頻裸數據指的是脈沖編碼調制(PCM)數據.
如果想要描述一份PCM數據,需要從如下幾個方向出發:- 量化格式(sampleFormat)
- 采樣率(sampleRate)
- 聲道數(channel)
如果sampleFormat越精確或者sampleRate越密集,那么所占的存儲空間就會越大,同時能夠描述的聲音細節就會更加精確.
典型音頻編碼技術比較
編碼技術 | 算法 | 編碼標準 | 碼率(kbit/s) | 質量 | 應用領域 |
---|---|---|---|---|---|
PCM | G.711 | 64 | 4.3 | PSTN、ISDN | |
波形編碼 | ADPCM | G.721 | 32 | 4.1 | - |
SB-ADPCM | G.722 | 64/56/48 | 4.5 | - | |
參數編碼 | LPC | - | 2.4 | 2.5 | 保密語音 |
CELPC | - | 4.8 | 3.2 | - | |
VSELPC | DIA | 8 | 3.8 | 移動通信、語音信箱 | |
混合編碼 | RPE-LTP | GSM | 13.2 | 3.8 | - |
LD-CELP | G.728 | 16 | 4.1 | ISDN | |
MPE | MPE | 168 | 5.0 | CD |
說明:質量評價共五個等級(1、2、3、4、5),其中5.0為最高分。
上表中各種算法、應用領域中縮略語的中文和英文全稱參見下面說明。
- PCM:Pulse Code Modulation,脈沖編碼調制。
- ADPCM:Adaptive Differential Pulse Code Modulation,自適應差分脈沖編碼調制。
- SB-ADPCM:Subband Adaptive Differential Pulse Code Modulation,子帶-自適應差分脈沖編碼調制。
- LPC:Linear Predictive Coding,線性預測編碼。
- CELPC:Code Excited Linear Predictive Coding,碼激勵線性預測編碼。
- VSELPC:Vector Sum Excited Linear Predictive Coding,矢量和激勵線性預測編碼。
- RPE-LTP:Regular Pulse Excited-Long Term Predictive,規則脈沖激勵長時預測。
- LD-CELP:Low Delay-Code Excited Linear Predictive,低時延碼激勵線性預測。
- MPE:Multi-Pulse Excited,多脈沖激勵。
- PSTN:Public Switched Telephone Network,公共交換電話網。
- ISDN:Integrated Services Digital Network,綜合業務數字網。
音頻采樣率
音頻采樣率是指錄音設備在單位時間內對模擬信號采樣的多少,采樣頻率越高,機械波的波形就越真實越自然。在當今的主流采集卡上,采樣頻率一般共分為11025Hz、22050Hz、24000Hz、44100Hz、48000Hz五個等級,11025Hz能達到AM調幅廣播的聲音品質,而22050Hz和24000HZ能達到FM調頻廣播的聲音品質,44100Hz則是理論上的CD音質界限,48000Hz則更加精確一些。
常用的采樣率
- 8,000 Hz - 電話所用采樣率, 對于人的說話已經足夠
- 11,025 Hz-AM調幅廣播所用采樣率
- 22,050 Hz和24,000 Hz- FM調頻廣播所用采樣率
- 32,000 Hz - miniDV 數碼視頻 camcorder、DAT (LP mode)所用采樣率
- 44,100 Hz - 音頻 CD, 也常用于 MPEG-1 音頻(VCD, SVCD, MP3)所用采樣率
- 47,250 Hz - 商用 PCM 錄音機所用采樣率
- 48,000 Hz - miniDV、數字電視、DVD、DAT、電影和專業音頻所用的數字聲音所用采樣率
- 50,000 Hz - 商用數字錄音機所用采樣率
- 96,000 或者 192,000 Hz - DVD-Audio、一些 LPCM DVD 音軌、BD-ROM(藍光盤)音軌、和 HD-DVD (高清晰度 DVD)音軌所用所用采樣率
- 2.8224 MHz - Direct Stream Digital 的 1 位 sigma-delta modulation 過程所用采樣率
image
音頻采樣率實例
聲波其實是一種機械波,因此也有波長和振幅的特征,波長對應于時間軸線,振幅對應于采樣值軸線。波是無限光滑的,弦線可以看成由無數點組成,由于存儲空間是相對有限的,數字編碼過程中,必須對弦線的點進行采樣。采樣的過程就是抽取某點的采樣值,很顯然,在單位時間中內抽取的點越多,獲取得波長信息更豐富,為了復原波形,一個周期中,必須有至少2個點的采樣,人耳能夠感覺到的最低波長為1.7cm,即20000Hz,因此要滿足人耳的聽覺要求,則1s采樣至少40000次,用40000Hz(40kHz)表達,這個40kHz就是采樣率。我們常見的CD,采樣率為44.1kHz。
采集過程中視頻和音頻同步是非常重要的,光有波長信息是不夠的,我們還必須獲得該波長的能量值并量化,用于表示信號強度。量化電平數為2的整數次冪,我們常見的CD位16級的采樣大小,即2的4次方。采樣大小相對采樣率更難理解,因為要顯得抽象點,舉個簡單例子:假設對一個波進行8次采樣,采樣點分別對應的能量值分別為A1-A8,但我們只使用2bit的采樣大小,結果我們只能保留A1-A8中4個點的值而舍棄另外4個。如果我們進行3bit的采樣大小,則剛好記錄下8個點的所有信息。采樣率和采樣大小的值越大,記錄的波形更接近原始信號。
三.音頻編碼
從信息論的觀點來看,描述信源的數據是信息和數據冗余之和,即: 數據=信息+數據冗余 。音頻信號在時域和頻域上具有相關性,也即存在數據冗余。將音頻作為一個信源,音頻編碼的實質是減少音頻中的冗余
3.1采樣率和采樣大小
聲音其實是一種能量波,因此也有頻率和振幅的特征,頻率對應于時間軸線,振幅對應于電平軸線。波是無限光滑的,弦線可以看成由無數點組成,由于存儲空間是相對有限的,數字編碼過程中,必須對弦線的點進行采樣。采樣的過程就是抽取某點的頻率值,很顯然,在一秒中內抽取的點越多,獲取得頻率信息更豐富,為了復原波形,一次振動中,必須有2個點的采樣,人耳能夠感覺到的最高頻率為20kHz,因此要滿足人耳的聽覺要求,則需要至少每秒進行40k次采樣,用40kHz表達,這個40kHz就是采樣率。我們常見的CD,采樣率為44.1kHz。光有頻率信息是不夠的,我們還必須獲得該頻率的能量值并量化,用于表示信號強度。量化電平數為2的整數次冪,我們常見的CD位16bit的采樣大小,即2的16次方。采樣大小相對采樣率更難理解,因為要顯得抽象點,舉個簡單例子:假設對一個波進行8次采樣,采樣點分別對應的能量值分別為A1-A8,但我們只使用2bit的采樣大小,結果我們只能保留A1-A8中4個點的值而舍棄另外4個。如果我們進行3bit的采樣大小,則剛好記錄下8個點的所有信息。采樣率和采樣大小的值越大,記錄的波形更接近原始信號。
3.2 有損和無損
根據采樣率和采樣大小可以得知,相對自然界的信號,音頻編碼最多只能做到無限接近,至少目前的技術只能這樣了,相對自然界的信號,任何數字音頻編碼方案都是有損的,因為無法完全還原。在計算機應用中,能夠達到最高保真水平的就是PCM編碼,被廣泛用于素材保存及音樂欣賞,CD、DVD以及我們常見的WAV文件中均有應用。因此,PCM約定俗成了無損編碼,因為PCM代表了數字音頻中最佳的保真水準,并不意味著PCM就能夠確保信號絕對保真,PCM也只能做到最大程度的無限接近。我們而習慣性的把MP3列入有損音頻編碼范疇,是相對PCM編碼的。強調編碼的相對性的有損和無損,是為了告訴大家,要做到真正的無損是困難的,就像用數字去表達圓周率,不管精度多高,也只是無限接近,而不是真正等于圓周率的值。
3.3 使用音頻壓縮技術的原因
要算一個PCM音頻流的碼率是一件很輕松的事情,采樣率值×采樣大小值×聲道數 bps。一個采樣率為44.1KHz,采樣大小為16bit,雙聲道的PCM編碼的WAV文件,它的數據速率則為 44.1K×16×2 =1411.2 Kbps。我們常說128K的MP3,對應的WAV的參數,就是這個1411.2 Kbps,這個參數也被稱為數據帶寬,它和ADSL中的帶寬是一個概念。將碼率除以8,就可以得到這個WAV的數據速率,即176.4KB/s。這表示存儲一秒鐘采樣率為44.1KHz,采樣大小為16bit,雙聲道的PCM編碼的音頻信號,需要176.4KB的空間,1分鐘則約為10.34M,這對大部分用戶是不可接受的,尤其是喜歡在電腦上聽音樂的朋友,要降低磁盤占用,只有2種方法,降低采樣指標或者壓縮。降低指標是不可取的,因此專家們研發了各種壓縮方案。由于用途和針對的目標市場不一樣,各種音頻壓縮編碼所達到的音質和壓縮比都不一樣,在后面的文章中我們都會一一提到。有一點是可以肯定的,他們都壓縮過
3.4 頻率與采樣率的關系
采樣率表示了每秒對原始信號采樣的次數,我們常見到的音頻文件采樣率多為44.1KHz,這意味著什么呢?假設我們有2段正弦波信號,分別為20Hz和20KHz,長度均為一秒鐘,以對應我們能聽到的最低頻和最高頻,分別對這兩段信號進行40KHz的采樣,我們可以得到一個什么樣的結果呢?結果是:20Hz的信號每次振動被采樣了40K/20=2000次,而20K的信號每次振動只有2次采樣。顯然,在相同的采樣率下,記錄低頻的信息遠比高頻的詳細。這也是為什么有些音響發燒友指責CD有數碼聲不夠真實的原因,CD的44.1KHz采樣也無法保證高頻信號被較好記錄。要較好的記錄高頻信號,看來需要更高的采樣率,于是有些朋友在捕捉CD音軌的時候使用48KHz的采樣率,這是不可取的!這其實對音質沒有任何好處,對抓軌軟件來說,保持和CD提供的44.1KHz一樣的采樣率才是最佳音質的保證之一,而不是去提高它。較高的采樣率只有相對模擬信號的時候才有用,如果被采樣的信號是數字的,請不要去嘗試提高采樣率。
3.5 流特征
隨著網絡的發展,人們對在線收聽音樂提出了要求,因此也要求音頻文件能夠一邊讀一邊播放,而不需要把這個文件全部讀出后然后回放,這樣就可以做到不用下載就可以實現收聽了;也可以做到一邊編碼一邊播放,正是這種特征,可以實現在線的直播,架設自己的數字廣播電臺成為了現實。
四.編碼分類
根據編碼方式的不同,音頻編碼技術分為三種:波形編碼、參數編碼和混合編碼。一般來說,波形編碼的話音質量高,但編碼率也很高;參數編碼的編碼率很低,產生的合成語音的音質不高;混合編碼使用參數編碼技術和波形編碼技術,編碼率和音質介于它們之間。
-
波形編碼
波形編碼是指不利用生成音頻信號的任何參數,直接將時間域信號變換為數字代碼,使重構的語音波形盡可能地與原始語音信號的波形形狀保持一致。波形編碼的基本原理是在時間軸上對模擬語音信號按一定的速率抽樣,然后將幅度樣本分層量化,并用代碼表示。
波形編碼方法簡單、易于實現、適應能力強并且語音質量好。不過因為壓縮方法簡單也帶來了一些問題:壓縮比相對較低,導致較高的編碼率。一般來說,波形編碼的復雜程度比較低,編碼率較高。通常編碼率在16 kbit/s以上的音頻質量相當高,當編碼率低于16 kbit/s時,音質會急劇下降。
最簡單的波形編碼方法是PCM(Pulse Code Modulation,脈沖編碼調制),它只對語音信號進行采樣和量化處理。優點是編碼方法簡單,延遲時間短,音質高,重構的語音信號與原始語音信號幾乎沒有差別。不足之處是編碼率比較高(64 kbit/s),對傳輸通道的錯誤比較敏感 -
參數編碼
參數編碼是從語音波形信號中提取生成語音的參數,使用這些參數通過語音生成模型重構出語音,使重構的語音信號盡可能地保持原始語音信號的語意。也就是說,參數編碼是把語音信號產生的數字模型作為基礎,然后求出數字模型的模型參數,再按照這些參數還原數字模型,進而合成語音。
參數編碼的編碼率較低,可以達到2.4 kbit/s,產生的語音信號是通過建立的數字模型還原出來的,因此重構的語音信號波形與原始語音信號的波形可能會存在較大的區別、失真會比較大。而且因為受到語音生成模型的限制,增加數據速率也無法提高合成語音的質量。不過,雖然參數編碼的音質比較低,但是保密性很好,一直被應用在軍事上。典型的參數編碼方法為LPC(Linear Predictive Coding,線性預測編碼)。 -
混合編碼
混合編碼是指同時使用兩種或兩種以上的編碼方法進行編碼。這種編碼方法克服了波形編碼和參數編碼的弱點,并結合了波形編碼高質量和參數編碼的低編碼率,能夠取得比較好的效果。
五.編碼格式以及特點
5.1 PCM編碼
PCM 脈沖編碼調制是Pulse Code Modulation的縮寫。我們不需要關心PCM最終編碼采用的是什么計算方式,我們只需要知道PCM編碼的音頻流的優點和缺點就可以了。PCM編碼的最大的優點就是音質好,最大的缺點就是體積大。我們常見的Audio CD就采用了PCM編碼,一張光盤的容量只能容納72分鐘的音樂信息。
5.2WAV格式
這是一種古老的音頻文件格式,由微軟開發。WAV是一種文件格式,符合RIFF (Resource Interchange File Format) 規范。所有的WAV都有一個文件頭,這個文件頭包含了音頻流的編碼參數。WAV對音頻流的編碼沒有硬性規定,除了PCM之外,還有幾乎所有支持ACM規范的編碼都可以為WAV的音頻流進行編碼。很多朋友沒有這個概念,我們拿AVI做個示范,因為AVI和WAV在文件結構上是非常相似的,不過AVI多了一個視頻流而已。我們接觸到的AVI有很多種,因此我們經常需要安裝一些Decode才能觀看一些AVI,我們接觸到比較多的DivX就是一種視頻編碼,AVI可以采用DivX編碼來壓縮視頻流,當然也可以使用其他的編碼壓縮。同樣,WAV也可以使用多種音頻編碼來壓縮其音頻流,不過我們常見的都是音頻流被PCM編碼處理的WAV,但這不表示WAV只能使用PCM編碼,MP3編碼同樣也可以運用在WAV中,和AVI一樣,只要安裝好了相應的Decode,就可以欣賞這些WAV了。
在Windows平臺下,基于PCM編碼的WAV是被支持得最好的音頻格式,所有音頻軟件都能完美支持,由于本身可以達到較高的音質的要求,因此,WAV也是音樂編輯創作的首選格式,適合保存音樂素材。因此,基于PCM編碼的WAV被作為了一種中介的格式,常常使用在其他編碼的相互轉換之中,例如MP3轉換成WMA。
- 特點:音質非常好,被大量軟件所支持。
- 適用于:多媒體開發、保存音樂和音效素材。
5.3MP3編碼
MP3作為目前最為普及的音頻壓縮格式,為大家所大量接受,各種與MP3相關的軟件產品層出不窮,而且更多的硬件產品也開始支持MP3,我們能夠買到的VCD/DVD播放機都很多都能夠支持MP3,還有更多的便攜的MP3播放器等等,雖然幾大音樂商極其反感這種開放的格式,但也無法阻止這種音頻壓縮的格式的生存與流傳。MP3發展已經有10個年頭了,他是MPEG(MPEG:Moving Picture Experts Group) Audio Layer-3的簡稱,是MPEG1的衍生編碼方案,1993年由德國Fraunhofer IIS研究院和湯姆生公司合作發展成功。MP3可以做到12:1的驚人壓縮比并保持基本可聽的音質,在當年硬盤天價的日子里,MP3迅速被用戶接受,隨著網絡的普及,MP3被數以億計的用戶接受。MP3編碼技術的發布之初其實是非常不完善的,由于缺乏對聲音和人耳聽覺的研究,早期的mp3編碼器幾乎全是以粗暴方式來編碼,音質破壞嚴重。隨著新技術的不斷導入,mp3編碼技術一次一次的被改良,其中有2次重大技術上的改進。
關于VBR
VBR:MP3格式的文件有一個有意思的特征,就是可以邊讀邊放,這也符合流媒體的最基本特征。也就是說播放器可以不用預讀文件的全部內容就可以播放,讀到哪里播放到哪里,即使是文件有部分損壞。雖然mp3可以有文件頭,但對于mp3格式的文件卻不是很重要,正因為這種特性,決定了MP3文件的每一段每一幀都可以單獨的平均數據速率,而無需特別的解碼方案。于是出現了一種叫VBR(Variable bitrate,動態數據速率)的技術,可以讓MP3文件的每一段甚至每一幀都可以有單獨的bitrate,這樣做的好處就是在保證音質的前提下最大程度的限制了文件的大小。這種技術的優越性是顯而易見的,但要運用確實是一件難事,因為這要求編碼器知道如何為每一段分配bitrate,這對沒有波形分析的編碼器而言,這種技術如同虛設。正是如此,VBR技術并沒有一出現就顯得光彩奪目。
專家們通過長期的聲學研究,發現人耳存在遮蔽效應。聲音信號實際是一種能量波,在空氣或其他媒介中傳播,人耳對聲音能量的多少即響度或聲壓最直接的反應就是聽到這個聲音的大小,我們稱它為響度,表示響度這種能量的單位為分貝(dB)。即使是同樣響度的聲音,人們也會因為它們頻率不同而感覺到聲音大小不同。人耳最容易聽到的就是500Hz的頻率,不管頻率是否增高或降低,即使是響度在相同的情況下,大家都會覺得聲音在變小。但響度降到一定程度時,人耳就聽不到了,每一個頻率都有著不同的值。
可以看到這條曲線基本成一個V字型,當頻率超過15000Hz時,人耳的會感覺到聲音很小,很多聽覺不是很好的人,根本就聽不到20000Hz的頻率,不管響度有多大。當人耳同時聽到兩個不同頻率、不同響度的聲音時,響度較小的那個也會被忽略,例如:在白天我們很難聽到電腦中散熱風扇的聲音,晚上卻成了噪聲源,根據這種原理,編碼器可以過濾掉很多聽不到的聲音,以簡化信息復雜度,增加壓縮比,而不明顯的降低音質。這種遮蔽被稱為同時遮蔽效應。但聲音A被聲音B遮蔽,如果A處于B為中心的遮蔽范圍內,遮蔽會更明顯,這個范圍叫臨界帶寬。每一種頻率的臨界帶寬都不一樣,頻率越高的臨界帶寬越寬。
頻率(Hz) 臨界帶寬(Hz) 頻率(Hz) 臨界帶寬(Hz)
根據這種效應,專家們設計出人耳聽覺心理模型,這個模型被導入到mp3編碼中后,導致了一場翻天覆地的音質革命,mp3編碼技術一直背負著音質差的惡名,但這個惡名現在已經逐漸被洗脫。到了此時,一直被埋沒的VBR技術光彩四射,配合心理模型的運用便現實出強大的誘惑力與殺傷力。
長期來,很多人對MP3印象不好,更多人認為WMA的最佳音質要好過MP3,這種說法是不正確的,在中高碼率下,編碼得當的MP3要比WMA優秀很多,可以非常接近CD音質,在不太好的硬件設備支持下,沒有多少人可以區分兩者的差異,這不是神話故事,盡管你以前盲聽就可以很輕松區分MP3和CD,但現在你難保證你可以分辨正確。因為MP3是優秀的編碼,以前被埋沒了。
- 特點:音質好,壓縮比比較高,被大量軟件和硬件支持,應用廣泛。
- 適用于:適合用于比較高要求的音樂欣賞。
5.4 OGG編碼
網絡上出現了一種叫Ogg Vorbis的音頻編碼,號稱MP3殺手!Ogg Vorbis究竟什么來頭呢?OGG是一個龐大的多媒體開發計劃的項目名稱,將涉及視頻音頻等方面的編碼開發。整個OGG項目計劃的目的就是向任何人提供完全免費多媒體編碼方案!OGG的信念就是:OPEN!FREE!Vorbis這個詞匯是特里·普拉特柴特的幻想小說《Small Gods》中的一個"花花公子"人物名。這個詞匯成為了OGG項目中音頻編碼的正式命名。目前Vorbis已經開發成功,并且開發出了編碼器。
Ogg Vorbis是高質量的音頻編碼方案,官方數據顯示:Ogg Vorbis可以在相對較低的數據速率下實現比MP3更好的音質!Ogg Vorbis這種編碼也遠比90年代開發成功的MP3先進,它可以支持多聲道,這意味著什么?這意味著Ogg Vorbis在SACD、DTSCD、DVD AUDIO抓軌軟件(目前這種軟件還沒有)的支持下,可以對所有的聲道進行編碼,而不是MP3只能編碼2個聲道。多聲道音樂的興起,給音樂欣賞帶來了革命性的變化,尤其在欣賞交響時,會帶來更多臨場感。這場革命性的變化是MP3無法適應的。
和MP3一樣,Ogg Vorbis是一種靈活開放的音頻編碼,能夠在編碼方案已經固定下來后還能對音質進行明顯的調節和新算法的改良。因此,它的聲音質量將會越來越好,和MP3相似,Ogg Vorbis更像一個音頻編碼框架,可以不斷導入新技術逐步完善。和MP3一樣,OGG也支持VBR。
- 特點:可以用比mp3更小的碼率實現比mp3更好的音質,高中低碼率下均具有良好的表現。
- 適用于:用更小的存儲空間獲得更好的音質(相對MP3)。
5.5 MPC編碼
MPC是又是另外一個令人刮目相看的實力派選手,它的普及過程非常低調,也沒有什么復雜的背景故事,她的出現目的就只有一個,更小的體積更好的音質!MPC以前被稱作MP+,很顯然,可以看出她針對的競爭對手是誰。但是,只要用過這種編碼的人都會有個深刻的印象,就是她出眾的音質。
特點:中高碼率下,具有有損編碼中最佳的音質表現,高碼率下,高頻表現極佳。
適用于:在節省大量空間的前提下獲得最佳音質的音樂欣賞。
5.6 mp3PRO編碼
2001年6月14日,美國湯姆森多媒體公司(Thomson Multimedia SA)與佛朗赫弗協會(Fraunhofer Institute)于6月14日發布了一種新的音樂格式版本,名稱為mp3PRO,這是一種基于mp3編碼技術的改良方案,從官方公布的特征看來確實相當吸引人。從各方面的資料顯示,mp3PRO并不是一種全新的格式,完全是基于傳統mp3編碼技術的一種改良,本身最大的技術亮點就在于SBR(Spectral Band Replication 頻段復制),這是一種新的音頻編碼增強算法。它提供了改善低位率情況下音頻和語音編碼的性能的可能。這種方法可在指定的位率下增加音頻的帶寬或改善編碼效率。SBR最大的優勢就是在低數據速率下實現非常高效的編碼,與傳統的編碼技術不同的是,SBR更像是一種后處理技術,因此解碼器的算法的優劣直接影響到音質的好壞。高頻實際上是由解碼器(播放器)產生的,SBR編碼的數據更像是一種產生高頻的命令集,或者稱為指導性的信號源,這有點駇idi的工作方式。我們可以看到,mp3PRO其實是一種mp3信號流和SBR信號流的混合數據流編碼。有關資料顯示,SBR技術可以改善低數據流量下的高頻音質,改善程度約為30%,我們不管這個30%是如何得來的,但可以事先預知這種改善可以讓64kbps的mp3達到128kbps的mp3的音質水平(注:在相同的編碼條件下,數據速率的提升和音質的提升不是成正比的,至少人耳聽覺上是這樣的),這和官方聲稱的64kbps的mp3PRO可以媲美128kbps的mp3的宣傳基本是吻合的。
- 特點:低碼率下的音質之王。
- 適用于:低要求下的音樂欣賞。
5.7 WMA格式
WMA就是Windows Media Audio編碼后的文件格式,由微軟開發,WMA針對的不是單機市場,是網絡!競爭對手就是網絡媒體市場中著名的Real Networks。微軟聲稱,在只有64kbps的碼率情況下,WMA可以達到接近CD的音質。和以往的編碼不同,WMA支持防復制功能,她支持通過Windows Media Rights Manager 加入保護,可以限制播放時間和播放次數甚至于播放的機器等等。WMA支持流技術,即一邊讀一邊播放,因此WMA可以很輕松的實現在線廣播,由于是微軟的杰作,因此,微軟在Windows中加入了對WMA的支持,WMA有著優秀的技術特征,在微軟的大力推廣下,這種格式被越來越多的人所接受。
- 特點:低碼率下的音質表現難有對手。
- 適用于:數字電臺架設、在線試聽、低要求下的音樂欣賞。
5.8 RA格式
RA就是RealAudio格式,這是各位網蟲接觸得非常多的一種格式,大部分音樂網站的在線試聽都是采用了RealAudio,這種格式完全針對的就是網絡上的媒體市場,支持非常豐富的功能。最大的閃爍點就是這種格式可以根據聽眾的帶寬來控制自己的碼率,在保證流暢的前提下盡可能提高音質。RA可以支持多種音頻編碼,包括ATRAC3。和WMA一樣,RA不但都支持邊讀邊放,也同樣支持使用特殊協議來隱匿文件的真實網絡地址,從而實現只在線播放而不提供下載的欣賞方式。這對唱片公司和唱片銷售公司很重要,在各方的大力推廣下,RA和WMA是目前互聯網上,用于在線試聽最多的音頻媒體格式。
5.9 APE格式
APE是Monkey's Audio提供的一種無損壓縮格式。Monkey's Audio提供了Winamp的插件支持,因此這就意味著壓縮后的文件不再是單純的壓縮格式,而是和MP3一樣可以播放的音頻文件格式。這種格式的壓縮比遠低于其他格式,但能夠做到真正無損,因此獲得了不少發燒用戶的青睞。在現有不少無損壓縮方案種,APE是一種有著突出性能的格式,令人滿意的壓縮比以及飛快的壓縮速度,成為了不少朋友私下交流發燒音樂的唯一選擇。
- 特點:音質非常好。
- 適用于:最高品質的音樂欣賞及收藏。
六.總結
本文詳細介紹了聲音的產生、聲音的三要素、數字音頻、音頻數字模擬化,音頻編碼、編碼分類及使用場景.