前言:
記載資料多為網(wǎng)絡(luò)搜集,侵刪。
根據(jù)最近接觸的整機(jī)項(xiàng)目做了一些整機(jī)音頻相關(guān)基礎(chǔ)知識(shí)的總結(jié),如有不足或表述問題請(qǐng)指正。
第一部分 模擬聲音-數(shù)字聲音原理
一、模擬聲音數(shù)字化原理
聲音是通過空氣傳播的一種連續(xù)的波,叫聲波。聲音的強(qiáng)弱體現(xiàn)在聲波壓力的大小上,音調(diào)的高低體現(xiàn)在聲音的頻率上。聲音用電表示時(shí),聲音信號(hào)在時(shí)間和幅度上都是連續(xù)的模擬信號(hào)。
聲音進(jìn)入計(jì)算機(jī)的第一步就是數(shù)字化,數(shù)字化實(shí)際上就是采樣和量化。連續(xù)時(shí)間的離散化通過采樣來實(shí)現(xiàn)。聲音數(shù)字化需要回答兩個(gè)問題:
①每秒鐘需要采集多少個(gè)聲音樣本,也就是采樣頻率(fs)是多少
②每個(gè)聲音樣本的位數(shù)(bit per sample,bps)應(yīng)該是多少,也就是量化精度。
采樣頻率
采樣頻率的高低是根據(jù)奈奎斯特理論(Nyquist theory)和聲音信號(hào)本身的最高頻率決定的。奈奎斯特理論指出,采樣頻率不應(yīng)低于聲音信號(hào)最高頻率的兩倍,這樣才能把以數(shù)字表達(dá)的聲音還原成原來的聲音。采樣的過程就是抽取某點(diǎn)的頻率值,很顯然,在一秒中內(nèi)抽取的點(diǎn)越多,獲取得頻率信息更豐富,為了復(fù)原波形,一次振動(dòng)中,必須有2個(gè)點(diǎn)的采樣,人耳能夠感覺到的最高頻率為20kHz,因此要滿足人耳的聽覺要求,則需要至少每秒進(jìn)行40k次采樣,用40kHz表達(dá),這個(gè)40kHz就是采樣率。我們常見的CD,采樣率為44.1kHz。電話話音的信號(hào)頻率約為3.4kHz,采樣頻率就選為8 kHz。
量化精度
光有頻率信息是不夠的,我們還必須紀(jì)錄聲音的幅度。量化位數(shù)越高,能表示的幅度的等級(jí)數(shù)越多。例如,每個(gè)聲音樣本用3bit表示,測(cè)得的聲音樣本值是在0~8的范圍里。我們常見的CD位16bit的采樣精度,即音量等級(jí)有2的16次方個(gè)。樣本位數(shù)的大小影響到聲音的質(zhì)量,位數(shù)越多,聲音的質(zhì)量越高,而需要的存儲(chǔ)空間也越多。
壓縮編碼
經(jīng)過采樣、量化得到的PCM數(shù)據(jù)就是數(shù)字音頻信號(hào)了,可直接在計(jì)算機(jī)中傳輸和存儲(chǔ)。但是這些數(shù)據(jù)的體積太龐大了!為了便于存儲(chǔ)和傳輸,就需要進(jìn)一步壓縮,就出現(xiàn)了各種壓縮算法,將PCM轉(zhuǎn)換為MP3,AAC,WMA等格式。
常見的用于語音(Voice)的編碼有:EVRC (Enhanced Variable Rate Coder) 增強(qiáng)型可變速率編碼,AMR、ADPCM、G.723.1、G.729等。常見的用于音頻(Audio)的編碼有:MP3、AAC、AAC+、WMA等。
二、問題
1、為什么要使用音頻壓縮技術(shù)?
我們可以拿一個(gè)未壓縮的CD文件(PCM音頻流)和一個(gè)MP3文件作一下對(duì)比:
PCM音頻:一個(gè)采樣率為44.1KHz,采樣大小為16bit,雙聲道的PCM編碼CD文件,它的數(shù)據(jù)速率則為44.1K×16×2 =1411.2 Kbps,這個(gè)參數(shù)也被稱為數(shù)據(jù)帶寬。將碼率除以8bit,就可以得到這個(gè)CD的數(shù)據(jù)速率,即176.4KB/s。這表示存儲(chǔ)一秒鐘PCM編碼的音頻信號(hào),需要176.4KB的空間。
MP3音頻:將這個(gè)WAV文件壓縮成普通的MP3,44.1KHz,128Kbps的碼率,它的數(shù)據(jù)速率為128Kbps/8=16KB/s。
2、頻率與采樣率的關(guān)系
采樣率表示了每秒對(duì)原始信號(hào)采樣的次數(shù),我們常見到的音頻文件采樣率多為44.1KHz,這意味著什么呢?假設(shè)我們有2段正弦波信號(hào),分別為20Hz和20KHz,長(zhǎng)度均為一秒鐘,以對(duì)應(yīng)我們能聽到的最低頻和最高頻,分別對(duì)這兩段信號(hào)進(jìn)行40KHz的采樣,我們可以得到一個(gè)什么樣的結(jié)果呢?結(jié)果是:20Hz的信號(hào)每次振動(dòng)被采樣了40K/20=2000次,而20K的信號(hào)每次振動(dòng)只有2次采樣。顯然,在相同的采樣率下,記錄低頻的信息遠(yuǎn)比高頻的詳細(xì)。這也是為什么有些音響發(fā)燒友指責(zé)CD有數(shù)碼聲不夠真實(shí)的原因,CD的44.1KHz采樣也無法保證高頻信號(hào)被較好記錄。要較好的記錄高頻信號(hào),看來需要更高的采樣率,于是有些朋友在捕捉CD音軌的時(shí)候使用48KHz的采樣率,這是不可取的!這其實(shí)對(duì)音質(zhì)沒有任何好處,對(duì)抓軌軟件來說,保持和CD提供的44.1KHz一樣的采樣率才是最佳音質(zhì)的保證之一,而不是去提高它。較高的采樣率只有相對(duì)模擬信號(hào)的時(shí)候才有用,如果被采樣的信號(hào)是數(shù)字的,請(qǐng)不要去嘗試提高采樣率。
3、流特征
隨著網(wǎng)絡(luò)的發(fā)展,人們對(duì)在線收聽音樂提出了要求,因此也要求音頻文件能夠一邊讀一邊播放,而不需要把這個(gè)文件全部讀出后然后回放,這樣就可以做到不用下載就可以實(shí)現(xiàn)收聽了。也可以做到一邊編碼一邊播放,正是這種特征,可以實(shí)現(xiàn)在線的直播,架設(shè)自己的數(shù)字廣播電臺(tái)成為了現(xiàn)實(shí)。
第二部分? ?音頻壓縮編碼
一.有損(lossy)/無損(lossless)/未壓縮(uncompressed)音頻格式
未壓縮音頻是一種沒經(jīng)過任何壓縮的簡(jiǎn)單音頻。未壓縮音頻通常用于影音文件的的PCM或WAV音軌。
無損壓縮音頻是對(duì)未壓縮音頻進(jìn)行沒有任何信息/質(zhì)量損失的壓縮機(jī)制。無損壓縮音頻一般不使用于影音世界,但是存在的格式有無損WMA或Matroska里的FLAC。
有損壓縮音頻嘗試盡可能多得從原文件刪除沒有多大影響的數(shù)據(jù),有目的地制成比原文件小多的但音質(zhì)卻基本一樣。有損壓縮音頻普遍流行于影音文件,包括AC3, DTS, AAC, MPEG-1/2/3, Vorbis, 和Real Audio.
我們也來討論下無損/有損壓縮過程。只要你轉(zhuǎn)換成一種有損壓縮音頻格式(例如wav轉(zhuǎn)MP3),質(zhì)量上有損失,那么它就是有損壓縮。從有損壓縮音頻格式轉(zhuǎn)換成另一有損壓縮音頻格式(例如Mp3轉(zhuǎn)AAC)更槽糕,因?yàn)樗粌H會(huì)引入原文件存在的損失,而且第2次編碼也會(huì)有損失。
二、語音(Voice)編碼和音頻(Audio)編碼
語音編碼主要是針對(duì)語音通信系統(tǒng)中的編碼方案,應(yīng)用在有線或無線通信中;音頻編碼是針對(duì)音樂的編碼方案,主要用來更方便地實(shí)現(xiàn)對(duì)音樂文件進(jìn)行網(wǎng)絡(luò)傳輸和存儲(chǔ)。兩者的差別一方面是頻帶不同,另一方面是壓縮要求不一樣,音樂要求具有高保真度和立體感等要求。音頻編碼最常見的是MPEG的音頻編碼。
語音的編碼技術(shù)通常分為三類:波形編碼、參量編碼和混合編碼。其中,波形編碼和參量編碼是兩種基本類型。
波形編碼是將時(shí)間域信號(hào)直接變換為數(shù)字代碼,力圖使重建語音波形保持原語音信號(hào)的波形形狀。波形編碼的基本原理是在時(shí)間軸上對(duì)模擬語音按一定的速率抽樣,然后將幅度樣本分層量化,并用代碼表示。解碼是其反過程,將收到的數(shù)字序列經(jīng)過解碼和濾波恢復(fù)成模擬信號(hào)。它具有適應(yīng)能力強(qiáng)、語音質(zhì)量好等優(yōu)點(diǎn),但所用的編碼速率高,在對(duì)信號(hào)帶寬要求不太嚴(yán)格的通信中得到應(yīng)用,而對(duì)頻率資源相對(duì)緊張的移動(dòng)通信來說,這種編碼方式顯然不合適。
脈沖編碼調(diào)制(PCM)和增量調(diào)制(△M),以及它們的各種改進(jìn)型自適應(yīng)增量調(diào)制(ADM),自適應(yīng)差分編碼(ADPCM)等,都屬于波形編碼技術(shù)。它們分別在64以及16Kbit/s的速率上,能給出高的編碼質(zhì)量,當(dāng)速率進(jìn)一步下降時(shí),其性能會(huì)下降較快。
參量編碼又稱為聲源編碼,是將信源信號(hào)在頻率域或其它正交變換域提取特征參量,并將其變換成數(shù)字代碼進(jìn)行傳輸。具體說,參量編碼是通過對(duì)語音信號(hào)特征參數(shù)的提取和編碼,力圖使重建語音信號(hào)具有盡可能高的可靠性,即保持原語音的語意,但重建信號(hào)的波形同原語音信號(hào)的波形可能會(huì)有相當(dāng)大的差別。這種編碼技術(shù)可實(shí)現(xiàn)低速率語音編碼,比特率可壓縮到2Kbit/s-4.8Kbit/s ,甚至更低,但語音質(zhì)量只能達(dá)到中等,特別是自然度較低,連熟人都不一定能聽出講話人是誰。線性預(yù)測(cè)編碼(LPC )及其它各種改進(jìn)型都屬于參量編碼。
混合編碼將波形編碼和參量編碼組合起來,克服了原有波形編碼和參量編碼的弱點(diǎn),結(jié)合各自的長(zhǎng)處,力圖保持波形編碼的高質(zhì)量和參量編碼的低速率,在4-16Kbit/s速率上能夠得到高質(zhì)量的合成語音。多脈沖激勵(lì)線性預(yù)測(cè)編碼(MPLPC ),規(guī)劃脈沖激勵(lì)線性預(yù)測(cè)編碼(KPELPC),碼本激勵(lì)線性預(yù)測(cè)編碼(CELP)等都是屬于混合編碼技術(shù)。很顯然,混合編碼是適合于數(shù)字移動(dòng)通信的語音編碼技術(shù)。
三、無線通信中常見語音編碼
PHS為32kbit/s的ADPCM編碼,GSM為13kbit/s的規(guī)則脈沖激勵(lì)長(zhǎng)期預(yù)測(cè)(RPE-LTP)編碼,WCDMA使用的是自適應(yīng)多速率編碼(AMR),cdmA2000使用的是可變速率編碼(IS-773,IS-127)。
1、AMR編碼(介紹它的原因是因?yàn)?a target="_blank">手機(jī)中有使用AMR鈴聲)
在3G多媒體通信的發(fā)展過程中,音視頻編碼有了很大的發(fā)展。1999年初,3GPP采納了由愛立信、諾基亞、西門子提出的自適應(yīng)多速率(AMR)標(biāo)準(zhǔn)作為第三代移動(dòng)通信中語音編解碼器的標(biāo)準(zhǔn)。AMR聲碼器采用代數(shù)碼本激勵(lì)線性預(yù)測(cè)(ACELP:Algebraic Code Excited Linear Prediction)編碼方式。AMR標(biāo)準(zhǔn)針對(duì)不同的應(yīng)用,分別提出了AMR-NB,AMR-WB和AMR-WB+三種不同的協(xié)議。AMR-NB應(yīng)用于窄帶,而AMR-WB和AMR-WB+則應(yīng)用于寬帶通信中。
?對(duì)于手機(jī)鈴聲,AMR-NB對(duì)應(yīng)的鈴聲文件擴(kuò)展名是.amr,AMR-WB對(duì)應(yīng)鈴聲文件擴(kuò)展名是.awb。它們不是音樂,而是錄音得到的原聲。
2、ADPCM編碼
自適應(yīng)差分脈碼調(diào)制(ADPCM)是在差分脈碼調(diào)制(DPCM)的基礎(chǔ)上發(fā)展起來的。DPCM根據(jù)信號(hào)的過去樣值預(yù)測(cè)下一個(gè)樣值,并將預(yù)測(cè)誤差加以量化、編碼,而后進(jìn)行傳輸,由于預(yù)測(cè)誤差的幅度變化范圍小于原信號(hào)的幅度變化范圍,因此在相同量化噪聲條件下,DPCM的量化比特?cái)?shù)小于PCM,從而達(dá)到語音壓縮編碼的目的。ADPCM與DPCM比較,兩者主要區(qū)別在于ADPCM中的量化器和預(yù)測(cè)器采用了自適應(yīng)控制。同時(shí),在譯碼器中多了一個(gè)同步編碼調(diào)整,其作用是為了在同步級(jí)連時(shí)不產(chǎn)生誤差積累。
20世紀(jì)80年代以來,32kb/s的ADPCM技術(shù)已日趨成熟,并接近PCM的質(zhì)量,但卻節(jié)省一半的信道容量,因而受到重視。1984年CCITT提出G721建議,采用動(dòng)態(tài)鎖定量化器,這是一種具有自適應(yīng)速度控制32kb/s的自適應(yīng)量化器,并將它作為國際標(biāo)準(zhǔn)化的語音編碼方法。1986年又對(duì)G721建議進(jìn)行了修正,稱G726建議。
ADPCM不適合作音樂的編碼,常用于錄音。雅馬哈的MMF鈴聲用到MIDI+PCM/ADPCM技術(shù),其中PCM和ADPCM就是模擬音效,包括人聲。
四、各種主流音頻編碼(或格式)的介紹
1、PCM編碼
PCM(Pulse Code Modulation),即脈沖編碼調(diào)制,指模擬音頻信號(hào)只經(jīng)過采樣、模數(shù)轉(zhuǎn)換直接形成的二進(jìn)制序列,未經(jīng)過任何編碼和壓縮處理。PCM編碼的最大的優(yōu)點(diǎn)就是音質(zhì)好,最大的缺點(diǎn)就是體積大。在計(jì)算機(jī)應(yīng)用中,能夠達(dá)到最高保真水平的就是PCM編碼,在CD、DVD以及我們常見的WAV文件中均有應(yīng)用。
2、WAVE格式(鈴聲)
這是一種古老的音頻文件格式,由微軟開發(fā)。WAV對(duì)音頻流的編碼沒有硬性規(guī)定,除了PCM之外,還有幾乎所有支持ACM規(guī)范的編碼都可以為WAV的音頻流進(jìn)行編碼。WAV可以使用多種音頻編碼來壓縮其音頻流,不過我們常見的都是音頻流被PCM編碼處理的WAV,但這不表示W(wǎng)AV只能使用PCM編碼,MP3編碼同樣也可以運(yùn)用在WAV中,只要安裝好了相應(yīng)的Decode,就可以欣賞這些WAV了。
在Windows平臺(tái)下,基于PCM編碼的WAV是被支持得最好的音頻格式,所有音頻軟件都能完美支持,由于本身可以達(dá)到較高的音質(zhì)的要求,因此,WAV也是音樂編輯創(chuàng)作的首選格式,適合保存音樂素材。因此,基于PCM編碼的WAV被作為了一種中介的格式,常常使用在其他編碼的相互轉(zhuǎn)換之中,例如MP3轉(zhuǎn)換成WMA。
3、 MP3編碼(鈴聲)
MP3,眾所周知也就是MPEG-1 Layer 3,是一個(gè)意圖達(dá)到高的壓縮率同時(shí)又能保持相當(dāng)不錯(cuò)的音質(zhì)的有損音頻格式。Layer 3不是MPEG Layer 1或Layer2的新版,只是與它們不同的復(fù)雜的編碼方案。現(xiàn)在有許多可用的MP3編碼器,其中最高品質(zhì)的莫過于Lame,同時(shí)它也是開源免費(fèi)的。
MP3技術(shù)上支持多聲道(多于2個(gè)聲道),但從未實(shí)施過或者今后也不會(huì)了。事實(shí)上,你可以編碼源文件為pro logic (II)的多聲道文件變換成立體聲MP3。
MP3有不同的采樣率和比特率(注意比特率并不是量化精度,而是代表壓縮比),代表不同的音質(zhì)。網(wǎng)絡(luò)上流行的MP3是44.1KHz采樣率,128Kbps比特率的。下表中列出了不同品質(zhì)的MP3,其中列表示SR(采樣頻率),范圍8KHz~48KHz,行表示BR(比特率),范圍8Kbps~320Kbps。
4、OGG編碼(鈴聲)
網(wǎng)絡(luò)上出現(xiàn)了一種叫OggVorbis的音頻編碼,號(hào)稱MP3殺手!OggVorbis究竟什么來頭呢?OGG是一個(gè)龐大的多媒體開發(fā)計(jì)劃的項(xiàng)目名稱,將涉及視頻音頻等方面的編碼開發(fā)。整個(gè)OGG項(xiàng)目計(jì)劃的目的就是向任何人提供完全免費(fèi)多媒體編碼方案。OGG的信念就是:OPEN!FREE!Vorbis這個(gè)詞匯是特里·普拉特柴特的幻想小說《Small Gods》中的一個(gè)"花花公子"人物名。這個(gè)詞匯成為了OGG項(xiàng)目中音頻編碼的正式命名。目前Vorbis已經(jīng)開發(fā)成功,并且開發(fā)出了編碼器。
OggVorbis是高質(zhì)量的音頻編碼方案,官方數(shù)據(jù)顯示:Ogg Vorbis可以在相對(duì)較低的數(shù)據(jù)速率下實(shí)現(xiàn)比MP3更好的音質(zhì)。OggVorbis這種編碼也遠(yuǎn)比90年代開發(fā)成功的MP3先進(jìn),她可以支持多聲道,這意味著什么?這意味著OggVorbis在SACD、DTSCD、DVDAUDIO抓軌軟件的支持下,可以對(duì)所有的聲道進(jìn)行編碼,而不是MP3只能編碼2個(gè)聲道。多聲道音樂的興起,給音樂欣賞帶來了革命性的變化,尤其在欣賞交響時(shí),會(huì)帶來更多臨場(chǎng)感。這場(chǎng)革命性的變化是MP3無法適應(yīng)的。
和MP3一樣,OggVorbis是一種靈活開放的音頻編碼,能夠在編碼方案已經(jīng)固定下來后還能對(duì)音質(zhì)進(jìn)行明顯的調(diào)節(jié)和新算法的改良。因此,它的聲音質(zhì)量將會(huì)越來越好,和MP3相似,OggVorbis更像一個(gè)音頻編碼框架,可以不斷導(dǎo)入新技術(shù)逐步完善。和MP3一樣,OGG也支持VBR(可變比特率)。
5、MPC 編碼
MPC(MusePack)高比特率高保真音樂格式。是另外一個(gè)令人刮目相看的實(shí)力派選手,它的普及過程非常低調(diào),也沒有什么復(fù)雜的背景故事,她的出現(xiàn)目的就只有一個(gè),更小的體積更好的音質(zhì)!MPC以前被稱作MP+,很顯然,可以看出她針對(duì)的競(jìng)爭(zhēng)對(duì)手是誰。但是,只要用過這種編碼的人都會(huì)有個(gè)深刻的印象,就是她出眾的音質(zhì)。
6、mp3PRO 編碼
2001年6月14日,美國湯姆森多媒體公司(ThomsonMultimedia SA)與佛朗赫弗協(xié)會(huì)(FraunhoferInstitute)于6月14日發(fā)布了一種新的音樂格式版本,名稱為mp3PRO,這是一種基于mp3編碼技術(shù)的改良方案,從官方公布的特征看來確實(shí)相當(dāng)吸引人。從各方面的資料顯示,mp3PRO并不是一種全新的格式,完全是基于傳統(tǒng)mp3編碼技術(shù)的一種改良,本身最大的技術(shù)亮點(diǎn)就在于SBR(SpectralBand Replication頻段復(fù)制),這是一種新的音頻編碼增強(qiáng)算法。它提供了改善低位率情況下音頻和語音編碼的性能的可能。這種方法可在指定的位率下增加音頻的帶寬或改善編碼效率。SBR最大的優(yōu)勢(shì)就是在低數(shù)據(jù)速率下實(shí)現(xiàn)非常高效的編碼,與傳統(tǒng)的編碼技術(shù)不同的是,SBR更像是一種后處理技術(shù),因此解碼器的算法的優(yōu)劣直接影響到音質(zhì)的好壞。高頻實(shí)際上是由解碼器(播放器)產(chǎn)生的,SBR編碼的數(shù)據(jù)更像是一種產(chǎn)生高頻的命令集,或者稱為指導(dǎo)性的信號(hào)源,這有點(diǎn)駇idi的工作方式。我們可以看到,mp3PRO其實(shí)是一種mp3信號(hào)流和SBR信號(hào)流的混合數(shù)據(jù)流編碼。有關(guān)資料顯示,SBR技術(shù)可以改善低數(shù)據(jù)流量下的高頻音質(zhì),改善程度約為30%,我們不管這個(gè)30%是如何得來的,但可以事先預(yù)知這種改善可以讓64kbps的mp3達(dá)到128kbps的mp3的音質(zhì)水平(注:在相同的編碼條件下,數(shù)據(jù)速率的提升和音質(zhì)的提升不是成正比的,至少人耳聽覺上是這樣的),這和官方聲稱的64kbps的mp3PRO可以媲美128kbps的mp3的宣傳基本是吻合的。
7、WMA(鈴聲)
WMA就是WindowsMedia Audio編碼后的文件格式,由微軟開發(fā),WMA針對(duì)的不是單機(jī)市場(chǎng),而是網(wǎng)絡(luò)。競(jìng)爭(zhēng)對(duì)手就是網(wǎng)絡(luò)媒體市場(chǎng)中著名的RealNetworks。微軟聲稱,在只有64kbps的碼率情況下,WMA可以達(dá)到接近CD的音質(zhì)。和以往的編碼不同,WMA支持防復(fù)制功能,她支持通過WindowsMedia Rights Manager加入保護(hù),可以限制播放時(shí)間和播放次數(shù)甚至于播放的機(jī)器等等。WMA支持流技術(shù),即一邊讀一邊播放,因此WMA可以很輕松的實(shí)現(xiàn)在線廣播,由于是微軟的杰作,因此,微軟在Windows中加入了對(duì)WMA的支持,WMA有著優(yōu)秀的技術(shù)特征,在微軟的大力推廣下,這種格式被越來越多的人所接受。
8、RA
RA就是RealAudio格式,這是各位網(wǎng)蟲接觸得非常多的一種格式,大部分音樂網(wǎng)站的在線試聽都是采用了RealAudio,這種格式完全針對(duì)的就是網(wǎng)絡(luò)上的媒體市場(chǎng),支持非常豐富的功能。最大的閃爍點(diǎn)就是這種格式可以根據(jù)聽眾的帶寬來控制自己的碼率,在保證流暢的前提下盡可能提高音質(zhì)。RA可以支持多種音頻編碼,包括ATRAC3。和WMA一樣,RA不但都支持邊讀邊放,也同樣支持使用特殊協(xié)議來隱匿文件的真實(shí)網(wǎng)絡(luò)地址,從而實(shí)現(xiàn)只在線播放而不提供下載的欣賞方式。這對(duì)唱片公司和唱片銷售公司很重要,在各方的大力推廣下,RA和WMA是目前互聯(lián)網(wǎng)上,用于在線試聽最多的音頻媒體格式。
9、APE
APE是Monkey'sAudio提供的一種無損壓縮格式。Monkey'sAudio提供了Winamp的插件支持,因此這就意味著壓縮后的文件不再是單純的壓縮格式,而是和MP3一樣可以播放的音頻文件格式。這種格式的壓縮比遠(yuǎn)低于其他格式,但能夠做到真正無損,因此獲得了不少發(fā)燒用戶的青睞。在現(xiàn)有不少無損壓縮方案種,APE是一種有著突出性能的格式,令人滿意的壓縮比以及飛快的壓縮速度,成為了不少朋友私下交流發(fā)燒音樂的唯一選擇。
10、AMR(鈴聲)
AMR(Adaptive Multi-Rate)自適應(yīng)多速率編碼。是一種應(yīng)用在手機(jī)上的一種語音壓縮格式,也就是說我們用手機(jī)錄音而成的文件就是這種格式的。AMR格式壓縮率較高但是音質(zhì)相對(duì)較差了一點(diǎn)。優(yōu)點(diǎn)就是我們可以隨心所欲地錄制。
11、AAC/AAC+
?什么是AAC?
AAC代表AdvancedAudio Coding(高級(jí)音頻解碼),是一種由MPEG-4標(biāo)準(zhǔn)定義的有損音頻壓縮格式,由Fraunhofer發(fā)展,Dolby,Sony和AT&T是主要的貢獻(xiàn)者。它被認(rèn)為是MP3的繼承者。AAC能夠在一條音軌中包括48條全帶寬(直到96khz)音頻聲道,加上15條低頻增強(qiáng)(LFE,限制到120Hz)聲道,直到15條數(shù)據(jù)流并且更多。
其實(shí),AAC的技術(shù)早在1997年就成型了,當(dāng)時(shí)被稱為MPEG-2 AAC,但是隨著2000年MPEG-4音頻標(biāo)準(zhǔn)的出臺(tái),MPEG-2 AAC被用在這一標(biāo)準(zhǔn)中,同時(shí)追加了一些新的編碼特性,所以它就改稱為MPEG-4 AAC。與MP3不同,AAC的技術(shù)掌握在多家廠商手中,這使得AAC編碼器非常多,既有純商業(yè)的編碼器,也有完全免費(fèi)的編碼器。純商業(yè)的編碼器如Fraunhofer IIS的FhG、杜比公司的Dolby AAC,免費(fèi)的有Free AAC、蘋果公司的iTune,Nero也通過它的Nero 6提供了Nero AAC。
AAC是一種高壓縮比的音頻壓縮算法,它的壓縮比可達(dá)20:1,遠(yuǎn)遠(yuǎn)超過了AC-3、MP3等較老的音頻壓縮算法。一般認(rèn)為,AAC格式在96Kbps碼率的表現(xiàn)超過了128Kbps的MP3音頻。AAC另一個(gè)引人注目的地方就是它的多聲道特性,它支持1~48個(gè)全音域音軌和15個(gè)低頻音軌。除此之外,AAC最高支持96KHz的采樣率,其解析能力足可以和DVD-Audio的PCM編碼相提并論,因此,它得到了DVD論壇的支持,成為了下一代DVD的標(biāo)準(zhǔn)音頻編碼。
AAC的家族非常龐大,有9種規(guī)格,可適應(yīng)不同場(chǎng)合應(yīng)用的需要。其中LC低復(fù)雜性規(guī)格去掉了預(yù)測(cè)和增益控制模塊,降低了復(fù)雜度,提高編碼效率,是目前使用得最多的規(guī)格。
目前,蘋果、AT&T和RealNetworks已經(jīng)開始提供收費(fèi)的AAC音樂下載服務(wù)。AAC也得到了眾多硬件廠商的支持,除了蘋果的iPOD隨身聽,還有諾基亞的多款手機(jī)及松下的部分隨身聽產(chǎn)品可支持AAC音頻的播放。另外,目前已經(jīng)有部分MPEG-1/2解碼芯片中加入了AAC解碼功能,出現(xiàn)支持AAC音頻播放的DVD影碟機(jī)肯定是遲早的事情。
?什么是HE-AAC(也稱AAC+)和LC-AAC?
AAC有兩種LC AAC與HE AAC,HE AAC是較新的。LC意思是"low complexity"(低復(fù)雜性)而HE意思是 "high efficiency"(高效性)。
HE-AAC也稱之為AAC SBR/AAC+/aacplus等。注意HE-AAC注重于低碼流的編碼并很適合多聲道文件(更小的文件尺寸)。
從學(xué)術(shù)上講,HE-AAC混合了AAC與SBR技術(shù),處理低比特率能有較好的效果。SBR代表的是SpectralBandReplication(頻段復(fù)制)。SBR的關(guān)鍵是在低碼流下提供全帶寬的編碼而不會(huì)產(chǎn)生產(chǎn)生多余的信號(hào)。傳統(tǒng)認(rèn)為音頻編碼在低碼流下意味著減少帶寬和降低采樣率或產(chǎn)生令人不快的噪音信號(hào)。SBR解決問題的方法是讓核心編碼去編碼低頻信號(hào),而SBR解碼器通過分析低頻信號(hào)產(chǎn)生高頻信號(hào)和一些保留在比特流中的指導(dǎo)信號(hào)(通常碼流極低,~2kbps)。這也是為什么被叫做Spectral BandReplication的原因,它只是增加音頻的帶寬,而非重建。(類似的技術(shù)也用在mp3 pro64kbps能媲美128kbps的mp3就是這道理)
?MP4與AAC
MP4最初是一種音頻格式,和MPEG-4沒有太大的關(guān)系,就像MP3和MPEG-3沒有關(guān)系一樣。MP3是MPEG-1Audio Layer 3 的縮寫;而MP4是MPEG-2 AAC,完完全全是一種音頻壓縮格式,增加了諸如對(duì)立體聲的完美再現(xiàn)、多媒體控制、降噪等新特性,最重要的是,MP4通過特殊的技術(shù)實(shí)現(xiàn)數(shù)碼版權(quán)保護(hù),這是MP3所無法比擬的。
現(xiàn)在市面上的MP4多數(shù)偏向于多媒體播放器,能夠播放AAC的,可以說是鳳毛麟角。甚至有媒體把MP4說成是MPEG4的縮寫,這在以前看來是一個(gè)謬論,但是經(jīng)過商家不斷的炒作,這個(gè)謬論也就成為了真理。現(xiàn)在若果你去電腦城聽到MP4這個(gè)詞,絕對(duì)是能播放視頻格式的多媒體播放器的概念,而不是能播放音頻MP4AAC的隨身聽。出現(xiàn)這種怪現(xiàn)象不是毫無原因的,上面已提到AAC有版權(quán)保護(hù)功能,這也是眾多唱片公司支持AAC的原因,要使自己的播放器支持AAC,還得支持付一定的版權(quán)費(fèi)或?qū)@M(fèi),另外,AAC的來源也是個(gè)問題,不像MP3那么開放,網(wǎng)上來源極少,所以目前音頻MP4播放器發(fā)展尚不成熟,鑒于以上現(xiàn)狀,眾商家干脆“借尸還魂”,把MP4等同MPEG-4縮寫而論,這樣也恰好應(yīng)了MP4是MP3的下一代這條規(guī)律,除了支持MP3所具有的音樂播放功能外,還具備強(qiáng)大的MPEG-4視頻播放能力,另外,恰好“4”在“3”后,從這點(diǎn)出發(fā),把MP4等同MPEG-4是合理的。
第三部分??和弦鈴聲格式
與音樂不同的是,和弦鈴聲都是制作出來的。播放的時(shí)候,只需要合成(或解碼)就可以輸出PCM格式的數(shù)據(jù),然后PCM格式的數(shù)據(jù)可以通I2S接口傳輸,然后經(jīng)過數(shù)-模轉(zhuǎn)換輸出。
1、??MIDI合成音樂
?什么是MIDI?
MIDI(Musical Instrument Digital Interface)音樂設(shè)備數(shù)字化接口,也稱為數(shù)字音序。“MIDI”文件(*.MID)不是聲音文件,不是一段錄制好的聲音,而是記錄聲音的信息,然后再告訴聲卡如何再現(xiàn)音樂的一組指令。可以做這樣的比喻:如果數(shù)字音頻是一個(gè)人獨(dú)奏吉它時(shí)的錄音帶,MIDI文件則相當(dāng)于該獨(dú)奏曲的樂譜。雖然樂譜本身不能產(chǎn)生出任何實(shí)際的聲音來,但是樂譜確定了音樂演奏得有多快,撥哪個(gè)音符,以及應(yīng)該用多大的力度彈奏吉它。
我們可以從以下幾點(diǎn)說明“MIDI”文件(*.MID)的特性:
1. 首先,正如上所說,它不是聲音文件,只是一組指導(dǎo)聲卡如何發(fā)聲的指令,因此它生成的文件比較小。
2.它只能應(yīng)用于電子音樂設(shè)備(如電腦聲卡等),而不能應(yīng)用于人聲。原因很簡(jiǎn)單,它發(fā)出的聲音只能來自聲卡中的內(nèi)置音源(例如波表ROM中存儲(chǔ)的音色)。自然界中那么豐富的音樂的和非音樂的聲音,都是不能包括在內(nèi)的。要在MIDI中混合自然界的模擬音效,一般是在在MIDI上疊加PCM/ADPCM。
3.midi格式是記錄每個(gè)音的音色、音名、響度、角度、時(shí)間等,根據(jù)記錄查詢音色庫,得到應(yīng)發(fā)聲音。簡(jiǎn)單的說,每個(gè)音軌對(duì)應(yīng)一種樂器,上面以特定的格式記錄每時(shí)刻該樂器所演奏的樂音。比如,在某時(shí)刻被定義為鋼琴的音軌上記錄著上面所說的135組成的和弦,那么芯片就查詢音色庫得到所對(duì)應(yīng)的音效,然后合成、播放。所以音色庫是關(guān)系midi是否動(dòng)聽的關(guān)鍵因素,好的音色庫是很占地方的。手機(jī)中記錄音樂的方法與電腦上的midi相同或相似,不同的是它所記錄的全是單音,而復(fù)雜的和弦音效沒有記錄。手機(jī)和弦芯片中的音色庫都預(yù)先存儲(chǔ)在內(nèi)置的波表ROM中。
?MIDI的分類:
MIDI格式后綴名是.MID,但其有MIDI0、MIDI1、MIDI2、SP-MIDI、XGMIDI等多種規(guī)范。
MIDI0和MIDI1:MIDI0是單音軌,MIDI1是多音軌。手機(jī)的和弦數(shù)目等于midi格式中的音軌數(shù),手機(jī)的每個(gè)音軌都是單音音軌。網(wǎng)上的絕大多數(shù)MIDI音樂都是多音軌的。另外,MIDI0的讀入和處理速度要快些,有的硬件可以直接讀軟盤上的MIDI文件回放(即時(shí)回放),而MIDI1的做不到。
SMF(Standard MIDI Format):是標(biāo)準(zhǔn)的MIDI格式,SMF分為format0和format1兩種格式,即MIDI0和MIDI1。
SP-MIDI:MIDI協(xié)會(huì)(MMA)推出一個(gè)新的規(guī)定Scalable Polyphony MIDI(簡(jiǎn)稱SP-MIDI),大概可以譯成“可升級(jí)的MIDI復(fù)音”。據(jù)介紹,這個(gè)規(guī)定主要作用是當(dāng)合成器或音源的同時(shí)發(fā)音數(shù)小于作品的要求時(shí),可以根據(jù)作曲家的事先決定省略某些音符或聲部。例如一部為GM2音源寫作的作品(要求32復(fù)音)在GM1或GM Lite音源上演奏的時(shí)候,由于同時(shí)發(fā)音數(shù)不足,必然有一些音符被忽略掉。過去這個(gè)決定權(quán)在機(jī)器方面,帶有隨機(jī)的性質(zhì),可能把樂曲搞得殘缺不全。現(xiàn)在依據(jù)“可升級(jí)的MIDI復(fù)音”規(guī)定,控制權(quán)轉(zhuǎn)移到作曲家手中,創(chuàng)作音樂的時(shí)候就可以設(shè)計(jì)好不同的“樂隊(duì)編制”,使MIDI樂曲的正確演奏更有保證。另外,SP-MIDI標(biāo)準(zhǔn)為使用MIDI消息實(shí)現(xiàn)對(duì)振動(dòng)提示的控制定義了一種可選方法, SP-MIDI內(nèi)容中可以同時(shí)含有音頻和振動(dòng)兩種表現(xiàn)形式。振動(dòng)控制被定義為弦樂器。
?什么是音樂合成技術(shù)?
音樂合成的途徑
1.采樣合成(波表合成):這是最常見的音樂合成方式,為了得到鋼琴聲,就把鋼琴在不同音階下發(fā)出的聲音錄制保存下來,當(dāng)播放音樂需要鋼琴聲時(shí),錄制下來的樣本被調(diào)用并通過計(jì)算來獲得正確的音符。其缺點(diǎn)是需要許多存儲(chǔ)空間來保存高質(zhì)量的聲音樣本。例如,大多數(shù)PC使用采樣合成,其波表將占用8MB或更多存儲(chǔ)空間,這對(duì)移動(dòng)電話電話來說是一個(gè)非常大的開銷。
2. 波譜匹配:Yamaha的調(diào)頻合成(FM合成)同潤(rùn)威公司的GAP都屬于這種類型。這種方式包括找到一個(gè)數(shù)學(xué)公式來調(diào)制樂器聲音輸出使得其像真正的樂器那樣。這種方式使用很少的系統(tǒng)開銷,同時(shí)也比采樣合成使用的存儲(chǔ)空間少很多。
?MIDI的三個(gè)標(biāo)準(zhǔn):GS、GM、XG
?音樂的要素之一是音色。在MIDI中,一種樂器就是一種音色(Patch,Program和Timbre)。現(xiàn)實(shí)的情況是不同的合成器和音源的制造者為了使自己的產(chǎn)品有獨(dú)特之處,總是開發(fā)出若干種特殊音色,因而不同品牌的設(shè)備在音色種類和音色排列順序方面會(huì)大不相同。這就導(dǎo)致了一個(gè)缺陷的出現(xiàn):使用甲合成器制作的MIDI文件,換了乙合成器就不能正確播放。其原因在于甲合成器上01號(hào)音色可能是鋼琴,而在乙合成器上,01號(hào)音色可能是打擊樂或其他音色。總而言之。每一種MIDI設(shè)備的音色設(shè)置(以及其他方面)都具有排他性。這就使音樂家受到了設(shè)備的制約。為了有利于音樂家廣泛地使用不同的合成器設(shè)備和促進(jìn)MIDI文件的交流,MIDI協(xié)會(huì)(MMA)于1991年制訂了“通用MIDI”(GM)標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)以日本Roland公司的通用合成器(GS)標(biāo)準(zhǔn)為基礎(chǔ)而制訂。
值得注意的是,雖然現(xiàn)在有了國際通用的GM標(biāo)準(zhǔn)可供電子樂器生產(chǎn)廠家參照,但仍有另外兩個(gè)標(biāo)準(zhǔn)與GM標(biāo)準(zhǔn)共存,一個(gè)是GS標(biāo)準(zhǔn),為Roland公司的產(chǎn)品所專用,它產(chǎn)生于GM標(biāo)準(zhǔn)出現(xiàn)之前,也是GM的前身。另一個(gè)是后來出現(xiàn)的XG標(biāo)準(zhǔn),為YAMAHA公司的產(chǎn)品所專用。
1、GS標(biāo)準(zhǔn)。
GS為General??Synthesizer的縮寫,意為“通用合成器”,是羅蘭公司創(chuàng)立的一種MIDI標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)具有有以下五種主要功能:1)16個(gè)聲部。2)最大復(fù)音數(shù)為24或更多。3)GS格式的樂器音色排列,該格式包含有各種不同風(fēng)格的音樂所使用的樂器音色和打擊樂音色。4)鼓音色可以通過音色改變信息進(jìn)行選擇。5)包含兩種可調(diào)節(jié)的效果,有混響和合唱。
2、GM標(biāo)準(zhǔn)。 GM是 General??MIDI Mode(通用MIDI)的縮寫,即GMM,通常縮寫為GM。該標(biāo)準(zhǔn)是MIDI協(xié)會(huì)以羅蘭公司的通用合成器(GS)標(biāo)準(zhǔn)為基礎(chǔ)而建立的標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)為一般合成器所共有的128種樂器音色(分成16組)規(guī)定了序號(hào),將47種標(biāo)準(zhǔn)的非旋律性打擊樂器分配在第10通道,并為這47種打擊樂器規(guī)定了音符序號(hào)(35(B2)-81(A6))。以下是GM標(biāo)準(zhǔn)的128種音色分類表:
?3、XG標(biāo)準(zhǔn)。XG-MIDI是Extended??General??MIDI(擴(kuò)展的通用MIDI)的縮寫。XG是繼GM標(biāo)準(zhǔn)建立之后,雅馬哈公司于1994年推出的新的音源控制規(guī)格。XG在保持與GM兼容的同時(shí),又增加了許多新的功能,其中包括音色庫(音色數(shù)量)的增加,和啟用更多的控制器對(duì)音色亮度等方面進(jìn)行控制等等。
2、SMAF格式(文件擴(kuò)展名.MMF)
合成音樂移動(dòng)應(yīng)用格式(Syntheticmusic Mobile ApplicationFormat,縮寫為SMAF),是雅馬哈公司首創(chuàng)的一種移動(dòng)電話內(nèi)容標(biāo)準(zhǔn),是目前手機(jī)上使用非常多的和弦鈴聲,網(wǎng)絡(luò)上有非常多的鈴聲資源可供下載。最常見的為MA2,MA3,MA5。MA2對(duì)應(yīng)16和弦,MA3對(duì)應(yīng)40和弦,MA5對(duì)應(yīng)64和弦。與MIDI相比,它采用了MIDI+PCM/ADPCM的技術(shù),故而支持真人鈴聲。
3、VMD
VMD技術(shù)是針對(duì)手機(jī)平臺(tái)的新一代多媒體技術(shù),該技術(shù)可以用于制作鈴聲、音樂、卡拉OK、動(dòng)畫、移動(dòng)電視、流媒體播放等,為手機(jī)用戶提供完美的多媒體體驗(yàn)。這標(biāo)志著移動(dòng)多媒體應(yīng)用產(chǎn)業(yè)鏈的核心技術(shù)層面已經(jīng)取得了關(guān)鍵性的突破,業(yè)內(nèi)人士認(rèn)為它將成為未來多媒體手機(jī)的新趨勢(shì)。以鈴聲應(yīng)用為例,目前普遍采用的MIDI播放效果受播放器或合成器的限制,由于文件尺寸較小無法嵌入人聲、水聲(wave或mp3)等自然界的聲音,表現(xiàn)力不足;而WAVE和MP3文件格式可以保存自然界和樂器的聲音。但MP3需要快速解碼,WAVE也需要格式轉(zhuǎn)換。VMD格式中對(duì)MIDI音樂指令作了全面優(yōu)化——這種格式對(duì)MIDI的指令合并精簡(jiǎn),在保留完全相同音質(zhì)的情況下,使得MIDI音樂指令的長(zhǎng)度更小;VMD文件的組織結(jié)構(gòu)也經(jīng)過專門設(shè)計(jì),使得文件組織模塊化,從多軌轉(zhuǎn)換為單軌,在這方面比其它格式更適合硬件平臺(tái)處理。在文件格式上VMD吸取了SMIL等規(guī)范的優(yōu)點(diǎn),使得VMD-MIDI和WAV、MP3、JPEG等數(shù)據(jù)可以保留原有存儲(chǔ)方式,也可以獨(dú)立解析;MIDI部分不包含專門針對(duì)合成器硬件的繁瑣的控制信息,能夠廣泛地被合成器廠商支持;VMD格式中對(duì)歌詞、版權(quán)等文本信息使用UNICODE編碼,可支持多國語言。此外,在VMD文件中還可以控制手機(jī)的LED和馬達(dá),實(shí)現(xiàn)聲、光和震動(dòng)一體化的效果,并嵌入音色庫和音效庫。
第四部分??單聲道、立體聲和環(huán)繞聲
一、單聲道(Mono):
所謂的單聲道,就是聲音只由一只音箱產(chǎn)生,聽眾可以很明顯地聽出聲音的來源就是音箱所擺放的位置,其本身的表現(xiàn)力較為平淡;當(dāng)通過兩個(gè)揚(yáng)聲器回放單聲道信息的時(shí)候,我們可以明顯感覺到聲音是從兩個(gè)音箱正中間傳遞到我們耳朵里的。
二、立體聲(Stereo):
它利用了兩個(gè)獨(dú)立聲道進(jìn)行錄音,整個(gè)過程不加任何的聲音處理。立體聲系統(tǒng)的再現(xiàn)需要一對(duì)音箱來完成,它通過調(diào)整系統(tǒng)中兩只音箱發(fā)出聲音的大小,讓我們誤認(rèn)為聲源來自兩只音箱之間直線段中的任意位置。特別是當(dāng)使用耳機(jī)的時(shí)候,由于左右兩邊的聲音串音情況很少發(fā)生,所以聲音的定位比較準(zhǔn)確;再加上比較真實(shí)的音場(chǎng)感覺,它的表現(xiàn)力比單聲道真實(shí)得多。但(Stereo)的缺陷也十分明顯,最明顯就是對(duì)音箱的位置擺放要求較高,擺位的不好會(huì)直接影響聲音的表達(dá)。
四、3D環(huán)繞聲 (3D Surround)
有時(shí)也稱作3D增強(qiáng)立體聲(3D Enhancement)。它是一種模擬環(huán)繞聲系統(tǒng)。左、右聲道的立體聲信號(hào),經(jīng)過數(shù)字信號(hào)處理后,通過左、右兩路音箱,產(chǎn)生三維的環(huán)繞聲場(chǎng)效果。它使用一般雙聲道創(chuàng)建一個(gè)具有三維感覺的環(huán)繞聲音場(chǎng),比立體聲好,但與編碼式環(huán)繞系統(tǒng)有相當(dāng)?shù)牟罹唷3R姷挠蠸RS實(shí)驗(yàn)室的SRSWOW、Q-sound實(shí)驗(yàn)室的Qxpander、Spatializer實(shí)驗(yàn)室的Spatializer 3D等技術(shù),主要針對(duì)普通雙聲道立體聲信號(hào)進(jìn)行處理,對(duì)于杜比環(huán)繞聲信號(hào)不作解碼,采用強(qiáng)制處理的方式,顯而易見不可能處理AC-3信號(hào)。
五、環(huán)繞聲系統(tǒng)與虛擬環(huán)繞聲(Virtual Surround):
比較出名的有杜比AC-3(也稱DolbyDigital,杜比數(shù)字)、DTS(Digital TheaterSystem,數(shù)字影院系統(tǒng))、THX家庭影院系統(tǒng)。以著名的AC-3杜比數(shù)碼環(huán)繞聲系統(tǒng)為例。杜比實(shí)驗(yàn)室在1991年開發(fā)出一種杜比數(shù)碼環(huán)繞聲系統(tǒng)(Dolby??Surround??DigitaI),??即AC-3系統(tǒng)。??AC-3杜比數(shù)碼環(huán)繞聲系統(tǒng)由5個(gè)完全獨(dú)立的全音域聲道和一個(gè)超低頻聲道組成,??有時(shí)又將它們稱為5.1聲道。??其中5個(gè)獨(dú)立聲道為:??前置左聲道、前置右聲道、中置聲道、環(huán)繞左聲道和環(huán)繞右聲道;??另外還有一個(gè)專門用來重放120Hz以下的超低頻聲道,??即0.1聲道。
在環(huán)繞聲的實(shí)現(xiàn)上,無論是杜比AC3還是DTS,都有一個(gè)特點(diǎn),就是回放時(shí)需要多個(gè)音箱,一般一個(gè)聲道對(duì)應(yīng)至少一個(gè)音箱,比如用杜比數(shù)字系統(tǒng),起碼需要5個(gè)全音頻范圍的音箱,再加上一個(gè)低音炮,由于價(jià)格及空間方面的原因,有的消費(fèi)者,如多媒體電腦的用戶,并沒有足夠的音箱,這時(shí)候就需要一種技術(shù),能夠把多聲道的信號(hào)經(jīng)過處理,在兩個(gè)平行放置的音箱中回放出來,并且能夠讓人感覺到環(huán)繞聲的效果,這就是虛擬環(huán)繞聲技術(shù)。
與3D環(huán)繞技術(shù)不同的是,它是對(duì)杜比類環(huán)繞聲信號(hào)進(jìn)行解碼,再利用單耳效應(yīng)和雙耳效應(yīng)對(duì)環(huán)繞聲信號(hào)進(jìn)行虛擬化處理,盡管僅有兩個(gè)重放聲道,但讓聽眾感到多聲道效果,即產(chǎn)生所謂的揚(yáng)聲器虛擬幻像。虛擬環(huán)繞聲技術(shù)主要有SRS公司的SRSTruSurround、Q-sound公司的Qsurround、Aureal公司的A3D、Spatializer公司的N-2-2DVS等技術(shù),當(dāng)然還有杜比實(shí)驗(yàn)室的杜比虛擬環(huán)繞聲VSS(VirtualSurround Sound)技術(shù),非杜比實(shí)驗(yàn)室的技術(shù)一般也獲得了杜比實(shí)驗(yàn)室的認(rèn)可,可以用于回放杜比定向邏輯和杜比數(shù)字信號(hào)。??? ?? ?? ?? ?? ?? ?? ?
第五部分??3D環(huán)繞聲技術(shù)
在MP3中用到的最多的音效有BBESound的BBE音效和SRS實(shí)驗(yàn)室的SRS音效。在音樂芯片F(xiàn)T1960中采用了SRS公司的 WOW XT SurrondSound技術(shù);在松下的立體聲功放AN12974A中采用了Spatializer 3D技術(shù);在雅嗎哈的YMU788芯片中采用了DVX技術(shù)。
一、SRS音效
這里介紹SRS實(shí)驗(yàn)室的SRSWOW(立體聲增強(qiáng)技術(shù))。SRSLabs根據(jù)人類聽覺的基本元素,開發(fā)出“心理聲音”(psychoacoustic)音響技術(shù),包括SRS(環(huán)繞聲)、TrueBass(低音增強(qiáng))、FOCUS(聲場(chǎng)提升)及WOW(Trubass+SRS),讓人類感覺到受器材限制而聽不出的聲音。
現(xiàn)在MP3播放器所用的SRS音效是SRS WOW,它由SRS(環(huán)繞聲), TruBass(低音增強(qiáng))和FOCUS(聲場(chǎng)提升)組成。
官方對(duì)WOW的描述如下(可能翻譯的并不準(zhǔn)確):
?WOW:可以突破小型揚(yáng)聲器和耳機(jī)的固有局限,通過提供3D音頻圖象在水平及垂直方位上擴(kuò)展聲音使其超越器材本身的能力。這樣,小型音頻設(shè)備,電視,無線和個(gè)人/便攜產(chǎn)品的制造商不用增大揚(yáng)聲器尺寸便可顯著改善其產(chǎn)品的聲響效果。特別在諸如MP3,WMA和音頻CD這些經(jīng)數(shù)碼壓縮使空間感被極大削弱的單聲道或立體聲音頻格式上,WOW的修飾效果尤其顯著。
?SRS:SRS能恢復(fù)被傳統(tǒng)錄制和播放設(shè)備掩蓋住的空間信息。通過將立體聲信號(hào)分解為多個(gè)部分,它可以分離并恢復(fù)空間信號(hào)或原始錄音所呈現(xiàn)的環(huán)境信息。 并且把它們放在直接聲音的正常空間。這些空間信號(hào)被專利幅頻響應(yīng)校正曲線所處理。這樣,再現(xiàn)的聲音會(huì)非常接近藝術(shù)家最初設(shè)想的那種現(xiàn)場(chǎng)效果。SRS沒有所謂的最佳聽音位置(sweet spot),因此,音樂和聲音好像充滿了房間,使聽者完全處在全三維聲音包圍中。
?TruBass:TruBass是一種SRS專利技術(shù),運(yùn)用人類聲音心理學(xué)專利技術(shù)來增強(qiáng)低音性能。這些技術(shù)能利用原始音源中表現(xiàn)的和聲再現(xiàn)低頻信息。恢復(fù)基本低頻音調(diào)的感覺- 即使該信息低于揚(yáng)聲器和耳機(jī)的低頻極限。因此TruBass可以呈現(xiàn)出比小型、中型和大型揚(yáng)聲器和耳機(jī)的低頻極限還低八度,并且深邃豐富的聽感。
?FOCUS:FOCUS通過提升聲場(chǎng)來生成聲音圖象的高度感。當(dāng)于SRS 3D結(jié)合時(shí),F(xiàn)OCUS會(huì)放大聲音圖像,產(chǎn)生一個(gè)非常高廣,最佳聽音位置(sweet spot)寬廣的聲場(chǎng)。另外,F(xiàn)OCUS能改善高頻通透度讓聽者沉浸其中。在揚(yáng)聲器低于音場(chǎng)的產(chǎn)品中,比如內(nèi)投影電視或固定在門板上的汽車揚(yáng)聲器,F(xiàn)OCUS將可用電子學(xué)方法調(diào)節(jié)重新將聲場(chǎng)定位于聽者前方的最佳位置上。
二、BBE音效
BBE音效的3D環(huán)繞立體聲技術(shù)包括, BBE、BBE MacH3Bass、BBE MP三種。
Ø? BBE系統(tǒng)具有兩個(gè)基本功能,其中之一是調(diào)節(jié)低、中和高頻相位之間的關(guān)系。第二個(gè)功能是增強(qiáng)了高頻和低頻信號(hào)。此外,BBE還具有靜噪功能。BBE電路內(nèi)部設(shè)有噪聲門和高截止濾波器,能對(duì)輸入的雜散信號(hào)進(jìn)行衰減。
Ø?
?BBEMach3Bass用電子學(xué)方法擴(kuò)展特定擴(kuò)音器的低音響應(yīng)并能精確調(diào)整需要的低頻極限。在世界知名的BBE處理相位誤差校正技術(shù)的幫助下,BBEMach3Bass可提供比標(biāo)準(zhǔn)低音提升電量更深,更密,更精確的低音頻率。BBEMach3Bass不影響中低段聲音,否則會(huì)在中低頻段產(chǎn)生混濁并改變角色的嗓音。
Ø?
?? ?? BBE MP (最小化多項(xiàng)非線性飽和)技術(shù)通過數(shù)字壓縮復(fù)原和增強(qiáng)諧波損失,進(jìn)而提高經(jīng)數(shù)字壓縮處理的音頻(如MP3)音效。BBEMP從原始資料中復(fù)原聲音,因而有效地恢復(fù)聲音的溫暖感、細(xì)膩感和細(xì)微差別。BBEMP可將聲級(jí)平均提高3個(gè)分貝,同時(shí)保持峰間搖擺不變。由于聲音輸出高出3個(gè)分貝,信噪比也相應(yīng)地得到了改善。
通過上面技術(shù)描述的對(duì)比可以發(fā)現(xiàn),雖然都可以提升低音,但兩者對(duì)音樂的實(shí)質(zhì)影響是完全不同的,SRS WOW帶給音樂的改變是在空間感方面,就是聽上去感覺聲音范圍更大了,而BBE提高聲音的清晰度,整個(gè)聲場(chǎng)強(qiáng)度都上了個(gè)臺(tái)階。
三、Spatializer 3D
? ?Spatializer實(shí)驗(yàn)室的3D增強(qiáng)技術(shù)。具體不詳。
四、DVX技術(shù)
日本DiMAGIC公司的DiMAGICVirtu-alizerX(DVX)環(huán)繞立體聲技術(shù)。具體不詳。
第六部分??數(shù)字音頻格式和數(shù)字音頻接口
一、數(shù)字音頻格式
1、PCM格式及其分類
PCM是未壓縮(無損)的數(shù)字音頻格式。其采樣速率為可以為6、8、11.025、16、22.05、32、44.1、48、64、88.2、96、192KHz,采樣精度可以為8、12、13、16,20, 或24 bits。可以有1到8個(gè)聲道。最大比特速率為6.144Mbps,如果有5個(gè)或更多聲道,這個(gè)最大速率就限制了采樣率和比特位數(shù)。例如音頻CD為44.1 kHz/16bits/雙聲道;DVD不僅能夠播放2聲道的超高保真音響(192KHz/24bit/雙聲道),還能播放線性PCM最多6個(gè)聲道的環(huán)繞聲音響(96kHz/24bit/6聲道)。PCM格式又根據(jù)其量化方式可以分為線性PCM(linear PCM)和非線性PCM(non-linear PCM),前者是均勻量化得到的,后者是非均勻量化得到的。
?均勻量化
如果采用相等的量化間隔對(duì)采樣得到的信號(hào)作量化,那么這種量化稱為均勻量化。均勻量化就是采用相同的“等分尺”來度量采樣得到的幅度,也稱為線性量化,如圖6所示。
圖6??均勻量化
?非均勻量化
非線性量化的基本想法是,對(duì)輸入信號(hào)進(jìn)行量化時(shí),大的輸入信號(hào)采用大的量化間隔,小的輸入信號(hào)采用小的量化間隔,如圖7所示。這樣就可以在滿足精度要求的情況下用較少的位數(shù)來表示。聲音數(shù)據(jù)還原時(shí),采用相同的規(guī)則。
在非線性量化中,采樣輸入信號(hào)幅度和量化輸出數(shù)據(jù)之間定義了兩種對(duì)應(yīng)關(guān)系,一種稱為u律壓擴(kuò)(companding)算法,另一種稱為A律壓擴(kuò)算法。
u律(u-Law)壓擴(kuò)(G.711)主要用在北美和日本等地區(qū)的數(shù)字電話通信中。它的輸入和輸出關(guān)系是對(duì)數(shù)關(guān)系,所以這種編碼又稱為對(duì)數(shù)PCM。A律(A-Law)壓擴(kuò)(G.711)主要用在歐洲和中國大陸等地區(qū)的數(shù)字電話通信中。A律壓擴(kuò)的前一部分是線性的,其余部分與u律壓擴(kuò)相同。
對(duì)于采樣頻率為8 kHz,樣本精度為13位、14位或者16位的輸入信號(hào),使用u律壓擴(kuò)編碼或者使用A律壓擴(kuò)編碼,經(jīng)過PCM編碼器之后每個(gè)樣本的精度為8位。
圖8? ?非均勻量化
2、DSD音頻格式
PCM脈碼調(diào)制數(shù)字音頻格式是70年代末發(fā)展起來的,記錄媒體之一的CD,80年代初由飛利浦和索尼公司共同推出。PCM的音頻格式也被DVD-A所采用,它支持立體聲和5.1環(huán)繞聲,1999年由DVD討論會(huì)發(fā)布和推出的。
PCM的比特率,從14-bit發(fā)展到16-bit、18-bit、20-bit直到24-bit;采樣頻率從44.1kHz發(fā)展到192kHz。到目前為止PCM這項(xiàng)技術(shù)可以改善和提高的方面則越來越來小。只是簡(jiǎn)單的增加PCM比特率和采樣率,不能根本的改善它的根本問題。其原因是PCM的主要問題在于:
1)任何PCM數(shù)字音頻系統(tǒng)需要在其輸入端設(shè)置急劇升降的濾波器,僅讓20 Hz - 22.05 kHz的頻率通過(高端22.05kHz是由于CD 44.1kHz的一半頻率而確定),這是一項(xiàng)非常困難的任務(wù)。
2)在錄音時(shí)采用多級(jí)或者串聯(lián)抽選的數(shù)字濾波器(減低采樣率),在重放時(shí)采用多級(jí)的內(nèi)插的數(shù)字濾波器(提高采樣率),為了控制小信號(hào)在編碼時(shí)的失真,兩者又都需要加入重復(fù)定量噪聲。這樣就限制了PCM技術(shù)在音頻還原時(shí)的保真度。
為了全面改善PCM 數(shù)字音頻技術(shù),獲得更好的聲音質(zhì)量,就需要有新的技術(shù)來替換。近年來飛利浦和索尼公司再次聯(lián)手,共同推出一種稱為直接流數(shù)字編碼技術(shù)DSD的格式, 其記錄媒體為超級(jí)音頻CD即SACD,支持立體聲和5.1環(huán)繞聲。
DSD音頻格式簡(jiǎn)化了信號(hào)流程,去掉了PCM使用的多級(jí)濾波器,將模擬音頻直接以2.8224MHz的高采樣頻率,按1-bit的數(shù)字脈沖來記錄。雖然DSD格式表示的聲音信號(hào)是數(shù)字化數(shù)據(jù),但是它又與真正的聲波非常接近,可完整的記錄當(dāng)今最佳模擬系統(tǒng)的信息。最好的30ips半英寸模擬錄音機(jī)能記錄的頻率能超過50KHz,而DSD格式的頻率響應(yīng)指標(biāo)為從DC到100KHz。能覆蓋高級(jí)模擬調(diào)音臺(tái)的動(dòng)態(tài)范圍,通過其音頻頻段的剩余噪聲功率,保持在-120dB。DSD的頻率響應(yīng)和動(dòng)態(tài)范圍,是任何數(shù)字和模擬的錄音系統(tǒng)無法與之比擬的。從聲音的質(zhì)量上來說,數(shù)字音頻技術(shù)是為了接近模擬聲音的質(zhì)量。DSD音頻格式的發(fā)展將更有利的與模擬音頻系統(tǒng)配合。
二、數(shù)字音頻接口
常見的數(shù)字音頻接口有I2S接口、PCM接口和SPDIF接口。這里只作簡(jiǎn)要介紹。
?I2S接口:只能傳輸單聲道或雙聲道立體聲的數(shù)字音頻,數(shù)據(jù)格式為PCM格式。該接口又派生出三類:左對(duì)齊格式、右對(duì)齊格式、I2S格式。I2S時(shí)差性能要優(yōu)于SPDIF,適合短距離通訊。
PCM接口:也叫DSP模式音頻接口。一般用來傳輸單聲道或雙聲道立體聲的數(shù)字音頻,但是理論上也可以傳輸多聲道的數(shù)字音頻。
數(shù)據(jù)格式為PCM格式。
SPDIF接口:SPDIF(SonyPhillips Digital Interface)SONY、PHILIPS數(shù)字音頻接口。它的傳輸載體有同軸和光纖兩種,后者抗干擾能力更強(qiáng)。SPDIF能傳輸PCM流,也能傳輸杜比數(shù)字(DolbyDigital)、DTS這類環(huán)繞聲壓縮音頻信號(hào)。PCM流是原始、未經(jīng)壓縮的音頻信號(hào),杜比數(shù)字、DTS也是來源于PCM流。