前言
學習AudioToolBox有一段時間了,期間有遇到不少坑(主要還是英文不夠好,看官方文檔不甚明了)。隨著一路踩坑填坑,倒是積累了不少音頻相關(guān)的知識。在這里分享一下心得,算是給后來的人一點幫助吧。
??這一篇是基礎(chǔ)篇,主要介紹音頻基礎(chǔ)知識,順便講講iOS上實現(xiàn)音頻流播的幾種方式和需要掌握的知識。
??開源項目DOUAudioStreamer對我?guī)椭艽螅ǜ兄x開源社區(qū)),而我最開始的知識來自這一系列博客,大家也可以去學習一下。很多知識我就直接引用了(其實是copy過來),這里先說明一下。
音頻基礎(chǔ)知識
音頻文件的生成過程是將連續(xù)的離散信號(真實的聲音信號)采樣、量化再編碼轉(zhuǎn)化為離散的數(shù)字信號的過程,這一過程被稱為脈沖編碼調(diào)制(Pulse Code Modulation,PCM)。采樣必須遵循奈奎斯特抽樣定理(只有采樣頻率高于聲音信號最高頻率的兩倍時,才能把數(shù)字信號表示的聲音還原成為原來的聲音),而人耳能聽到的聲音,頻率最低從20Hz起到20KHz,所以音頻文件的采樣率一般在40KHz以上,比如最常見的44.1KHz和48KHz。
采樣(sampling)
把模擬音頻轉(zhuǎn)成數(shù)字音頻的過程,就稱作采樣。采樣的過程實際上是將通常的模擬音頻信號的電信號轉(zhuǎn)換成二進制碼0和1,這些0和1便構(gòu)成了數(shù)字音頻文件。要正確理解音頻采樣可以分為采樣的頻率和采樣的位數(shù)。
采樣頻率(sample rate)
也稱為采樣速度或者采樣率(單位Hz),定義了每秒從連續(xù)信號中提取并組成離散信號的采樣個數(shù)。通俗的講采樣頻率是指計算機每秒鐘采集多少個信號樣本,采樣頻率越高聲音的還原就越真實越自然。
采樣位數(shù)
也稱為采樣精度(單位bit),采樣位數(shù)可以理解為采集卡處理聲音的解析度。這個數(shù)值越大,解析度就越高,錄制和回放的聲音就越真實。移動端常見的采樣位數(shù)為8或16。8位代表2的8次方--256,16位則代表2的16次方--64K。比較一下,一段相同的音樂信息,16位聲卡能把它分為64K個精度單位進行處理,而8位聲卡只能處理256個精度單位,造成了較大的信號損失,最終的采樣效果自然是無法相提并論的。
通道數(shù)(channel)
分為單聲道和立體聲。當然還存在更多的通道數(shù)。舉個列子,聲道多,效果好,兩個聲道,說明只有左右兩邊有聲音傳過來, 四聲道,說明前后左右都有聲音傳過來。
樣本(sample),幀(frame),包(packet)
- 一個音頻樣本是單個音頻通道的單一數(shù)值。
- 一個音頻幀是時間重合的樣本的集合。例如,立體聲文件每幀有兩個樣本,一個用于左聲道,一個用于右聲道。
- 一個音頻包是一個或多個連續(xù)的幀的集合。在線性PCM音頻中,音頻包始終是單個幀。在壓縮格式中,一般是多個幀。在給定的音頻格式中,音頻包定義了最小且具有意義的一組音頻幀的集合。
比特率(bit rate)
也叫碼率,聲音中的比特率是指將模擬聲音信號轉(zhuǎn)換成數(shù)字聲音信號后,單位時間內(nèi)的二進制數(shù)據(jù)量,是間接衡量音頻質(zhì)量的一個指標(比特率越高音質(zhì)越好)。計算公式:比特率 = 采樣率 x 采樣位數(shù) x 聲道數(shù),單位bps(Bit Per Second)。例如一個48KHz采樣率,雙聲道,16位采樣率,它的比特率為 48KHz * 2 * 16bit = 1536kbps(這里的k是1000)。下圖是網(wǎng)易云音樂提供的音頻碼率。
音頻壓縮
一個采樣率為44.1KHz,采樣位數(shù)為16bit/s,雙聲道的PCM編碼的音頻文件,它的數(shù)據(jù)速率則為 44.1K * 16 * 2=1411.2 kbps。 將碼率除以8(進制轉(zhuǎn)換,1Byte=8Bit),就可以得到數(shù)據(jù)速率,即176.4KB/s。這表示存儲一秒鐘采樣率為44.1KHz,采樣大小為16bit/s,雙聲道的PCM 編碼的音頻信號,需要176.4KB的空間,1分鐘則約為10.34M,這對大部分用戶是不可接受的,尤其是喜歡在電腦上聽音樂的朋友,要降低磁盤占用, 只有2種方法,降低采樣指標或者壓縮,而降低指標是不可取的,就只能壓縮了。對于原始音頻數(shù)據(jù),如PCM,每一個數(shù)據(jù)包只有一個音頻幀,而對于壓縮音頻,如MP3,一個數(shù)據(jù)包往往對應著多個音頻幀。
編碼方式VBR、CBR
VBR(Variable Bitrate)動態(tài)比特率 也就是沒有固定的比特率,壓縮軟件在壓縮時根據(jù)音頻數(shù)據(jù)即時確定使用什么比特率,這是以質(zhì)量為前提兼顧文件大小的方式,推薦編碼模式;
??CBR(Constant Bitrate),常數(shù)比特率 指文件從頭到尾都是一種位速率。相對于VBR和ABR來講,它壓縮出來的文件體積很大,而且音質(zhì)相對于VBR和ABR不會有明顯的提高
MP3格式
MP3是目前最常用的音頻格式。MP3格式中的數(shù)據(jù)通常由兩部分組成,一部分為ID3用來存儲歌名、演唱者、專輯、音軌數(shù)等信息,另一部分為音頻數(shù)據(jù)。音頻數(shù)據(jù)部分以幀(frame)為單位存儲,每個音頻都有自己的幀頭。MP3中的每一個幀都有自己的幀頭,其中存儲了采樣率等解碼必須的信息,所以每一個幀都可以獨立于文件存在和播放,這個特性加上高壓縮比使得MP3文件成為了音頻流播放的主流格式(也正是因為這個,于是出現(xiàn)了VBR技術(shù),可以讓MP3文件的每一段甚至每一幀都可以有單獨的bitrate,這樣做的好處就是在保證音質(zhì)的前提下最大程度的限制了文件的大小)。幀頭之后存儲著音頻數(shù)據(jù),這些音頻數(shù)據(jù)是若干個PCM數(shù)據(jù)幀經(jīng)過壓縮算法壓縮得到的,對CBR的MP3數(shù)據(jù)來說每個幀中包含的PCM數(shù)據(jù)幀是固定的,而VBR是可變的。
單個音頻包的持續(xù)時間
??packetDuration = framesPerPacket / sampleRate * 1000,也就是說單個包的持續(xù)時間(毫秒) = 單個包的幀數(shù) / 采樣頻率 * 1000
??例如,對于一個采樣率44.1KHz的MP3文件,一個音頻包有1152個音頻幀(固定的),根據(jù)公式計算可得 packetDuration = 1152 / 44.1KHz * 1000 = 26.1224...(約等于26ms),即一個MP3音頻包的持續(xù)時間是26ms。這個知識點在seek時會發(fā)揮比較大的作用,可以用于求出seek后對應的音頻包位置。
iOS音頻播放總覽
了解了基礎(chǔ)概念之后我們就可以列出一個經(jīng)典的音頻播放流程(以MP3為例):
1、讀取MP3文件
2、解析采樣率、碼率、時長等信息,分離MP3中的音頻幀
3、對分離出來的音頻幀解碼得到PCM數(shù)據(jù)
4、對PCM數(shù)據(jù)進行音效處理(均衡器、混響器等,非必須)
5、把PCM數(shù)據(jù)解碼成音頻信號
6、把音頻信號交給硬件播放
7、重復1-6步直到播放完成
在iOS系統(tǒng)中apple對上述的流程進行了封裝并提供了不同層次的接口,下面對其中的中高層接口進行功能說明:
- Audio File Services:讀寫音頻數(shù)據(jù),可以完成播放流程中的第2步;
- Audio File Stream Services:對音頻進行解碼,可以完成播放流程中的第2步;
- Audio Converter services:音頻數(shù)據(jù)轉(zhuǎn)換,可以完成播放流程中的第3步;
- Audio Processing Graph Services:音效處理模塊,可以完成播放流程中的第4步;
- Audio Unit Services:播放音頻數(shù)據(jù):可以完成播放流程中的第5步、第6步;
- Extended Audio File Services:Audio File Services和Audio Converter services的結(jié)合體;
- AVAudioPlayer/AVPlayer(AVFoundation):高級接口,可以完成整個音頻播放的過程(包括本地文件和網(wǎng)絡(luò)流播放,第4步除外);
- Audio Queue Services:高級接口,可以進行錄音和播放,可以完成播放流程中的第3、5、6步;
我們可以自身需求,選擇不同的接口:
- 如果只是想實現(xiàn)音頻的播放,沒有其他需求AVFoundation會很好的滿足你的需求。它的接口使用簡單、不用關(guān)心其中的細節(jié);
- 如果想實現(xiàn)一個音頻流播放器,有幾種選擇:
- CFNetwork + AudioFileStream + AudioQueue。用CFReadStream讀取音頻數(shù)據(jù)并交給AudioFileStream或者AudioFile解析分離音頻幀,分離出來的音頻幀可以送給AudioQueue進行解碼和播放。如果是本地文件用NSFileHandle直接讀取文件解析即可。開源播放器AudioStreamer就是這種思路。
- CFNetwork + AudioFile + AudioConverter + AudioUnit。同樣用CFReadStream讀取音頻數(shù)據(jù)并交給AudioFile解析分離音頻幀,分離出來的音頻幀交給AudioConverter轉(zhuǎn)換成PCM數(shù)據(jù),再把PCM數(shù)據(jù)交給AudioUnit進行播放。這是開源播放器DOUAudioStreamer的搭建方式,也是這一系列文章要講述的方式。
為什么選擇CFNetwork而不是NSURLSession?
??由于NSURLSession是異步請求,這樣就會涉及到多線程之間的通信問題,比較復雜,并且讀取到的數(shù)據(jù)大小不好控制,而使用CFNetwork則不一樣,可以精確控制每次讀取到的數(shù)據(jù)大小,并且讀取數(shù)據(jù)是在本線程中,所以雖然說CFNetwork是底層網(wǎng)絡(luò),但是使用CFNetwork反而比使用NSURLSession更加簡單。
??
??下篇將會介紹iOS中的音頻小管家,AVAudioSession。