前言
5G 時代音視頻的地位越來越重要,直播、音樂、在線教育、短視頻等相關APP 層出不窮,對于開發者而言,掌握音視頻相關知識可很好提升自己的競爭力。本系列文章會總結一些音視頻知識,從零開始記錄總結音視頻相關知識。
本篇文章是對音頻基礎知識的總結介紹。
音頻概念
聲音是振動產生的聲波,通過介質(空氣、固體、液體)傳播并能被人或動物聽覺器官所感知的波動現象。
聲音是由物體的振動所引起,振動頻率一般會以赫茲表示,記為Hz,指每秒周期性震動的次數。
? 波長,指波在一個振動周期內傳播的距離。
音調越高,波長越短;音調越低,波長越長。(頻率高波長短)
? 振幅,指在波動或振動中距離平衡位置或靜止位置的最大位移。
音量(響度)越大,振幅越大;音量越小,振幅越小。
人耳可以感知到的聲音,其頻率范圍為20 Hz至20,000 Hz,在標準狀況下的空氣中,上述音波對應的波長從17 m至17 mm之間。
音頻編碼
聲音是怎么處理變成計算機中的數據呢?
我們經常見到的 mp3、wav 音頻文件又是什么呢?
1、聲音是怎么變成數據的?
現實中的聲音非常復雜,波形極其復雜,通常我們采用的是脈沖代碼調制編碼,即PCM編碼。PCM通過抽樣、量化、編碼三個步驟將連續變化的模擬信號轉換為數字編碼。
脈沖編碼調制(Pulse-code modulation,PCM)是一種模擬信號的數字化方法。PCM將信號的強度依照同樣的間距分成數段,然后用獨特的數字記號(通常是二進制)來量化。
在下圖中,一個正弦波(紅色曲線)被取樣和量化為PCM。正弦波在每段固定時間內被取一次樣,即x軸的刻度。而每一個樣本則依照某種運算法(在這個例子中是ceiling function 取整),選定它們在y軸上的位置。這樣便產生完全離散的輸入信號的替代物,很容易編碼成為數字數據,以作保存或操作。
PCM 中涉及到的一些概念:
- 聲道:錄制和播放時,音頻信號的數量。如雙聲道,立體聲。
- 采樣率:每秒從連續信號中提取并組成離散信號的采樣個數,單位是赫茲(Hz)。
奈奎斯特采樣定理:當采樣頻率大于聲音最高頻率的兩倍,能完整的保留聲音的信息。 - 采樣深度:量化的二進制位數,即采樣點數據的位數,常為16位。
- 碼率:音頻流每秒的大小,單位常用bps。如一個采樣率為44.1KHz,采樣深度為16bit,雙聲道的PCM編碼的文件,碼率為 44.1K×16×2 =1411.2 Kbps
2、常見的 mp3、wav 音頻文件是什么呢?
通過上面的調制,聲音音波就從模擬信號,轉化為數字信號的原始音頻數據。
原始音頻數據需要占用很大的存儲空間和帶寬的,不適合運輸和傳送,所以我們需要對原始聲音進行加工,壓縮變小,這一過程稱為編碼。
格式(format),或者說容器(container),是為了運輸和傳送的。對音頻來說就是將編碼壓縮后的數據進行打包,常見的音頻格式比如 mp3 等。
References
http://www.lxweimin.com/p/80a140cf3d99
https://blog.csdn.net/leixiaohua1020/article/details/84598542
https://zhuanlan.zhihu.com/p/69901270