目前音頻收集的流程
image.png
1 模擬信號 -> 數字信號 (ADC Analog to Digital Conversion)
image.png
每個點的數據都轉換為 電子信號 (Binary 2~16bits)
image.png
2 采樣(Sample) 范圍
一般是 44100HZ
每兩個采樣點 間隔 大概是 1000ms / 44100Hz ~ 23us(微秒)-
為什么現在的設備不能無限放大,理論上可以1us 一個采樣
- 那是因為 這會導致文件非常大
- 同時 人耳對音頻信號的平均感知能力為 50us長度,或者最高20000hz精度
為什么是44100HZ 而不是 46000HZ
因為早期的CD最大容納采樣為44100HZ為什么不是20000hz 正好適配人耳
因為奈奎斯特抽樣定理
:
要從抽樣信號中無失真地恢復原信號,抽樣頻率應大于2倍信號最高頻率。
奈奎斯特抽樣定理 :要從抽樣信號中無失真地恢復原信號,抽樣頻率應大于2倍信號最高頻率
。 抽樣頻率小于2倍頻譜最高頻率時,信號的頻譜有混疊
。 抽樣頻率大于2倍頻譜最高頻率時,信號的頻譜無混疊。
3 采樣深度精度
例如 ADC過程 將Analog轉換為Digital信號 可以取不同的范圍區間,例如00-01 或者 00-11
image.png
但是如何才可以準確 保留信號 并且還原的區間
image.png
- 比特深度 以CD為例,按照16bits
image.png
- 這個過程 ADC 稱為
量化
image.png
- 將bits分配給每個值 稱為
脈沖編碼調制(Pulse code modulation)
image.png
- 但是更高質量音頻信號,比特深度范圍更大 例如 24~36bits
其實和 視頻HDR 10bits和 SDR 8bits差不多
image.png
4 壓縮
未壓縮的 60s的 LR雙省道 16bits 44100hz 大概是10.5MB
原始數據 10.5MB/min
MP3 -> 2.4MB/min (有損壓縮 Lossy)
(和視頻幀內壓縮同理 去掉人耳不擅長聽出來的 高頻數據)
(例如去掉音量特別小的數據、音調特別高的)-
Lossless無壓縮編碼
- Flac
- Alac
主要通過重復數據壓縮編碼(熵編碼、殘差編碼)