原文鏈接https://blog.csdn.net/bjrxyz/article/details/73435407?locationNum=15&fps=1
lame是一個有名的開源mp3編碼庫,但是目前網上使用lame庫的教程基本都是直接貼一篇代碼,沒有任何的解釋,而每個使用者需要編碼的需求都不一樣,這些所謂的教程基本沒什么作用。
這篇文章將會介紹如何調用lame庫的接口編碼出mp3。不同于目前網上的大多數lame教程,本文不會干巴巴的貼一屏幕代碼,而是盡量對lame庫提供的各種參數設置的接口做講解。讓讀者能夠舉一反三,根據自己的需求編碼出各種格式的mp3。
lame對linux的編譯支持比較好,但是對于vc的支持基本停留在10年以前。所幸編碼庫的代碼只有幾個文件(下載的代碼還包括命令行程序代碼和gui程序代碼,我們在此只需要編碼庫的代碼,在libmp3lame目錄中),自己新建個項目包含進來編譯就行。
mp3(MPEG Layer III)這種格式在生活中很常見,但是mp3有很多種參數,這里討論一下mp3編碼所必須知道的一些參數。
采樣率(sampleRate):采樣率越高聲音的還原度越好。
比特率(bitrate):每秒鐘的數據量,越高音質越好。
聲道數(channels):聲道的數量,通常只有單聲道和雙聲道,雙聲道即所謂的立體聲。
比特率控制模式:ABR、VBR、CBR,這3中模式含義很容易查詢到,不在贅述。
MPEG有幾個版本的協議,不同版本的協議能夠支持的參數能力是不同的。編碼庫的使用者必須清楚不同版本的區別才能正確的設置參數。
有以下3個版本的協議,MPEG1、MPEG2、MPEG2.5。其中MPEG2.5是非官方的標準,但是流傳廣泛,所以基本也都支持。他們的區別主要集中在支持的比特率和采樣率不同。
MPEG1MPEG2MPEG2.5
441002205011025
480002400012000
32000160008000
MPEG1MPEG2MPEG2.5
3288
401616
482424
563232
644040
804848
965656
1126464
12880
16096
192112
224128
256144
320160
使用lame庫只需要包含lame.h頭文件,編碼mp3基本上遵循以下的流程,
lame_init:初始化一個編碼參數的數據結構,給使用者用來設置參數。
lame_set_in_samplerate:設置被輸入編碼器的原始數據的采樣率。
lame_set_out_samplerate:設置最終mp3編碼輸出的聲音的采樣率,如果不設置則和輸入采樣率一樣。
lame_set_num_channels:設置被輸入編碼器的原始數據的聲道數。
lame_set_mode:設置最終mp3編碼輸出的聲道模式,如果不設置則和輸入聲道數一樣。參數是枚舉,STEREO代表雙聲道,MONO代表單聲道。
lame_set_VBR:設置比特率控制模式,默認是CBR,但是通常我們都會設置VBR。參數是枚舉,vbr_off代表CBR,vbr_abr代表ABR(因為ABR不常見,所以本文不對ABR做講解)vbr_mtrh代表VBR。
lame_set_brate:設置CBR的比特率,只有在CBR模式下才生效。
lame_set_VBR_mean_bitrate_kbps:設置VBR的比特率,只有在VBR模式下才生效。
其中每個參數都有默認的配置,如非必要可以不設置。這里只介紹了幾個關鍵的設置接口,還有其他的設置接口可以參考lame.h(lame的文檔里只有命令行程序的用法,沒有庫接口的用法)。
lame_init_params:根據上面設置好的參數建立編碼器
lame_encode_buffer或lame_encode_buffer_interleaved:將PCM數據送入編碼器,獲取編碼出的mp3數據。這些數據寫入文件就是mp3文件。
其中lame_encode_buffer輸入的參數中是雙聲道的數據分別輸入的,lame_encode_buffer_interleaved輸入的參數中雙聲道數據是交錯在一起輸入的。具體使用哪個需要看采集到的數據是哪種格式的,不過現在的設備采集到的數據大部分都是雙聲道數據是交錯在一起。
單聲道輸入只能使用lame_encode_buffer,把單聲道數據當成左聲道數據傳入,右聲道傳NULL即可。
調用這兩個函數時需要傳入一塊內存來獲取編碼器出的數據,這塊內存的大小lame給出了一種建議的計算方式:采樣率/20+7200。
lame_encode_flush:刷新編碼器緩沖,獲取殘留在編碼器緩沖里的數據。這部分數據也需要寫入mp3文件
lame_mp3_tags_fid:向一個文件指針中寫入XING規范的VBRTAG。
VBRTAG的作用是記錄整個mp3的一些信息,通常用于VBR模式下的編碼,因為VBR模式下比特率不固定,無法直接計算出播放的時長和跳躍點,所以在mp3的開頭部分插入一個VBRTAG。
VBRTAG有幾種規范,但是lame支持的是最通用的XING規范。
注意lame_mp3_tags_fid函數的參數需要一個FILE *類型代表要寫入的文件,這個文件一定是之前編碼時寫入了mp3數據的文件,VBRTAG是需要卸載mp3的開頭的,之前的編碼過程中會自動空出寫入VBRTAG所需要的空間,這個函數內會自動尋找合適的文件偏移然后覆蓋,所以當前的文件偏移是無關緊要的,但是打開文件的時候一定要以讀寫模式打開。
注意我提到了之前的編碼過程中會自動空出寫入VBRTAG所需要的空間,所以如果結束編碼后不調用lame_mp3_tags_fid寫入VBRTAG就會導致這部分內容為空,雖然不影響播放,但是會影響很多播放器對于時長和跳躍點的計算。
那么對于非VBR模式也需要寫入VBRTAG嗎?是的,lame對于非VBR模式也會預留出VBRTAG的空間,所以非VBR模式的編碼最后也需要寫入VBRTAG。
lame_close銷毀編碼器,釋放資源。
對于編碼器的參數設置,所能接受的參數值并不是任意的。上一節的表格中列出了編碼器器能夠支持的參數值,如果我們設置的參數值不在其中,那么編碼器會自動幫我們選擇一個最近的值。
但是如果仔細看了上面表格中的參數后會發現一個問題,每個版本支持的參數范圍不一致,假如設置了MPEG2的比特率又設置了MPEG1的采樣率那么會發生什么?
這里先給結論,lame庫會優先服從采樣率(這里指的是輸出采樣率)設置,根據采樣率選擇協議版本,然后在這個版本所能支持的比特率中選一個和設置比特率最接近的。
這個結論是我研究了lame的源碼后分析得到的,lame的文檔中并沒有對此有任何描述,網上也沒有任何相關的資料描述這一問題,接下來給出源碼分析,如果不關心的可以跳過這一節。
首先如果沒有設置輸出采樣率,調用map2MP3Frequency根據輸入采樣率算出輸出采樣率,默認和輸入采樣率一致的。
然后根據輸出采樣率調用SmpFrqIndex計算出MPEG版本,這里注意將MPEG2和MPEG2.5都視為MPEG2。
根據已經設置的比特率、輸出采樣率、版本調用FindNearestBitrate去尋找合適的比特率。FindNearestBitrate在相應的版本的能力范圍中找一個最接近的值的索引。
原文鏈接https://blog.csdn.net/bjrxyz/article/details/73435407?locationNum=15&fps=1