通過上一篇文章iOS平臺FFmpeg開發(fā)(一)初識FFmpeg的學(xué)習(xí),我相信你已經(jīng)了解了視音頻的基礎(chǔ)知識,并且把FFmepg編譯成功并成功導(dǎo)入到工程中了。從這一篇文章開始,我們開始真正地使用FFmpeg。
對視頻的解碼,我們需要使用libavformat
和libavcodec
這兩個(gè)庫。libavformat
庫主要負(fù)責(zé)輸入輸出、封裝和解封裝,libavcodec
庫主要負(fù)責(zé)編解碼,所以要使用相應(yīng)功能之前要先導(dǎo)入頭文件avformat.h
和avcodec.h
。
初始化
首先我們需要對FFmepg各個(gè)庫進(jìn)行初始化,這個(gè)初始化工作在囊個(gè)app生命周期只執(zhí)行一次即可,所以你的代碼應(yīng)該是這樣的:
static dispatch_once_t onceToken;
dispatch_once(&onceToken, ^{
av_register_all();
avformat_network_init();
avcodec_register_all();
});
其中av_register_all()
會初始化所有的muxer
、demuxer
和代碼。muxer
代碼音視頻復(fù)用器,它會把編碼好的視頻數(shù)據(jù)和音頻數(shù)據(jù)合并到一個(gè)封裝格式數(shù)據(jù)(比如mp4)中去,同理demuxer
是解封裝。
avformat_network_init()
會初始化所有的網(wǎng)絡(luò)模塊。
avcodec_register_all()
會注冊所有類型的解碼器,如果只用特定格式的解碼器,可以單獨(dú)注冊。
文件操作
首先要創(chuàng)建AVFormatContext
,用以管理文件的輸入輸出:
_format_context = avformat_alloc_context();
然后是打開輸入,這個(gè)輸入可以是本地視頻文件地址,也可以是視頻流地址。如果文件打開失敗,要調(diào)用avformat_free_context()
及時(shí)釋放掉AVFormatContext
。如果打開成功,后面不再需要輸入文件的操作,要調(diào)用avformat_close_input(&_format_context)
來關(guān)閉輸入。
result = avformat_open_input(&_format_context, self.filePath.UTF8String, NULL, NULL);
if (result < 0) {
NSLog(@"Failed to open input");
if (_format_context) {
avformat_free_context(_format_context);
}
return;
}
接著需要將視音頻流的信息讀取到AVFormatContext
,AVFormatContext
中有信息,才能進(jìn)行查找視頻流、音頻流及相應(yīng)的解碼器的操作:
result = avformat_find_stream_info(_format_context, NULL);
if (result) {
NSLog(@"Failed to find stream info!");
if (_format_context) {
avformat_close_input(&_format_context);
}
return;
}
如果上面的方法成功了,就可以直接打印整個(gè)視頻文件的信息了:
av_dump_format(_format_context, 0, _filePath.UTF8String, 0);
至此,對于視頻文件基本信息的讀取操作已經(jīng)完成了。
初始化音/視頻解碼器
接下來需要初始化視音頻的AVCodec
(解碼器)和AVCodecContext
(解碼器上下文)。注意,這里音頻的AVCodec
和AVCodecContext
和視頻的是分開的,但是它們的流程是一模一樣的,所以這部分可以單獨(dú)抽一個(gè)方法出來。
首先根據(jù)類型找到音頻或視頻的序號,并在同時(shí)匹配到最適合的解碼器。注:在之前的版本中會使用for循環(huán)來手動查找視頻流或者音頻流,并且要在后面單獨(dú)進(jìn)行解碼器的查找操作,比較麻煩,現(xiàn)在一個(gè)方法就搞定,方便得多。
AVCodec *codec;
int streamIndex = av_find_best_stream(_format_context, AVMEDIA_TYPE_VIDEO, -1, -1, &codec, 0); // 以查找視頻流為例,
這樣通過序號就能找到視頻流或者音頻流了:
AVStream *stream = _format_context->streams[streamIndex];
接下來通過匹配到的解碼器創(chuàng)建AVCodecContext
(解碼器上下文)并把視/音頻流里的參數(shù)傳到視/音頻解碼器中:
AVCodecContext *codecContext = avcodec_alloc_context3(codec);
avcodec_parameters_to_context(codecContext, stream->codecpar);
av_codec_set_pkt_timebase(codecContext, stream->time_base);
這里的codecpar
表示包含解碼器的各種參數(shù)的結(jié)構(gòu)體。
而time_base
則是一個(gè)代表分?jǐn)?shù)的結(jié)構(gòu)體,num 為分?jǐn)?shù),den為分母,它表示時(shí)間的刻度。時(shí)間量乘以刻度就可以得到時(shí)間。
如果是(1, 25),那么時(shí)間刻度就是1/25。這里要注意的是AVStream
的time_base
與AVCodecContext
的time_base
是不同的,上面的方法就涉及到time_base
的轉(zhuǎn)換,所以要換算得到時(shí)間就要選取相應(yīng)的time_base
。
如果要得到double
形式的time_base
,可以調(diào)用av_q2d()
函數(shù),這個(gè)操作在這種分?jǐn)?shù)結(jié)構(gòu)體中會經(jīng)常用到:
timeBase = av_q2d(codecContext->time_base);
接下來就可以打開解碼器上下文準(zhǔn)備進(jìn)行解碼操作了:
int result = avcodec_open2(codecContext, codec, NULL);
if (result) {
NSLog(@"Failed to open avcodec!");
avcodec_free_context(&codecContext);
return;
}
解碼
在進(jìn)行解碼之前,要先了解兩個(gè)基本的結(jié)構(gòu)體:AVPacket
和AVFrame
。
AVPacket
AVPacket
表示編碼(即壓縮)后的數(shù)據(jù),這種格式的音視頻數(shù)據(jù)可以直接通過muxer
封裝成類似MKV的封裝格式。如果AVPacket
存的是視頻數(shù)據(jù),通常一個(gè)AVPacket
只存放一楨數(shù)據(jù)(對應(yīng)一個(gè)AVFrame
),如果AVPacket
存的是音頻數(shù)據(jù),那么一個(gè)AVPacekt
里就可能存放多個(gè)楨的數(shù)據(jù)(對應(yīng)多個(gè)AVFrame
)。
AVFrame
AVFrame
表示解碼后的音/視頻數(shù)據(jù),它在使用之前必須進(jìn)行初始化av_frame_alloc()
。通常它只需要初始化一次就可以了,在解碼過程中它可以作為一個(gè)容器被反復(fù)利用。
解碼流程
在了解上面兩個(gè)基本概念后,現(xiàn)在可以開始真正的解碼了。
首先調(diào)用av_read_frame()
將音/視頻一小段一小段讀取出來(視頻是每次讀取一楨,音頻每次讀取多楨),封裝到AVPacket
中,然后通過音/視頻流的編號確定是音頻數(shù)據(jù)還是視頻數(shù)據(jù)并進(jìn)行分別的解碼操作。這里音/視頻AVPacket
的解碼分別抽出了單獨(dú)的方法。
- (void)readPacket {
AVPacket packet;
while (YES) {
int result = av_read_frame(_format_context, &packet);
if (result < 0) {
NSLog(@"Finish to read frame!");
break;
}
if (self.videoEnable && packet.stream_index == _videoStreamIndex) {
if (![self decodeVideoPacket:packet]) {
NSLog(@"Failed to decode audio packet");
continue;
}
} else if (self.audioEnable && packet.stream_index == audioStreamIndex) {
if (![self decodeAudioPacket:packet]) {
NSLog(@"Failed to decode audio packet");
continue;
}
}
}
}
解碼音/視頻需要使用一對函數(shù)avcodec_send_packet()
和avcodec_receive_frame()
,第一個(gè)函數(shù)發(fā)送未解碼的包,第二個(gè)函數(shù)接收已解碼的AVFrame
。如果所有的AVFrame
都接收完成則表示文件全部解碼完成。相應(yīng)的,編碼也是一對函數(shù)avcodec_send_frame()
和avcodec_receive_packet()
。
-
avcodec_send_packet()
發(fā)送未解碼數(shù)據(jù) -
avcodec_receive_frame()
接收解碼后的數(shù)據(jù) -
avcodec_send_frame()
發(fā)送未編碼的數(shù)據(jù) -
avcodec_receive_packet()
接收編碼后的數(shù)據(jù)
在這4個(gè)函數(shù)中的返回值中,都會有兩個(gè)錯(cuò)誤AVERROR(EAGAIN)
和AVERROR_EOF
。
如果是發(fā)送函數(shù)報(bào)AVERROR(EAGAIN)
的錯(cuò),表示已發(fā)送的AVPacket
還沒有被接收,不允許發(fā)送新的AVPacket
。如果是接收函數(shù)報(bào)這個(gè)錯(cuò),表示沒有新的AVPacket
可以接收,需要先發(fā)送AVPacket
才能執(zhí)行這個(gè)函數(shù)。
而如果報(bào)AVERROR_EOF
的錯(cuò),在以上4個(gè)函數(shù)中都表示編解碼器處于flushed
狀態(tài),無法進(jìn)行發(fā)送和接收操作。
解碼視頻時(shí)每次發(fā)送的AVPacket
通常是一楨視頻,所以發(fā)送一次接收一次:
- (BOOL)decodeVideoPacket:(AVPacket)packet {
int result = avcodec_send_packet(_codec_context, &packet);
if (result < 0 && result != AVERROR(EAGAIN) && result != AVERROR_EOF) {
NSLog(@"Failed to send packet!");
return NO;
}
result = avcodec_receive_frame(_codec_context, _temp_frame);
if (result < 0 && result != AVERROR(EAGAIN) && result != AVERROR_EOF) {
NSLog(@"Failed to receive frame: %d", result);
return NO;
}
// 對_temp_frame進(jìn)行操作
av_packet_unref(&packet);
}
解碼音頻時(shí)每次發(fā)送的AVPacket
通常會轉(zhuǎn)換成多個(gè)AVFrame
,所以在接收的時(shí)候需要使用while
循環(huán)保證所有的AVFrame
都被接收到:
- (BOOL)decodeAudioPacket:(AVPacket)packet {
int result = avcodec_send_packet(_codec_context, &packet);
if (result < 0 && result != AVERROR(EAGAIN) && result != AVERROR_EOF) {
NSLog(@"Failed to send packet!");
return NO;
}
while (result >= 0) {
result = avcodec_receive_frame(_codec_context, _temp_frame);
if (result < 0) {
if (result != AVERROR(EAGAIN) && result != AVERROR_EOF) {
NSLog(@"Failed to receive frame: %d", result);
return NO;
}
break;
}
// 對_temp_frame進(jìn)行操作
}
av_packet_unref(&packet);
}
至此,音/視頻的編解碼就全部完成了,后續(xù)可以利用解碼后的AVFrame
進(jìn)行音/視頻的播放。
總結(jié)
音/視頻編解碼中最重要的是兩個(gè)上下文結(jié)構(gòu)體:AVFormatContext
和AVCodecContext
。AVFormatContext
主要負(fù)責(zé)對原始音/視頻文件或音/視頻流進(jìn)行操作,獲取原始音/視頻數(shù)據(jù)的信息。而AVCodecContext
主要是用于存儲編解碼需要的信息,提供相應(yīng)的解碼器進(jìn)行解碼。加深對這兩個(gè)上下文的理解,音/視頻的編解碼就會更得心應(yīng)手。
在下一篇文章中,我會講解如何播放解碼后的視頻數(shù)據(jù)。