背景介紹
在現代視覺人工智能系統中,卷積神經網絡起著至關重要的作用,但現許多CNNs模型的發展方向是更大更深,這讓深度網絡模型難以運行在移動設備上,針對這一問題,許多工作的重點放在對現有預訓練模型的修剪、壓縮或使用低精度數據表示。
論文中提出的ShuffleNet是探索一個可以滿足受限的條件的高效基礎架構。論文的Insight是現有的先進basic架構如XceptionXception和ResNeXtResNeXt在小型網絡模型中效率較低,因為大量的1×11×1卷積耗費很多計算資源,論文提出了逐點群卷積(pointwise group convolution)幫助降低計算復雜度;但是使用逐點群卷積會有幅作用,故在此基礎上,論文提出通道混洗(channel shuffle)幫助信息流通?;谶@兩種技術,我們構建一個名為ShuffleNet的高效架構,相比于其他先進模型,對于給定的計算復雜度預算,ShuffleNet允許使用更多的特征映射通道,在小型網絡上有助于編碼更多信息。
論文在ImageNet和MS COCO上做了相關實驗,展現出ShuffleNet設計原理的有效性和結構優越性。同時論文還探討了在真實嵌入式設備上運行效率。
相關工作
高效模型設計:?CNNs在CV任務中取得了極大的成功,在嵌入式設備上運行高質量深度神經網絡需求越來越大,這也促進了對高效模型的探究。例如,與單純的堆疊卷積層,GoogleNet增加了網絡的寬度,復雜度降低很多;SqueezeNet在保持精度的同時大大減少參數和計算量;ResNet利用高效的bottleneck結構實現驚人的效果。Xception中提出深度可分卷積概括了Inception序列。MobileNet利用深度可分卷積構建的輕量級模型獲得了先進的成果;ShuffleNet的工作是推廣群卷積(group convolution)和深度可分卷積(depthwise separable convolution)。
模型加速:?該方向旨在保持預訓練模型的精度同時加速推理過程。常見的工作有:通過修剪網絡連接或減少通道數減少模型中連接冗余;量化和因式分解減少計算中冗余;不修改參數的前提下,通過FFT和其他方法優化卷積計算消耗;蒸餾將大模型的知識轉化為小模型,是的小模型訓練更加容易;ShuffleNet的工作專注于設計更好的模型,直接提高性能,而不是加速或轉換現有模型。
方法介紹
Channel Shuffle for Group Convolutions針對群卷積的通道混洗
ShuffleNet 網絡結構同樣沿襲了稀疏連接的設計理念。作者通過分析 Xception 和 ResNeXt 模型,發現這兩種結構通過卷積核拆分雖然計算復雜度均較原始卷積運算有所下降,然而拆分所產生的逐點卷積計算量卻相當可觀,成為了新的瓶頸。例如對于 ResNeXt 模型逐點卷積占據了 93.4% 的運算復雜度??梢?,為了進一步提升模型的速度,就必須尋求更為高效的結構來取代逐點卷積。
受 ResNeXt 的啟發,作者提出使用分組逐點卷積(group pointwise convolution)來代替原來的結構。通過將卷積運算的輸入限制在每個組內,模型的計算量取得了顯著的下降。然而這樣做也帶來了明顯的問題:在多層逐點卷積堆疊時,模型的信息流被分割在各個組內,組與組之間沒有信息交換(如圖 1(a) 所示)。這將可能影響到模型的表示能力和識別精度。
因此,在使用分組逐點卷積的同時,需要引入組間信息交換的機制。也就是說,對于第二層卷積而言,每個卷積核需要同時接收各組的特征作為輸入,如圖 1(b) 所示。作者指出,通過引入“通道重排”(channel shuffle,見圖 1(c) )可以很方便地實現這一機制;并且由于通道重排操作是可導的,因此可以嵌在網絡結構中實現端到端的學習。
ShuffleNet Unit
基于分組逐點卷積和通道重排操作,作者提出了全新的 ShuffleNet 結構單元,如圖 2 所示。
該結構繼承了“殘差網絡”(ResNet)的設計思想,在此基礎上做出了一系列改進來提升模型的效率:首先,使用逐通道卷積替換原有的 3x3 卷積,降低卷積操作抽取空間特征的復雜度,如圖 2(a)所示;接著,將原先結構中前后兩個 1x1 逐點卷積分組化,并在兩層之間添加通道重排操作,進一步降低卷積運算的跨通道計算量。最終的結構單元如圖 2(b) 所示。類似地,文中還提出了另一種結構單元(圖2(c)),專門用于特征圖的降采樣。
借助 ShuffleNet 結構單元,作者構建了完整的 ShuffeNet 網絡模型。它主要由 16 個 ShuffleNet 結構單元堆疊而成,分屬網絡的三個階段,每經過一個階段特征圖的空間尺寸減半,而通道數翻倍。整個模型的總計算量約為 140 MFLOPs。通過簡單地將各層通道數進行放縮,可以得到其他任意復雜度的模型。
另外可以發現,當卷積運算的分組數越多,模型的計算量就越低;這就意味著當總計算量一定時,較大的分組數可以允許較多的通道數,作者認為這將有利于網絡編碼更多的信息,提升模型的識別能力。
網絡結構
在上面的基本單元基礎上,我們提出了ShuffleNet的整體架構:
主要分為三個階段:
每個階段的第一個block的步長為2,下一階段的通道翻倍
每個階段內的除步長其他超參數保持不變
每個ShuffleNet unit的bottleneck通道數為輸出的1/4(和ResNet設置一致)
實驗
分組化逐點卷積
作者對于計算復雜度為 140 MFLOPs 、 40 MFLOPs、13 MFLOPs的 ShuffleNet 模型,在控制模型復雜度的同時對比了分組化逐點卷積的組數在1~8時分別對于性能的影響。從 表1 中可以看出,帶有分組的(g>1)的網絡的始終比不帶分組(g=1)的網絡的錯誤率低。
通道重排
通道重排的目的是使得組間信息能夠互相交流。在實驗中,有通道重排的網絡始終優于沒有通道重排的網絡,錯誤率降低 0.9%~4.0%。尤其是在組數較大時(如g=8),前者遠遠優于后者。
對比其他結構單元
作者使用一樣的整體網絡布局,在保持計算復雜度的同時將 ShuffleNet 結構單元分別替換為 VGG-like、ResNet、Xception-like 和 ResNeXt 中的結構單元,使用完全一樣訓練方法。表3 中的結果顯示在不同的計算復雜度下,ShuffleNet 始終大大優于其他網絡。
對比MobileNets和其他的一些網絡結構
雖然 ShuffleNet 是為了小于 150 MFLOPs 的模型設計的,在增大到 MobileNet 的 500~600 MFLOPs 量級,依然優于 MobileNet。而在 40 MFLOPs 量級,ShuffleNet 比 MobileNet 錯誤率低 6.7%。
和其他一些網絡結構相比,ShuffleNet 也體現出很大的優勢。從表5中可以看出,ShuffleNet 0.5x 僅用 40 MFLOPs 就達到了 AlexNet 的性能,而 AlexNet 的計算復雜度達到了 720 MFLOPs,是 ShuffleNet 的 18 倍。
MS COCO物體檢測
在 Faster-RCNN?框架下,和 1.0 MobileNet-224 網絡復雜度可比的 ShuffleNet 2x,在 600 分辨率的圖上的 mAP 達到 24.5%,而 MobileNet 為 19.8%,表明網絡在檢測任務上良好的泛化能力。
實際運行速度
最后作者在一款 ARM 平臺上測試了網絡的實際運行速度。在作者的實現里 40 MFLOPs 的 ShuffleNet 對比相似精度的 AlexNet 實際運行速度快約 13x 倍。224 x 224 輸入下只需 15.2 毫秒便可完成一次推理,在 1280 x 720 的輸入下也只需要 260.1 毫秒。
總結
現代卷積神經網絡的絕大多數計算量集中在卷積操作上,因此高效的卷積層設計是減少網絡復雜度的關鍵。其中,稀疏連接是提高卷積運算效率的有效途徑,當前不少優秀的卷積模型均沿用了這一思路。ShuffleNet 網絡結構同樣沿襲了稀疏連接的設計理念,提出了組卷積和通道混洗的處理方法,并在此基礎上提出了一個ShuffleNet unit,在計算資源有限的設備上,大幅降低模型計算復雜度的同時仍然保持了較高的識別精度,并在多個性能指標上均顯著超過了同類方法。