(首先給助教老師說聲抱歉,由于我們組的疏忽導致讀書報告交晚了,非常感激助教老師的提醒,謝謝!由于微信群文件沒有保存,我們沒有查到組號,我們的成員是:劉博藝、刁頌輝、陳帆、李在林)
?????? ShuffleNet是曠視科技最近提出的一種計算高效的CNN模型,其和MobileNet和SqueezeNet等一樣主要是想應用在移動端。所以,ShuffleNet的設計目標也是如何利用有限的計算資源來達到最好的模型精度,這需要很好地在速度和精度之間做平衡。ShuffleNet的核心是采用了兩種操作:pointwise 。shuffle,這在保持精度的同時大大降低了模型的計算量。目前移動端CNN模型主要設計思路主要是兩個方面:模型結構設計和模型壓縮。ShuffleNet和MobileNet一樣屬于前者,都是通過設計更高效的網絡結構來實現模型變小和變快,而不是對一個訓練好的大模型做壓縮或者遷移。下面我們將詳細講述ShuffleNet的設計思路,網絡結構及模型效果,最后使用Pytorch來實現ShuffleNet網絡。
設 計 思 想
??????? 卷積神經網絡是現代視覺人工智能系統的核心組件。近年來關于卷積模型的研究層出不窮,產生了如VGG、ResNet、Xception 和 ResNeXt等性能優異的網絡結構,在多個視覺任務上超過了人類水平。然而,這些成功的模型往往伴隨著巨大的計算復雜度(數十億次浮點操作,甚至更多)。這就限制了此類模型只能用于高性能的服務器集群,而對于很多移動端應用(通常最多容許數百萬至數千萬次浮點操作)則無能為力。
??????? 解決這一難題的方法之一是設計更為輕量級的模型結構。現代卷積神經網絡的絕大多數計算量集中在卷積操作上,因此高效的卷積層設計是減少網絡復雜度的關鍵。其中,稀疏連接(sparse connection)是提高卷積運算效率的有效途徑,當前不少優秀的卷積模型均沿用了這一思路。例如,谷歌的”Xception“網絡[1]引入了”深度可分離卷積”的概念,將普通的卷積運算拆分成逐通道卷積(depthwise convolution)和逐點卷積(pointwise convolution)兩部進行,有效地減少了計算量和參數量;而 Facebook 的“ResNeXt”網絡[2]則首先使用逐點卷積減少輸入特征的通道數,再利用計算量較小的分組卷積(group convolution)結構取代原有的卷積運算,同樣可以減少整體的計算復雜度。ShuffleNet 網絡結構同樣沿襲了稀疏連接的設計理念。作者通過分析 Xception 和 ResNeXt模型,發現這兩種結構通過卷積核拆分雖然計算復雜度均較原始卷積運算有所下降,然而拆分所產生的逐點卷積計算量卻相當可觀,成為了新的瓶頸。例如對于ResNeXt 模型逐點卷積占據了 93.4% 的運算復雜度。可見,為了進一步提升模型的速度,就必須尋求更為高效的結構來取代逐點卷積。受 ResNeXt 的啟發,作者提出使用分組逐點卷積(group pointwise convolution)來代替原來的結構。通過將卷積運算的輸入限制在每個組內,模型的計算量取得了顯著的下降。然而這樣做也帶來了明顯的問題:在多層逐點卷積堆疊時,模型的信息流被分割在各個組內,組與組之間沒有信息交換(如圖 1(a) 所示)。這將可能影響到模型的表示能力和識別精度。
圖 1 逐點卷積與通道重排操作
因此,在使用分組逐點卷積的同時,需要引入組間信息交換的機制。也就是說,對于第二層卷積而言,每個卷積核需要同時接收各組的特征作為輸入,如圖 1(b) 所示。作者指出,通過引入“通道重排”(channel shuffle,見圖 1(c) )可以很方便地實現這一機制;并且由于通道重排操作是可導的,因此可以嵌在網絡結構中實現端到端的學習。
網 絡 結 構
????? 首先來構造ShuffleNet的基本單元,如圖2所示。ShuffleNet的基本單元是在一個殘差單元的基礎上改進而成的。如圖2-a所示,這是一個包含3層的殘差單元:首先是1x1卷積,然后是3x3的depthwise convolution(DWConv,主要是為了降低計算量),這里的3x3卷積是瓶頸層(bottleneck),緊接著是1x1卷積,最后是一個短路連接,將輸入直接加到輸出上。現在,進行如下的改進:將密集的1x1卷積替換成1x1的group convolution,不過在第一個1x1卷積之后增加了一個channle shuffle操作。值得注意的是3x3卷積后面沒有增加channle shuffle,按paper的意思,對于這樣一個殘差單元,一個channle shuffle操作是足夠了。還有就是3x3的depthwise convolution之后沒有使用ReLU激活函數。改進之后如圖2-b所示。對于殘差單元,如果stride=1時,此時輸入與輸出shape一致可以直接相加,而當stride=2時,通道數增加,而特征圖大小減小,此時輸入與輸出不匹配。一般情況下可以采用一個1x1卷積將輸入映射成和輸出一樣的shape。但是在ShuffleNet中,卻采用了不一樣的策略,如圖2-c所示:對原輸入采用stride=2的3x3avg pool,這樣得到和輸出一樣大小的特征圖,然后將得到特征圖與輸出進行連接(concat),而不是相加。這樣做的目的主要是降低計算量與參數大小。
圖2 ShuffleNet的基本單元
基于上面改進的ShuffleNet基本單元,設計的ShuffleNet模型如表1所示。可以看到開始使用的普通的3x3的卷積和max pool層。然后是三個階段,每個階段都是重復堆積了幾個ShuffleNet的基本單元。對于每個階段,第一個基本單元采用的是stride=2,這樣特征圖width和height各降低一半,而通道數增加一倍。后面的基本單元都是stride=1,特征圖和通道數都保持不變。對于基本單元來說,其中瓶頸層,就是3x3卷積層的通道數為輸出通道數的1/4,這和殘差單元的設計理念是一樣的。不過有個細節是,對于stride=2的基本單元,由于原輸入會貢獻一部分最終輸出的通道數,那么在計算1/4時到底使用最終的通道數,還是僅僅未concat之前的通道數。文章沒有說清楚,但是個人認為應該是后者吧。其中g控制了group convolution中的分組數,分組越多,在相同計算資源下,可以使用更多的通道數,所以g越大時,采用了更多的卷積核。這里給個例子,當g=3時,對于第一階段的第一個基本單元,其輸入通道數為24,輸出通道數為240,但是其stride=2,那么由于原輸入通過avg pool可以貢獻24個通道,所以相當于左支只需要產生240-24=216通道,中間瓶頸層的通道數就為216/4=54。其他的可以以此類推。當完成三階段后,采用global pool將特征圖大小降為1x1,最后是輸出類別預測值的全連接層。
表1 ShuffleNet網絡結構
實 驗 結 果
作者通過一系列在 ImageNet 2016 分類數據集上的控制實驗說明了 ShuffleNet結構單元每個部件存在的必要性、對于其他網絡結構單元的優越性。接著作者通過在 MS COCO目標檢測上的結果說明模型的泛化能力。最后,作者給出了在 ARM 計算平臺上 ShuffleNet 實際運行時的加速效果。分組化逐點卷積。作者對于計算復雜度為 140 MFLOPs 、 40 MFLOPs、13 MFLOPs的 ShuffleNet模型,在控制模型復雜度的同時對比了分組化逐點卷積的組數在1~8時分別對于性能的影響。從 表1中可以看出,帶有分組的(g>1)的網絡的始終比不帶分組(g=1)的網絡的錯誤率低。作者觀察到對于較小的網絡(如 ShuffleNet 0.25x),較大的分組會得到更好結果,認為更寬的通道對于小網絡尤其重要。受這點啟發,作者移除了網絡第三階段的兩個結構單元,將節省下來的運算量用來增加網絡寬度后,網絡性能進一步提高。
??????????????????????????????????????????????????????????????????? 表1 組數對分類錯誤率的影響
通道重排
通道重排的目的是使得組間信息能夠互相交流。在實驗中,有通道重排的網絡始終優于沒有通道重排的網絡,錯誤率降低 0.9%~4.0%。尤其是在組數較大時(如g=8),前者遠遠優于后者。對比其他結構單元作者使用一樣的整體網絡布局,在保持計算復雜度的同時將 ShuffleNet 結構單元分別替換為 VGG-like、ResNet、Xception-like 和 ResNeXt 中的結構單元,使用完全一樣訓練方法。
表2 中的結果顯示在不同的計算復雜度下,ShuffleNet 始終大大優于其他網絡。
表2 和其他網絡結構的分類錯誤率對比(百分制)對比MobileNets和其他的一些網絡結構最近 Howard et al. 提出了 MobileNets[4],利用[1]里的逐通道卷積的設計移動設備上高效的網絡結構。雖然ShuffleNet 是為了小于 150 MFLOPs 的模型設計的,在增大到 MobileNet 的 500~600 MFLOPs量級,依然優于 MobileNet。而在 40 MFLOPs 量級,ShuffleNet 比 MobileNet 錯誤率低 6.7%。詳細結果可以從表3中得到。
表3 ShuffleNet 和 MobileNet 對比
和其他一些網絡結構相比,ShuffleNet 也體現出很大的優勢。從表4中可以看出,ShuffleNet 0.5x 僅用 40
MFLOPs 就達到了 AlexNet 的性能,而 AlexNet 的計算復雜度達到了 720 MFLOPs,是 ShuffleNet 的
18 倍。
表4 ShuffleNet 和其他網絡結構計算復雜度的對比
MS COCO物體檢測
在 Faster-RCNN[5]框架下,和 1.0 MobileNet-224 網絡復雜度可比的 ShuffleNet 2x,在 600 分辨率的圖上的 mAP 達到 24.5%,而 MobileNet 為 19.8%,表明網絡在檢測任務上良好的泛化能力。最后作者在一款 ARM 平臺上測試了網絡的實際運行速度。在作者的實現里 40 MFLOPs 的 ShuffleNet對比相似精度的 AlexNet 實際運行速度快約 13x 倍。224 x 224 輸入下只需 15.2 毫秒便可完成一次推理,在 1280 x720 的輸入下也只需要 260.1 毫秒。
Python實現(參考相關博客和github)
這里我們使用Pytorch來實現ShuffleNet,Pytorch是Facebook提出的一種深度學習動態框架,之所以采用Pytorch是因為其nn.Conv2d天生支持group
convolution,不過盡管TensorFlow不支持直接的group
convolution,但是其實可以自己間接地來實現。不過患有懶癌的我還是使用Pytorch吧。
首先我們來實現channle shuffle操作,就按照前面講述的思路來實現:
defshuffle_channels(x, groups):
"""shuffle channels of a 4-D Tensor"""
batch_size, channels, height, width
= x.size()
assertchannels % groups ==0
channels_per_group = channels// groups
# split into groups
x = x.view(batch_size, groups, channels_per_group,
height, width)
# transpose1,2axis
x = x.transpose(1,2).contiguous()
# reshape into orignal
x = x.view(batch_size, channels, height, width)
returnx
然后我們實現ShuffleNet中stride=1的基本單元:
classShuffleNetUnitA(nn.Module):
"""ShuffleNet unit for stride=1"""
def__init__(self, in_channels, out_channels, groups=3):
super(ShuffleNetUnitA, self).__init__()
assertin_channels == out_channels
assertout_channels %4==0
bottleneck_channels = out_channels //4
self.groups = groups
self.group_conv1 = nn.Conv2d(in_channels, bottleneck_channels,
1, groups=groups, stride=1)
self.bn2 = nn.BatchNorm2d(bottleneck_channels)
self.depthwise_conv3 = nn.Conv2d(bottleneck_channels,
bottleneck_channels,3, padding=1, stride=1,
groups=bottleneck_channels)
self.bn4 = nn.BatchNorm2d(bottleneck_channels)
self.group_conv5 = nn.Conv2d(bottleneck_channels, out_channels,
1, stride=1, groups=groups)
self.bn6 = nn.BatchNorm2d(out_channels)
defforward(self, x):
out = self.group_conv1(x)
out = F.relu(self.bn2(out))
out = shuffle_channels(out, groups=self.groups)
out = self.depthwise_conv3(out)
out = self.bn4(out)
out = self.group_conv5(out)
out = self.bn6(out)
out = F.relu(x + out)
然后是中stride=2的基本單元:
classShuffleNetUnitB(nn.Module):
"""ShuffleNet unit for stride=2"""
def__init__(self, in_channels, out_channels, groups=3):
super(ShuffleNetUnitB, self).__init__()
out_channels -= in_channels
assertout_channels %4==0
bottleneck_channels = out_channels //4
self.groups = groups
self.group_conv1 = nn.Conv2d(in_channels, bottleneck_channels,
1, groups=groups, stride=1)
self.bn2 = nn.BatchNorm2d(bottleneck_channels)
self.depthwise_conv3 = nn.Conv2d(bottleneck_channels,
bottleneck_channels,3, padding=1, stride=2,groups=bottleneck_channels)
self.bn4 = nn.BatchNorm2d(bottleneck_channels)
self.group_conv5 = nn.Conv2d(bottleneck_channels, out_channels,
1, stride=1, groups=groups)
self.bn6 = nn.BatchNorm2d(out_channels)
defforward(self, x):
out = self.group_conv1(x)
out = F.relu(self.bn2(out))
out = shuffle_channels(out, groups=self.groups)
out = self.depthwise_conv3(out)
out = self.bn4(out)
out = self.group_conv5(out)
out = self.bn6(out)
x = F.avg_pool2d(x,3, stride=2, padding=1)
out = F.relu(torch.cat([x, out], dim=1))
returnout
最后是g=3的ShuffleNet的實現:
classShuffleNet(nn.Module):
"""ShuffleNet for groups=3"""
def__init__(self, groups=3, in_channels=3, num_classes=1000):
super(ShuffleNet, self).__init__()
self.conv1 = nn.Conv2d(in_channels,24,3, stride=2, padding=1)
stage2_seq = [ShuffleNetUnitB(24,240, groups=3)] +
[ShuffleNetUnitA(240,240, groups=3)foriinrange(3)]
self.stage2 = nn.Sequential(*stage2_seq)
stage3_seq = [ShuffleNetUnitB(240,480, groups=3)] +
[ShuffleNetUnitA(480,480, groups=3)foriinrange(7)]
self.stage3 = nn.Sequential(*stage3_seq)
stage4_seq = [ShuffleNetUnitB(480,960, groups=3)] +
[ShuffleNetUnitA(960,960, groups=3)foriinrange(3)]
self.stage4 = nn.Sequential(*stage4_seq)
self.fc = nn.Linear(960, num_classes)
defforward(self, x):
net = self.conv1(x)
net = F.max_pool2d(net,3, stride=2, padding=1)
net = self.stage2(net)
net = self.stage3(net)
net = self.stage4(net)
net = F.avg_pool2d(net,7)
net = net.view(net.size(0),-1)
net = self.fc(net)
logits = F.softmax(net)
returnlogits