ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices

（首先給助教老師說聲抱歉，由于我們組的疏忽導致讀書報告交晚了，非常感激助教老師的提醒，謝謝！由于微信群文件沒有保存，我們沒有查到組號，我們的成員是：劉博藝、刁頌輝、陳帆、李在林）

?????? ShuffleNet是曠視科技最近提出的一種計算高效的CNN模型，其和MobileNet和SqueezeNet等一樣主要是想應用在移動端。所以，ShuffleNet的設計目標也是如何利用有限的計算資源來達到最好的模型精度，這需要很好地在速度和精度之間做平衡。ShuffleNet的核心是采用了兩種操作：pointwise 。shuffle，這在保持精度的同時大大降低了模型的計算量。目前移動端CNN模型主要設計思路主要是兩個方面：模型結構設計和模型壓縮。ShuffleNet和MobileNet一樣屬于前者，都是通過設計更高效的網絡結構來實現模型變小和變快，而不是對一個訓練好的大模型做壓縮或者遷移。下面我們將詳細講述ShuffleNet的設計思路，網絡結構及模型效果，最后使用Pytorch來實現ShuffleNet網絡。

設計思想

??????? 卷積神經網絡是現代視覺人工智能系統的核心組件。近年來關于卷積模型的研究層出不窮，產生了如VGG、ResNet、Xception 和 ResNeXt等性能優異的網絡結構，在多個視覺任務上超過了人類水平。然而，這些成功的模型往往伴隨著巨大的計算復雜度（數十億次浮點操作，甚至更多）。這就限制了此類模型只能用于高性能的服務器集群，而對于很多移動端應用（通常最多容許數百萬至數千萬次浮點操作）則無能為力。

??????? 解決這一難題的方法之一是設計更為輕量級的模型結構。現代卷積神經網絡的絕大多數計算量集中在卷積操作上，因此高效的卷積層設計是減少網絡復雜度的關鍵。其中，稀疏連接（sparse connection）是提高卷積運算效率的有效途徑，當前不少優秀的卷積模型均沿用了這一思路。例如，谷歌的”Xception“網絡[1]引入了”深度可分離卷積”的概念，將普通的卷積運算拆分成逐通道卷積（depthwise convolution）和逐點卷積（pointwise convolution）兩部進行，有效地減少了計算量和參數量；而 Facebook 的“ResNeXt”網絡[2]則首先使用逐點卷積減少輸入特征的通道數，再利用計算量較小的分組卷積（group convolution）結構取代原有的卷積運算，同樣可以減少整體的計算復雜度。ShuffleNet 網絡結構同樣沿襲了稀疏連接的設計理念。作者通過分析 Xception 和 ResNeXt模型，發現這兩種結構通過卷積核拆分雖然計算復雜度均較原始卷積運算有所下降，然而拆分所產生的逐點卷積計算量卻相當可觀，成為了新的瓶頸。例如對于ResNeXt 模型逐點卷積占據了 93.4% 的運算復雜度。可見，為了進一步提升模型的速度，就必須尋求更為高效的結構來取代逐點卷積。受 ResNeXt 的啟發，作者提出使用分組逐點卷積（group pointwise convolution）來代替原來的結構。通過將卷積運算的輸入限制在每個組內，模型的計算量取得了顯著的下降。然而這樣做也帶來了明顯的問題：在多層逐點卷積堆疊時，模型的信息流被分割在各個組內，組與組之間沒有信息交換（如圖 1(a) 所示）。這將可能影響到模型的表示能力和識別精度。

圖 1 逐點卷積與通道重排操作

因此，在使用分組逐點卷積的同時，需要引入組間信息交換的機制。也就是說，對于第二層卷積而言，每個卷積核需要同時接收各組的特征作為輸入，如圖 1(b) 所示。作者指出，通過引入“通道重排”（channel shuffle，見圖 1(c) ）可以很方便地實現這一機制；并且由于通道重排操作是可導的，因此可以嵌在網絡結構中實現端到端的學習。

網絡結構

????? 首先來構造ShuffleNet的基本單元，如圖2所示。ShuffleNet的基本單元是在一個殘差單元的基礎上改進而成的。如圖2-a所示，這是一個包含3層的殘差單元：首先是1x1卷積，然后是3x3的depthwise convolution（DWConv，主要是為了降低計算量），這里的3x3卷積是瓶頸層（bottleneck），緊接著是1x1卷積，最后是一個短路連接，將輸入直接加到輸出上。現在，進行如下的改進：將密集的1x1卷積替換成1x1的group convolution，不過在第一個1x1卷積之后增加了一個channle shuffle操作。值得注意的是3x3卷積后面沒有增加channle shuffle，按paper的意思，對于這樣一個殘差單元，一個channle shuffle操作是足夠了。還有就是3x3的depthwise convolution之后沒有使用ReLU激活函數。改進之后如圖2-b所示。對于殘差單元，如果stride=1時，此時輸入與輸出shape一致可以直接相加，而當stride=2時，通道數增加，而特征圖大小減小，此時輸入與輸出不匹配。一般情況下可以采用一個1x1卷積將輸入映射成和輸出一樣的shape。但是在ShuffleNet中，卻采用了不一樣的策略，如圖2-c所示：對原輸入采用stride=2的3x3avg pool，這樣得到和輸出一樣大小的特征圖，然后將得到特征圖與輸出進行連接（concat），而不是相加。這樣做的目的主要是降低計算量與參數大小。

圖2 ShuffleNet的基本單元

基于上面改進的ShuffleNet基本單元，設計的ShuffleNet模型如表1所示。可以看到開始使用的普通的3x3的卷積和max pool層。然后是三個階段，每個階段都是重復堆積了幾個ShuffleNet的基本單元。對于每個階段，第一個基本單元采用的是stride=2，這樣特征圖width和height各降低一半，而通道數增加一倍。后面的基本單元都是stride=1，特征圖和通道數都保持不變。對于基本單元來說，其中瓶頸層，就是3x3卷積層的通道數為輸出通道數的1/4，這和殘差單元的設計理念是一樣的。不過有個細節是，對于stride=2的基本單元，由于原輸入會貢獻一部分最終輸出的通道數，那么在計算1/4時到底使用最終的通道數，還是僅僅未concat之前的通道數。文章沒有說清楚，但是個人認為應該是后者吧。其中g控制了group convolution中的分組數，分組越多，在相同計算資源下，可以使用更多的通道數，所以g越大時，采用了更多的卷積核。這里給個例子，當g=3時，對于第一階段的第一個基本單元，其輸入通道數為24，輸出通道數為240，但是其stride=2，那么由于原輸入通過avg pool可以貢獻24個通道，所以相當于左支只需要產生240-24=216通道，中間瓶頸層的通道數就為216/4=54。其他的可以以此類推。當完成三階段后，采用global pool將特征圖大小降為1x1，最后是輸出類別預測值的全連接層。

表1 ShuffleNet網絡結構

實驗結果

作者通過一系列在 ImageNet 2016 分類數據集上的控制實驗說明了 ShuffleNet結構單元每個部件存在的必要性、對于其他網絡結構單元的優越性。接著作者通過在 MS COCO目標檢測上的結果說明模型的泛化能力。最后，作者給出了在 ARM 計算平臺上 ShuffleNet 實際運行時的加速效果。分組化逐點卷積。作者對于計算復雜度為 140 MFLOPs 、 40 MFLOPs、13 MFLOPs的 ShuffleNet模型，在控制模型復雜度的同時對比了分組化逐點卷積的組數在1~8時分別對于性能的影響。從表1中可以看出，帶有分組的(g>1)的網絡的始終比不帶分組(g=1)的網絡的錯誤率低。作者觀察到對于較小的網絡(如 ShuffleNet 0.25x)，較大的分組會得到更好結果，認為更寬的通道對于小網絡尤其重要。受這點啟發，作者移除了網絡第三階段的兩個結構單元，將節省下來的運算量用來增加網絡寬度后，網絡性能進一步提高。

??????????????????????????????????????????????????????????????????? 表1 組數對分類錯誤率的影響

通道重排

通道重排的目的是使得組間信息能夠互相交流。在實驗中，有通道重排的網絡始終優于沒有通道重排的網絡，錯誤率降低 0.9%~4.0%。尤其是在組數較大時(如g=8)，前者遠遠優于后者。對比其他結構單元作者使用一樣的整體網絡布局，在保持計算復雜度的同時將 ShuffleNet 結構單元分別替換為 VGG-like、ResNet、Xception-like 和 ResNeXt 中的結構單元，使用完全一樣訓練方法。

表2 中的結果顯示在不同的計算復雜度下，ShuffleNet 始終大大優于其他網絡。

表2 和其他網絡結構的分類錯誤率對比（百分制）對比MobileNets和其他的一些網絡結構最近 Howard et al. 提出了 MobileNets[4]，利用[1]里的逐通道卷積的設計移動設備上高效的網絡結構。雖然ShuffleNet 是為了小于 150 MFLOPs 的模型設計的，在增大到 MobileNet 的 500~600 MFLOPs量級，依然優于 MobileNet。而在 40 MFLOPs 量級，ShuffleNet 比 MobileNet 錯誤率低 6.7%。詳細結果可以從表3中得到。

表3 ShuffleNet 和 MobileNet 對比

和其他一些網絡結構相比，ShuffleNet 也體現出很大的優勢。從表4中可以看出，ShuffleNet 0.5x 僅用 40

MFLOPs 就達到了 AlexNet 的性能，而 AlexNet 的計算復雜度達到了 720 MFLOPs，是 ShuffleNet 的

18 倍。

表4 ShuffleNet 和其他網絡結構計算復雜度的對比

MS COCO物體檢測

在 Faster-RCNN[5]框架下，和 1.0 MobileNet-224 網絡復雜度可比的 ShuffleNet 2x，在 600 分辨率的圖上的 mAP 達到 24.5%，而 MobileNet 為 19.8%，表明網絡在檢測任務上良好的泛化能力。最后作者在一款 ARM 平臺上測試了網絡的實際運行速度。在作者的實現里 40 MFLOPs 的 ShuffleNet對比相似精度的 AlexNet 實際運行速度快約 13x 倍。224 x 224 輸入下只需 15.2 毫秒便可完成一次推理，在 1280 x720 的輸入下也只需要 260.1 毫秒。

Python實現（參考相關博客和github）

這里我們使用Pytorch來實現ShuffleNet，Pytorch是Facebook提出的一種深度學習動態框架，之所以采用Pytorch是因為其nn.Conv2d天生支持group

convolution，不過盡管TensorFlow不支持直接的group

convolution，但是其實可以自己間接地來實現。不過患有懶癌的我還是使用Pytorch吧。

首先我們來實現channle shuffle操作，就按照前面講述的思路來實現：

defshuffle_channels(x, groups):

"""shuffle channels of a 4-D Tensor"""

batch_size, channels, height, width

= x.size()

assertchannels % groups ==0

channels_per_group = channels// groups

# split into groups

x = x.view(batch_size, groups, channels_per_group,

height, width)

# transpose1,2axis

x = x.transpose(1,2).contiguous()

# reshape into orignal

x = x.view(batch_size, channels, height, width)

returnx

然后我們實現ShuffleNet中stride=1的基本單元：

classShuffleNetUnitA(nn.Module):

"""ShuffleNet unit for stride=1"""

def__init__(self, in_channels, out_channels, groups=3):

super(ShuffleNetUnitA, self).__init__()

assertin_channels == out_channels

assertout_channels %4==0

bottleneck_channels = out_channels //4

self.groups = groups

self.group_conv1 = nn.Conv2d(in_channels, bottleneck_channels,

1, groups=groups, stride=1)

self.bn2 = nn.BatchNorm2d(bottleneck_channels)

self.depthwise_conv3 = nn.Conv2d(bottleneck_channels,

bottleneck_channels,3, padding=1, stride=1,

groups=bottleneck_channels)

self.bn4 = nn.BatchNorm2d(bottleneck_channels)

self.group_conv5 = nn.Conv2d(bottleneck_channels, out_channels,

1, stride=1, groups=groups)

self.bn6 = nn.BatchNorm2d(out_channels)

defforward(self, x):

out = self.group_conv1(x)

out = F.relu(self.bn2(out))

out = shuffle_channels(out, groups=self.groups)

out = self.depthwise_conv3(out)

out = self.bn4(out)

out = self.group_conv5(out)

out = self.bn6(out)

out = F.relu(x + out)

然后是中stride=2的基本單元：

classShuffleNetUnitB(nn.Module):

"""ShuffleNet unit for stride=2"""

def__init__(self, in_channels, out_channels, groups=3):

super(ShuffleNetUnitB, self).__init__()

out_channels -= in_channels

assertout_channels %4==0

bottleneck_channels = out_channels //4

self.groups = groups

self.group_conv1 = nn.Conv2d(in_channels, bottleneck_channels,

1, groups=groups, stride=1)

self.bn2 = nn.BatchNorm2d(bottleneck_channels)

self.depthwise_conv3 = nn.Conv2d(bottleneck_channels,

bottleneck_channels,3, padding=1, stride=2,groups=bottleneck_channels)

self.bn4 = nn.BatchNorm2d(bottleneck_channels)

self.group_conv5 = nn.Conv2d(bottleneck_channels, out_channels,

1, stride=1, groups=groups)

self.bn6 = nn.BatchNorm2d(out_channels)

defforward(self, x):

out = self.group_conv1(x)

out = F.relu(self.bn2(out))

out = shuffle_channels(out, groups=self.groups)

out = self.depthwise_conv3(out)

out = self.bn4(out)

out = self.group_conv5(out)

out = self.bn6(out)

x = F.avg_pool2d(x,3, stride=2, padding=1)

out = F.relu(torch.cat([x, out], dim=1))

returnout

最后是g=3的ShuffleNet的實現：

classShuffleNet(nn.Module):

"""ShuffleNet for groups=3"""

def__init__(self, groups=3, in_channels=3, num_classes=1000):

super(ShuffleNet, self).__init__()

self.conv1 = nn.Conv2d(in_channels,24,3, stride=2, padding=1)

stage2_seq = [ShuffleNetUnitB(24,240, groups=3)] +

[ShuffleNetUnitA(240,240, groups=3)foriinrange(3)]

self.stage2 = nn.Sequential(*stage2_seq)

stage3_seq = [ShuffleNetUnitB(240,480, groups=3)] +

[ShuffleNetUnitA(480,480, groups=3)foriinrange(7)]

self.stage3 = nn.Sequential(*stage3_seq)

stage4_seq = [ShuffleNetUnitB(480,960, groups=3)] +

[ShuffleNetUnitA(960,960, groups=3)foriinrange(3)]

self.stage4 = nn.Sequential(*stage4_seq)

self.fc = nn.Linear(960, num_classes)

defforward(self, x):

net = self.conv1(x)

net = F.max_pool2d(net,3, stride=2, padding=1)

net = self.stage2(net)

net = self.stage3(net)

net = self.stage4(net)

net = F.avg_pool2d(net,7)

net = net.view(net.size(0),-1)

net = self.fc(net)

logits = F.softmax(net)

returnlogits

最后編輯于：2018.06.27 23:07:11

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 228,030評論 6贊 531
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 98,310評論 3贊 415
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 175,951評論 0贊 373
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 62,796評論 1贊 309
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 71,566評論 6贊 407
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,055評論 1贊 322
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,142評論 3贊 440
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,303評論 0贊 288
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 48,799評論 1贊 333
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 40,683評論 3贊 354
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 42,899評論 1贊 369
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,409評論 5贊 358
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,135評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,520評論 0贊 26
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 35,757評論 1贊 282
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,528評論 3贊 390
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 47,844評論 2贊 372

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices

ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频