文章作者:Tyan
博客:noahsnail.com ?|? CSDN ?|? 簡書
聲明:作者翻譯論文僅為學習,如有侵權請聯系作者刪除博文,謝謝!
翻譯論文匯總:https://github.com/SnailTyan/deep-learning-papers-translation
YOLO9000: Better, Faster, Stronger
摘要
我們引入了一個先進的實時目標檢測系統YOLO9000,可以檢測超過9000個目標類別。首先,我們提出了對YOLO檢測方法的各種改進,既有新穎性,也有前期的工作。改進后的模型YOLOv2在PASCAL VOC和COCO等標準檢測任務上是最先進的。使用一種新穎的,多尺度訓練方法,同樣的YOLOv2模型可以以不同的尺寸運行,從而在速度和準確性之間提供了一個簡單的折衷。在67FPS時,YOLOv2在VOC 2007上獲得了76.8 mAP。在40FPS時,YOLOv2獲得了78.6 mAP,比使用ResNet的Faster R-CNN和SSD等先進方法表現更出色,同時仍然運行速度顯著更快。最后我們提出了一種聯合訓練目標檢測與分類的方法。使用這種方法,我們在COCO檢測數據集和ImageNet分類數據集上同時訓練YOLO9000。我們的聯合訓練允許YOLO9000預測未標注的檢測數據目標類別的檢測結果。我們在ImageNet檢測任務上驗證了我們的方法。YOLO9000在ImageNet檢測驗證集上獲得19.7 mAP,盡管200個類別中只有44個具有檢測數據。在沒有COCO的156個類別上,YOLO9000獲得16.0 mAP。但YOLO可以檢測到200多個類別;它預測超過9000個不同目標類別的檢測結果。并且它仍然能實時運行。
1. 引言
通用目的的目標檢測應該快速,準確,并且能夠識別各種各樣的目標。自從引入神經網絡以來,檢測框架變得越來越快速和準確。但是,大多數檢測方法仍然受限于一小部分目標。
與分類和標記等其他任務的數據集相比,目前目標檢測數據集是有限的。最常見的檢測數據集包含成千上萬到數十萬張具有成百上千個標簽的圖像[3][10][2]。分類數據集有數以百萬計的圖像,數十或數十萬個類別[20][2]。
我們希望檢測能夠擴展到目標分類的級別。但是,標注檢測圖像要比標注分類或貼標簽要昂貴得多(標簽通常是用戶免費提供的)。因此,我們不太可能在近期內看到與分類數據集相同規模的檢測數據集。
我們提出了一種新的方法來利用我們已經擁有的大量分類數據,并用它來擴大當前檢測系統的范圍。我們的方法使用目標分類的分層視圖,允許我們將不同的數據集組合在一起。
我們還提出了一種聯合訓練算法,使我們能夠在檢測和分類數據上訓練目標檢測器。我們的方法利用標記的檢測圖像來學習精確定位物體,同時使用分類圖像來增加詞表和魯棒性。
使用這種方法我們訓練YOLO9000,一個實時的目標檢測器,可以檢測超過9000種不同的目標類別。首先,我們改進YOLO基礎檢測系統,產生最先進的實時檢測器YOLOv2。然后利用我們的數據集組合方法和聯合訓練算法對來自ImageNet的9000多個類別以及COCO的檢測數據訓練了一個模型。
圖1:YOLO9000。YOLO9000可以實時檢測許多目標類別。
我們的所有代碼和預訓練模型都可在線獲得:http://pjreddie.com/yolo9000/。
2. 更好
與最先進的檢測系統相比,YOLO有許多缺點。YOLO與Fast R-CNN相比的誤差分析表明,YOLO造成了大量的定位誤差。此外,與基于區域提出的方法相比,YOLO召回率相對較低。因此,我們主要側重于提高召回率和改進定位,同時保持分類準確性。
計算機視覺一般趨向于更大,更深的網絡[6][18][17]。更好的性能通常取決于訓練更大的網絡或將多個模型組合在一起。但是,在YOLOv2中,我們需要一個更精確的檢測器,它仍然很快。我們不是擴大我們的網絡,而是簡化網絡,然后讓表示更容易學習。我們將過去的工作與我們自己的新概念匯集起來,以提高YOLO的性能。表2列出了結果總結。
表2:從YOLO到YOLOv2的路徑。列出的大部分設計決定都會導致mAP的顯著增加。有兩個例外是切換到具有錨盒的一個全卷積網絡和使用新網絡。切換到錨盒風格的方法增加了召回,而不改變mAP,而使用新網絡會削減$33%$的計算量。
批標準化。批標準化導致收斂性的顯著改善,同時消除了對其他形式正則化的需求[7]。通過在YOLO的所有卷積層上添加批標準化,我們在mAP中獲得了超過$2%$的改進。批標準化也有助于模型正則化。通過批標準化,我們可以從模型中刪除丟棄而不會過擬合。
高分辨率分類器。所有最先進的檢測方法都使用在ImageNet[16]上預訓練的分類器。從AlexNet開始,大多數分類器對小于256×256[8]的輸入圖像進行操作。原來的YOLO以224×224的分辨率訓練分類器網絡,并將分辨率提高到448進行檢測。這意味著網絡必須同時切換到學習目標檢測和調整到新的輸入分辨率。
對于YOLOv2,我們首先ImageNet上以448×448的分辨率對分類網絡進行10個迭代周期的微調。這給了網絡時間來調整其濾波器以便更好地處理更高分辨率的輸入。然后,我們在檢測上微調得到的網絡。這個高分辨率分類網絡使我們增加了近$4%$的mAP。
具有錨盒的卷積。YOLO直接使用卷積特征提取器頂部的全連接層來預測邊界框的坐標。Faster R-CNN使用手動選擇的先驗來預測邊界框而不是直接預測坐標[15]。Faster R-CNN中的區域提出網絡(RPN)僅使用卷積層來預測錨盒的偏移和置信度。由于預測層是卷積的,所以RPN在特征映射的每個位置上預測這些偏移。預測偏移而不是坐標簡化了問題,并且使網絡更容易學習。
我們從YOLO中移除全連接層,并使用錨盒來預測邊界框。首先,我們消除了一個池化層,使網絡卷積層輸出具有更高的分辨率。我們還縮小了網絡,操作416×416的輸入圖像而不是448×448。我們這樣做是因為我們要在我們的特征映射中有奇數個位置,所以只有一個中心單元。目標,特別是大目標,往往占據圖像的中心,所以在中心有一個單獨的位置來預測這些目標,而不是四個都在附近的位置是很好的。YOLO的卷積層將圖像下采樣32倍,所以通過使用416的輸入圖像,我們得到了13×13的輸出特征映射。
當我們移動到錨盒時,我們也將類預測機制與空間位置分離,預測每個錨盒的類別和目標。在YOLO之后,目標預測仍然預測了實際值和提出的邊界框的IOU,并且類別預測預測了當存在目標時該類別的條件概率。
使用錨盒,我們在精度上得到了一個小下降。YOLO每張圖像只預測98個邊界框,但是使用錨盒我們的模型預測超過一千。如果沒有錨盒,我們的中間模型將獲得69.5的mAP,召回率為$81%$。具有錨盒我們的模型得到了69.2 mAP,召回率為$88%$。盡管mAP下降,但召回率的上升意味著我們的模型有更大的提升空間。
維度聚類。當錨盒與YOLO一起使用時,我們遇到了兩個問題。首先是邊界框尺寸是手工挑選的。網絡可以學習適當調整邊界框,但如果我們為網絡選擇更好的先驗,我們可以使網絡更容易學習它以便預測好的檢測。
我們不用手工選擇先驗,而是在訓練集邊界框上運行k-means聚類,自動找到好的先驗。如果我們使用具有歐幾里得距離的標準k-means,那么較大的邊界框比較小的邊界框產生更多的誤差。然而,我們真正想要的是導致好的IOU分數的先驗,這是獨立于邊界框大小的。因此,對于我們的距離度量,我們使用:$$d(\text{box}, \text{centroid}) = 1 - \text{IOU}(\text{box}, \text{centroid})$$我們運行各種$k$值的k-means,并畫出平均IOU與最接近的幾何中心,見圖2。我們選擇$k=5$作為模型復雜性和高召回率之間的良好折衷。聚類中心與手工挑選的錨盒明顯不同。有更短更寬的邊界框和更高更細的邊界框。
圖2:VOC和COCO的聚類邊界框尺寸。我們對邊界框的維度進行k-means聚類,以獲得我們模型的良好先驗。左圖顯示了我們通過對$k$的各種選擇得到的平均IOU。我們發現$k = 5$給出了一個很好的召回率與模型復雜度的權衡。右圖顯示了VOC和COCO的相對中心。這兩種先驗都贊成更薄更高的邊界框,而COCO比VOC在尺寸上有更大的變化。
在表1中我們將平均IOU與我們聚類策略中最接近的先驗以及手工選取的錨盒進行了比較。僅有5個先驗中心的平均IOU為61.0,其性能類似于9個錨盒的60.9。如果我們使用9個中心,我們會看到更高的平均IOU。這表明使用k-means來生成我們的邊界框會以更好的表示開始訓練模型,并使得任務更容易學習。
表1:VOC 2007上最接近先驗的邊界框平均IOU。VOC 2007上目標的平均IOU與其最接近的,使用不同生成方法之前未經修改的平均值。聚類結果比使用手工選擇的先驗結果要更好。
直接位置預測。當YOLO使用錨盒時,我們會遇到第二個問題:模型不穩定,特別是在早期的迭代過程中。大部分的不穩定來自預測邊界框的$(x,y)$位置。在區域提出網絡中,網絡預測值$t_x$和$t_y$,$(x,y)$中心坐標計算如下:
$$
x = (t_x * w_a) - x_a\\
y = (t_y * h_a) - y_a
$$
這個公式是不受限制的,所以任何錨盒都可以在圖像任一點結束,而不管在哪個位置預測該邊界框。隨機初始化模型需要很長時間才能穩定以預測合理的偏移量。
我們沒有預測偏移量,而是按照YOLO的方法預測相對于網格單元位置的位置坐標。這限制了落到$0$和$1$之間的真實值。我們使用邏輯激活來限制網絡的預測落在這個范圍內。
網絡預測輸出特征映射中每個單元的5個邊界框。網絡預測每個邊界框的5個坐標,$t_x$,$t_y$,$t_w$,$t_h$和$t_o$。如果單元從圖像的左上角偏移了$(c_x, c_y)$,并且邊界框先驗的寬度和高度為$p_w$,$p_h$,那么預測對應:
$$
b_x = \sigma(t_x) + c_x \\
b_y = \sigma(t_y) + c_y\\
b_w = p_w e^{t_w}\\
b_h = p_h e^{t_h}\\
Pr(\text{object}) * IOU(b, \text{object}) = \sigma(t_o)
$$
圖3:具有維度先驗和位置預測的邊界框。我們預測邊界框的寬度和高度作為聚類中心的偏移量。我們使用sigmoid函數預測邊界框相對于濾波器應用位置的中心坐標。
由于我們限制位置預測參數化更容易學習,使網絡更穩定。使用維度聚類以及直接預測邊界框中心位置的方式比使用錨盒的版本將YOLO提高了近$5%$。
細粒度功能。這個修改后的YOLO在13×13特征映射上預測檢測結果。雖然這對于大型目標來說已經足夠了,但它可以從用于定位較小目標的更細粒度的特征中受益。Faster R-CNN和SSD都在網絡的各種特征映射上運行他們提出的網絡,以獲得一系列的分辨率。我們采用不同的方法,僅僅添加一個通道層,從26x26分辨率的更早層中提取特征。
多尺度訓練。原來的YOLO使用448×448的輸入分辨率。通過添加錨盒,我們將分辨率更改為416×416。但是,由于我們的模型只使用卷積層和池化層,因此它可以實時調整大小。我們希望YOLOv2能夠魯棒的運行在不同大小的圖像上,因此我們可以將其訓練到模型中。
我們沒有固定的輸入圖像大小,每隔幾次迭代就改變網絡。每隔10個批次我們的網絡會隨機選擇一個新的圖像尺寸大小。由于我們的模型縮減了32倍,我們從下面的32的倍數中選擇:{320,352,...,608}。因此最小的選項是320×320,最大的是608×608。我們調整網絡的尺寸并繼續訓練。
這個制度迫使網絡學習如何在各種輸入維度上做好預測。這意味著相同的網絡可以預測不同分辨率下的檢測結果。在更小尺寸上網絡運行速度更快,因此YOLOv2在速度和準確性之間提供了一個簡單的折衷。
在低分辨率YOLOv2作為一個便宜,相當準確的檢測器。在288×288時,其運行速度超過90FPS,mAP與Fast R-CNN差不多。這使其成為小型GPU,高幀率視頻或多視頻流的理想選擇。
在高分辨率下,YOLOv2是VOC 2007上最先進的檢測器,達到了78.6 mAP,同時仍保持運行在實時速度之上。請參閱表3,了解YOLOv2與VOC 2007其他框架的比較。圖4
表3:PASCAL VOC 2007的檢測框架。YOLOv2比先前的檢測方法更快,更準確。它也可以以不同的分辨率運行,以便在速度和準確性之間進行簡單折衷。每個YOLOv2條目實際上是具有相同權重的相同訓練模型,只是以不同的大小進行評估。所有的時間信息都是在Geforce GTX Titan X(原始的,而不是Pascal模型)上測得的。
圖4:VOC 2007上的準確性與速度。
進一步實驗。我們在VOC 2012上訓練YOLOv2進行檢測。表4顯示了YOLOv2與其他最先進的檢測系統的比較性能。YOLOv2取得了73.4 mAP同時運行速度比競爭方法快的多。我們在COCO上進行了訓練,并在表5中與其他方法進行比較。在VOC度量(IOU = 0.5)上,YOLOv2得到44.0 mAP,與SSD和Faster R-CNN相當。
表4:PASCAL VOC2012 test
上的檢測結果。YOLOv2與最先進的檢測器如具有ResNet的Faster R-CNN、SSD512在標準數據集上運行,YOLOv2比它們快2-10倍。
表5:在COCO test-dev2015
上的結果。表參考[11]
3. 更快
我們希望檢測是準確的,但我們也希望它快速。大多數檢測應用(如機器人或自動駕駛機車)依賴于低延遲預測。為了最大限度提高性能,我們從頭開始設計YOLOv2。
大多數檢測框架依賴于VGG-16作為的基本特征提取器[17]。VGG-16是一個強大的,準確的分類網絡,但它是不必要的復雜。在單張圖像224×224分辨率的情況下VGG-16的卷積層運行一次傳遞需要306.90億次浮點運算。
YOLO框架使用基于Googlenet架構[19]的自定義網絡。這個網絡比VGG-16更快,一次前饋傳播只有85.2億次的操作。然而,它的準確性比VGG-16略差。在ImageNet上,對于單張裁剪圖像,224×224分辨率下的top-5
準確率,YOLO的自定義模型獲得了$88.0%$,而VGG-16則為$90.0%$。
Darknet-19。我們提出了一個新的分類模型作為YOLOv2的基礎。我們的模型建立在網絡設計先前工作以及該領域常識的基礎上。與VGG模型類似,我們大多使用3×3濾波器,并在每個池化步驟之后使通道數量加倍[17]。按照Network in Network(NIN)的工作,我們使用全局平均池化做預測以及1×1濾波器來壓縮3×3卷積之間的特征表示[9]。我們使用批標準化來穩定訓練,加速收斂,并正則化模型[7]。
我們的最終模型叫做Darknet-19,它有19個卷積層和5個最大池化層。完整描述請看表6。Darknet-19只需要55.8億次運算來處理圖像,但在ImageNet上卻達到了$72.9%$的top-1
準確率和$91.2%$的top-5
準確率。
表6:Darknet-19。
如上所述,在我們對224×224的圖像進行初始訓練之后,我們對網絡在更大的尺寸448上進行了微調。對于這種微調,我們使用上述參數進行訓練,但是只有10個迭代周期,并且以$10^{?3}$的學習率開始。在這種更高的分辨率下,我們的網絡達到了$76.5%$的top-1
準確率和$93.3%$的top-5
準確率。
檢測訓練。我們修改這個網絡進行檢測,刪除了最后一個卷積層,加上了三個具有1024個濾波器的3×3卷積層,其后是最后的1×1卷積層與我們檢測需要的輸出數量。對于VOC,我們預測5個邊界框,每個邊界框有5個坐標和20個類別,所以有125個濾波器。我們還添加了從最后的3×3×512層到倒數第二層卷積層的直通層,以便我們的模型可以使用細粒度特征。
我們訓練網絡160個迭代周期,初始學習率為$10^{?3}$,在60個和90個迭代周期時將學習率除以10。我們使用0.0005的權重衰減和0.9的動量。我們對YOLO和SSD進行類似的數據增強,隨機裁剪,色彩偏移等。我們對COCO和VOC使用相同的訓練策略。
4. 更強
我們提出了一個聯合訓練分類和檢測數據的機制。我們的方法使用標記為檢測的圖像來學習邊界框坐標預測和目標之類的特定檢測信息以及如何對常見目標進行分類。它使用僅具有類別標簽的圖像來擴展可檢測類別的數量。
在訓練期間,我們混合來自檢測和分類數據集的圖像。當我們的網絡看到標記為檢測的圖像時,我們可以基于完整的YOLOv2損失函數進行反向傳播。當它看到一個分類圖像時,我們只能從該架構的分類特定部分反向傳播損失。
這種方法提出了一些挑戰。檢測數據集只有通用目標和通用標簽,如“狗”或“船”。分類數據集具有更廣更深的標簽范圍。ImageNet有超過一百種品種的狗,包括Norfolk terrier
,Yorkshire terrier
和Bedlington terrier
。如果我們想在兩個數據集上訓練,我們需要一個連貫的方式來合并這些標簽。
大多數分類方法使用跨所有可能類別的softmax層來計算最終的概率分布。使用softmax假定這些類是相互排斥的。這給數據集的組合帶來了問題,例如你不想用這個模型來組合ImageNet和COCO,因為類Norfolk terrier
和dog
不是相互排斥的。
我們可以改為使用多標簽模型來組合不假定互斥的數據集。這種方法忽略了我們已知的關于數據的所有結構,例如,所有的COCO類是互斥的。
分層分類。ImageNet標簽是從WordNet中提取的,這是一個構建概念及其相互關系的語言數據庫[12]。在WordNet中,Norfolk terrier
和Yorkshire terrier
都是terrier
的下義詞,terrier
是一種hunting dog
,hunting dog
是dog
,dog
是canine
等。分類的大多數方法為標簽假設一個扁平結構,但是對于組合數據集,結構正是我們所需要的。
WordNet的結構是有向圖,而不是樹,因為語言是復雜的。例如,dog
既是一種canine
,也是一種domestic animal
,它們都是WordNet中的同義詞。我們不是使用完整的圖結構,而是通過從ImageNet的概念中構建分層樹來簡化問題。
為了構建這棵樹,我們檢查了ImageNet中的視覺名詞,并查看它們通過WordNet圖到根節點的路徑,在這種情況下是“物理對象”。許多同義詞通過圖只有一條路徑,所以首先我們將所有這些路徑添加到我們的樹中。然后我們反復檢查我們留下的概念,并盡可能少地添加生長樹的路徑。所以如果一個概念有兩條路徑到一個根,一條路徑會給我們的樹增加三條邊,另一條只增加一條邊,我們選擇更短的路徑。
最終的結果是WordTree,一個視覺概念的分層模型。為了使用WordTree進行分類,我們預測每個節點的條件概率,以得到同義詞集合中每個同義詞下義詞的概率。例如,在terrier
節點我們預測:
$$
Pr(\text{Norfolk terrier} | \text{terrier}) \\
Pr(\text{Yorkshire terrier} | \text{terrier}) \\
Pr(\text{Bedlington terrier} | \text{terrier})\\
...\\
$$
如果我們想要計算一個特定節點的絕對概率,我們只需沿著通過樹到達根節點的路徑,再乘以條件概率。所以如果我們想知道一張圖片是否是Norfolk terrier
,我們計算:
$$
Pr(\text{Norfolk terrier}) = Pr(\text{Norfolk terrier} | \text{terrier})\\
* Pr(\text{terrier} | \text{hunting dog}) \\
* \ldots * \\
*Pr(\text{mammal} | Pr(\text{animal})\\
* Pr(\text{animal} | \text{physical object})
$$
為了分類目的,我們假定圖像包含一個目標:$Pr(\text{physical object}) = 1$。
為了驗證這種方法,我們在使用1000類ImageNet構建的WordTree上訓練Darknet-19模型。為了構建WordTree1k,我們添加了所有將標簽空間從1000擴展到1369的中間節點。在訓練過程中,我們將真實標簽向樹上面傳播,以便如果圖像被標記為Norfolk terrier
,則它也被標記為dog
和mammal
等。為了計算條件概率,我們的模型預測了具有1369個值的向量,并且我們計算了相同概念的下義詞在所有同義詞集上的softmax,見圖5。
圖5:在ImageNet與WordTree上的預測。大多數ImageNet模型使用一個較大的softmax來預測概率分布。使用WordTree,我們可以在共同的下義詞上執行多次softmax操作。
使用與以前相同的訓練參數,我們的分級Darknet-19達到$71.9%$的top-1
準確率和$90.4%$的top-5
準確率。盡管增加了369個額外的概念,而且我們的網絡預測了一個樹狀結構,但我們的準確率僅下降了一點點。以這種方式進行分類也有一些好處。在新的或未知的目標類別上性能會優雅地降低。例如,如果網絡看到一只狗的照片,但不確定它是什么類型的狗,它仍然會高度自信地預測“狗”,但是在下義位擴展之間有更低的置信度。
這個構想也適用于檢測。現在,我們不是假定每張圖像都有一個目標,而是使用YOLOv2的目標預測器給我們$Pr(\text{physical object})$的值。檢測器預測邊界框和概率樹。我們遍歷樹,在每個分割中采用最高的置信度路徑,直到達到某個閾值,然后我們預測目標類。
聯合分類和檢測。現在我們可以使用WordTree組合數據集,我們可以在分類和檢測上訓練聯合模型。我們想要訓練一個非常大規模的檢測器,所以我們使用COCO檢測數據集和完整的ImageNet版本中的前9000個類來創建我們的組合數據集。我們還需要評估我們的方法,以便從ImageNet檢測挑戰中添加任何尚未包含的類。該數據集的相應WordTree有9418個類別。ImageNet是一個更大的數據集,所以我們通過對COCO進行過采樣來平衡數據集,使得ImageNet僅僅大于4:1的比例。
使用這種聯合訓練,YOLO9000學習使用COCO中的檢測數據來查找圖像中的目標,并學習使用來自ImageNet的數據對各種目標進行分類。
我們在ImageNet檢測任務上評估YOLO9000。ImageNet的檢測任務與COCO共享44個目標類別,這意味著YOLO9000只能看到大多數測試圖像的分類數據,而不是檢測數據。YOLO9000在從未見過任何標記的檢測數據的情況下,整體上獲得了19.7 mAP,在不相交的156個目標類別中獲得了16.0 mAP。這個mAP高于DPM的結果,但是YOLO9000在不同的數據集上訓練,只有部分監督[4]。它也同時檢測9000個其他目標類別,所有的都是實時的。
當我們分析YOLO9000在ImageNet上的表現時,我們發現它很好地學習了新的動物種類,但是卻在像服裝和設備這樣的學習類別中掙扎。新動物更容易學習,因為目標預測可以從COCO中的動物泛化的很好。相反,COCO沒有任何類型的衣服的邊界框標簽,只針對人,因此YOLO9000正在努力建模“墨鏡”或“泳褲”等類別。
5. 結論
我們介紹了YOLOv2和YOLO9000,兩個實時檢測系統。YOLOv2在各種檢測數據集上都是最先進的,也比其他檢測系統更快。此外,它可以運行在各種圖像大小,以提供速度和準確性之間的平滑折衷。
YOLO9000是一個通過聯合優化檢測和分類來檢測9000多個目標類別的實時框架。我們使用WordTree將各種來源的數據和我們的聯合優化技術相結合,在ImageNet和COCO上同時進行訓練。YOLO9000是在檢測和分類之間縮小數據集大小差距的重要一步。
我們的許多技術都可以泛化到目標檢測之外。我們對ImageNet的WordTree表示為圖像分類提供了更豐富,更詳細的輸出空間。使用分層分類的數據集組合在分類和分割領域將是有用的。像多尺度訓練這樣的訓練技術可以為各種視覺任務提供益處。
對于未來的工作,我們希望使用類似的技術來進行弱監督的圖像分割。我們還計劃使用更強大的匹配策略來改善我們的檢測結果,以在訓練期間將弱標簽分配給分類數據。計算機視覺受到大量標記數據的祝福。我們將繼續尋找方法,將不同來源和數據結構的數據整合起來,形成更強大的視覺世界模型。
References
[1] S. Bell, C. L. Zitnick, K. Bala, and R. Girshick. Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks. arXiv preprint arXiv:1512.04143, 2015. 6
[2] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei- Fei. Imagenet: A large-scale hierarchical image database. In Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on, pages 248–255. IEEE, 2009. 1
[3] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman. The pascal visual object classes (voc) challenge. International journal of computer vision, 88(2):303– 338, 2010. 1
[4] P. F. Felzenszwalb, R. B. Girshick, and D. McAllester. Discriminatively trained deformable part models, release 4. http://people.cs.uchicago.edu/pff/latent-release4/. 8
[5] R. B. Girshick. Fast R-CNN. CoRR, abs/1504.08083, 2015. 4, 5, 6
[6] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. arXiv preprint arXiv:1512.03385, 2015. 2, 4, 5
[7] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015. 2, 5
[8] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012. 2
[9] M. Lin, Q. Chen, and S. Yan. Network in network. arXiv preprint arXiv:1312.4400, 2013. 5
[10] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, and C. L. Zitnick. Microsoft coco: Common objects in context. In European Conference on Computer Vision, pages 740–755. Springer, 2014. 1, 6
[11] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, and S. E. Reed. SSD: single shot multibox detector. CoRR, abs/1512.02325, 2015. 4, 5, 6
[12] G. A. Miller, R. Beckwith, C. Fellbaum, D. Gross, and K. J. Miller. Introduction to wordnet: An on-line lexical database. International journal of lexicography, 3(4):235–244, 1990. 6
[13] J. Redmon. Darknet: Open source neural networks in c. http://pjreddie.com/darknet/, 2013–2016. 5
[14] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. You only look once: Unified, real-time object detection. arXiv preprint arXiv:1506.02640, 2015. 4, 5
[15] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal net- works. arXiv preprint arXiv:1506.01497, 2015. 2, 3, 4, 5, 6
[16] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision (IJCV), 2015. 2
[17] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014. 2, 5
[18] C. Szegedy, S. Ioffe, and V. Vanhoucke. Inception-v4, inception-resnet and the impact of residual connections on learning. CoRR, abs/1602.07261, 2016. 2
[19] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. CoRR, abs/1409.4842, 2014. 5
[20] B. Thomee, D. A. Shamma, G. Friedland, B. Elizalde, K. Ni, D. Poland, D. Borth, and L.-J. Li. Yfcc100m: The new data in multimedia research. Communications of the ACM, 59(2):64–73, 2016. 1