Joseph Redmon,Ali Farhadi
?University of Washington
?論文地址:https://arxiv.org/pdf/1804.02767.pdf
?論文提交時間:2018年4月8日
摘要
我們向YOLO提供一些更新! 我們做了一些小的設(shè)計更改以使其更好。我們還訓(xùn)練了這個規(guī)模較大的新網(wǎng)絡(luò)。 它比上次更大一點,但更準(zhǔn)確。不用擔(dān)心,它仍然很快。320×320的YOLOv3運行22毫秒可達(dá)到28.2 mAP,與SSD一樣準(zhǔn)確,但速度提高了三倍。當(dāng)我們查看舊的0.5 IOU mAP檢測指標(biāo),YOLOv3的表現(xiàn)非常好。它在Titan X上運行51毫秒內(nèi)達(dá)到了57.9,相比之下,RetinaNet在198毫秒內(nèi)達(dá)到57.5
,性能相似,但速度提高了3.8倍。與往常一樣,所有代碼都在https://pjreddie.com/yolo/上。
1.介紹
你知道嗎?有時你只需要打一年電話。今年我沒有做很多研究,在Twitter上花了很多時間。玩了一下GAN。全年我留了下了一點動力[12][1];我設(shè)法對YOLO做了一些改進(jìn)。但是,老實說,只是一點改變讓它變得更好,沒有什么比這更有趣了。我也在其他人的研究上做了一點幫助。
實際上,這就是我們今天來到這里的原因。我們有一個相機就緒截止日期[4],我們需要引用一些我對YOLO進(jìn)行的隨機更新,但我們沒有來源。所以準(zhǔn)備好進(jìn)行技術(shù)報告!
技術(shù)報告的好處是他們不需要介紹,你們都知道我們?yōu)槭裁磿谶@里。因此,本文的結(jié)尾部分將針對本文的其余部分進(jìn)行標(biāo)記。 首先,我們將告訴您YOLOv3的處理方式。 然后我們會告訴你我們是怎么做的。 我們還會告訴你一些我們嘗試過但不起作用的事情。最后,我們將思考這一切意味著什么。
2.處理方式
YOLOv3的處理方式:我們主要是從其他人那里獲得了很好的想法。我們還訓(xùn)練了一個比其他分類器更好的新分類器網(wǎng)絡(luò)。我們將從頭開始帶您瀏覽整個系統(tǒng),以便您可以全面了解它。
2.1.邊界框預(yù)測
在YOLO9000之后,我們的系統(tǒng)使用維度聚類作為anchor boxes來預(yù)測邊界框[15]。網(wǎng)絡(luò)預(yù)測每個邊界框的4個坐標(biāo),,
,
,
。如果單元格偏離圖像的左上角(
,
),并且前面的邊界框具有寬度和高度
,
,則預(yù)測對應(yīng)于:
在訓(xùn)練期間,我們使用平方誤差損失的總和。如果某些坐標(biāo)預(yù)測的ground truth是,我們的是ground truth值(從ground truth框計算)減去我們的預(yù)測:
。通過反轉(zhuǎn)上面的等式可以容易地計算該ground truth值。
YOLOv3使用邏輯回歸預(yù)測每個邊界框的對象性得分。如果之前的邊界框與ground truth對象重疊超過任何其他邊界框,則該值應(yīng)為1。如果之前的邊界框不是最好的但是與ground truth對象重疊超過某個閾值,我們忽略預(yù)測,按照[17]。我們使用0.5的閾值。[17]與我們的系統(tǒng)不同,它只為每個ground truth對象分配一個邊界框。如果之前的邊界框未分配給ground truth對象,則它不會導(dǎo)致坐標(biāo)或類預(yù)測的損失,只會導(dǎo)致對象性的損失。
2.2.類預(yù)測
每個框使用多標(biāo)簽分類預(yù)測邊界框可能包含的類。我們不使用softmax,因為我們發(fā)現(xiàn)它不需要良好的性能,而只是使用獨立的邏輯分類器。在訓(xùn)練期間,我們使用二元交叉熵?fù)p失進(jìn)行類預(yù)測。
當(dāng)我們遷移到更復(fù)雜的領(lǐng)域(如Open Images Dataset)時,此公式會有所幫助。在此數(shù)據(jù)集中有許多重疊標(biāo)簽(即女人和人)。使用softmax假設(shè)每個框只有一個類,而通常不是這種情況。多標(biāo)簽方法可以更好地模擬數(shù)據(jù)。
2.3.跨尺度預(yù)測
YOLOv3預(yù)測3種不同尺度的方框。我們的系統(tǒng)使用與金字塔網(wǎng)絡(luò)相似的概念從這些尺度中提取特征[8]。從我們的基本特征提取器中,我們添加了幾個卷積層。最后一個預(yù)測了一個3-d張量,這個張量由邊界框,對象性和類預(yù)測編碼。 在我們使用COCO [10]的實驗中,我們預(yù)測每個尺度有3個框,因此對于4個邊界框偏移,1個對象性預(yù)測和80個類預(yù)測,張量為N×N×[3 *(4 + 1 + 80)]。
接下來,我們從前面的2層獲取特征圖,然后將其上采樣2倍。我們還從網(wǎng)絡(luò)中較早的位置獲取了一個特征圖,并使用連接將其與我們的上采樣特征合并。這種方法允許我們從上采樣特征中獲取更有意義的語義信息,并從更早的特征圖中獲得更細(xì)粒度的信息。然后我們再添加一些卷積層來處理這個組合特征圖,并最終預(yù)測出類似的張量,盡管現(xiàn)在是兩倍大小。
我們再次執(zhí)行相同的設(shè)計來預(yù)測最終比例的方框。因此,我們對第3階段的預(yù)測受益于所有先前的計算以及網(wǎng)絡(luò)早期的細(xì)粒度特征。
我們?nèi)匀皇褂胟-means聚類來確定我們的邊界框先驗。我們只是任意選擇9個簇和3個尺度,然后在尺度上均勻地劃分簇。 在COCO數(shù)據(jù)集上,9個聚類為:(10×13),(16×30),(33×23),(30×61),(62×45),(59×119),(116×90) ,(156×198),(373×326)。
2.4.特征提取
我們使用新網(wǎng)絡(luò)執(zhí)行特征提取。我們的新網(wǎng)絡(luò)是YOLOv2中使用的網(wǎng)絡(luò)Darknet-19和殘差網(wǎng)絡(luò)的混合方法。我們的網(wǎng)絡(luò)使用連續(xù)的3×3和1×1卷積層,但現(xiàn)在也有一些快捷連接,并且明顯更大。它有53個卷積層,所以我們稱之為....等等...... Darknet-53!
這個新網(wǎng)絡(luò)比Darknet19強大得多,但仍然比ResNet-101或ResNet-152更有效。以下是一些ImageNet結(jié)果:
?
每個網(wǎng)絡(luò)都使用相同的設(shè)置進(jìn)行訓(xùn)練,并以256×256的大小,單一裁剪精度進(jìn)行測試。 運行時間以256×256的大小在Titan X上測量。因此,Darknet-53的性能與最先進(jìn)的分類器相當(dāng),但浮點運算更少,速度更快。 Darknet-53優(yōu)于ResNet-101,速度提高1.5倍。 Darknet-53具有與ResNet-152類似的性能,速度提高了2倍。
Darknet-53還實現(xiàn)了每秒最高的測量浮點運算。 這意味著網(wǎng)絡(luò)結(jié)構(gòu)可以更好地利用GPU,從而提高評估效率,從而提高速度。 這主要是因為ResNets的層數(shù)太多而且效率不高。
2.5.訓(xùn)練
我們?nèi)匀挥?xùn)練完整的圖像,沒有hard negative mining或任何這些東西。 我們使用多尺度訓(xùn)練,大量數(shù)據(jù)擴(kuò)充,批量標(biāo)準(zhǔn)化,所有標(biāo)準(zhǔn)的東西。 我們使用Darknet神經(jīng)網(wǎng)絡(luò)框架進(jìn)行訓(xùn)練和測試[14]。
3.我們?nèi)绾巫?/h2>
YOLOv3非常棒!參見表3。就COCO而言,奇怪的平均AP指標(biāo)與SSD變體相當(dāng),但速度快3倍。盡管如此,它仍遠(yuǎn)遠(yuǎn)落后于RetinaNet等其他模型。
但是,當(dāng)我們在IOU = 0.5(或圖表中的)中查看“舊”的mAP檢測度量時,YOLOv3非常強大。它幾乎與RetinaNet相當(dāng),遠(yuǎn)遠(yuǎn)超過SSD變體。這表明YOLOv3是一種非常強大的探測器,擅長為物體產(chǎn)生合適的框。然而,隨著IOU閾值的增加,性能顯著下降,表明YOLOv3努力使框與物體完美對齊。
過去,YOLO與小物件斗爭。但是,現(xiàn)在我們看到了這種趨勢的逆轉(zhuǎn)。通過新的多尺度預(yù)測,我們看到Y(jié)OLOv3具有相對較高的性能。但是,它在中型和大型物體上的性能相對較差。需要更多的探索才能深究這一點。
當(dāng)我們在指標(biāo)上繪制準(zhǔn)確度與速度的關(guān)系時(見圖5),我們看到Y(jié)OLOv3比其他檢測系統(tǒng)具有顯著的優(yōu)勢。也就是說,它更快更好。
4.我們嘗試過但是不起作用的東西
我們在YOLOv3的工作上嘗試了很多東西。 很多都行不通。 這是我們能記住的東西。
anchor box的x,y偏移預(yù)測。我們嘗試使用常規(guī)anchor box預(yù)測機制,您可以使用線性激活將x,y偏移預(yù)測為框?qū)挾然蚋叨鹊谋稊?shù)。 我們發(fā)現(xiàn)這個公式降低了模型的穩(wěn)定性并且效果不佳。
線性x,y預(yù)測而不是邏輯預(yù)測。我們嘗試使用線性激活來直接預(yù)測x,y偏移而不是邏輯激活。這導(dǎo)致了mAP的幾個點下降。
Focal loss。我們嘗試使用Focal loss。它將我們的mAP降低了大約2個點。YOLOv3可能已經(jīng)對Focal loss試圖解決的問題具有魯棒性,因為它具有單獨的對象性預(yù)測和條件類預(yù)測。因此,對于大多數(shù)例子,類預(yù)測沒有損失? 或者其他的東西? 我們并不完全確定。
雙IOU閾值和真值分配。Faster RCNN在訓(xùn)練期間使用兩個IOU閾值。 如果一個預(yù)測與ground truth重疊了0.7它是一個正例,如果在[0.3-0.7]它被忽略,小于0.3對于所有g(shù)round truth對象來說它是一個反面的例子。 我們嘗試了類似的策略,但無法取得好成績。
我們非常喜歡我們目前的公式,它似乎至少在本地最佳。 這些技術(shù)中的一些可能最終會產(chǎn)生良好的結(jié)果,也許他們只需要一些調(diào)整來穩(wěn)定訓(xùn)練。
5. 這一切意味著什么
YOLOv3是一個很好的探測器。它很快,很準(zhǔn)確。它在0.5和0.95 IOU指標(biāo)之間對COCO的平均AP不怎么好。但它對0.5 IOU的舊檢測指標(biāo)非常好。
我們?yōu)槭裁匆袚Q度量標(biāo)準(zhǔn)?最初的COCO論文只有一句含蓄的話:“一旦評估服務(wù)器完成,將添加對評估指標(biāo)的完整討論”。Russakovsky等人報告說,人類很難區(qū)分0.3和0.5的IOU!“訓(xùn)練人類目視檢查一個IOU為0.3的邊界框,并將其與IOU為0.5的邊界框區(qū)分開來,是非常困難的?!盵18]如果人類很難分辨出兩者之間的區(qū)別,那有多重要?
但也許一個更好的問題是:“現(xiàn)在我們擁有它們,我們將如何處理這些探測器?”很多從事這項研究的人都在谷歌和Facebook上。我想至少我們知道技術(shù)掌握得很好,絕對不會用來收集你的個人信息并把它賣給....等等,你說這正是它將用于什么?哦。
那么大量資助視覺研究的人是軍隊,他們從來沒有做過任何可怕的事情,就像用新技術(shù)殺死很多人一樣等等.....
作者由海軍研究辦公室和谷歌辦公室資助。
我非常希望大多數(shù)使用計算機視覺的人只是在做一些快樂,好的東西,比如計算一個國家公園里的斑馬數(shù)量[13],或跟蹤他們在家里徘徊的貓[19] 。但是計算機視覺已經(jīng)被用于質(zhì)疑,作為研究人員,我們有責(zé)任至少考慮我們的工作可能造成的傷害并考慮減輕它的方法。我們欠世界的那么多。
最后,不要@我。 (因為我最終退出了Twitter)。
參考
[1] Analogy. Wikipedia, Mar 2018. 1
[2] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman. The pascal visual object classes (voc) challenge. International journal of computer vision, 88(2):303–338, 2010. 6
[3] C.-Y. Fu, W. Liu, A. Ranga, A. Tyagi, and A. C. Berg. Dssd: Deconvolutional single shot detector. arXiv preprint arXiv:1701.06659, 2017. 3
[4] D. Gordon, A. Kembhavi, M. Rastegari, J. Redmon, D. Fox, and A. Farhadi. Iqa: Visual question answering in interactive environments. arXiv preprint arXiv:1712.03316, 2017. 1
[5] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016. 3
[6] J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi, I. Fischer, Z. Wojna, Y. Song, S. Guadarrama, et al. Speed/accuracy trade-offs for modern convolutional object detectors. 3
[7] I. Krasin, T. Duerig, N. Alldrin, V. Ferrari, S. Abu-El-Haija, A. Kuznetsova, H. Rom, J. Uijlings, S. Popov, A. Veit, S. Belongie, V. Gomes, A. Gupta, C. Sun, G. Chechik, D. Cai, Z. Feng, D. Narayanan, and K. Murphy. Openimages: A public dataset for large-scale multi-label and multi-class image classification. Dataset available from https://github.com/openimages, 2017. 2
[8] T.-Y. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie. Feature pyramid networks for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2117–2125, 2017. 2, 3
[9] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollr. Focal loss for dense object detection. arXiv preprintarXiv:1708.02002, 2017. 1, 3, 4
[10] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollr, and C. L. Zitnick. Microsoft coco: Common objects in context. In European conference on computer vision, pages 740–755. Springer, 2014. 2
[11] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, and A. C. Berg. Ssd: Single shot multibox detector. In European conference on computer vision, pages 21–37. Springer, 2016. 3
[12] I. Newton. Philosophiae naturalis principia mathematica. William Dawson & Sons Ltd., London, 1687. 1
[13] J. Parham, J. Crall, C. Stewart, T. Berger-Wolf, and D. Rubenstein. Animal population censusing at scale with citizen science and photographic identification. 2017. 4
[14] J. Redmon. Darknet: Open source neural networks in c. http://pjreddie.com/darknet/, 2013–2016. 3
[15] J. Redmon and A. Farhadi. Yolo9000: Better, faster, stronger. In Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on, pages 6517–6525. IEEE, 2017. 1, 2, 3
[16] J. Redmon and A. Farhadi. Yolov3: An incremental improvement. arXiv, 2018. 4
[17] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. arXiv preprint arXiv:1506.01497, 2015. 2
[18] O. Russakovsky, L.-J. Li, and L. Fei-Fei. Best of both worlds: human-machine collaboration for object annotation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2121–2131, 2015. 4
[19] M. Scott. Smart camera gimbal bot scanlime:027, Dec 2017. 4
[20] A. Shrivastava, R. Sukthankar, J. Malik, and A. Gupta. Beyond skip connections: Top-down modulation for object detection. arXiv preprint arXiv:1612.06851, 2016. 3
[21] C. Szegedy, S. Ioffe, V. Vanhoucke, and A. A. Alemi. Inception-v4, inception-resnet and the impact of residual connections on learning. 2017. 3
反駁
我們要感謝Reddit評論員,同事,電子郵件,并在走廊里傳遞吶喊,感謝他們可愛而真誠的話語。如果你像我一樣正在審查ICCV,那么我們知道你可能還有其他37篇論文,你可能會一直推遲到上周,然后郵件給你該領(lǐng)域的一些傳說關(guān)于你應(yīng)該如何完成這些評論除非不完全清楚他們說的是什么,也許他們來自未來? 無論如何,如果沒有你過去自己在過去所做的所有工作,而且只是進(jìn)一步前進(jìn),而不是一直到現(xiàn)在為止,這篇論文將不會成為它將要成為的東西。如果你發(fā)推文,我也不知道。只是說。
評論家#2 AKA Dan Grossman(lol blinding誰這樣做)堅持我在這里指出我們的圖表只有兩個非零來源。Dan,你是絕對正確的,那是因為它看起來比承認(rèn)自己更好,我們都只是在這里爭奪超過2-3%的mAP。但這是請求的圖表。我也用FPS投了一個,因為當(dāng)我們在FPS上進(jìn)行投影時,我們看起來像是超級好。
評論家#4 AKA JudasAdventus在Reddit上寫道“娛樂性閱讀,但反對MSCOCO指標(biāo)的觀點似乎有點弱”。 好吧,我一直都知道你會成為那個讓我猶豫不決的人。你知道當(dāng)你在一個項目上工作時它是如何出來的,所以你必須找出一些方法來證明你的實際操作是非??岬膯幔课一旧鲜窃谂ψ龅竭@一點,而且我對COCO指標(biāo)有點猛烈抨擊。 但是現(xiàn)在我已經(jīng)把這座小山盯上了,我也可能死在它上面。
看到這里的東西,mAP已經(jīng)有點破壞,所以對它的更新應(yīng)該可以解決它的一些問題,或者至少證明為什么更新的版本在某種程度上更好。而我認(rèn)為最重要的是缺乏理由。對于PASCAL VOC,IOU閾值“故意設(shè)置為低,以解釋ground truth數(shù)據(jù)中邊界框的不準(zhǔn)確性”[2]。COCO的標(biāo)簽比VOC好嗎? 這絕對是可能的,因為COCO有分段掩碼,標(biāo)簽可能更值得信賴,因此我們并不擔(dān)心不準(zhǔn)確。但我的問題同樣是缺乏理由。
COCO指標(biāo)強調(diào)更好的邊界框,但強調(diào)必須意味著它不再強調(diào)其他東西,在這種情況下強調(diào)的是分類準(zhǔn)確性。是否有充分的理由認(rèn)為更精確的邊界框比更好的分類更重要? 錯誤分類的示例比稍微移位的邊界框更明顯。
mAP已經(jīng)被搞砸了,因為重要的是每個類的排序。例如,如果你的測試集只有這兩個圖像,那么根據(jù)mAP,產(chǎn)生這些結(jié)果的兩個探測器就是好的:
現(xiàn)在這顯然是對mAP問題的過度夸大,但我想我的新觀點是,“現(xiàn)實世界”中人們關(guān)心的內(nèi)容和我認(rèn)為的當(dāng)前指標(biāo)之間存在明顯的差異。要想出新的指標(biāo),我們應(yīng)該關(guān)注這些差異。還有,平均mAP,它已經(jīng)意味著平均精度,我們甚至稱之為COCO指標(biāo)?
這是一個提議,人們真正關(guān)心的是圖像和探測器,探測器在圖像中找到并分類對象的能力如何。如何擺脫每個類的AP并實現(xiàn)全局平均精度? 或者對每個圖像進(jìn)行AP計算并對其進(jìn)行平均?
無論如何,框都是笨的,我可能是masks的真正信徒,除非我不能讓YOLO學(xué)習(xí)它們。
- 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
- 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
- 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
- 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
- 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
- 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
推薦閱讀更多精彩內(nèi)容
- 文章作者:Tyan博客:noahsnail.com | CSDN | 簡書 聲明:作者翻譯論文僅為學(xué)習(xí),如有侵權(quán)請...
- 文章作者:Tyan博客:noahsnail.com | CSDN | 簡書 聲明:作者翻譯論文僅為學(xué)習(xí),如有侵權(quán)請...
- 文章作者:Tyan博客:noahsnail.com | CSDN | 簡書 | 云+社區(qū) 聲明:作者翻譯論文僅為...
- YOLOv3: An Incremental Improvement Abstract We present so...
- 文章作者:Tyan博客:noahsnail.com | CSDN | 簡書 聲明:作者翻譯論文僅為學(xué)習(xí),如有侵權(quán)請...