文章作者:Tyan
博客:noahsnail.com ?|? CSDN ?|? 簡書
聲明:作者翻譯論文僅為學習,如有侵權請聯系作者刪除博文,謝謝!
翻譯論文匯總:https://github.com/SnailTyan/deep-learning-papers-translation
U-Net: Convolutional Networks for Biomedical Image Segmentation
摘要
許多人都贊同深度網絡的成功訓練需要大量標注的訓練樣本。在本文中,我們提出了一種網絡及訓練策略,它依賴于大量使用數據增強,以便更有效地使用獲得的標注樣本。這個架構包括捕獲上下文的收縮路徑和能夠精確定位的對稱擴展路徑。我們證明了這種網絡可以從非常少的圖像進行端到端訓練,并且優于之前的ISBI賽挑戰賽的最好方法(滑動窗口卷積網絡),ISBI賽挑戰賽主要是在電子顯微鏡堆疊中進行神經元結構分割。使用在透射光顯微鏡圖像(相位襯度和DIC)上訓練的相同網絡,我們在這些類別中大幅度地贏得了2015年ISBI細胞追蹤挑戰賽。而且,網絡速度很快。在最新的GPU上,分割一張512x512的圖像不到一秒鐘。網絡的完整實現(基于Caffe)和預訓練網絡可在http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net上獲得。
1 引言
在過去兩年,深度卷積網絡在許多視覺識別任務中的表現都優于當前的最新技術,例如[7,3]。雖然卷積網絡已經存在了很長時間[8],但由于可用訓練集的大小和所考慮網絡的規模,它們的成功受到了限制。Krizhevsky等人[7]的突破是通過大型網絡在ImageNet數據集上的監督訓練實現的,其中大型網絡有8個網絡層和數百萬參數,ImageNet數據集包含百萬張訓練圖像。從那時起,即使更大更深的網絡也已經得到了訓練[12]。
卷積網絡的典型用途是分類任務,其中圖像輸出是單個的類別標簽。然而,在許多視覺任務中,尤其是在生物醫學圖像處理中,期望的輸出應該包括位置,即類別標簽應該分配給每個像素。此外,生物醫學任務中通常無法獲得數千張訓練圖像。因此,Ciresan等人[1]在滑動窗口設置中訓練網絡,通過提供像素周圍局部區域(patch)作為輸入來預測每個像素的類別標簽。首先,這個網絡可以定位。其次,局部塊方面的訓練數據遠大于訓練圖像的數量。由此產生的網絡大幅度地贏得了ISBI 2012EM分割挑戰賽。
顯然,Ciresan等人[1]的策略有兩個缺點。首先,它非常慢,因為必須為每個圖像塊單獨運行網絡,并且由于圖像塊重疊而存在大量冗余。其次,定位準確性與上下文的使用之間存在著權衡。較大的圖像塊需要更多的最大池化層,從而降低了定位精度,而較小的圖像塊則允許網絡只能看到很少的上下文。許多最近的方法[11,4]提出了一種分類器輸出,其考慮了來自多個層的特征。同時具有良好的定位和上下文的使用是可能的。
在本文中,我們構建了一個更優雅的架構,即所謂的“全卷積網絡”[9]。我們對這種架構進行了修改和擴展,使得它只需很少的訓練圖像就可以取得更精確的分割; 參見圖1。[9]中的主要思想是通過連續層補充通常的收縮網絡,其中的池化運算符由上采樣運算符替換。因此,這些層增加了輸出的分辨率。為了進行定位,來自收縮路徑的高分辨率特征與上采樣輸出相結合。然后,后續卷積層可以基于該信息學習組裝更精確的輸出。
圖1. U-net架構(最低分辨率為32x32像素的示例)。每個藍色框對應于一張多通道特征映射。通道數在框的頂部。x-y
尺寸提供在框的左下邊。白框表示復制的特征映射。箭頭表示不同的操作。
我們架構中的一個重要修改是在上采樣部分中我們還有大量的特征通道,這些通道允許網絡將上下文信息傳播到具有更高分辨率的層。因此,擴展路徑或多或少地與收縮路徑對稱,并產生U形結構。網絡沒有任何全連接層,并且僅使用每個卷積的有效部分,即分割映射僅包含在輸入圖像中可獲得完整上下文的像素。該策略允許通過重疊圖像區策略無縫分割任意大小的圖像(參見圖2)。為了預測圖像邊界區域中的像素,通過鏡像輸入圖像來外推缺失的上下文。這種圖像塊策略對于將網絡應用于大的圖像非常重要,否則分辨率將受到GPU內存的限制。
圖2. 重疊圖像塊策略可以無縫分割任意大小的圖像(EM堆疊中的神經元結構分割)。分割的預測在黃色區域,要求藍色區域的圖像數據作為輸入。缺失的輸入數據通過鏡像外推。
對于我們的任務,可用的訓練數據非常少,我們通過對可用的訓練圖像應用彈性變形來使用更多的數據增強。這允許網絡學習這種變形的不變性,而不需要在標注圖像語料庫中看到這些變形。 這在生物醫學分割中尤其重要,因為變形曾經是組織中最常見的變化,并且可以有效地模擬真實的變形。Dosovitskiy等人[2]在無監督特征學習的領域內已經證明了數據增強在學習不變性中的價值。
許多細胞分割任務中的另一個挑戰是分離同類的接觸目標,見圖3。為此,我們建議使用加權損失,其中接觸單元之間的分離背景標簽在損失函數中獲得較大的權重。
圖3. 用DIC(差異干涉對比)顯微鏡記錄玻璃上的HeLa細胞。(a)原始圖像。(b)覆蓋的實際分割。不同的顏色表示不同的HeLa細胞實例。(c)生成分割掩碼(白色:前景,黑色:背景)。(d)以像素損失權重的映射來迫使網絡學習邊界像素。
由此產生的網絡適用于各種生物醫學分割問題。在本文中,我們展示了EM堆疊中神經元結構的分割結果(從ISBI 2012開始的持續競賽),其中我們的表現優于Ciresan等人[1]的網絡。此外,我們展示了2015 ISBI細胞追蹤挑戰賽光學顯微鏡圖像中的細胞分割結果。我們在兩個最具挑戰性的2D透射光數據集上以巨大的優勢贏得了比賽。
2 網絡架構
網絡架構如圖1所示。它由一個收縮路徑(左側)和一個擴展路徑(右側)組成。收縮路徑遵循卷積網絡的典型架構。它包括重復使用兩個3x3卷積(無填充卷積),每個卷積后跟一個線性修正單元(ReLU)和一個2x2最大池化操作,步長為2的下采樣。在每個下采樣步驟中,我們將特征通道的數量加倍。擴展路徑中的每一步都包括特征映射的上采樣,然后進行2x2卷積(“向上卷積”),將特征通道數量減半,與來自收縮路徑的相應裁剪特征映射串聯,然后是兩個3x3卷積,每個卷積后面接ReLU。由于每一次卷積都會丟失邊界像素,因此裁剪是必要的。在最后一層,使用1x1卷積將每個64分量特征向量映射到所需數量的類別上。網絡總共有23個卷積層。
為了允許輸出分割映射的無縫平鋪(參見圖2),選擇輸入的圖像塊大小非常重要,這樣所有的2x2最大池化操作都可以應用在具有偶數x和偶數y大小的層上。
3 訓練
使用輸入圖像及其相應的分割映射來訓練帶有隨機梯度下降的網絡,網絡是采用Caffe[6]實現的。由于無填充卷積,輸出圖像比輸入少恒定的邊界寬度。為了最小化開銷并最大限度地利用GPU內存,我們傾向于在大批量數據大小的情況下使用大的輸入圖像塊,從而將批量數據大小減少到單張圖像。因此,我們使用高動量(0.99),使得大量先前看到的訓練樣本確定當前優化步驟中的更新。
能量函數由最終的特征映射上逐像素soft-max與交叉熵損失函數結合計算而成。soft-max定義為,其中
表示特征通道
中在像素位置
上的激活,
。
是類別數量,
是近似的最大化函數,即,對于有最大激活
的
,
,對于其它的
有
。交叉熵在每個位置上使用
來懲罰
與
的偏差。其中,
是每個像素的真實標簽,
是訓練中我們引入的用來賦予某些像素更多權重的權重圖。
我們為每一個真實分割預先計算了權重圖,以補償訓練集里某個類別的像素的不同頻率,并且迫使網絡學習我們在相鄰細胞間的引入小的分割邊界(參見圖3c和d)。
分割邊界使用形態學操作來計算。然后將權重圖計算為 其中,
是用來平衡類頻率的權重圖,
表示到最近細胞邊界的距離,
表示到次近細胞邊界的距離。在我們的實驗中,設置
,
個像素。
在具有許多卷積層和通過網絡的不同路徑的深度網絡中,權重的良好初始化非常重要。否則,網絡的某些部分可能會進行過多的激活,而其他部分永遠不會起作用。理想情況下,初始化權重應該是自適應的,以使網絡中的每個特征映射都具有近似的單位方差。對于具有我們架構(交替卷積和ReLU層)的網絡,可以通過從標準偏差為的高斯分布中繪制初始化權重來實現,其中
表示一個神經元[5]傳入結點的數量。例如,對于前一層中3x3卷積和64個特征通道,
。
3.1 數據增強
當只有少量訓練樣本可用時,對于教網絡學習所需的不變性和魯棒性而言,數據增強至關重要。對于顯微鏡圖像,我們主要需要平移和旋轉不變性,以及對形變和灰度值變化的魯棒性。尤其是訓練樣本的隨機彈性形變似乎是訓練具有很少標注圖像的分割網絡的關鍵概念。我們使用在3x3粗糙網格上的隨機位移矢量來生成平滑形變。從具有10個像素標準偏差的高斯分布中采樣位移。然后使用雙三次插值計算每個像素的位移。收縮路徑末端的丟棄層執行進一步隱式數據增強。
4 實驗
我們演示了U-Net在三個不同分割任務中的應用。第一個任務是在電子顯微記錄中分割神經元結構。圖2顯示了數據集樣本以及獲得的分割。我們在補充材料中提供了完整的結果。數據集由EM分割挑戰賽[14]提供,該挑戰始于ISBI 2012,目前仍在接受新的貢獻。訓練數據是一組來自果蠅一齡幼蟲腹神經索(VNC)的連續切片透射電鏡的30張圖像(512x512像素)。每張圖像都有一個對應的細胞(白色)和膜(黑色)完整標注的實際分割圖。該測試集是公開可獲得的,但其分割圖像是保密的。評估可以通過將預測的膜概率圖發送給組織者來獲得。通過在10個不同級別對映射進行閾值化并計算“彎曲誤差”,“蘭德誤差”和“像素誤差”來進行評估[14]。
U-Net(輸入數據7個旋轉版本的平均)在沒有任何進一步的“前”或后處理的情況下實現了0.0003529的“彎曲誤差”(新的最佳分數,參見表1)和0.0382的“蘭德誤差”。
表1:EM分割挑戰[14](march 6th, 2015)的排名,按warping error排序。
這比Ciresan等人[1]的滑動窗口卷積網絡結果要好得多,其最佳提交的彎曲誤差為0.000420,蘭德誤差為0.0504。 就蘭德誤差而言,在該數據集上唯一表現更好的算法,其使用了應用到Ciresan等[1]概率圖上的針對數據集的非常特定后處理方法。
我們還將U-Net應用于光學顯微圖像中的細胞分割任務。這個分割任務是ISBI細胞跟蹤挑戰賽2014和2015的一部分[10,13]。第一個數據集“PhC-U373”包含在聚丙烯酰亞胺基質上通過相襯顯微技術記錄的多形性膠質母細胞瘤U373細胞(參見圖4a,b和補充材料)。它包含35個部分標注的訓練圖像。這里,我們取得了的平均IOU(“并集上的交集”),明顯好于
的次優算法(參見表2)。第二個數據集“DIC-HeLa”是通過微分干涉相差(DIC)顯微鏡記錄的平板玻璃上的HeLa細胞(請參見圖3,圖4c,d和補充材料)。它包含20個部分標注的訓練圖像。這里,我們取得了
的平均IOU,明顯好于
的次優算法。
圖4:ISBI細胞跟蹤挑戰賽上的結果。(a)“PhC-U373”數據集的一張輸入圖像的一部分。(b)分割結果(藍綠圖像塊)和實際結果(黃色邊框)。(c)“DIC-HeLa”數據集的輸入圖像。(d)分割結果(隨機顏色的圖像塊)和實際結果(黃色邊框)。
表2:ISBI細胞跟蹤挑戰賽2015上的分割結果(IOU)。
5 結論
U-Net架構在截然不同的生物醫療分割應用中取得了非常好的性能。由于具有彈性形變的數據增強,它僅需要非常少的標注圖像,并且在NVidia Titan GPU (6 GB)上僅需要10個小時的合理訓練時間。我們提供了完整的基于Caffe[6]的實現以及訓練之后的網絡。我們確信U-Net架構可以很輕松地應用到更多的任務上。
致謝
這項研究得到了德國聯邦和州政府卓越計劃(EXC 294)和BMBF(Fkz 0316185B)的支持。
References
Ciresan, D.C., Gambardella, L.M., Giusti, A., Schmidhuber, J.: Deep neural networks segment neuronal membranes in electron microscopy images. In: NIPS. pp. 2852–2860 (2012)
Dosovitskiy, A., Springenberg, J.T., Riedmiller, M., Brox, T.: Discriminative unsupervised feature learning with convolutional neural networks. In: NIPS (2014)
Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2014)
Hariharan, B., Arbelez, P., Girshick, R., Malik, J.: Hypercolumns for object segmentation and fine-grained localization (2014), arXiv:1411.5752 [cs.CV]
He, K., Zhang, X., Ren, S., Sun, J.: Delving deep into rectifiers: Surpassing human-level performance on imagenet classification (2015), arXiv:1502.01852 [cs.CV]
Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadarrama, S., Darrell, T.: Ca?e: Convolutional architecture for fast feature embedding (2014), arXiv:1408.5093 [cs.CV]
Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural networks. In: NIPS. pp. 1106–1114 (2012)
LeCun, Y., Boser, B., Denker, J.S., Henderson, D., Howard, R.E., Hubbard, W., Jackel, L.D.: Backpropagation applied to handwritten zip code recognition. Neural Computation 1(4), 541–551 (1989)
Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation (2014), arXiv:1411.4038 [cs.CV]
Maska, M., (...), de Solorzano, C.O.: A benchmark for comparison of cell tracking algorithms. Bioinformatics 30, 1609–1617 (2014)
Seyedhosseini, M., Sajjadi, M., Tasdizen, T.: Image segmentation with cascaded hierarchical models and logistic disjunctive normal networks. In: Computer Vision (ICCV), 2013 IEEE International Conference on. pp. 2168–2175 (2013)
Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition (2014), arXiv:1409.1556 [cs.CV]
WWW: Web page of the cell tracking challenge, http://www.codesolorzano.com/celltrackingchallenge/Cell_Tracking_Challenge/Welcome.html
WWW: Web page of the em segmentation challenge, http://brainiac2.mit.edu/isbi_challenge/