【摘要】
?????? 點云提供了一種靈活的、可擴展的幾何表示,適用于計算機圖形學中的無數應用程序,以及括大多數3D數據采集設備的原始輸出。因此,直接作用于點云的智能計算模型的設計是至關重要的,特別是當考慮到效率或噪聲而排除了昂貴的去噪和網格化過程的可能性時。雖然在圖形和視覺領域,人工設計的點云特征早已被提出,但是最近卷積神經網絡(CNNs)在圖像分析方面取得的巨大成功表明,將CNN的視角應用到點云世界的價值。
?????? 為此,我們提出了一種新的神經網絡模塊EdgeConv,該模塊適用于基于cnn的高級別點云任務,包括分類和分割。EdgeConv是可微分的,可以插入到現有的架構中。與主要在外部空間運行或單獨處理每個點的現有模塊相比,EdgeConv具有幾個吸引人的特性:它合并了局部鄰域信息;它可以被堆疊或遞歸地應用來學習整體形狀屬性;而在多層系統中,特征空間的親密性捕獲了原始嵌入中潛在的長距離語義特征。除了提出此模塊之外,我們還提供了廣泛的評估和分析,以揭示EdgeConv捕獲和利用點云的細粒度幾何特性。該方法在包括ModelNet40和S3DIS在內的標準基準上實現了最先進的性能
【引言】
?????? 點云,或在2D或3D中分散的點集合,可以說是最簡單的形狀表示;它們還包括三維傳感技術的輸出,包括激光雷達掃描儀和立體重建。隨著快速三維點云采集的出現,最近的圖形和視覺處理管道往往直接處理點云,由于效率考慮或噪聲存在時這些技術的不穩定性,從而繞過了昂貴的網格重建或去噪。點云處理和分析的許多最新應用包括室內導航[57]、自動駕駛車輛[33]、機器人[40]以及形狀合成和建模[14]。
?????? 現代應用程序要求對點云進行高級處理。最近的算法不再識別角和邊等突出的幾何特征,而是搜索語義線索和啟示。這些特性并不完全適合計算或微分幾何的框架,通常需要基于學習的方法,通過對標記或未標記的數據集進行統計分析來獲得相關信息。
?????? 在本文中,我們主要考慮點云處理領域中的兩個模型任務:點云分類和分割。傳統的解決這些問題的方法使用手工制作的特征來捕獲點云的幾何屬性[26,38,39]。最近,用于圖像處理的深度神經網絡的成功激發了一種數據驅動的方法來學習點云上的特征。深度點云處理和分析方法發展迅速,在各種任務上都優于傳統方法[10]。
?????? 然而,讓深度學習適應點云數據遠非易事。最關鍵的是,標準的深度神經網絡模型以規則結構的輸入數據為輸入,而點云從根本上是不規則的:點位置在空間中連續分布,點位置的任何排列順序都不會改變空間分布。使用深度學習模型處理點云數據的一種常見方法是首先將原始點云數據轉換為體積表示,即3D網格[30,54]。然而,這種方法通常會引入量化工件和過多的內存使用,使得很難捕獲高分辨率或細粒度的特性。
?????? 先進的深度神經網絡是專門設計來處理點云的不規則性,直接操作原始點云數據而不是傳遞給中間規則表示。該方法由PointNet[34]率先提出,它通過在每個點上獨立操作,然后應用一個對稱函數來累積特征,從而實現點的排列不變性。PointNet的各種擴展考慮點的鄰域,而不是獨立地作用于每一個點[36,43];這些允許網絡利用局部特性,提高基本模型的性能。這些技術主要是在局部尺度上獨立處理點以保持排列不變性(permutation invariance)。然而,這種獨立性忽略了點之間的幾何關系,這是導致局部特征缺失的基本限制。
??????? 為了解決這些缺點,我們提出了一種新的簡單操作,稱為EdgeConv,它在保持排列不變性的同時捕獲局部幾何結構。EdgeConv不是從點的嵌入(embeddings)直接生成點的特性,而是生成描述點與其鄰居之間關系的邊緣特性(edge features)。EdgeConv被設計成對鄰域排序的不變量,即排列不變量。
?????? EdgeConv易于實現并集成到現有的深度學習模型中,以改進它們的性能。在我們的實驗中,我們將EdgeConv集成到基本版本的PointNet中,而不使用任何特性轉換。我們的業績大幅提升;得到的網絡在幾個數據集上實現了最先進的性能,最顯著的是ModelNet40和S3DIS用于分類和分割。
????? 我們總結了關鍵的貢獻,如下:
?我們提出了一種新的點云操作,EdgeConv,以更好地捕捉點云的局部幾何特征,點云仍然保持排列不變性。
?我們證明了該模型可以通過動態更新graph來學習語義分組點group points 。
?我們演示了EdgeConv可以集成到用于點云處理的多個現有管道。
?我們對EdgeConv進行了廣泛的分析和測試,顯示它在基準數據集達到了最先進的性能。
【相關工作】
手工制作的特征:
在幾何數據處理和分析中的各種任務,包括分割、分類和匹配,需要一些形狀之間的局部相似性的概念。傳統上,這種相似性是通過構造捕獲局部幾何結構的特征描述符來建立的。在計算機視覺和圖形學領域,無數的論文提出了適用于不同問題和數據結構的點云的局部特征描述符。對手工設計的點特征的全面概述超出了本文的范圍,但是我們建議讀者參考[51,15,4]來進行全面的討論。
廣義地說,人們可以區分外在描述符和內在描述符(extrinsic and intrinsic descriptors)。外部描述符通常來源于三維空間中形狀的坐標,包括形狀上下文[3]、自旋圖像[17]、積分特征[27]、基于距離的描述符[24]、點特征直方圖[39,38]、正常直方圖[50]等經典方法。內在描述符將三維形狀視為流形,其度量結構(metric structure)被離散為網格或圖;根據定義,用度規表示的量是固有的和不變的等距變形(quantities expressed in terms of the metric are by definition intrinsic and invariant to isometric deformation)。這類的代表包括光譜描述符,如全局點特征[37],熱波核特征[48,2],和變體[8]。最近,有幾種方法圍繞標準描述符來包裝機器學習方案[15,42]
特征學習:
?????? 在計算機視覺領域,依賴手工特征的方法在圖像識別等具有挑戰性的圖像分析問題上已經達到了一個穩定階段。卷積神經網絡(convolutional neural networks, CNNs)的使用帶來了一項突破[22,21],導致了一種勢不可當的趨勢,那就是拋棄手工制作的特征,轉而使用從數據中學習特定任務特征的模型。
???? 深度神經網絡是CNN的一個基本架構,它將卷積和池化層結合在一起,以在圖像中聚合局部信息。這一圖像深度學習的成功表明,將關注點應用到像點云這樣的幾何數據上是有價值的。然而,與圖像不同的是,幾何數據通常不在底層網格(underlying grid),因此需要對構建塊(如卷積和池)進行新的定義。
?????? 現有的三維深度學習方法可以分為兩個類。基于視圖和體積的表示例證了將幾何數據放置到網格中,并將現有的深度學習算法應用到適應的結構中的口述。其他方法用特殊運算代替深度神經結構的標準構造塊的方法適合于非結構化幾何數據[29,6,31,34,36]。我們提供最接近的技術細節如下。
基于視圖的方法:
?????? 基于視圖的技術將一個3D對象表示為一個2D視圖集合,那么,標準cnn應用得以應用。通常,CNN應用于每個視圖,然后通過視圖池化過程(view pooling procedure)[47]聚合結果特性。基于視圖的方法也適用于輸入來自3D傳感器并表示為一系列范圍的圖像[53],在這種情況下可以使用單個視圖。
基于體素的方法:
?????? 直接將非結構化幾何數據轉換為常規3D網格的方法,在該網格上可以應用標準的CNN操作[30,54]。這些體積表示通常是wasteful,因為體素化產生了一個稀疏占用的3D網格。時間和空間的復雜性限制了體積網格的分辨率,產生了量化的工件。最近,空間劃分方法如k-d樹[20]或八叉樹[49]解決了一些分辨率問題,但仍然依賴于邊界體的細分,而不是局部幾何結構。最后,[35]研究了基于視圖和體積方法相結合的3D形狀分類方法。
PointNets:
?????? PointNets包含了一個特殊的點集架構類,比如3D點云。關鍵點在于利用一個對稱函數應用于三維坐標的方式獲得不變的排列。雖然它們在點云分析任務上取得了令人印象深刻的性能,但點網單獨對待每個點,本質上是學習從3D到潛在特性的映射,而不利用局部幾何結構。映射學習對點云的全局變換敏感,為了解決這個問題,PointNet使用了一個復雜的、在計算上非常昂貴的空間轉換器網絡來學習3D對齊。
??????? 局部信息對于特征學習是重要的。首先,對于人工描述符,局部特征通??紤]相鄰點之間的幾何關系,以便對各種轉換具有魯棒性。其次,局部信息對于基于圖像的深卷積架構的成功至關重要。后續工作提出了一種改進的PointNet++體系結構,該體系結構利用局部點集的幾何特征,并對這些特征進行層次聚集來進行推理[36]。在[43]中也提出了類似的方法,從point kernel correlation layer 中獲取初始點特征,然后在鄰近點之間進行聚合。得益于局部結構,pointnet++在幾個點云分析基準測試上實現了最新的結果。但是,pointnet++仍然獨立地處理局部點集中的各個點,并且不考慮點對之間的關系。
幾何深度學習:
PointNet例舉了一類基于非歐幾里德結構數據的廣泛的深度學習體系結構,稱為幾何深度學習[7]。這些方法可以追溯到在早期[41]上構造圖神經網絡的方法。最近,[9]提出了一種通過拉普拉斯算子[44]對圖進行卷積推廣的方法。這種基本方法存在許多缺點,包括拉普拉斯特征分解的計算復雜性、表示卷積濾波器的大量參數以及缺乏空間定位。這些問題在后續工作中通過使用多項式[11,19]或合理的[23]頻譜濾波器得到了緩解,這些濾波器避免了拉普拉斯特征分解,同時保證了定位。
???? 頻譜圖CNN模型具有明顯的等距不變性,因此已被應用于非剛性形狀分析[5]。然而,一個關鍵的難點是拉普拉斯特征基受限于域。因此,對一種形狀學習的過濾器可能不適用于其他形狀。譜轉換網絡在一定程度上解決了這一問題[56]。
??? 非歐幾里德卷積的另一種定義采用空間濾波器,而不是譜濾波器。測地線CNN (GCNN)是一個深入的CNN網絡,使用局部固有化參數,推廣了patches的概念[29]。它相對于譜方法的關鍵優勢是更好的泛化。后續工作提出了使用各向異性擴散[6]或高斯混合模型技術[52,31]。[25]將可微分的功能映射[32]層合并到一個幾何深度神經網絡中,允許對非剛性形狀之間的對應關系進行內在的結構化預測。
??? 最后一類的幾何深度學習方法試圖通過將形狀嵌入具有平移不變結構的域(如球面[46]、圓環面[28]或平面)來進行卷積運算[13]
【本文工作】
?????? 我們提出了一種受PointNet和卷積操作啟發的方法。然而,受圖神經網絡的啟發,我們不是在像PointNet這樣的個別點上工作,而是通過構造局部鄰域圖和對連接鄰域點對的邊緣執行近似于卷積的操作,以建立局部幾何結構,。我們在下面的文章中展示了這種被稱為邊緣卷積(EdgeConv)的操作,它具有介于平移不變性和非局部性之間的特性。
?????? 與graph CNNs不同的是,圖不是固定的,而是在網絡的每一層進行動態更新的。也就是說,一個點的k近鄰在網絡的各個層之間是變化的,并由sequence of embeddings計算得到。特征空間中的相似性與輸入中的相似性不同,導致點云信息的非局部擴散。
【結論】
?????? 在這項工作中,我們提出了一種新的點云學習算子,并展示了它在各種任務中的性能。我們的技術的成功驗證了我們的假設,即局部幾何特征對于三維識別任務是至關重要的,甚至在引入了來自深度學習的機器之后也是如此。此外,我們證明我們的模型可以很容易地修改為各種任務,如正常預測,同時繼續取得合理的結果。
?????? 雖然我們的架構可以很容易地集成到現有的管道中,用于基于點云的圖形、學習和視覺,但我們的實驗也表明了未來研究和推廣的途徑。首先,我們的模型的成功表明,如果內在特征不僅僅是簡單的點坐標,那么它們也具有同樣的價值;開發一個實用的和理論上合理的框架來平衡學習過程中內在的和外在的考慮,這需要從幾何處理的理論和實踐中得到啟發。另一個可能的擴展是設計一個非共享的轉換網絡,它在每個local patches上以不同的方式工作,為我們的模型增加了靈活性。最后,我們將考慮我們的技術在更抽象的點云中的應用,這些應用來自于文檔檢索而不是3D幾何;除了擴大我們的技術的適用性,這些實驗將提供深入了解幾何在抽象數據處理中的作用。