3D Moments from Near-Duplicate Photos
Q Wang, Z Li, D Salesin, N Snavely, B Curless, J Kontkanen
高度近似照片的3D時刻。我們介紹3D時刻(3D Moments),一種新的計算攝影效果。用一對近乎重復的照片作為輸入,即在人們的照片集中常見的從類似視角拍攝的移動目標的照片。制作一個視頻作為輸出,將場景的運動從第一張照片平滑地插到第二張照片上,同時產生具有視差的相機運動,給人以更高的3D感。為達到這種效果,將場景表示為一對基于特征的分層深度圖像,并輔以場景流。該表示方法使運動插值與攝像機視角的獨立控制相結合。該系統產生了具有運動視差和場景動態的逼真的時空視頻,同時合理恢復了原始視圖中被遮擋的區域。廣泛的實驗證明,在公共數據集和野外照片上的性能均優于基線。
A Generalist Agent
https://arxiv.org/abs/2205.06175????[DeepMind]
全能型智能體。受大規模語言建模進展的啟發,本文采用類似方法建立了一個超越文本輸出域的單個通用智能體,稱為Gato,作為一個多模態、多任務、多具身通用策略工作。具有相同權重的同一個網絡可以玩雅達利游戲、對圖像進行描述、聊天、用真正的機器手臂堆積木等等,根據其上下文決定是否輸出文本、關節扭力、按按鈕或其他Token。本報告描述了模型和數據,并記錄了Gato的當前能力。
Unifying Language Learning Paradigms
https://arxiv.org/abs/2205.05131????[Google Research]
統一的語言學習范式。現有的預訓練模型,一般都是針對某一類問題的。到目前為止,對于什么是正確的架構和預訓練設置,似乎仍然沒有共識。本文提出一種統一的預訓練模型框架,在不同的數據集和設置中都是有效的。將架構原型與預訓練目標分開,這兩個概念通常被混為一談。為NLP中的自監督提出一種普遍而統一的觀點,并展示了不同的預訓練目標是如何相互投射的,以及不同目標之間的插值是如何奏效的。本文提出Mixture-of-Denoisers(MoD),一種將不同的預訓練范式結合起來的預訓練目標。提出了模式切換的概念,下游的微調與特定的預訓練方案相關。進行了廣泛的消融實驗來比較多種預訓練目標,發現所提出方法在多種不同的設置中超越了T5和/或類似GPT的模型,從而推動了Pareto-frontier的發展。將所提出模型擴展到20B參數,在50個公認的有監督NLP任務上取得了SOTA性能,這些任務包括語言生成(自動和人工評估)、語言理解、文本分類、問題回答、常識推理、長文本推理、結構化知識基礎和信息檢索。所提出模型在語境學習方面也取得了很好的效果,在零次SuperGLUE上超過了175B GPT-3,在單次摘要上是T5-XXL性能的三倍。
Data Distributional Properties Drive Emergent Few-Shot Learning in Transformers
https://arxiv.org/abs/2205.05055????[DeepMind & University College London]
數據分布特性有助于Transformer的少次學習。基于Transformer的大型語言模型能進行少次學習(也稱為上下文學習),而無需經過明確的訓練。本文假設,自然語言的特定分布特性可能會驅動這一新興現象,因為這些特性可能會導致一種介于少次元訓練(旨在引發快速的少次學習)和標準的監督訓練(旨在引起漸進的上下文學習)之間的訓練。本文還假設,這些分布特性可能導致在語言以外的領域出現少次學習。在該想法的啟發下,在一個標準的基于圖像的少次數據集上進行了一系列實驗。發現一些數據屬性確實促進了Transformer模型中少次學習的出現。所有這些屬性都存在于自然語言中——突發性、長尾性、以及多對一或一對多的標簽映射。這些數據影響了模型是否偏向于少次學習和記憶其權重中的信息;模型通常只能在其中一個方面表現良好。一個額外的分布屬性可以讓這兩種能力在同一個模型中共存——一種傾斜的、Zipfian的類別分布——這也發生在語言中。值得注意的是,能在Transformer中引起少次學習的訓練數據無法在遞歸模型中引起少次學習。本文發現,只有將正確的架構應用于正確的數據分布,才會達成少次學習;任何一個組成部分單獨來看都是不夠的。
KeypointNeRF: Generalizing Image-based Volumetric Avatars using Relative Spatial Encoding of Keypoints
https://arxiv.org/abs/2205.04992????[ETH Zurich & Reality Labs Research]
KeypointNeRF:基于關鍵點相對空間編碼的圖像體化頭像泛化。基于圖像的體化頭像,使用像素對齊的特征,有望泛化為未見過的姿態和身份。先前的工作利用全局空間編碼和多視圖幾何一致性來減少空間歧義性。然而,全局編碼經常收到對訓練數據分布過擬合的影響,而且很難從稀疏視圖中學習多視圖一致性重建。本文研究了現有空間編碼的常見問題,提出一種簡單高效的方法,從僅有的兩張輸入圖像中建立高保真體化頭像模型。其中一個關鍵想法是通過稀疏3D關鍵點來編碼相對空間3D信息,該方法對視角的稀疏性和跨數據集領域的差距具有魯棒性,能更好地適用于具有挑戰性的域外輸入,如在真實場景用iPhone拍攝的自拍。所提出方法在頭部重建方面優于最先進的方法,由于不需要參數化的模板網格,可以不加修改地應用于人體重建的任務,并取得與更復雜的、必須依靠參數化人體模型和時間特征聚合的之前工作相媲美的性能。在對未見過的受試者進行人體重建時,也取得了與之前用參數化人體模型和時間特征聚合的工作相當的性能。實驗表明,之前工作中的大部分錯誤都源于對空間編碼的不恰當選擇,本文為基于圖像的高保真頭像建模提出了一個新的方向。
Panoptic Neural Fields: A Semantic Object-Aware Neural Scene Representation
https://arxiv.org/abs/2205.04334????[Google Research]? ? CVPR? ? 2022
泛視神經場:語義對象感知神經場景表示。本文提出了泛視神經場(PNF),一種物體感知神經場景表示,將場景分解為一組對象(事物)和背景(東西)。每個對象由一個定向的三維邊框和一個多層感知器(MLP)表示,該感知器獲取位置、方向和時間并輸出密度和輻射度。背景的東西由一個類似的MLP表示,另外還輸出語義標簽。每個對象的MLP都是特定于實例的,因此比之前的對象感知方法更小、更快,同時仍然利用通過元學習初始化納入的特定類別先驗。該模型僅從彩色圖像中建立任意場景的全景輻射場表示。該可以被查詢以獲得任何3D點的顏色、密度、實例和類標簽。用現成的算法來預測相機位置、目標軌跡和2D圖像語義分割。利用彩色圖像自監督和預測的語義分割的偽監督,通過綜合分析來聯合優化MLP權重和邊框參數。在真實世界動態場景的實驗中,該模型可有效地用于一些任務,如新視圖合成、2D全景分割、3D場景編輯和多視圖深度預測。
NeuralHDHair: Automatic High-fidelity Hair Modeling from a Single Image Using Implicit Neural Representations
https://arxiv.org/abs/2205.04175????[Zhejiang University & ETH Zurich & City University of Hong Kong]
NeuralHDHair:用隱神經表示從單幅圖像中自動建立高保真頭發模型。毋庸置疑,高保真3D維頭發在數字人中扮演著不可或缺的角色。然而,現有的單目毛發建模方法要么難以在數字系統中部署(例如,由于依賴于復雜的用戶交互或大型數據庫),要么只能產生一個粗略的幾何形狀。本文提出NeuralHDHair,一種靈活的、全自動的系統,用于從單幅圖像建立高保真頭發模型。該系統的關鍵是兩個精心設計的神經網絡:IRHairNet(神經網絡頭發隱表示法),用于分層推斷高保真3D頭發的幾何特征(3D方向場和3D占位場);GrowingNet(用神經網絡生長發絲),用于有效并行生成3D發絲。以從粗到細的方式,并提出了一種新的體素對齊隱函數(VIFu)來表示全局頭發特征,通過從頭發亮度圖中提取的局部細節來進一步加強。為提高傳統頭發生長算法的效率,采用一種局部神經隱函數,根據估計的3D頭發幾何特征來生長發絲。大量實驗表明,所提出方法能有效地從單幅圖像構建高保真3D頭發模型,并達到了最先進的性能。
Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning
超越預訓練目標檢測器:面向圖像描述的跨模態文本和視覺上下文
[Georgia Tech]????https://arxiv.org/abs/2205.04363
CLIP-CLOP: CLIP-Guided Collage and Photomontage
https://arxiv.org/abs/2205.03146????[DeepMind]
CLIP-CLOP:CLIP引導的拼貼和合成照片。大規模神經網絡有增無減的神秘感,如CLIP圖像-文本雙向編碼器,普及了自動生成的藝術。越來越復雜的生成器增強了藝術作品的真實性和視覺外觀,而創造性提示工程使風格表達成為可能。在藝術家的理想指導下,本文設計了一種基于梯度的生成器來制作拼貼畫,并將其與流行的圖像-文本雙向編碼器(如CLIP)結合起來,它要求人類藝術家策劃圖像補塊庫,并(通過提示)描述整個圖像構成,在生成過程中可以選擇手動調整圖塊位置,從而使人類能夠重新獲得對過程的一些控制權,實現更大的創作自由。
Data Determines Distributional Robustness in Contrastive Language Image Pre-training (CLIP)
https://arxiv.org/abs/2205.01397????[University of Washington & Amazon & Allen Institute for Artificial Intelligence]
數據決定了對比語言圖像預訓練(CLIP)的分布魯棒性。對比訓練的圖像-文本模型,如CLIP、ALIGN和BASIC,對多種具有挑戰性的自然分布變化表現出前所未有的魯棒性。由于這些圖像-文本模型在幾個方面與之前的訓練方法不同,一個重要的問題是什么帶來了巨大的魯棒性收益。本文通過一個系統的實驗調查來回答這個問題,研究了導致魯棒性提高的五種不同的可能原因:(i)訓練集大小,(ii)訓練分布,(iii)訓練時的語言監督,(iv)測試時的語言監督,以及(v)對比損失函數。實驗表明,更多樣化的訓練分布是魯棒性提高的主要原因,其他因素對魯棒性的貢獻很小甚至沒有。除了實驗結果,本文還介紹了ImageNet-Captions,一個帶有Flickr原始文本標注的ImageNet版本,以便對語言-圖像訓練進行進一步的控制實驗。
CoCa: Contrastive Captioners are Image-Text Foundation Models
https://arxiv.org/abs/2205.01917????[Google Research]
CoCa: 視覺預訓練范式與自然語言監督相結合的圖像-文本基礎模型族。探索大規的預訓練基礎模型在計算機視覺中具有重要的意義,因為這些模型可以快速遷移到許多下游任務中。本文提出對比圖像描述器(CoCa),一種最小化設計,將圖像-文本編-解碼器基礎模型與對比損失和圖片描述損失聯合起來進行預訓練,從而將來自CLIP等對比方法和SimVLM等生成方法的模型能力歸納起來。與標準的編-解碼器Transformer相比,所有解碼器層都關注編碼器的輸出,CoCa在解碼器層的前半部分省略了交叉注意力,以編碼單模態文本表示,并將其余的解碼器層級聯起來,交叉關注圖像編碼器的多模態圖像-文本表示。在單模態圖像和文本嵌入之間應用了對比損失,此外還在多模態解碼器輸出上應用了描述損失,該損失可自動預測文本Token。通過共享相同的計算圖,這兩個訓練目標的計算效率很高,開銷最小。CoCa在網絡規模的alt-text數據和有標注的圖像上進行了端到端的預訓練,將所有標簽簡單地視為文本,無縫地將自然語言監督與表示學習統一起來。從經驗上看,CoCa在廣泛的下游任務上實現了最先進的性能,包括視覺識別(ImageNet、Kinetics400/600/700、Moments-in-Time)、跨模態檢索(MSCOCO、Flickr30K、MSR-VTT)、多模態理解(VQA、SNLI-VE、NLVR2)和圖像描述(MSCOCO、NoCaps)。值得注意的是,在ImageNet的分類中,CoCa獲得了86.3%的零次頂級準確率,使用凍結的編碼器和學習的分類頭獲得了90.6%的準確率,使用微調的編碼器在ImageNet上獲得了最新的91.0%頂級準確率。
A Probabilistic Interpretation of Transformers
https://arxiv.org/abs/2205.01080????[ML Collective]
Transformer的概率解釋。本文提出對Transformer的指數點積注意力的概率解釋,以及基于指數族的對比學習。Transformer的注意力子層相當于對數規范化器的梯度上升步驟,也就是注意力的Hopfield理論中的對數和exp項。這個上升步驟帶來了點的平行擴展,被來自層歸一化的收縮所抵消了。本文還說明了所述理論和Hopfield理論的理論局限性,并提出了解決的方向。
Depth Estimation with Simplified Transformer
基于簡化Transformer的深度估計????[NVIDIA]????https://arxiv.org/abs/2204.13791
ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
https://arxiv.org/abs/2204.12484????[The University of Sydney & JD Explore Academy]
ViTPose:人體姿態估計的簡單視覺Transformer基線。最近,定制的視覺Transformer被用于人體種姿態估計,并通過精心設計的結構取得了卓越的性能。然而,目前還不清楚普通的視覺Transformer是否能促進姿態估計。本文邁出了回答這個問題的第一步,采用一個普通的、非層次化的視覺Transformer和簡單的去卷積解碼器,稱為ViTPose,用于人體姿態估計。證明了一個帶有MAE預訓練的普通視覺Transformer在人體姿態估計數據集上進行微調后可以獲得卓越的性能。ViTPose在模型大小方面具有良好的可擴展性,在輸入分辨率和標記數量方面具有靈活性。此外,它可以很容易地使用未標記的種姿態數據進行預訓練,而不需要大規模的上游ImageNet數據。最大的ViTPose模型基于ViTAE-G主干,有10億參數,在MS COCO測試開發集上獲得了最好的80.9 mAP,而集成模型進一步創造了人體姿態估計的新的最先進水平,81.1 mAP。
OPT: Open Pre-trained Transformer Language Models
OPT:開放預訓練Transformer語言模型????[Meta AI]????https://arxiv.org/abs/2205.01068
CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers
https://arxiv.org/abs/2204.14217????[Tsinghua University]
CogView2:基于層次Transformer的更快更好文本-圖像生成。基于Transformer的文本到圖像模型的發展,因其緩慢的生成和對高分辨率圖像的復雜性而受到阻礙。本文提出一種基于層次Transformer和局部平行自回歸生成的解決方案。用一個簡單而靈活的自監督任務——跨模態通用語言模型(CogLM)來預訓練一個6B參數的Transformer,并對其進行微調以實現快速的超分辨率。新的文本到圖像系統CogView2,與目前最先進的DALLE-2相比,顯示出非常有競爭力的生成,并自然支持圖像上交互式文本指導的編輯。
Learning strides in convolutional neural networks
https://arxiv.org/abs/2202.01653????[PSL Research University & Google Research]
卷積神經網絡步長學習。卷積神經網絡通常包含幾個降采樣運算子,如步長卷積或池化層,用來逐步降低中間表示的分辨率。這提供了一些移位變量,同時降低了整個架構的計算復雜性。這種層的一個關鍵超參數是步長:下采樣的整數因子。由于步長不可微,尋找最佳配置需要交叉驗證或離散優化(如架構搜索),會迅速變得難以承受,因為搜索空間隨著下采樣層的數量呈指數增長。因此,通過梯度下降探索該搜索空間,可以以較低的計算成本找到更好的配置。本文提出DiffStride,第一個具有可學習步長的下采樣層,在傅里葉域中學習cropping mask的大小,從而有效地以可微方式是實現大小調整。在音頻和圖像分類方面的實驗,表明了所提出解決方案的通用性和有效性:用DiffStride作為標準下采樣層的替代,實現了更好的性能。在ResNet-18架構中引入DiffStride層可以在CIFAR10、CIFAR100和ImageNet上保持一致的高性能,即使訓練從糟糕的隨機步長配置開始。此外,將步長表述為可學習的變量能引入一個正則化項,以控制架構的計算復雜性。
PP-Matting: High-Accuracy Natural Image Matting
PP-Matting:高精度自然圖像摳圖????[Baidu Inc]????https://arxiv.org/abs/2204.09433
Temporally Efficient Vision Transformer for Video Instance Segmentation
https://arxiv.org/abs/2204.08412
[Huazhong University of Science & Technology & Tencent PCG & International Digital Economy Academy (IDEA)]
面向視頻實例分割的時間高效視覺Transformer。最近,視覺Transformer在圖片級視覺識別任務上取得了巨大的成功。為高效模擬視頻片段中的關鍵時間信息,本文提出一種用于視頻實例分割的時間高效視覺Transformer(TeViT)。與之前基于Transformer的視覺方法不同,TeViT幾乎是無卷積的,包含一個Transformer主干和一個基于查詢的視頻實例分割頭。在骨干階段,提出一種幾乎無參數的messenger偏移機制,用于早期的時間上下文融合。在頭部階段,提出一種參數共享的時空查詢交互機制,以建立視頻實例和查詢之間的一對一對應關系。TeViT充分利用了幀級和實例級的時空信息,以可忽略不計的額外計算成本獲得了強大的時空建模能力。在三個廣泛采用的VIS基準,即YouTube-VIS-2019、YouTube-VIS-2021和OVIS上,TeViT獲得了最先進的結果,并保持了較高的推理速度,例如,在YouTube-VIS-2019上以68.9 FPS獲得46.6 AP。
An Extendable, Efficient and Effective Transformer-based Object Detector
https://arxiv.org/abs/2204.07962????[NAVER AI Lab & Google]
可擴展有效且高效的Transformer目標檢測器。Transformer已被廣泛用于許多視覺問題中,特別是視覺識別和檢測。檢測Transformer是第一個用于目標檢測的完全端到端的學習系統,而視覺Transformer是第一個用于圖像分類的完全基于Transformer的架構。本文整合了視覺和檢測Transformer(ViDT)來構建一個有效和高效的目標檢測器。ViDT引入一個重新配置的注意力模塊,將最近的Swin Transformer擴展為一個獨立的目標檢測器,然后是一個計算高效的Transformer解碼器,利用多尺度特征和輔助技術來提高檢測性能,而不增加太多計算負荷。將其擴展到ViDT+,以支持目標檢測和實例分割的聯合任務學習。附加了一個有效的多尺度特征融合層,并利用兩個更多的輔助訓練損失,即IoU感知損失和標記損失。對微軟COCO基準數據集的廣泛評估結果表明,ViDT在現有的完全基于Transformer的目標檢測器中獲得了最佳的AP和延遲權衡,由于其對大型模型的高可擴展性,其擴展的ViDT+實現了53.2AP。
Masked Siamese Networks for Label-Efficient Learning
https://arxiv.org/abs/2204.07141????[Facebook AI Research]
基于掩碼孿生網絡的標簽高效學習。本文提出掩碼孿生網絡(MSN),一種用于學習圖像表示的自監督學習框架。所提出方法將包含隨機掩碼圖塊的圖像視圖表示與原始未掩碼圖像表示相匹配。這種自監督預訓練策略在應用于視覺Transformers時特別具有可擴展性,因為網絡只處理未被掩碼的圖塊。因此,MSN提高了聯合嵌入架構的可擴展性,同時產生了高語義水平的表示,在低照度圖像分類中表現出競爭性。例如,在ImageNet-1K上,只有5,000張標注圖像,所提出的基礎MSN模型達到了72.4%的最高準確率,而在ImageNet-1K的1%的標簽下,達到了75.7%的最高準確率,為這個基準的自監督學習設定了一個新的先進水平。
Open-World Instance Segmentation: Exploiting Pseudo Ground Truth From Learned Pairwise Affinity
開放世界實例分割:基于習得成對親和力的偽真值利用????https://arxiv.org/abs/2204.06107
Unified Contrastive Learning in Image-Text-Label Space
https://arxiv.org/abs/2204.03610????[Microsoft Research at Redmond & Microsoft Cloud + AI]
圖像-文本-標簽空間統一對比學習。視覺識別最近通過對rren人工標注的圖像標簽數據進行監督學習,或者通過網絡抓取圖像-文本對進行語言-圖像對比學習。雖然監督學習可能會產生一個更具鑒別力的表示,但語言-圖像預訓練顯示出前所未有的零次識別能力,這主要是由于數據源和學習目標的不同特性。本文通過將兩個數據源合并到一個共同的圖像-文本-標簽空間,引入一個新的表述。在該空間中,提出了一種新的學習范式,統一對比學習(UniCL),具有單一的學習目標,可以無縫地促使兩種數據類型協同作用。實驗表明,UniCL是一種學習語義豐富又有鑒別力的表示的有效方式,普遍適用于零次、線性探測、全微調和遷移學習場景下的圖像識別。在零次識別基準上,比語言-圖像對比學習和監督學習方法分別獲得了高達9.2%和14.5%的平均收益。在線性探測設置中,也比這兩種方法分別提高了7.3%和3.4%的性能。UniCL在純圖像標簽數據上是一個很好的學習器,在三個圖像分類數據集和兩種類型的視覺骨干--ResNet和Swin Transformer中,可與監督學習方法相媲美。
Solving ImageNet: a Unified Scheme for Training any Backbone to Top Results
搞定ImageNet:訓練任意主干獲得最佳結果的統一方案????[DAMO Academy, Alibaba Group]????https://arxiv.org/abs/2204.03475
The Effects of Regularization and Data Augmentation are Class Dependent
正則化和數據增強會犧牲在某些類上的性能????[Meta AI Research]????https://arxiv.org/abs/2204.03632
Scaling Up Models and Data with t5x and seqio
用t5x和seqio擴展模型和數據????https://arxiv.org/abs/2203.17189
Last Layer Re-Training is Sufficient for Robustness to Spurious Correlations
[New York University]
用最后一層重訓練提高對虛假相關的魯棒性。神經網絡分類器可能在很大程度上靠簡單的虛假特征,如背景,來進行預測。然而,即使在這些情況下,本文表明它們仍然經常學習與數據的期望屬性相關的核心特征,這與最近的研究結果相反。在這一見解的啟發下,本文證明了簡單的最后一層重訓練可以在虛假相關基準上匹配或超過最先進的方法,但復雜性和計算費用卻大大降低。對大型ImageNet訓練模型進行最后一層重訓練,也可以大大減少對背景和紋理信息的依賴,提高對協變量漂移的魯棒性,而在單個GPU上的訓練只需要幾分鐘。
Hierarchical Text-Conditional Image Generation with CLIP Latents
https://cdn.openai.com/papers/dall-e-2.pdf????[OpenAI]
基于CLIP潛表示的層次文本條件圖像生成。像CLIP這樣的對比性模型已經證明可以學習魯棒的圖像表示,可以捕捉語義和風格。為了利用這些表示來生成圖像,本文提出一個兩階段模型:一個給定文本標題生成CLIP圖像嵌入的先驗,以及一個以圖像嵌入為條件生成圖像的解碼器。明確地生成圖像表示提高了圖像的多樣性,在逼真度和標題的相似性方面損失最小。以圖像表示為條件的解碼器也可以產生圖像變化,保留其語義和風格,同時改變圖像表示中沒有的非必要細節。對解碼器使用擴散模型,并對先驗的自回歸和擴散模型進行實驗,發現后者在計算上更有效,并能產生更高質量的樣本。
SinNeRF: Training Neural Radiance Fields on Complex Scenes from a Single Image
SinNeRF:用單幅圖像訓練復雜場景神經輻射場。盡管神經輻射場(NeRF)發展迅速,但稠密覆蓋的必要性在很大程度上阻礙了其更廣泛的應用。雖然最近有幾項工作試圖解決該問題,但它們要么是在稀疏的視圖上操作,要么是在簡單的目標/場景上操作。本文考慮了一個更加艱巨的任務:通過"只看一次",即只用一個視圖,在現實的復雜視覺場景中訓練神經輻射場。為實現這一目標,本文提出一個由經過周到設計的語義和幾何正則化組成的單視圖NeRF(SinNeRF)框架。SinNeRF構建了一個半監督學習過程,引入并傳播幾何偽標記和語義偽標記來指導漸進訓練過程。在復雜場景基準上進行了廣泛的實驗,包括NeRF合成數據集、局部光場融合數據集和DTU數據集。即使不對多視圖數據集進行預訓練,SinNeRF也能產生照片級真實的新視圖合成結果。在單幅圖像設置下,SinNeRF在所有情況下都明顯優于目前最先進的NeRF基線。
https://arxiv.org/abs/2204.00928
SqueezeNeRF: Further factorized FastNeRF for memory-efficient inference
SqueezeNeRF:進一步分解FastNeRF以實現記憶高效推理????[Sony Group Corporation]????https://arxiv.org/abs/2204.02585
Benchmarking Graphormer on Large-Scale Molecular Modeling Datasets
https://arxiv.org/abs/2203.04810
大規模分子建模數據集上的Graphormer基準測試。本文介紹了Graphormer最近的更新,包括架構設計的修改,以及對3D分子動力學模擬的自適應。通過這些簡單的修改,Graphormer可以在大規模分子建模數據集上獲得比vanilla架構更好的結果,并且在2D和3D分子圖建模任務上可持續獲得性能提升。在全局感受野和自適應聚合策略下,Graphormer比基于消息傳遞的經典GNN更強大。根據經驗,Graphormer在KDD Cup 2021中使用的PCQM4M量子化學數據集上取得的MAE比最初報告的結果要小得多。同時,在最近的"開放催化劑挑戰賽 "中大大超過了競爭對手,該挑戰賽是NeurIPS 2021研討會的一個競賽項目,旨在用先進的人工智能模型為催化劑-吸附劑反應系統建模。
Neural Neighbor Style Transfer
神經近鄰畫風遷移。本文提出神經近鄰畫風遷移(NNST),一條為藝術風格遷移提供最先進的質量、泛化性和競爭效率的管道。該方法是將從(待風格化)內容輸入中提取的神經特征顯式替換為風格樣例的特征,再根據這些重新排列的特征合成最終輸出。雖然該方法的核心與先前工作相似,但所提出的設計決定極大提高了最終的視覺質量。所提出方法有兩個變種。NNST-D使用一個CNN來直接解碼來自重新排列的風格特征的風格化輸出;比基于優化的慢得多的方法提供了類似或更好的質量,超過了之前的快速前饋方法,只需要幾秒鐘就能完成512×512像素的輸出風格化,對許多應用來說足夠快。NNST-Opt,基于優化的變體,提供了更高的質量,盡管速度較低,在相同輸入尺寸下需要超過30秒。將這兩種NNST變體的風格化質量與之前的工作進行定性比較,并通過一個有400名參與者的大型用戶研究,證實了所提出方法的優越性,還證明了NNST可用于視頻風格化或擴展以支持額外的指導和更高的輸出分辨率。
https://arxiv.org/abs/2203.13215
Visual Prompting: Modifying Pixel Space to Adapt Pre-trained Models
https://arxiv.org/abs/2203.17274
視覺提示:修改像素空間以自適應預訓練模型。提示最近成為一種流行的范式,用于使語言模型自適應下游任務。這種方法不是對模型參數進行調整,也不添加特定任務的頭,而是通過在模型輸入中添加文本提示,來引導模型執行一個新任務。本文探討了這樣一個問題:能否用像素來創建提示?預訓練好的視覺模型,能否僅通過在其輸入中添加像素,來自適應一項新任務?提出了視覺提示,學習一個特定任務的圖像擾動,從而使一個凍結的預訓練模型在這個擾動的提示下執行一項新任務。只需改變幾個像素,就足以使模型自適應新的任務和數據集,其表現與目前事實上的輕量級自適應方法——線性探測相當。視覺提示的驚人有效性為如何自適應視覺預訓練模型提供了一種新視角,開辟了僅通過輸入來自適應模型的可能性,與模型參數或輸出不同,輸入通常是在最終用戶的控制之下。
Transformer Language Models without Positional Encodings Still Learn Positional Information
https://arxiv.org/abs/2203.16634
無明確位置編碼的Transformer語言模型仍可學到位置信息。Transformer通常需要某種形式的位置編碼,如位置嵌入,以處理自然語言序列。令人驚訝的是,本文發現沒有任何明確位置編碼的Transformer語言模型仍然可以與標準模型競爭,而且這種現象在不同的數據集、模型大小和序列長度中是魯棒的。探測實驗顯示,這種模型在整個網絡中獲得了一種隱性的絕對位置概念,有效補償了缺失信息。本文猜想,將注意力限制在序列一個方向上的因果注意力機制,將位置信息隱性注入到了Transformer。
Practical tradeoffs between memory, compute, and performance in learned optimizers
https://arxiv.org/abs/2203.11860????[Google Research & Meta]
習得優化器記憶計算與性能權衡。優化在開發機器學習系統中起著昂貴而關鍵的作用。對于習得優化器,常用的手工設計的優化器(如Adam或SGD)的少量超參數,被靈活的參數化函數所取代。對這些函數的參數進行優化,從而使所產生的習得優化器在選定的一類模型上滿足目標損失最小化。習得優化器可以減少所需的訓練步驟,改善最終的測試損失。但其訓練成本很高,而且一旦訓練完成,由于優化器本身的計算和記憶開銷,使用起來也很昂貴。本文確定并量化了許多習得和手工設計的優化器的記憶、計算和性能權衡的設計特征,包括優化目標任務性能、與習得優化器相關的計算和記憶開銷、訓練時間、目標任務的選擇以及對新任務的泛化。進一步利用這些分析來構建一個習得優化器,比之前的工作更快、更加內存高效。
MSTR: Multi-Scale Transformer for End-to-End Human-Object Interaction Detection
MSTR:面向端到端人-物交互檢測的多尺度Transformer????https://arxiv.org/abs/2203.14709
SharpContour: A Contour-based Boundary Refinement Approach for Efficient and Accurate Instance Segmentation
https://arxiv.org/abs/2203.13312 ????????CVPR2022
SharpContour: 面向準確高效實例分割的基于輪廓邊界細化方法。在實例分割方面已經取得了很好的性能,但邊界區域的質量仍然不能令人滿意,這導致了對邊界細化的關注。在實際應用中,一個理想的后處理細化方案需要準確、通用和高效。然而,現有的大多數方法都提出了像素化的細化方案,這些方案要么引入大量的計算成本,要么專門為不同的骨干模型設計。基于輪廓的模型是高效和通用的,可以與任何現有分割方法結合在一起,但它們經常產生過度平滑的輪廓,并傾向于在角區域失敗。本文提出一種高效的基于輪廓的邊界細化方法SharpContour,以解決邊界區域的分割問題。設計了新的輪廓演化過程和實例感知的點分類器。所提出方法通過以離散方式更新偏移量來迭代變形輪廓。與現有輪廓演化方法不同,SharpContour更獨立地估計每個偏移量,因此能預測出更清晰和準確的輪廓。值得注意的是,該方法是通用的,能以較小的計算成本與各種現有模型無縫銜接。實驗表明,SharpContour在保持高效的同時實現了有競爭力的收益。
NeuMan: Neural Human Radiance Field from a Single Video
NeuMan:單個視頻的神經人體輻射場學習????https://arxiv.org/abs/2203.12575
Language modeling via stochastic processes
基于隨機過程的語言建模????https://arxiv.org/abs/2203.11370
MotionCLIP: Exposing Human Motion Generation to CLIP Space
MotionCLIP:結合CLIP潛空間的人體運動生成????https://arxiv.org/abs/2203.08063
Pseudo Label Is Better Than Human Label
https://arxiv.org/abs/2203.12668
偽標簽勝過人工標簽。最先進的自動語音識別(ASR)系統是用數萬小時的標注語音數據訓練的。人工轉錄是昂貴而耗時的。轉錄質量和一致性等因素會大大影響用這些數據訓練的ASR模型的性能。本文表明可以通過利用最近的自監督和半監督學習技術來訓練一個強大的教師模型,以產生高質量的偽標簽。用JUST(無監督/有監督聯合訓練)和迭代的含噪學生教師訓練來訓練一個6億參數的雙向教師模型。該模型在語音搜索任務中取得了4.0%的單詞錯誤率(WER),比基準線相對好11.1%。通過使用這個強大的教師模型來產生高質量的偽標簽進行訓練,與使用人工標簽相比,可以使流媒體模型的相對誤碼率減少13.6%(從5.9%到5.1%)。
Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors
https://arxiv.org/abs/2203.13131????[Meta AI Research]
制造場景:結合人工先驗的基于場景文本-圖像生成。最近的文本-圖像生成方法在文本域和圖像域之間提供了一種簡單而令人興奮的轉換能力。雖然這些方法已經逐步提高了生成圖像的保真度和文本的相關性,但仍有幾個關鍵的問題沒得到解決,限制了適用性和質量。本文提出一種新的文本到圖像方法,通過以下方式解決這些問題:(1)啟用一種簡單的控制機制,以場景的形式補充文本;(2)引入一些元素,通過對關鍵圖像區域(人臉和突出目標)采用特定領域知識,大大改善Token化過程;(3)為Transformer用例自適應無分類指導。所提出模型實現了最先進的FID和人工評估結果,具備生成512×512像素分辨率的高保真圖像的能力,大大提高了視覺質量。通過場景可控性,引入了幾種新的能力。(i) 場景編輯,(ii) 帶錨點場景的文本編輯,(iii) 克服分布不均的文本提示,以及(iv) 故事插圖的生成。
BigDetection: A Large-scale Benchmark for Improved Object Detector Pre-training
BigDetection:用于改進目標檢測器預訓練的大規模基準????[Fudan University & Amazon Inc]????https://arxiv.org/abs/2203.13249
TinyMLOps: Operational Challenges for Widespread Edge AI Adoption
https://weibo.com/1402400261/Ll0lT8bib
4th Workshop on Parallel AI and Systems for the Edge (PAISE2022) paper
TinyMLOps:廣泛邊緣AI應用的運行挑戰。在邊緣設備上部署機器學習應用可以帶來明顯的好處,如改善可靠性、延遲和隱私,但也引入了一系列挑戰。大多數工作都集中在邊緣平臺的有限計算資源上,但這并不是阻礙廣泛采用的唯一瓶頸。本文列出了TinyML從業者在邊緣設備上操作應用時可能需要考慮的其他幾個挑戰。本文專注于監測和管理應用等任務,也是MLOps平臺的常見功能,展示了它們如何因邊緣部署的分布式性質而變得復雜。討論了邊緣應用特有的問題,如保護模型的知識產權和驗證其完整性。作為一個領域,TinyML仍然非常年輕,大多數工具和框架仍然處于早期階段。希望本文能啟發和指導TinyMLOps平臺的發展,使TinyML能為開發者所接受,并可擴展到數十億的邊緣設備。
Transframer: Arbitrary Frame Prediction with Generative Models
https://weibo.com/1402400261/LkQNzrlu9????[DeepMind]
Transframer: 基于生成模型的任意幀預測。本文提出一種基于概率幀預測的圖像建模和視覺任務通用框架。該方法統一了一系列廣泛的任務,從圖像分割到新視圖合成和視頻插值。將該框架與叫做Transframer的架構搭配,用U-Net和Transformer組件對標注的上下文幀進行調節,并輸出稀疏、壓縮圖像特征的序列。Transframer在各種視頻生成基準上都是最先進的,在少樣本合成上與最強的模型相競爭,并能從一張圖像中生成連貫的30秒視頻,而沒有任何顯式的幾何信息。一個單一的通用Transframer同時在8個任務上產生了有希望的結果,包括語義分割、圖像分類和光流預測,沒有任務特定架構組件,表明多任務計算機視覺可以用概率圖像模型來解決。所提出方法原則上可應用于需要學習標注的圖像格式化數據的條件結構的廣泛應用。
The Mathematics of Artificial Intelligence
G Kutyniok????https://weibo.com/1402400261/LkxVtrEs8
人工智能的數學基礎。目前,我們見證了人工智能在科學和公共生活中的驚人成功。然而,嚴格的數學基礎的發展仍處于早期階段。在這篇基于2022年國際數學家大會特邀演講的綜述文章中,將特別關注目前人工智能的"主力",即深度神經網絡,重點介紹主要的理論方向以及幾個示范性的結果,并討論關鍵的開放問題。以人工智能的七個數學關鍵問題作為結論,這些問題構成了人工智能的數學基礎及其子領域的表達性、優化、泛化和可解釋性的主要障礙,也構成了面向數學問題的人工智能的主要障礙,后者側重應用于逆問題和偏微分方程。
(1) 深度的作用是什么?
(2) 神經網絡結構的哪些方面影響深度學習的性能?
(3) 為什么隨機梯度下降能在問題的非凸性下收斂到良好的局部最小值?
(4) 為什么大型神經網絡不會過擬合?
(5) 為什么神經網絡在非常高維的環境中表現良好?
(6) 深度架構學習到數據的哪些特征?
(7) 神經網絡是否能夠取代自然科學中高度專業化的數值算法?
TensoRF: Tensorial Radiance Fields
TensoRF:張量輻射場。本文提出TensoRF,一種對輻射場進行建模和重建的新方法,利用張量分解技術,將輻射場緊湊地建模為因子化的低秩張量組件。與純粹使用MLP的NeRF不同,將場景輻射場建模為一個4D張量,表示一個具有每體素多通道特征的3D體素網格。其核心思想是將4D場景張量分解為多個緊湊低秩張量成分。證明了在該框架中應用傳統的CP分解——將張量分解為具有緊湊向量的單秩成分——會帶來比普通NeRF更好的性能。為進一步提高性能,引入了一種新的矢量-矩陣(VM)分解,放松了張量兩種模式的低秩約束,并將張量分解為緊湊的矢量和矩陣因子。除了卓越的渲染質量,所提出模型與CP和VM分解相比,直接優化每體素特征的之前和最新工作帶來的顯著的內存占用。實驗證明,與NeRF相比,采用CP分解的TensoRF實現了快速重建(<30分鐘),具有更好的渲染質量,甚至更小的模型大小(<4 MB)。此外,采用VM分解的TensoRF進一步提高了渲染質量,超過了之前的最先進方法,同時減少了重建時間(<10分鐘)并保留了緊湊的模型大小(<75 MB)。
Diffusion Probabilistic Modeling for Video Generation
面向視頻生成的擴散概率建模????https://weibo.com/1402400261/LkoUCifSd
One Network Doesn't Rule Them All: Moving Beyond Handcrafted Architectures in Self-Supervised Learning
單個網絡不能“包打天下”:面向自監督學習的“自監督架構”。目前關于自監督學習(SSL)的文獻集中在開發學習目標,以便在未標記數據上更有效地訓練神經網絡。典型的開發過程包括采用成熟的架構,例如在ImageNet上展示的ResNet,并用它們來評估在下游場景中新開發的目標。雖然方便,但這并沒有考慮到架構的作用,而架構在監督學習文獻中已被證明是至關重要的。本文建立了廣泛的經驗證據,表明網絡架構在SSL中發揮著重要作用,對超過100種ResNet和MobileNet架構的變體進行了大規模的研究,并在SSL環境下的11個下游場景中對它們進行了評估。沒有一個網絡在各個場景中表現得一致良好。在此基礎上,建議在SSL機制中不僅要學習網絡權重,還要學習架構拓撲。"自監督架構"優于流行的手工設計的架構(ResNet18和MobileNetV2),同時在主要的圖像分類基準(ImageNet-1K、iNat2021等)上與較大且計算量大的ResNet50競爭。結果表明,現在是時候考慮超越SSL中的手工架構,開始考慮將架構搜索納入自監督學習目標。
Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models
Delta Tuning:預訓練語言模型參數高效方法綜合研究
https://weibo.com/1402400261/Lkfh4r6gJ
Unsupervised Semantic Segmentation by Distilling Feature Correspondences
基于特征對應提煉的無監督語義分割????https://weibo.com/1402400261/LkfkpiVXw
CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment
[Harbin Institute of Technology & Microsoft Research]
CLIP模型是少次學習器:對VQA和視覺蘊涵的實證研究。在廣泛的視覺任務上,CLIP已經顯示出了非凡的零次學習能力。以前,CLIP只被認為是一個強大的視覺編碼器。然而,在通過語言監督對大量的圖像-標題對進行預訓練后,CLIP本身也應該獲得一些視覺-語言任務的少次能力。本文通過經驗表明,CLIP可通過利用語言的力量成為一個強大的視覺-語言的少次學習器。評估了CLIP在一個典型的視覺問答任務上的零次性能,并證明了CLIP在視覺蘊涵任務上的零次跨模態遷移能力。提出一種參數高效的微調策略,以提高在VQA任務上的少次性能。在不引入任何額外的預訓練程序的情況下,在視覺問答和視覺蘊涵任務上取得了有競爭力的零/少次結果。
The Role of ImageNet Classes in Fréchet Inception Distance
Fréchet Inception距離在ImageNet類上的真正作用。Fréchet Inception Distance(FID)是一個量化兩個圖像分布間距離的度量。鑒于其在數據驅動的生成模型研究中作為模型排續的標準尺度,該距離由一般的、與"視覺相關"的特征計算出來似乎很重要。但這是真的嗎?本文觀察到,FID本質上是ImageNet類概率集合間的距離。將原因追溯到這樣一個事實:標準特征空間,即特定Inception-V3分類器網絡的倒數第二"pre-logit"層,與logit(即ImageNet類)只有一次仿生變換的距離,因此,這些特征必然對其高度特定化。這對指標的敏感性有不直觀的影響。例如,在評估人臉模型時,平均而言,FID實際上對人臉區域非常不敏感,而像 "領結"或"安全帶 "這樣類的概率則發揮了更大的作用。FID可以被大大降低——而實際上并沒有提高結果的質量——通過一種攻擊,首先產生一個稍大的候選集合,然后選擇一個恰好與真實數據中這種"邊緣特征"的直方圖相匹配的子集。本文證明了這一觀察在ImageNet預訓練GANs的情況下具有實際意義,其中一部分觀察到的FID改進被證明是不真實的。實驗結果表明,要警惕對FID改進的過度解釋,并強調需要有更多感知上統一的分布指標。
Conditional Prompt Learning for Vision-Language Models
視覺-語言模型的條件提示學習。隨著像CLIP這樣強大的預訓練視覺-語言模型的興起,研究如何使這些模型適應下游數據集變得至關重要。最近提出的一種名為"上下文優化"(CoOp)的方法將提示學習的概念——NLP的最新趨勢引入視覺領域,以自適應預訓練視覺-語言模型。具體來說,CoOp將提示中的上下文詞轉化為一組可學習的向量,并且只需要幾張標記圖像進行學習,就可以比稠密微調的人工提示有巨大的改進。本文發現CoOp的一個關鍵問題:學到的上下文不能推廣到同一數據集內更多未見過的類別,這表明CoOp過擬合了訓練期間觀察到的基礎類。為解決該問題,本文提出條件上下文優化(CoCoOp),通過進一步學習一個輕量級的神經網絡,為每張圖片生成一個輸入條件Token(向量)來擴展CoOp。與CoOp的靜態提示相比,所提出的動態提示自適應于每個實例,因此對類的漂移不那么敏感。實驗表明,CoCoP比CoOp對未見過類的泛化性要好得多,甚至顯示出有望超越單一數據集的遷移性;并且產生更強的領域泛化性能。
Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time
模型湯:多個微調模型的平均權重可在不增加推理時間的情況下提高精度。傳統最大化模型精度的方法是:(1)用不同的超參數訓練多個模型;(2)挑選在保留驗證集上表現最好的單個模型,拋棄其余模型。本文在微調大型預訓練模型的背景下,重新審視了這一程序的第二步,微調后的模型往往位于一個單一的低誤差盆地中。用不同的超參數配置對多個模型進行微調后,其權重的均值往往能提高精度和魯棒性。與傳統集合不同,可以在不產生任何額外推理或內存成本的情況下對許多模型進行平均化——把這種結果稱為"模型湯"。當微調大型預訓練模型,如CLIP、ALIGN和在JFT上預訓練的ViT-G時,所提出的湯配方提供了比ImageNet上超參數掃描中的最佳模型更顯著的改進。作為亮點,所產生的ViT-G模型在ImageNet上達到了90.94%的最高精度。該模型湯的方法可擴展到多個圖像分類和自然語言處理任務,改善了分布外性能,并提高了新的下游任務的零樣本性能。從分析上將加權平均法和Logit-ensembling的性能相似性與損失的平坦性和預測的置信聯系起來,并從經驗上驗證了這種關系。
Towards Efficient and Scalable Sharpness-Aware Minimization
高效可擴展銳度感知最小化研究。最近,銳度感知最小化(SAM)將損失景觀的幾何形狀和泛化聯系在一起,在訓練大規模模型(如視覺Transformer)時表現出明顯的性能提升。然而,SAM的更新規則需要在每一步進行兩次連續的(非并行)梯度計算,可能使計算開銷增加一倍。本文提出一種新算法LookSAM,只周期性地計算內部梯度上升,可顯著減少SAM的額外訓練成本。經驗結果表明,LookSAM實現了與SAM相似的精度提升,同時速度大大加快,享有與SGD或Adam等一階優化器相當的計算復雜度。為進一步評估LookSAM的性能和可擴展性,加入了一個分層的修改,并在大批量訓練的情況下進行了實驗,這更容易收斂到尖銳的局部最小值。通過64k的批處理規模,能在幾分鐘內從頭開始訓練ViT,同時保持有競爭力的性能。
On the surprising tradeoff between ImageNet accuracy and perceptual similarity
[Google Research]
ImageNet上精度和感知相似度間意外的反相關關系。在預訓練深度特征空間中測量的圖像間的感知距離,在評估圖像相似度方面已經超過了先前的低層的、基于像素的衡量標準。雖然舊的和不太準確的模型,如AlexNet和VGG捕捉感知相似性的能力是眾所周知的,但現代的和更準確的模型卻沒有被研究。本文觀察到現代網絡如ResNets、EfficientNets和Vision Transformers在ImageNet上的精度和感知得分間存在驚人的反相關關系:即更好的分類器獲得的感知得分更差。本文進行了一項大規模研究,考察了ImageNet的精度/感知分數在不同的深度、寬度、訓練步數、權重衰退、標簽平滑和dropout等方面的關系。更高的精度在一定程度上提高了感知分數,但在中高精度的情況下,精度和感知分數之間存在一個帕累托前沿。用失真不變性、空間頻率敏感性和其他感知函數進一步探索這種關系,發現淺層ResNets,只在ImageNet上訓練了不到5輪,其出現的Perceptual Score與之前直接在有監督人類知覺判斷上訓練的最佳網絡相匹配。
Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer
基于零樣本超參數遷移的大型神經網絡調優。深度學習中的超參數(HP)調整是個昂貴的過程,對于具有數十億參數的神經網絡(NN)來說,這個過程令人望而卻步。在最近發現的Maximal Update Parametrization(μP)中,即使模型大小發生變化,許多最優的超參數也保持穩定,有可能跨深度、批量大小、序列長度和訓練時間進行遷移,這就導致了一種新的超參數調優范式μTransfer:在μP中對目標模型進行參數化,在較小的模型上間接地調優超參數,將它們零散地遷移到全尺寸模型上,根本無需直接調優后者。在Transformer和ResNet上驗證了μTransfer。例如,1)通過從13M參數的模型中遷移預訓練超參數,超過了BERT-large(350M參數)的公開指標,總的調優成本相當于預訓練BERT-large一次;2)通過從40M參數遷移,超過了6.7B GPT-3模型的公開指標,調優成本僅占總預訓練成本的7%。