后 ImageNet 時(shí)代:李飛飛視覺基因組重磅計(jì)劃,新一輪競賽!(轉(zhuǎn))

新智元編譯

來源:Visual Genome、thehindu
譯者:王嘉俊 王婉婷 李宏菲

【新智元導(dǎo)讀】ImageNet 已經(jīng)成為全球最大的圖像識別數(shù)據(jù)庫,每年一度的比賽也牽動(dòng)著各大巨頭公司的心弦,如今圖像識別已經(jīng)能做到很高的水準(zhǔn)。下一步是圖像理解,ImageNet 創(chuàng)始人李飛飛開啟了 Visual Genome(視覺基因組)計(jì)劃,要把語義和圖像結(jié)合起來,推動(dòng)人工智能的進(jìn)一步發(fā)展。近日 Visual Genome 論文發(fā)布,李飛飛要給我們帶來怎樣的驚喜?

幾年前,機(jī)器學(xué)習(xí)的技術(shù)突破,讓計(jì)算機(jī)學(xué)會(huì)了識別照片中的物體,而且非常準(zhǔn)確。

現(xiàn)在的問題是,計(jì)算機(jī)能否帶來另一個(gè)飛躍:學(xué)會(huì)理解相片中究竟發(fā)生著什么事。

一個(gè)叫 Visual Genome 的圖像數(shù)據(jù)庫,可能會(huì)推動(dòng)計(jì)算機(jī)實(shí)現(xiàn)這個(gè)目標(biāo)。它由斯坦福計(jì)算機(jī)視覺教授、人工智能實(shí)驗(yàn)室主任李飛飛和幾個(gè)同事開發(fā),我們知道李飛飛教授過去創(chuàng)建了 ImageNet,而 Visual Genome 是后 ImageNet 時(shí)代計(jì)算機(jī)視覺在理解圖片上的訓(xùn)練和測試數(shù)據(jù)集。

在 Visual Genome 的官方網(wǎng)站上,把它定義為:

Visual Genome 是一個(gè)數(shù)據(jù)集,知識庫,不斷努力把結(jié)構(gòu)化的圖像概念和語言連接起來。

網(wǎng)站:https://visualgenome.org

目前包含:

108249 張圖片

420 萬對區(qū)域的描述(Region Descriptions)

170 萬視覺問答(Visual Question Answers)

210 萬對象案例(Object Instances)

180 萬屬性(Attributes)

180 萬關(guān)系(Relationships)

所有的東西都映射到 Wordnet Synsets

教會(huì)計(jì)算機(jī)解析視覺圖像是人工智能非常重要的任務(wù),這不久能帶來更多有用的視覺算法,而且也能訓(xùn)練計(jì)算機(jī)更為高效的溝通。畢竟,在表達(dá)真實(shí)世界的時(shí)候,語言總是受到很大的限制。

“我們專注在計(jì)算機(jī)視覺領(lǐng)域的一些最艱難的問題,給感知和認(rèn)知建立一個(gè)橋梁,”李飛飛說:“不僅僅是處理像素的數(shù)據(jù)、知道它的顏色、陰影等事情,而且要把它們轉(zhuǎn)變成 3D 形式以進(jìn)行更全面的理解,帶來語義視覺的世界。”

ImageNet 包含了超過 100 萬張圖片的數(shù)據(jù)集,里面的內(nèi)容都有很好的標(biāo)記。每年,ImageNet 大規(guī)模視覺識別挑戰(zhàn)賽都會(huì)測試計(jì)算機(jī)在自動(dòng)識別圖像內(nèi)容的能力。Visual Genome 的圖像要比 ImageNet 的圖像標(biāo)簽更為豐富,包括名字、圖片的不同細(xì)節(jié),以及在對象和動(dòng)作信息之間的關(guān)系。

Visual Genome 使用了眾包的方式實(shí)現(xiàn),由李飛飛一位同事 Michael Bernstein 提出。

2017 年計(jì)劃使用 Visual Genome 數(shù)據(jù)集推出 ImageNet 風(fēng)格的挑戰(zhàn)賽。(Visual Genome 挑戰(zhàn)賽?)

論文全文

Visual Genome:Connecting Language and Vision Using Crowdsourced Dense Image Annotations

視覺基因組:使用眾包密集圖像注釋以聯(lián)結(jié)語言和視覺

作者:Ranjay Krishna · Yuke Zhu · Oliver Groth · Justin Johnson· Kenji Hata · Joshua Kravitz · Stephanie Chen · Yannis Kalantidis · Li-Jia Li · David A. Shamma · Michael S. Bernstein · Li Fei-Fei

摘要

盡管在感知的任務(wù)上(例如圖像分類)計(jì)算機(jī)有很多進(jìn)展,但是在認(rèn)知的任務(wù)上(例如圖像描述和問答),計(jì)算機(jī)表現(xiàn)的不怎么樣。如果我們不僅僅訴求識別出圖像,而要深究我們視覺世界的意義,那么認(rèn)知是最核心的任務(wù)。被用于解決圖片內(nèi)容豐富的認(rèn)知任務(wù)的模型,依然使用給感知任務(wù)設(shè)計(jì)的相同數(shù)據(jù)集來訓(xùn)練。要在認(rèn)知任務(wù)中獲得成功,模型需要理解對象和物體之間的交互和關(guān)系。當(dāng)問道:“這個(gè)人正在騎著什么交通工具?”的時(shí)候,計(jì)算機(jī)需要識別出圖片中的物體,以及里面的關(guān)系“騎行”(人、馬車)和“拉車”(馬、馬車),這樣才能正確回答“這個(gè)人正坐著馬車”。

在這篇論文中,我們介紹了 Visual Genome 數(shù)據(jù)集,以及使用這種關(guān)系進(jìn)行建模。我們收集了對象、屬性、圖片里關(guān)系的密集注釋,以學(xué)習(xí)這些模型。特別的,我們的數(shù)據(jù)集包括了超過 10 萬張圖片,每一張圖片都包含了平均 21 個(gè)對象,18 種屬性和 18 種物體之間的關(guān)系。我們規(guī)范化了從對象、屬性、關(guān)系、區(qū)域描述里的名詞和短語和問答對到 WordNet 同義詞集的關(guān)系。這些注釋代表了圖像描述、屬性、關(guān)系和問答里最密集、規(guī)模最大的數(shù)據(jù)集。

關(guān)鍵詞:Computer Vision · Dataset · Image · Scene Graph · Question Answering · Objects · Attributes · Relationships · Knowledge · Language · Crowdsourcing

1、介紹:

計(jì)算機(jī)視覺領(lǐng)域的圣杯,是完全理解圖像里的場景:一個(gè)能夠命名并且檢測物體的模型,描述它們的屬性,識別出它們的關(guān)系和交互。理解場景會(huì)帶來重要的應(yīng)用,例如圖片搜索、問答、機(jī)器人交互等。為了實(shí)現(xiàn)這個(gè)目標(biāo),最近幾年已經(jīng)有了很多的進(jìn)展,包括圖片的分類任務(wù)和對象識別上。

圖1:對數(shù)據(jù)的總體概述,需要從對感知圖像到認(rèn)知理解圖像。我們呈現(xiàn)了一組圖像數(shù)據(jù)集,其區(qū)域描述、對象、屬性和關(guān)系都有密集的注釋。區(qū)域描述(例如“女孩喂食大象”和“一個(gè)男人在女孩背后照相”)被表示在圖的上部分。對象(象)、屬性(大)和關(guān)系(喂食)表現(xiàn)在圖的下部分。我們的數(shù)據(jù)集也包含了和問答相關(guān)的圖片。

一個(gè)起作用的重要因素是大規(guī)模數(shù)據(jù)的可利用性,這驅(qū)動(dòng)了統(tǒng)計(jì)模型,構(gòu)成了今天我們計(jì)算視覺理解進(jìn)展的基礎(chǔ)。雖然這個(gè)進(jìn)展很讓人興奮,但我們離理解圖像的目標(biāo)還有很遠(yuǎn)的距離。正如圖 1 顯示的,現(xiàn)在的模型能夠探測出相片中的潛在物體,但沒有能力解釋它們之間的的交互和關(guān)系。這種解釋性的行為傾向于自然界的認(rèn)知,整合感知的信息得出關(guān)于圖片物體之間關(guān)系的結(jié)論。對我們視覺世界的認(rèn)知理解,因而需要我們在計(jì)算機(jī)識別物體的能力之外,補(bǔ)充描述物體和理解他們之間交互關(guān)系的能力。

在把下一代的數(shù)據(jù)集整合在一起,以服務(wù)于深度、認(rèn)知圖像理解任務(wù)的訓(xùn)練和基準(zhǔn)測試,現(xiàn)在有越來越多的努力,其中最出名的是 MS-COCO 和 VQA。MS-COCO 數(shù)據(jù)集包含了從 Flickr 收集來的 30 萬張真實(shí)世界的照片。每一張圖片,都像素級別的分割成 91 種對象級別和 5 個(gè)獨(dú)立的、用戶生成的句子,以描述這個(gè)場景。VQA 給相關(guān)圖片的視覺內(nèi)容增加了 61.4 萬的問答對。在這些信息下,MS-COCO 和 VQA 給致力于精準(zhǔn)物體識別、分割、給圖片總結(jié)性的文字和基礎(chǔ)的問答任務(wù)的模型,提供了多產(chǎn)的訓(xùn)練和測試基礎(chǔ)。例如,最前沿的模型提供了對 MS-COCO 圖片(圖1)的描述“兩個(gè)人站在一只象旁邊”。但是關(guān)于進(jìn)一步理解各個(gè)對象在哪里,每個(gè)人在做什么,人和象的關(guān)系是什么,都丟失掉了。沒有這樣的關(guān)系,這個(gè)模型沒法把它和其他人站在大象旁邊的圖片區(qū)分開來。

為了更徹底的理解圖像,我們認(rèn)為有三個(gè)關(guān)鍵元素需要添加到現(xiàn)在的數(shù)據(jù)集中:

1、將視覺概念落實(shí)到語義層面(a grounding of visual concepts to language)

2、基于多區(qū)域圖片的更加完整描述和問答(more complete set of descriptions and QAs)

3、對圖片各個(gè)組成的形式化表示(a formalized representation of the components of an image)

出于把視覺世界里面的完全信息映射出來,我們向大家介紹 Visual Genome 數(shù)據(jù)集。Visual Genome 數(shù)據(jù)集的第一次發(fā)布使用了 108249 張圖片,來自于 YFCC100M 和 MS-COCO 的交集。章節(jié) 5 對這個(gè)數(shù)據(jù)集有更詳細(xì)的描述。我們會(huì)在下面強(qiáng)調(diào),正是這三個(gè)關(guān)鍵因素的動(dòng)機(jī)和貢獻(xiàn),讓 Visual Genome 和其他已有的數(shù)據(jù)集有很大的差異化。

除了傳統(tǒng)的對對象進(jìn)行關(guān)注外,Visual Genome 數(shù)據(jù)集把關(guān)系和屬性,作為注釋里面的頭等公民看待。對于完整理解一張圖片而言,對關(guān)系和屬性的識別是非常重要的部分,而在很多案例中,這些部分是講述場景故事的關(guān)鍵(例如“一只狗追著人跑”和“一個(gè)人追著狗跑”的不同)。Visual Genome 是首個(gè)提供物體的交互和屬性的詳細(xì)標(biāo)簽,將視覺概念落實(shí)到語義層面的數(shù)據(jù)集。

通常來說,一張圖片有豐富的場景,但很難用一個(gè)句子完全描述。圖1 包含了很多故事“一個(gè)男人正在給象拍照”,“一個(gè)女人正在喂食一頭象”,“一條河背后蔥蔥郁郁的地面”等。現(xiàn)在的數(shù)據(jù)庫例如 Flickr 30K 和 MS-COCO 專注于對圖像進(jìn)行高層次的描述。相對的,對于 Visual Genome 數(shù)據(jù)集里的每一張圖片,我們收集了 圖片中不同區(qū)域的 42 種描述,提供了更加密集和完全的圖像描述。另外,在 VQA 的激發(fā)下,我們也根據(jù)對每張圖片的描述,平均收集了 17 種問答對。基于區(qū)域的問答可以被用于共同發(fā)展 NLP 和視覺模型,可以根據(jù)描述或圖片,或者兩者以回答問題。

通過一張圖片的密集描述、視覺像素(對象的界限)和文字描述(關(guān)系,屬性)的明確對應(yīng),Visual Genome 現(xiàn)在是第一個(gè)能夠提供結(jié)構(gòu)化的對圖片進(jìn)行形式化表示的數(shù)據(jù)集,在這種形式下能夠大量用于 NLP 的基于知識的展示中。例如在圖 1 ,我們可以正式的表達(dá)出“舉著”這個(gè)關(guān)系涉及到女人和食物。把所有的對象和他們在圖片中的關(guān)系放在一起,我們可以把每幅圖片看作是場景圖。場景圖展示被用于提升提高語義圖片的檢索和給圖片加上說明。更進(jìn)一步說,Visual Genome 里面每一張圖片的所有對象、屬性和關(guān)系,都會(huì)建立和 Word-Net 的規(guī)范化映射。這個(gè)映射聯(lián)結(jié)了所有 Visual Genome 的圖片,也提供了有效的方法對數(shù)據(jù)集里相同的概念(對象、屬性或關(guān)系)有一致的提問。它也可能幫助訓(xùn)練模型,從多張圖片的上下文信息中學(xué)習(xí)。

在這篇論文中,為了能夠高效地展開模型的訓(xùn)練以及定立能夠用于綜合場景理解的下一代計(jì)算機(jī)模型基準(zhǔn),我們引進(jìn)了Visual Genome 數(shù)據(jù)集。這篇論文的安排如下:章節(jié)2,我們展現(xiàn)了關(guān)于數(shù)據(jù)集中各個(gè)組成部分的細(xì)節(jié)描述。章節(jié)3,展示了相關(guān)數(shù)據(jù)集以及相關(guān)識別任務(wù)的回顧。章節(jié)4,討論了我們在持續(xù)努力收集這個(gè)數(shù)據(jù)集的過程中采用的眾包策略。章節(jié)5,是對數(shù)據(jù)統(tǒng)計(jì)分析的收集,展示了Visual Genome 數(shù)據(jù)集的特性。最后同等重要的是,章節(jié)6展示了采用了Visual Genome 數(shù)據(jù)集作為基準(zhǔn)進(jìn)行實(shí)驗(yàn)研究的一組實(shí)驗(yàn)結(jié)果。

未來,基于Visual Genome 數(shù)據(jù)集的可視化模型、API、以及其它信息可以在線獲取。

圖2:來自Visual Genome 數(shù)據(jù)集的一個(gè)樣例圖像。我們展示了3個(gè)區(qū)域描述以及它們相對應(yīng)的區(qū)域圖。我們也展示了通過結(jié)合所有的圖像區(qū)域圖收集到的連通圖。頂部區(qū)域描述了一個(gè)男人和一個(gè)女人坐在公園里沿著河邊放置的長椅上。它包括了這些對象:男人,女人,長椅以及河流。連接這些對象的關(guān)系有:坐在(sits_on)(男人,長椅),在...之前(in_front_of)(男人,河流),坐在(sits_on)(女人,長椅)。
圖3:來自Visual Genome 數(shù)據(jù)集的一個(gè)樣圖像以及它的場景圖描述。包含圖像中對象(孩子,老師,頭盔等等)的場景圖作為邊界框(沒有被展示出來)。這些對象也有一些屬性:大,綠色,后面等等。最后,通過關(guān)系(如:戴(孩子,頭盔),穿(指導(dǎo)者,夾克)等等)將對象之間相互連接起來。
圖4:一個(gè)關(guān)于Visual Genome 數(shù)據(jù)集的表述。每張圖像包含多個(gè)描述圖像局部的區(qū)域描述。我們收集了兩種類型的問答組:自由形式的問答組和基于區(qū)域的問答組。每個(gè)區(qū)域分別被轉(zhuǎn)換成基于對象的區(qū)域圖表述、基于屬性的區(qū)域圖表述、以及基于成對關(guān)系的區(qū)域圖表述。最后,連接這些區(qū)域圖表述生成一個(gè)基于圖像的所有對象的場景圖表述。(最好瀏覽彩色版圖像)。

2、Visual Genome 的數(shù)據(jù)表現(xiàn)

Visual Genome 數(shù)據(jù)集包括 7 個(gè)主要部分:區(qū)域描述、對象、屬性、關(guān)系、區(qū)域圖、場景圖和問答對。圖 4 展示了一幅畫的每一個(gè)部分的例子。要對圖像進(jìn)行理解的研究,我們從收集描述和問答對開始。這些是原始的文本,沒有任何長度和詞匯的限制。下一步,我們從描述中提取對象、屬性和關(guān)系。這些對象、屬性和關(guān)系一起構(gòu)造了我們的場景圖,這代表了一般的圖像。在這個(gè)章節(jié)中,我們分解了圖像 4,也對里面的 7 個(gè)部分分別進(jìn)行了解釋。在章節(jié) 4 中,我們會(huì)對此進(jìn)行更詳盡的描述,來自各個(gè)部分的數(shù)據(jù),是如何通過眾包平臺收集的。

2.1 多區(qū)域和對它們的描述

在真實(shí)世界中,一個(gè)簡單的總結(jié),往往不足以描述圖片的所有內(nèi)容和交互。相反,一個(gè)自然的擴(kuò)展方法是,對圖像的不同區(qū)域進(jìn)行分別描述。在 Visual Genome 中,我們收集了人們對圖像不同區(qū)域的描述,每一個(gè)區(qū)域都由邊框進(jìn)行坐標(biāo)限定。在圖像 5 中,我們展示了按區(qū)域描述的 3 個(gè)案例。不同的區(qū)域之間被允許有高度的重復(fù),而描述會(huì)有所不同。例如說,“黃色消防栓”和“穿短褲的姑娘正站在男人的背后”的重疊部分非常少,但“男人跳過消防栓”和其他兩個(gè)區(qū)域有著很高的重疊。我們的數(shù)據(jù)對每一張圖片平局有著 42 種區(qū)域描述。每一個(gè)描述都是一個(gè)短語包含著從 1 到 16 個(gè)字母長度,以描述這個(gè)區(qū)域。

2.2 多個(gè)物體與它們的邊框

在我們的數(shù)據(jù)集中,平均每張圖片包含21個(gè)物體,每個(gè)物體周圍有一個(gè)邊框(見圖6)。不僅如此,每個(gè)物體在WordNet中都有一個(gè)規(guī)范化的ID。比如,man和person會(huì)被映射到man.n.03|(the generic use of the word to refer to any human being)。相似的,person被映射到person.n.01 (a human being)。隨后,由于存在上位詞man.n.03,這兩個(gè)概念就可以加入person.n.01中了。這是一個(gè)重要的標(biāo)準(zhǔn)化步驟,以此避免同一個(gè)物體有多個(gè)名字(比如,man,person,human),也能在不同圖片間實(shí)現(xiàn)信息互聯(lián)。

圖5:為了描述圖片中所有的內(nèi)容物和相互之間的關(guān)系,Visual Genome數(shù)據(jù)集中包括了數(shù)條人類標(biāo)注的區(qū)域描述,每個(gè)區(qū)域周圍都有一個(gè)邊框。在這里,我們展示了3條區(qū)域描述:“man jumping over a fire hydrant”,“yellow fire hydrant”,以及“woman in shorts is standing behind the man”。

2.3 一組屬性

Visual Genome中,平均每張圖片有16個(gè)屬性。一個(gè)物體可以有0個(gè)或是更多的屬性。屬性可以是顏色(比如yellow),狀態(tài)(比如standing),等等(見圖7)。就像我們從區(qū)域描述中提取物體一樣,我們也能提取出這些物體自身的屬性。在圖7中,從短語“yellow fire hydrant”里,我們提取到了“fire hydrant”有“yellow”屬性。和物體一樣,我們也把屬性在WordNet中規(guī)范化;比如,yellow被映射到y(tǒng)ellow.s.01 (of the color intermediate between green and orange in the color spectrum; of something resembling the color of an egg yolk)。

2.4 一組關(guān)系

“關(guān)系”將兩個(gè)物體關(guān)聯(lián)到一起,可以是動(dòng)作(比如jumping over),空間位置(比如is behind),動(dòng)詞(比如wear),介詞(比如with),比較詞(比如taller than),或者是介詞短語(比如drive on)。例如,從區(qū)域描述“man jumping over fire hydrant”中,我們提取到物體man和物體fire hydrant之間的關(guān)系是jumping over(見圖8)。這些關(guān)系是從一個(gè)物體(也叫主體)指向另一個(gè)物體(也叫客體)的。在這個(gè)例子里,主體是man,他正在對客體fire hydrant表現(xiàn)出jumping over的關(guān)系。每個(gè)關(guān)系也在WordNet中有規(guī)范化的synset ID:jumping被映射到j(luò)ump.a.1 (move forward by leaps and bounds)。平均而言,我們數(shù)據(jù)集中的每張圖片包含18個(gè)關(guān)系。

圖6:從所有的區(qū)域描述中,我們提取了涉及到物體的描述。例如,從“man jumping over a fire hydrant”中,我們提取了“man”和“fire hydrant”。
圖7:一些描述也提供了物體的屬性信息。例如,區(qū)域描述“yellow fire hydrant”中意味著fire hydrant的顏色是yellow。在這里,我們展示了2種屬性:yellow和standing。
圖8:我們的數(shù)據(jù)集也捕捉了圖片中物體與物體之間的關(guān)系和交互。在這個(gè)例子里,我們展示了發(fā)生在物體man和物體fire hydrant之間的jumping over關(guān)系。

2.5 一組區(qū)域圖

我們將從區(qū)域描述中提取的物體、屬性、以及關(guān)系結(jié)合在一起,每42個(gè)區(qū)域創(chuàng)造一幅有向圖表征。區(qū)域圖的樣子見圖4。每幅區(qū)域圖都是對于圖片的一部分所做的結(jié)構(gòu)化表征。區(qū)域圖中的節(jié)點(diǎn)代表物體、屬性、以及關(guān)系。物體與它們各自的屬性相連,而關(guān)系則從一個(gè)物體指向另一個(gè)物體。圖4中連接兩個(gè)物體的箭頭,從主體物體指向關(guān)系,再從關(guān)系指向其他物體。

2.6 全景圖

區(qū)域圖是一張圖片某一區(qū)域的表征,我們也將它們?nèi)诤显谝黄鸪蔀橐环鼙碚髡麖垐D片的全景圖。全景圖是所有區(qū)域圖的拼合,包括每個(gè)區(qū)域描述中所有的物體、屬性、以及關(guān)系。通過這個(gè)方式,我們能夠以更連貫的方式結(jié)合多個(gè)層次的全景信息。例如,在圖4中,最左邊的區(qū)域描述告訴我們“fire hydrant is yellow”,而中間的區(qū)域描述告訴我們“man is jumping over the fire hydrant”。將它們拼合在一起以后,這兩個(gè)描述告訴我們的是“man is jumping over a yellow fire hydrant”。

2.7 一組問答

我們的數(shù)據(jù)集中,每張圖片都有兩類問答:基于整張圖片的隨意問答(freeform QAs),以及基于選定區(qū)域的區(qū)域問答(region-based QAs)。我們?yōu)槊繌垐D片收集了6個(gè)不同類型的問題:what,where,how,when,who,以及why。在圖4中,“問:女人站在什么的邊上?;答:她的行李”就是一個(gè)隨意問答。每張圖片的問題都包含了這6個(gè)類型,每個(gè)類型至少有1個(gè)問題。區(qū)域問答是通過區(qū)域描述收集的。例如,我們通過“黃色消防栓”的描述收集到了這個(gè)區(qū)域問答:“問:消防栓是什么顏色的?;答:黃色”。區(qū)域問答讓我們能夠獨(dú)立地研究如何優(yōu)先運(yùn)用NLP和視覺來回答問題。

3、眾包策略

Visual Genome的數(shù)據(jù)收集和驗(yàn)證工作全部是由Amazon Mechanical Turk的眾包工人(crowd workers)完成的。在這一節(jié)中,我們概括了一些創(chuàng)造數(shù)據(jù)集時(shí)運(yùn)用到的途徑。每個(gè)元素(區(qū)域描述、物體、屬性、關(guān)系、區(qū)域圖、全景圖、問答)都包含了多個(gè)任務(wù)階段。我們用了不同的策略來讓保持?jǐn)?shù)據(jù)的準(zhǔn)確性和每個(gè)元素的多樣性。我們也提供了這些幫助Visual Genome建立起來的眾包工人的背景信息。

3.1 驗(yàn)證

一旦標(biāo)注完成,所有的Visual Genome數(shù)據(jù)都會(huì)進(jìn)入一個(gè)驗(yàn)證階段。這個(gè)階段能夠幫助消除被錯(cuò)誤標(biāo)記的物體、屬性、以及關(guān)系。它也能夠幫助移除一些可能正確卻有些含糊(比如“這個(gè)人看上去在享受陽光”)、主觀(比如“屋子看上去很臟”)、或是武斷(比如“暴露在這種艷陽下可能會(huì)導(dǎo)致癌癥”)的區(qū)域描述和問答。

驗(yàn)證是通過兩種不同的策略實(shí)施的:多數(shù)人投票(majority voting)和快速判斷(rapid judgments)。數(shù)據(jù)集中除了物體之外的元素都是使用多數(shù)人投票的方式來驗(yàn)證的。多數(shù)人投票的方法是,由3個(gè)眾包工人閱讀每一條注釋,隨后判斷注釋是否在事實(shí)上是正確的(factually correct)。只有當(dāng)3人中至少2人認(rèn)可后,這條注釋才會(huì)被加入我們的數(shù)據(jù)集中。

我們只在物體的判別上使用快速判斷來加快驗(yàn)證速度。快速判斷用到一種受快速序列視覺加工(rapid serial visual processing)所啟發(fā)而產(chǎn)生的交互界面,能夠讓對物體的驗(yàn)證在速度上比多數(shù)人投票有量級的提升。

3.2 規(guī)則化

我們收集的所有描述和問答都是眾包工人們寫下的形式自由的文字。例如,我們并不強(qiáng)迫眾包工人一定要將圖片中的一個(gè)男性寫作man。我們允許他們擇取各種表達(dá),比如person,boy,man,等等。這種模糊性使得我們難以從數(shù)據(jù)集中收集所有man的例子。為了減少這些概念的模糊性、并將我們的數(shù)據(jù)集與學(xué)術(shù)圈中使用的其他資源相聯(lián)系,我們將所有的物體、屬性、關(guān)系、以及區(qū)域描述和問答中名詞短語都映射到了WordNet的同義詞集合(synset)中。在剛才的例子里,person、boy、和man會(huì)被分別映射到以下同義詞集合:person.n.01 (a human being),male_child.n.01 (a youthful male person),以及man.n.03 (the generic use of the word to refer to any human being)。由于WordNet具有的層級結(jié)構(gòu),我們可以將這三種表達(dá)都融入到同一個(gè)概念(person.n.01 (a human being))中——因?yàn)檫@是這幾個(gè)同義詞集合的最低層次公共祖先節(jié)點(diǎn)(lowest common ancestor node)。

我們使用Stanford NLP工具來從區(qū)域描述和問答中提取名詞短語。接著,根據(jù)WordNet的詞素計(jì)數(shù)(lexeme counts),我們將它們映射到WordNet中最頻繁匹配(most frequent matching)的同義詞集合里。隨后,我們?yōu)?0中最常見的失敗案例人工創(chuàng)造了映射規(guī)則,以此完善這種簡單的映射邏輯。比如,根據(jù)WordNet的詞素計(jì)數(shù),table最常見的語義是table.n.01 (a set of data arranged in rows and columns)。然而在我們的數(shù)據(jù)中,更有可能出現(xiàn)家具,因此映射應(yīng)該傾向于table.n.02 (a piece of furniture having a smooth flat top that is usually supported by one or more vertical legs)。全景圖中的物體已經(jīng)是名詞短語了,也依據(jù)相同的方式映射到WordNet中。

我們基于形態(tài)學(xué)(morphology)對每一個(gè)屬性都做了正態(tài)化,并將它們映射到WordNet中。我們另外加入了15個(gè)人工創(chuàng)造的規(guī)則來應(yīng)對常見的失敗案例。例如,同義詞集合long.a.02 (of relatively great or greater than average spatial extension)在WordNet中不如long.a.01 (indicating a relatively great or greater than average duration of time)常見,但是這個(gè)詞在我們的圖片中更有可能指的是前者。

對于關(guān)系,我們忽略了其中所有的介詞,因?yàn)榻樵~無法被WordNet識別。因?yàn)閯?dòng)詞的意思在很大程度上依賴于它們的形態(tài)和在句子中的位置(例如,被動(dòng)態(tài)、介詞短語),我們嘗試在WordNet中尋找語句框架與數(shù)據(jù)集中關(guān)系的語境相匹配的同義詞集合。WordNet中的語句框架是一種形式化的語法框架,例如,play.v.01: participate in games or sport出現(xiàn)在“Somebody [play]s”和“Somebody [play]s something”。隨后,對于每個(gè)動(dòng)詞-同義詞集合的配對,我們使用這個(gè)同義詞集合的根源上位詞,以此降低WordNet細(xì)致的語義區(qū)分可能帶來的噪音。WordNet的動(dòng)詞層級來自超過100個(gè)根源動(dòng)詞。例如,draw.v.01: cause to move by pulling可以追溯回根源上位詞move.v.02: cause to move or shift into a new position,而draw.v.02: get or derive可以追溯回根源上位詞get.v.01: come into the possession of something concrete or abstract。我們也人工添加了20條規(guī)則,用以應(yīng)對常見失敗案例。

這些映射并不是完美的,仍然含有一些模糊性。因此,我們將每個(gè)映射和它最有可能的4個(gè)候選同義詞集合發(fā)送給Amazon Mechanical Turk,讓眾包工人們來驗(yàn)證我們的映射是否正確、是否有哪個(gè)候選同義詞集合更合適。我們像眾包工人們展示我們想要規(guī)范化的概念與我們提出的對應(yīng)同義詞集合,并給出另外4個(gè)候選同義詞集合。為了防止眾包工人們總是默認(rèn)我們提出的同義詞集合最合適,我們并不會(huì)直白地標(biāo)示出5個(gè)同義詞集合中哪個(gè)是我們提出的。5.8節(jié)列出了我們規(guī)范化策略的實(shí)驗(yàn)精確率(precision)和召回率(recall)。

4.未來應(yīng)用

我們已經(jīng)分析了這個(gè)數(shù)據(jù)集的各個(gè)組成部分,并且呈現(xiàn)了基于像是屬性分類、關(guān)系分類、描述生成、回答問題等任務(wù)的基線實(shí)驗(yàn)結(jié)果。然而,我們的數(shù)據(jù)集能夠用于更多的應(yīng)用和實(shí)驗(yàn)任務(wù)中。在這個(gè)章節(jié)中,我們列舉了一些未來可能會(huì)使用到我們數(shù)據(jù)集的一些潛在應(yīng)用。

密集的圖像注釋。我們已經(jīng)看到了許多關(guān)于圖像注釋的論文(如:Kiros et al.,2014,Mao et al.,2014,Karpathy and Fei-Fei,2014,Vinyals et al.,2014)。這些論文的大致思想都是嘗試用一個(gè)圖像注釋來描述一整幅圖像。然而,這些圖像注釋并沒有詳盡地描述圖像中每一部分的場景。但是通過啟用Visual Genome 數(shù)據(jù)集,能夠使得這種應(yīng)用獲得一個(gè)自然的延伸。即是通過在Visual Genome 數(shù)據(jù)集上進(jìn)行模型的訓(xùn)練,創(chuàng)造出描述圖像中每部分場景的密集圖像注釋模型。

視覺問答。雖然視覺問答作為一個(gè)獨(dú)立的任務(wù)被研究。(Yu et al.,2015,Ren et al.,2015a,Antol et al.,2015,Gao et al.,2015),但是我們引進(jìn)了一個(gè)將所有問題的答案說明和場景圖片結(jié)合起來的數(shù)據(jù)集。未來工作可以創(chuàng)建一個(gè)用Visual Genome(視覺基因組) 數(shù)據(jù)集的各個(gè)組件來解決視覺問答的監(jiān)督模型。

圖像理解。雖然我們已經(jīng)看到圖像注釋(Kiros et al.,2014)和問答模型(Antol et al.,2015)的迅猛發(fā)展。但是基于此還有一些工作還有待完成。即是創(chuàng)建更多的綜合評價(jià)指標(biāo)來衡量這些模型的性能。這樣的模型通常用BLEU,CIDEr,或者是METEOR和其它與這些指標(biāo)相似的指標(biāo)來進(jìn)行模型性能的評估。但是這些指標(biāo)不能很好地評估出這些模型在理解圖像方面(Chen et al.,2015)的性能如何。Visual Genome 數(shù)據(jù)集中的場景圖片可以被用來作為在圖像理解方面模型性能的一種評估方式。生成性的描述和答案可以通過與圖像的地面真實(shí)場景圖進(jìn)行匹配來對其相應(yīng)的模型進(jìn)行評估。

關(guān)系提取。關(guān)系提取已經(jīng)在信息檢索和自然語言處理領(lǐng)域中被廣泛地研究。(Zhou et al.,2007,GuoDong et al.,2005,Culotta and Sorensen,2004,Socher et al.,2012).Visual Genome 數(shù)據(jù)集是第一個(gè)大規(guī)模的視覺關(guān)系數(shù)據(jù)集。這個(gè)數(shù)據(jù)集能夠被用于圖像視覺關(guān)系提取(Sadeghi et al.,2015)的研究中,并且對象之間的相互作用也能夠被用于行為識別的研究(Yao and Fei-Fei,2010,Ramanathan et al.,2015)以及對象之間的空間定位(Gupta et al.,2009,Prest et al.,2012)的研究中。

語義圖像檢索。之前的工作已經(jīng)表明:場景圖片能夠被用來改善語義圖像搜索性能(Johnson et al.,2015,Schuster et al.,2015)。未來新的方法可以用我們的區(qū)域描述與區(qū)域圖片相結(jié)合來進(jìn)行探測。基于注意力(Attention-based)的搜索方法也能夠通過由查詢指定的并且也定位在檢索到的圖像中的感興趣區(qū)域來進(jìn)行探測。

5.結(jié)論

Visual Genome 數(shù)據(jù)集提供了一個(gè)多層次的圖片理解,基于此,也能基于多角度對一幅圖像進(jìn)行研究。從像素級信息(如對象),到要求進(jìn)一步推導(dǎo)的關(guān)系模型,甚至到更深層次的認(rèn)知任務(wù)(如 視覺問答)。從模型的訓(xùn)練和定立下一代計(jì)算機(jī)視覺模型基準(zhǔn)兩方面來說,Visual Genome 是一個(gè)全面的數(shù)據(jù)集,我們希望這些模型能夠建立一個(gè)對我們視覺世界更廣泛的理解。完善檢測對象的計(jì)算機(jī)能力,并且這些被檢測的對象要同時(shí)兼顧能夠描述那些對象以及解釋對象之間的相互作用和關(guān)系的能力。對于視覺理解和一個(gè)更加完整的描述集以及基于視覺概念到語言的視覺問答模型來說,Visual Genome 數(shù)據(jù)集是一個(gè)大型的形式化的知識表述。

轉(zhuǎn)載自:后 ImageNet 時(shí)代:李飛飛視覺基因組重磅計(jì)劃,新一輪競賽!

其實(shí)轉(zhuǎn)載這篇文章是因?yàn)楦杏XVisual Genome蠻不錯(cuò)的。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,967評論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,273評論 3 415
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,870評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,742評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,527評論 6 407
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,010評論 1 322
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,108評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,250評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,769評論 1 333
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,656評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,853評論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,371評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,103評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,472評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,717評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,487評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,815評論 2 372

推薦閱讀更多精彩內(nèi)容

  • 這些年計(jì)算機(jī)視覺識別和搜索這個(gè)領(lǐng)域非常熱鬧,后期出現(xiàn)了很多的創(chuàng)業(yè)公司,大公司也在這方面也花了很多力氣在做。做視覺搜...
    方弟閱讀 6,535評論 6 24
  • 1.論文相關(guān) 論文題目:Visual Translation Embedding Network for Visu...
    uptina閱讀 2,859評論 1 2
  • 這個(gè)影片是小提琴大師帕爾曼(就是家喻戶曉的《辛德勒名單》演奏者)講解的,通篇都是 門德爾松的 e小調(diào)小提琴協(xié)奏曲,...
    xu54閱讀 692評論 1 0
  • 有時(shí)候,越是失去的越是想要留住 好比,你已經(jīng)不再愛我了,我卻還想要不停地回味過去 或者,你都已經(jīng)離開了,我卻還是念...
    hi少女心閱讀 663評論 0 0
  • 2017年6月17日,星期六,晴。王坤(84) 有句老話:“大人說話圖自在。”說話隨性自在的大人不容易樹...
    王兆雙閱讀 268評論 0 2