用圖的分解和卷積來做文本匹配

一句話描述整個(gè)框架:

用一種新穎的方式把文本對(duì)表示成一個(gè)“概念交互圖(Concept Interaction Graph,CIG)”,然后使用GCN來進(jìn)行表示,然后訓(xùn)練一個(gè)分類器去判斷兩個(gè)文本是否匹配。

論文亮點(diǎn):

  1. CIG這種表示方法很有意思,值得借鑒
  2. 文章慷慨的開放了一個(gè)中文文本匹配數(shù)據(jù)集,供研究者使用
    兩個(gè)數(shù)據(jù)集:
    ①兩條新聞是否描述同一個(gè)熱點(diǎn)(細(xì))
    ②兩條新聞是否屬于同一個(gè)事件/故事(粗)

CIG:

把文檔表示成一個(gè)無向有權(quán)圖,每個(gè)文檔被分割成一個(gè)個(gè)句子的集合,而每一個(gè)集合都對(duì)應(yīng)著一個(gè)文檔的重要概念(concept)。

到底什么是所謂的“概念”?

概念,在這里就是指文章的關(guān)鍵詞,或者一組關(guān)系緊密的關(guān)鍵詞。

怎么得到這些關(guān)鍵詞?

沒什么特別的,就用常見的關(guān)鍵詞抽取算法,比如TextRank。

關(guān)鍵詞怎么組成概念?

通過聚類,具體的方式是采用圖數(shù)據(jù)中的community detection。

文檔構(gòu)建CIG的例子:


構(gòu)建CIG的步驟:

  1. 構(gòu)建關(guān)鍵詞網(wǎng)絡(luò)
    提取出關(guān)鍵詞后,采用詞與詞之間的共現(xiàn)關(guān)系來構(gòu)建關(guān)鍵詞網(wǎng)絡(luò)。

  2. 概念發(fā)掘(可選)
    通過社區(qū)發(fā)掘的方法來將關(guān)鍵詞聚類,得到概念。
    實(shí)際上可以直接使用關(guān)鍵詞作為概念。

  3. 句子關(guān)聯(lián)
    在得到概念之后,需要把文檔的一個(gè)個(gè)句子關(guān)聯(lián)到對(duì)應(yīng)的概念上。具體的方式是計(jì)算句子和概念之間的余弦相似度,向量就用TF-IDF表示即可。

  4. 構(gòu)建概念之間的邊
    現(xiàn)在網(wǎng)絡(luò)的node即概念,概念之間的邊表示二者之間的相似度。這里使用每個(gè)概念所對(duì)應(yīng)的句子的整體的TF-IDF作為該概念的表示,從而計(jì)算概念之間的相似度。

通過GCN進(jìn)行文本匹配

一個(gè)文本對(duì)包含兩個(gè)文本A,B。二者合起來,構(gòu)建一個(gè)CIG_{AB}。

通過一種“分而治之”的方式來匹配A和B中的各個(gè)概念,然后再統(tǒng)一起來。

  1. 局部匹配
    用一個(gè)encoder,來把CIG_{AB}中的每一個(gè)concept中的A和B的部分,進(jìn)行編碼,得到該concept的一個(gè)匹配向量。
    例如,使用Siamese Encoder可以這樣處理:


這里,在Siamese進(jìn)行匹配的時(shí)候,不是簡(jiǎn)單地將兩個(gè)向量相減,而是使用這個(gè)公式:


  1. 使用GCN聚合局部匹配信息
    上一步我們得到了每一個(gè)concept的兩個(gè)文本之間的匹配向量,這個(gè)可以當(dāng)做是節(jié)點(diǎn)的特征。于是我們可以直接使用GCN來將各個(gè)concept的匹配情況進(jìn)行聚合。

最后使用GCN輸出的向量作為特征,接一個(gè)分類器,來判斷文本對(duì)是否匹配。

效果:

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,345評(píng)論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,494評(píng)論 3 416
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,283評(píng)論 0 374
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,953評(píng)論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,714評(píng)論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,186評(píng)論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,255評(píng)論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,410評(píng)論 0 288
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,940評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,776評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,976評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,518評(píng)論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,210評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,642評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,878評(píng)論 1 286
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,654評(píng)論 3 391
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,958評(píng)論 2 373

推薦閱讀更多精彩內(nèi)容