【互聯(lián)網(wǎng)潛規(guī)則(二)】敏感詞屏蔽

?前言

全文約1800字,閱讀需3分鐘。

最近對直播比較感興趣,被問到一個問題——如何屏蔽彈幕中的不良內(nèi)容?于是便有了如下的學(xué)習內(nèi)容。不止是彈幕噢~

什么是敏感詞匯?

Q:哪些詞算是敏感詞匯?

A:敏感詞可大致分為以下幾類:政治相關(guān)和人名、迷信邪教、黃賭毒、槍支彈藥類、罵人諷刺類、時事類、廣告和非法信息、其他。(網(wǎng)上有很多專門的敏感詞庫,我在網(wǎng)盤里上傳了一份名為百度內(nèi)部的敏感詞文件,僅供查看https://pan.baidu.com/s/1o8xtX1K。如果失效了,請關(guān)注我的公眾號亂入花間化綠葉,回復(fù)“敏感詞”)

Q:哪些地方容易出現(xiàn)敏感詞?

A:所有傳播的信息都需要,發(fā)送這些垃圾信息的人或者團隊被稱為“垃圾蟲”。

敏感詞不僅出現(xiàn)在社區(qū)論壇、IM聊天、影音娛樂等的評論或上傳信息區(qū)域,還隱藏在頭像、昵稱和簽名這種地方,需要全面鑒別。

Q:哪些地方需要屏蔽?

A:平常我們主要做的屏蔽是廣告過濾、黃賭毒、暴力恐怖、謠言排查等幾種。不同的場合屏蔽的級別不同,而且基于傳播時效性的不同,屏蔽方式分為同步過濾和異步召回

比如彈幕的鼻祖——B站,為了保持彈幕的質(zhì)量,它還需要屏蔽一些刷屏的、內(nèi)容尷尬的彈幕,這些內(nèi)容不算敏感,只是讓人不喜歡。更有甚者,用戶可以根據(jù)顏色、字體大小、展示方式甚至自定義的文本來進行屏蔽,同時,在視頻右邊還有專門的彈幕欄,也就是說,我可以彈幕內(nèi)容當做評論一條條地看而不受其干擾。如圖所示:

怎么屏蔽不良信息?

Q:目前的技術(shù)怎么進行屏蔽?

A:綜合說來,技術(shù)屏蔽手段主要通過特征庫、語義分析、機器學(xué)習等方法來展開。網(wǎng)易易盾對此分了三類:垃圾發(fā)現(xiàn)、垃圾識別、垃圾處理。(以下綜合易盾和joylnwang的博客整理而成。)

Q:垃圾發(fā)現(xiàn)和垃圾識別有什么區(qū)別?

A:不窮的新垃圾(需要學(xué)習),垃圾識別是根據(jù)原有的垃圾庫來識別(需要更新)。

Q:垃圾發(fā)現(xiàn)(針對新垃圾)的技術(shù)實現(xiàn)是怎樣的?

A:①用戶舉報:主要是指用戶在使用產(chǎn)品過程中遇到不良信息,于是進行投訴。

為了保證投訴的效果,我們需要在舉報的便捷性、顯眼展示和獎勵機制上花一些功夫去做,同時還需要建立科學(xué)的舉報分類,不僅方便用戶選擇,還能極大地幫助反垃圾訓(xùn)練特征樣本,綜合來做才能有更好的效果。

②內(nèi)容聚合:主要是通過判斷內(nèi)容的相似性,從而確定是否為垃圾信息。

就文本來說,相似度分為兩個層面,第一是基于編輯距離的文本相似度計算,這種算法是根據(jù)一段文字如何經(jīng)過增刪、移動而轉(zhuǎn)化為另一段文字的操作步數(shù),來計算兩段文字的相似程度,運算的時間和空間復(fù)雜度都很高,對于評論,標題這樣的短文本往往能獲得不錯的效果,缺點是對長文本不太適用,且沒有考慮文本中意群的重要性。

第二個層面涉及到自然語言處理的相關(guān)知識,需要在原始文本中切分出有意義的Term,然后對于兩篇文章的Term集合,運算得出文本的相似程度。復(fù)雜性上要高于前者,但在處理長文本的方面有優(yōu)勢,而且更有可能從意義的角度識別出相似的文本族。(來源http://blog.csdn.net/joylnwang/article/details/6831565)

③蜜罐系統(tǒng):主要是針對專業(yè)的垃圾蟲團體。

通常垃圾蟲都有特定的工具協(xié)助,而這些工具大多會分析頁面元素并進行調(diào)用。

如果在頁面中埋伏一些“蜜罐”,正常的用戶無法看到這些入口,但是程序會直接調(diào)用這些入口進行垃圾信息發(fā)送。比如某一些隱藏的評論主題,只有程序才會去抓取這些主題并對它們發(fā)送垃圾信息。那么進了這些“蜜罐”里的人,都可以被判斷為非正常的用戶。

Q:垃圾識別是指什么?

A:①特征匹配:主要是基于已有垃圾特征進行匹配。

對文本來說,建立敏感詞庫就可以直接屏蔽相關(guān)詞句,同時,對于文字的變種比如簡轉(zhuǎn)繁、加空格、形近字、音近字,都可以有效識別。

對圖片來說,主要是MD5、魯棒哈希、Sift特征識別等手段。對于音頻和視頻也支持MD5匹配。(原諒我實在不能理清后面幾種手段的具體技術(shù)實現(xiàn),不能展開講,有興趣的可以百度。)

總之,這幾種手段可以支持人像識別、動漫識別、相似匹配、圖片旋轉(zhuǎn)裁剪、改變亮度色調(diào)、水印識別等,基本囊括了所有的不良圖片。

②模型匹配:主要是基于機器學(xué)習,可以在沒有具體特征樣本庫的情況下識別內(nèi)容的分類。

音頻文件也通過大量語料學(xué)習能把語音轉(zhuǎn)換成文本,然后進入文本匹配過程。

視頻則通過截圖的方式轉(zhuǎn)換成為圖片識別。

③規(guī)則匹配:也叫模式匹配,分為正則表達式、多模式匹配算法、基于元數(shù)據(jù)的定制等。

百度里的定義是:模式匹配是數(shù)據(jù)結(jié)構(gòu)中字符串的一種基本運算,給定一個子串,要求在某個字符串中找出與該子串相同的所有子串。比如自定義規(guī)則:同IP下5分鐘內(nèi)發(fā)送內(nèi)容相似度超80%的封禁1小時。

Q:垃圾操作是怎么操作?

A:①基礎(chǔ)處理:刪除內(nèi)容,封禁內(nèi)容,封禁用戶,刪除用戶,封禁IP,封禁設(shè)備等常規(guī)手段。

②隱蔽操作:普通的屏蔽操作容易被垃圾蟲感知,當他們發(fā)現(xiàn)被屏蔽時,會想辦法來“破解”反垃圾,故需要進行隱形屏蔽。

比較常見的做法有:垃圾發(fā)送接口返回成功,但實際僅用戶自己可見。例如直播中的彈幕,進行虛擬展示,僅用戶自己可見,其他人都看不到。

③后續(xù)操作:每天把刪除的垃圾內(nèi)容匯總到內(nèi)部分揀平臺,由專業(yè)人員進行分析和對數(shù)據(jù)的分揀標記,完成各種模型以及規(guī)則的升級

以上內(nèi)容可解決大部分的敏感內(nèi)容屏蔽問題,如有疑議,可在評論區(qū)回復(fù),歡迎一起探討~

全文完。【互聯(lián)網(wǎng)潛規(guī)則(一)】作弊與反作弊,鏈接是http://www.lxweimin.com/p/d24633e411ee

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 227,882評論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,208評論 3 414
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 175,746評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,666評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,477評論 6 407
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 54,960評論 1 321
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,047評論 3 440
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,200評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,726評論 1 333
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,617評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,807評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,327評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,049評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,425評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,674評論 1 281
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,432評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,769評論 2 372

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,610評論 25 708
  • 概述及標簽體系搭建 1 概述 隨著信息技術(shù)的迅速發(fā)展和信息內(nèi)容的日益增長,“信息過載”問題愈來愈嚴重,愈發(fā)帶來很大...
    JinkeyAI閱讀 22,850評論 10 241
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 134,781評論 18 139
  • 跟他在一起的這個我努力做到很乖很懂事,不敢表達自己的需要,害怕他覺得我無理取鬧,害怕他的嫌棄與不理解,害怕他因此不...
    周海雙閱讀 439評論 0 0
  • 今天將《孩子的高效能事務(wù)管理法》聽完。后續(xù)需要做的記錄本周七天的事務(wù),然后整理做出表格。因為孩子還小,這個...
    馬行千里玥溢彩閱讀 142評論 0 0