輿情分析平臺(tái)又可稱為“輿情監(jiān)測(cè)分析及預(yù)警響應(yīng)系統(tǒng)開(kāi)發(fā)”,作為項(xiàng)目總結(jié)的第一篇文章,我會(huì)詳細(xì)的介紹工作的中的各個(gè)流程。
項(xiàng)目描述:
該項(xiàng)目運(yùn)用爬蟲(chóng)爬取互聯(lián)網(wǎng)上新聞數(shù)據(jù),采用自然語(yǔ)言處理方法對(duì)新聞數(shù)據(jù)進(jìn)行分析,使得能夠監(jiān)測(cè)并預(yù)警互聯(lián)網(wǎng)中的熱點(diǎn)事件
地址:http://101.204.243.86:9000/index.html#pages-2
項(xiàng)目時(shí)間:
2015.12 - 2016.06
主要工作:
1、對(duì)元數(shù)據(jù)進(jìn)行清洗
2、將清洗后的數(shù)據(jù)進(jìn)行分詞和詞性標(biāo)注
3、對(duì)數(shù)據(jù)進(jìn)行去停用詞和高頻詞統(tǒng)計(jì)
下面詳細(xì)介紹項(xiàng)目工作流程及我做的主要工作:
該項(xiàng)目是我接觸的第一個(gè)項(xiàng)目,剛剛接觸該項(xiàng)目時(shí)是一種懵逼的狀態(tài)。大師兄在知乎做算法工作,工作經(jīng)驗(yàn)豐富,抽時(shí)間會(huì)帶帶我們。項(xiàng)目總共分為五組,分別是爬蟲(chóng)組、算法組、后端組、前端組、UI組。我和另外幾個(gè)師兄弟主要承擔(dān)算法工作。
爬蟲(chóng)組:負(fù)責(zé)爬取數(shù)據(jù)。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)就是資源、數(shù)據(jù)就是金錢。我們的數(shù)據(jù)來(lái)源來(lái)期初來(lái)自于幾個(gè)大的新聞網(wǎng)站,如今日頭條、新浪新聞、搜狗新聞等等,到后來(lái)又陸續(xù)增加了幾十個(gè)數(shù)據(jù)源,在此就不一一細(xì)說(shuō)。
算法組:處理數(shù)據(jù),是整個(gè)項(xiàng)目組的核心部分。在此,我將爬蟲(chóng)組的趴下來(lái)的某種格式的數(shù)據(jù)稱之為元數(shù)據(jù)(這不是我起的名,早之前就有)。首先算法組要做的就是對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,清晰掉一些無(wú)用的格式(如url、圖片格式等),這些東西對(duì)文本處理沒(méi)有任何幫助。保留的部分主要有uuid、title、正文、等主要的部分。其次將處理后的數(shù)據(jù)進(jìn)行用NLP的方式進(jìn)行數(shù)據(jù)處理:分詞、詞性標(biāo)注(jieba)、去停用詞(整理的停用詞典)、統(tǒng)計(jì)詞頻(高頻詞)、關(guān)鍵詞與文本摘要(textrank4zh)、情感分析、事件聚類(LDA)、事件熱度及事件影響力分析等,然后將數(shù)據(jù)入庫(kù)(MongoDB)。此外,算法組另一個(gè)重要的工作就是和后端組進(jìn)行數(shù)據(jù)對(duì)接。
后端組:主要具體做的工作我不是很清楚。下面我說(shuō)下我的理解:后端組是實(shí)現(xiàn)整個(gè)demo的一部分,首選要和算法組進(jìn)行對(duì)接數(shù)據(jù),然后就是對(duì)整個(gè)demo的架構(gòu)喲一個(gè)設(shè)計(jì)。總的來(lái)說(shuō),后端更多的是與數(shù)據(jù)庫(kù)進(jìn)行交互以處理相應(yīng)的業(yè)務(wù)邏輯。需要考慮的是如何實(shí)現(xiàn)功能、數(shù)據(jù)的存取、平臺(tái)的穩(wěn)定性與性能等。
前端組:顧名思義就是泛指Web前端,也就是在Web應(yīng)用中用戶可以看得見(jiàn)碰得著的東西,包括Web頁(yè)面的結(jié)構(gòu)、Web的外觀視覺(jué)表現(xiàn)以及Web層面的交互實(shí)現(xiàn)。
UI組:User Interface(用戶界面),簡(jiǎn)稱UI,是指對(duì)軟件的人機(jī)交互、操作邏輯、界面美觀的整體設(shè)計(jì)。簡(jiǎn)單的說(shuō),就是對(duì)設(shè)計(jì)各種沒(méi)關(guān)的界面。
由于后面三個(gè)組的工作我不是很清楚,這里就不細(xì)說(shuō)。
總之,除了爬蟲(chóng)組要和算法組之間進(jìn)行一些數(shù)據(jù)格式的溝通外,剩下的幾個(gè)組之間要不斷溝通、相互協(xié)作才能共同推進(jìn)項(xiàng)目的進(jìn)展。在改項(xiàng)目中,我主要負(fù)責(zé)數(shù)據(jù)清洗、分詞與詞性標(biāo)注、去停用詞、高頻詞等工作。簡(jiǎn)而言之,在該該項(xiàng)目中,我也得到了初步的鍛煉,讓我對(duì)做工程充滿了敬畏與期待!