原文鏈接:https://districtdatalabs.silvrback.com/modern-methods-for-sentiment-analysis
原文作者:Michael Czerny
? ? ?? 情感分析是一種常見的自然語言處理(NLP)方法的應用,特別是在以提取文本的情感內容為目標的分類方法中。通過這種方式,情感分析可以被視為利用一些情感得分指標來量化定性數據的方法。盡管情緒在很大程度上是主觀的,但是情感量化分析已經有很多有用的實踐,比如企業分析消費者對產品的反饋信 息,或者檢測在線評論中的差評信息。
? ? ?? 最簡單的情感分析方法是利用詞語的正負屬性來判定。句子中的每個單詞都有一個得分,樂觀的單詞得分為 +1,悲觀的單詞則為 -1。然后我們對句子中所有單詞得分進行加總求和得到一個最終的情感總分。很明顯,這種方法有許多局限之處,最重要的一點在于它忽略了上下文的信息。例如,在這個簡易模型中,因為“not”的得分為 -1,而“good”的得分為 +1,所以詞組“not good”將被歸類到中性詞組中。盡管詞組“not good”中包含單詞“good”,但是人們仍傾向于將其歸類到悲觀詞組中。
? ? ?? 另外一個常見的方法是將文本視為一個“詞袋”。我們將每個文本看出一個1xN的向量,其中N表示文本詞匯的數量。該向量中每一列都是一個單詞, 其對應的值為該單詞出現的頻數。例如,詞組“bag of bag of words”可以被編碼為 [2, 2, 1]。這些數據可以被應用到機器學習分類算法中(比如羅吉斯回歸或者支持向量機),從而預測未知數據的情感狀況。需要注意的是,這種有監督學習的方法要求利用已知情感狀況的數據作為訓練集。雖然這個方法改進了之前的模型,但是它仍然忽略了上下文的信息和數據集的規模情況。
Word2Vec 和 Doc2Vec
? ? ?? 最近,谷歌開發了一個叫做 Word2Vec 的方法,該方法可以在捕捉語境信息的同時壓縮數據規模。Word2Vec實際上是兩種不同的方法:Continuous Bag of Words (CBOW) 和 Skip-gram。CBOW的目標是根據上下文來預測當前詞語的概率。Skip-gram剛好相反:根據當前詞語來預測上下文的概率(如圖 1 所示)。這兩種方法都利用人工神經網絡作為它們的分類算法。起初,每個單詞都是一個隨機 N 維向量。經過訓練之后,該算法利用 CBOW 或者 Skip-gram 的方法獲得了每個單詞的最優向量。
? ? ? ? 現在這些詞向量已經捕捉到上下文的信息。我們可以利用基本代數公式來發現單詞之間的關系(比如,“國王”-“男人”+“女人”=“王后”)。這些詞向量可以代替詞袋用來預測未知數據的情感狀況。該模型的優點在于不僅考慮了語境信息還壓縮了數據規模(通常情況下,詞匯量規模大約在300個單詞左右而不是之前模型的100000個單詞)。因為神經網絡可以替我們提取出這些特征的信息,所以我們僅需要做很少的手動工作。但是由于文本的長度各異,我們可能需要利用所有詞向量的平均值作為分類算法的輸入值,從而對整個文本文檔進行分類處理。
? ? ?? 然而,即使上述模型對詞向量進行平均處理,我們仍然忽略了單詞之間的排列順序對情感分析的影響。作為一個處理可變長度文本的總結性方法,Quoc Le 和 Tomas Mikolov 提出了 Doc2Vec方法。除了增加一個段落向量以外,這個方法幾乎等同于 Word2Vec。和 Word2Vec 一樣,該模型也存在兩種方法:Distributed Memory(DM) 和 Distributed Bag of Words(DBOW)。DM 試圖在給定上下文和段落向量的情況下預測單詞的概率。在一個句子或者文檔的訓練過程中,段落 ID 保持不變,共享著同一個段落向量。DBOW 則在僅給定段落向量的情況下預測段落中一組隨機單詞的概率。(如圖 2 所示)
? ? ?? 一旦開始被訓練,這些段落向量可以被納入情感分類器中而不必對單詞進行加總處理。這個方法是當前最先進的方法,當它被用于對 IMDB 電影評論數據進行情感分類時,該模型的錯分率僅為 7.42%。當然如果我們無法真正實施的話,一切都是浮云。幸運的是,genism(Python 軟件庫)中 Word2Vec 和 Doc2Vec 的優化版本是可用的。
利用 Python 實現的 Word2Vec 實例
? ? ?? 在本節中,我們展示了人們如何在情感分類項目中使用詞向量。我們可以在 Anaconda 分發版中找到 genism 庫,或者可以通過 pip 安裝 genism 庫。從這里開始,你可以訓練自己語料庫(一個文本數據集)的詞向量或者從文本格式或二進制格式文件中導入已經訓練好的詞向量。
? ? ?? 我發現利用谷歌預訓練好的詞向量數據來構建模型是非常有用的,該詞向量是基于谷歌新聞數據(大約一千億個單詞)訓練所得。需要注意的是,這個文件解壓后的大小是 3.5 GB。利用谷歌的詞向量我們可以看到單詞之間一些有趣的關系:
有趣的是,我們可以從中發現語法關系,比如識別出最高級或單詞形態的單詞:
“biggest”-“big”+“small”=“smallest”
“ate”-“eat”+“speak”=“spoke”
? ? ?? 從上述的例子中我們可以看出 Word2Vec 可以識別單詞之間重要的關系。這使得它在許多 NLP 項目和我們的情感分析案例中非常有用。在我們將它運用到情感分析案例之前,讓我們先來測試下 Word2Vec 對單詞的分類能力。我們將利用三個分類的樣本集:食物、運動和天氣單詞集合,我們可以從Enchanted Learning網中下載得到這三個數據集。由于這是一個 300 維的向量,為了在 2D 視圖中對其進行可視化,我們需要利用 Scikit-Learn 中的降維算法 t-SNE 處理源數據。
首先,我們必須獲得如下所示的詞向量:
然后我們利用 TSNE 和 matplotlib 對分類結果進行可視化處理:
可視化結果如下圖所示:
從上圖可以看出,Word2Vec 很好地分離了不相關的單詞,并對它們進行聚類處理。
Emoji 推文的情感分析
? ? ?? 現在我們將分析帶有 Emoji 表情推文的情感狀況。我們利用 emoji 表情對我們的數據添加模糊的標簽。笑臉表情(:-))表示樂觀情緒,皺眉標簽(:-()表示悲觀情緒。總的 400000 條推文被分為樂觀和悲觀兩組數據。我們隨機從這兩組數據中抽取樣本,構建比例為 8:2 的訓練集和測試集。隨后,我們對訓練集數據構建 Word2Vec 模型,其中分類器的輸入值為推文中所有詞向量的加權平均值。我們可以利用 Scikit-Learn 構建許多機器學習模型。
首先,我們導入數據并構建 Word2Vec 模型:
接下來,為了利用下面的函數獲得推文中所有詞向量的平均值,我們必須構建作為輸入文本的詞向量。
? ? ?? 調整數據集的量綱是數據標準化處理的一部分,我們通常將數據集轉化成服從均值為零的高斯分布,這說明數值大于均值表示樂觀,反之則表示悲觀。為了使模型更有效,許多機器學習模型需要預先處理數據集的量綱,特別是文本分類器這類具有許多變量的模型。
最后我們需要建立測試集向量并對其標準化處理:
? ? ?? 接下來我們想要通過計算測試集的預測精度和 ROC 曲線來驗證分類器的有效性。 ROC 曲線衡量當模型參數調整的時候,其真陽性率和假陽性率的變化情況。在我們的案例中,我們調整的是分類器模型截斷閾值的概率。一般來說,ROC 曲線下的面積(AUC)越大,該模型的表現越好。你可以在這里找到更多關于 ROC 曲線的資料
(https://en.wikipedia.org/wiki/Receiver_operating_characteristic)
在這個案例中我們使用羅吉斯回歸的隨機梯度下降法作為分類器算法。
隨后我們利用 matplotlib 和 metric 庫來構建 ROC 曲線。
ROC 曲線如下圖所示:
? ? ?? 在沒有創建任何類型的特性和最小文本預處理的情況下,我們利用 Scikit-Learn 構建的簡單線性模型的預測精度為 73%。有趣的是,刪除標點符號會影響預測精度,這說明 Word2Vec 模型可以提取出文檔中符號所包含的信息。處理單獨的單詞,訓練更長時間,做更多的數據預處理工作,和調整模型的參數都可以提高預測精度。我發現使用人工神 經網絡(ANNs)模型可以提高 5% 的預測精度。需要注意的是,Scikit-Learn 沒有提供 ANN 分類器的實現工具,所以我利用了自己創建的自定義庫:
分類結果的精度為 77%。對于任何機器學習項目來說,選擇正確的模型通常是一種藝術而非科學的行為。如果你想要使用我自定義的庫,你可以在我的 github 主頁上找到它,但是這個庫非常混亂而且沒有定期維護!如果你想要貢獻自己的力量,請隨時復刻我的項目。
利用 Doc2Vec 分析電影評論數據
? ? ?? 利用詞向量均值對推文進行分析效果不錯,這是因為推文通常只有十幾個單詞,所以即使經過平均化處理仍能保持相關的特性。一旦我們開始分析段落數據時,如果忽略上下文和單詞順序的信息,那么我們將會丟掉許多重要的信息。在這種情況下,最好是使用 Doc2Vec 來創建輸入信息。作為一個示例,我們將使用 IMDB 電影評論數據及來測試 Doc2Vec 在情感分析中的有效性。該數據集包含 25000 條樂觀的電影評論,25000 條悲觀評論和 50000 條尚未添加標簽的評論。我們首先對未添加標簽的評論數據構建 Doc2Vec 模型:
這個代碼創建了 LabeledSentence 類型的對象:
接下來,我們舉例說明 Doc2Vec 的兩個模型,DM 和 DBOW。gensim 的說明文檔建議多次訓練數據集并調整學習速率或在每次訓練中打亂輸入信息的順序。我們從Doc2Vec 模型中獲得電影評論向量。
現在我們準備利用評論向量構建分類器模型。我們將再次使用 sklearn 中的 SGDClassifier。
這個模型的預測精度為 86%,我們還可以利用下面的代碼繪制 ROC 曲線:
原論文中聲稱:與簡單羅吉斯回歸模型相比,他們利用 50 個節點的神經網絡分類器能獲得較高的預測精度。
? ? ?? 有趣的是,在這里我們并沒有看到這樣的改進效果。該模型的預測精度為 85%,我們沒有看到他們所聲稱的 7.42% 誤差率。這可能存在以下幾個原因:我們沒有對訓練集和測試集進行足夠多的訓練,他們的 Doc2Vec 和 ANN 的實現方法不一樣等原因。因為論文中沒有詳細的說明,所以我們很難知道到底是哪個原因。不管這么說,沒有經過很多的數據預處理和變量選擇過程,我們仍然取 得了 86% 的預測精度。而且這不需要復雜的卷積和樹圖資料庫。
結論
? ? ?? 我希望你已經看到 Word2Vec 和 Doc2Vec 的實用性和便捷性。通過一個非常簡單的算法,我們可以獲得豐富的詞向量和段落向量,這些向量數據可以被應用到各種各樣的 NLP 應用中。更關鍵的是谷歌公司開放了他們自己的預訓練詞向量結果,這個詞向量是基于一個別人難以獲取的大數據集而訓練得到的。如果你想要在大數據集中訓練自己的向量結果,現在已經有一個基于 Apache Spark 的 Word2Vec 實現工具。
(https://spark.apache.org/mllib/)