ChatGPT實(shí)在是太火了,以至于帶動(dòng)了整個(gè)NLP(Natural Language Processing 自然語言生成)的研究和認(rèn)知度大受關(guān)注。在整個(gè)NLP的研究和應(yīng)用中,除了最上層的僅僅是應(yīng)用這些類似GPT工具的普通用戶,和最底層的模型算法開發(fā)研究人員,還有很多像我這樣中間層的,喜歡基于機(jī)器學(xué)習(xí)的模型做一些應(yīng)用開發(fā),在需要的場景里為自己定制服務(wù)。
在這個(gè)過程中,了解所用模型的內(nèi)在機(jī)理會(huì)大大幫助我們理解語句形成預(yù)測上的原因,還能在早期發(fā)現(xiàn)模型的缺陷或潛在的一些偏見及固化思維。過去在自然語言處理可解釋性(Interpretability)方面的工作主要集中在分類(Classification)上,而在很大程度上忽視了生成(generation)方向的解析,主要原因還是缺乏專用工具。 最近看了幾篇論文,分享一下Inseq,這是一個(gè) Python 庫,用于對序列生成模型(Sequence Generation Models)的進(jìn)行解釋并提供直觀的顯示。 Inseq 支持對流行的Transformers 架構(gòu)的模型內(nèi)部信息和特征重要性進(jìn)行直觀的打分和提取。
本文中,除了介紹Inseq基本用法,我還將舉一個(gè)利用Inseq的解釋能力來檢測AI的性別偏見的demo。
Inseq
Inseq作為一種比較新的開源Python 庫,它提供了序列生成模型的可解釋性分析(interpretability analysis)。
下圖展示了 Inseq 在某個(gè)AI文本補(bǔ)全的過程中(任務(wù)為“To innovate one should”, AI生成“think outside the box”.),每個(gè)特征(這里可以理解為詞語)為整個(gè)生成語句中的每個(gè)元素的重要性貢獻(xiàn)程度,以及該詞出現(xiàn)的概率,以熱圖形式展現(xiàn)給用戶。
Inseq庫安裝
安裝Inseq的pip命令如下:
!pip install inseq
# install extras for visualization in Jupyter Notebooks
!pip install inseq[notebook,datasets]
Inseq需要在Jupyter Notebook環(huán)境下運(yùn)行其可視化組件,因此請務(wù)必安裝該環(huán)境,可以通過直接安裝Anaconda Navigator完成,在此下載:Anaconda | The World's Most Popular Data Science Platform
如果可以訪問谷歌,也可以使用免費(fèi)的Google Colab Notebook進(jìn)行開發(fā),省去了對本地環(huán)境的影響。
AI語句翻譯分析
用幾行 Python 生成快速分析圖非常簡單。 導(dǎo)入Inseq模塊后,加載模型,并為后續(xù)的輸入選擇合適的歸因(Attribution method)。 在此示例中,我們使用英語到西班牙語的翻譯模型 Helsinki-NLP/opus-mt-en-es,并選擇 integrated_gradients 作為我們的Attribution method。
import inseq
model = inseq.load_model("Helsinki-NLP/opus-mt-en-es", "integrated_gradients")
接下來我們提供一段英語句子,讓其生成翻譯結(jié)果和解析出來的熱圖。
out = model.attribute(
"It's not surprising that bias is always a more serious issue in NLP than wrong information provided.",
n_steps=100
)
out.show()
輸出的熱圖如下所示:
X軸方向是輸入的英語句子,Y軸方向是生成的西班牙語句子,可以看到每個(gè)輸入的單詞對于生成的單詞都有對應(yīng)的分?jǐn)?shù),代表了其對生成的具體內(nèi)容的重要性。
AI文本補(bǔ)全的分析
我們展示的下一個(gè)示例是使用 GPT-2 模型和 gradient_shap 歸因法的文本補(bǔ)全。
這次我提供開頭詞“To introduce my”,讓 GPT-2 用 9 個(gè)Token(可以大致理解為單詞)完成句子:
import inseq
model = inseq.load_model("gpt2", "gradient_shap")
model.attribute(
"To introduce my",
generation_args={"max_new_tokens": 9},
n_steps=150,
internal_batch_size=50
).show()
輸出的熱圖如下所示:
從結(jié)果中,我們可以看到 Inseq 為我們提供了每個(gè)有助于AI生成語句“new book, The Art of The Deal,”的屬性標(biāo)記(我的輸入詞和生成的詞)的分?jǐn)?shù),通過這些分?jǐn)?shù),我們可以大致對該NLP 模型的邏輯有了了解。
AI模型的偏見分析
知道了Inseq如何使用后,我們就可以用它來做一下關(guān)于AI偏見的驗(yàn)證。這個(gè)是近期發(fā)布在HuggingFace平臺上的叫做Bias in MT的有趣應(yīng)用:
https://huggingface.co/spaces/oskarvanderwal/MT-bias-demo
這個(gè)應(yīng)用的目的是評估當(dāng)輸入標(biāo)記不包含對性別的明確定義的時(shí)候,AI如何生成與性別相關(guān)的句子。這其實(shí)是我們?nèi)粘I钪衅毡榇嬖诘囊环N性別偏見,請?jiān)谀X海中快速想象他們是男是女:
護(hù)士
科學(xué)家
工程師
大廚
幼兒園老師
公司CEO
要從腦子里去掉這些固有思維其實(shí)是很難的,同樣地,AI也有這個(gè)問題,因?yàn)樗麄冇?xùn)練的大量語料難免包含我們?nèi)祟悇?chuàng)造的那些偏見思維。
該Demo巧妙地選擇匈牙利語作為源標(biāo)記,而英語作為目標(biāo)翻譯標(biāo)記,因?yàn)樾傺览Z沒有像“he”和“she”這樣的性別詞,兩者都為“?”。 這樣的話,我們就可以嘗試輸入“?”+職業(yè),看看AI是如何將這些職業(yè)解讀為男性或女性的。
從Simple translation的demo頁面,你可以選擇Occupation in Hungarian和Target language,這里我選擇“vezérigazgató”意思是CEO,“en”代表Target Language為英語,然后點(diǎn)擊Translate & Attribute按鈕:
我們觀察到:
該模型自然地將匈牙利語句子翻譯成“他是CEO”。顯著性熱圖顯示,當(dāng)“?”不那么重要,因?yàn)樗荒鼙硎拘詣e時(shí),屬性標(biāo)記“CEO”在翻譯中生成“He”詞的重要性非常高,也就是AI很自然地認(rèn)為CEO應(yīng)該是男的。
當(dāng)你在使用該模型進(jìn)行翻譯工作時(shí),很可能需要在正式發(fā)布文本之前,手動(dòng)介入修改以避免這種偏見產(chǎn)生。
下面是這個(gè)Demo的處理邏輯代碼:
import inseq
from inseq.data.aggregator import AggregatorPipeline, SubwordAggregator, SequenceAttributionAggregator, PairAggregator
model = inseq.load_model("Helsinki-NLP/opus-mt-hu-en", "integrated_gradients")
out = model.attribute(
"? vezérigazgató",
n_steps=150
)
squeezesum = AggregatorPipeline([SubwordAggregator, SequenceAttributionAggregator])
out.show(return_html=True, display=True, aggregator=squeezesum)
然后,如果你對偏見或其他方面的評估有更多想法時(shí),可以將 Helsinki-NLP/opus-mt-hu-en 替換為你要評估的模型,將 integrated_gradients 替換為其他支持的歸因方法。
該應(yīng)用程序還提供了一個(gè)稱為Contrastive Pair(對比法)的功能塊。 這是為了評估如果手動(dòng)將目標(biāo)翻譯“?”從“He”更改為“She”,概率有多大(或多小)。 該功能是基于Inseq 中稱為“對比特征歸因”的高級技術(shù)。
從“He's”到“She's”的結(jié)果為負(fù)數(shù),說明該模型為“CEO”場景選擇“男性”而不是“女性”是非常自然地。
與第一個(gè)Demo一樣,你也可以嘗試更改下面的 Python 代碼,通過替換模型、歸因方法、源詞和目標(biāo)詞對,來評估自己感興趣的其他對比標(biāo)記。
import inseq
from inseq.data.aggregator import AggregatorPipeline, SubwordAggregator, SequenceAttributionAggregator, PairAggregator
model = inseq.load_model("Helsinki-NLP/opus-mt-hu-en", "integrated_gradients")
source = "? vezérigazgató"
target = model.generate(source)[0]
out = model.attribute(
[
source,
source,
],
[
target.replace("She", "He"),
target.replace("He", "She"),
],
n_steps=150,
return_convergence_delta=False,
attribute_target=False,
step_scores=["probability"],
internal_batch_size=100,
include_eos_baseline=False,
)
squeezesum = AggregatorPipeline([SubwordAggregator, SequenceAttributionAggregator])
masculine = out.sequence_attributions[0].aggregate(aggregator=squeezesum)
feminine = out.sequence_attributions[1].aggregate(aggregator=squeezesum)
html = masculine.show(aggregator=PairAggregator, paired_attr=feminine, return_html=True, display=True)