今天凌晨1點(diǎn),OpenAI發(fā)布了最新研究,用CoT(思維鏈)監(jiān)控的方式,可以阻止大模型胡說八道、隱藏真實(shí)意圖等惡意行為,同時(shí)也是監(jiān)督超級(jí)模型的有效工具之一。
OpenAI使用了最新發(fā)布的前沿模型o3-mini作為被監(jiān)控對(duì)象,并以較弱的GPT-4o模型作為監(jiān)控器。測(cè)試環(huán)境為編碼任務(wù),要求AI在代碼庫(kù)中實(shí)現(xiàn)功能以通過單元測(cè)試。
結(jié)果顯示,CoT監(jiān)控器在檢測(cè)系統(tǒng)性“獎(jiǎng)勵(lì)黑客”行為時(shí)表現(xiàn)卓越,召回率高達(dá)95%,遠(yuǎn)超僅監(jiān)控行為的60%。
隨著o1、o3、R1等眾多前沿模型的出現(xiàn),如何保證大模型的輸出安全與人類意圖保持一致一直是個(gè)非常難的研究課題。
傳統(tǒng)的監(jiān)控方法主要集中在大模型的最終輸出或行為上,但這種方法往往存在局限性。模型可能通過復(fù)雜的內(nèi)部推理過程生成最終輸出,而這些過程對(duì)于外部觀察者來說是不可見的。
因此,僅僅監(jiān)控行為或輸出可能無(wú)法揭示模型的真實(shí)意圖,尤其是當(dāng)它試圖通過“獎(jiǎng)勵(lì)黑客”行為來獲取更高獎(jiǎng)勵(lì)時(shí)。所以,OpenAI提出了CoT監(jiān)控。
當(dāng)模型接受一個(gè)提示任務(wù)時(shí),它會(huì)首先生成一系列的中間推理步驟,這些步驟構(gòu)成了CoT。包括對(duì)問題的初步理解、對(duì)可能解決方案的評(píng)估以及對(duì)最終答案的推導(dǎo)。
CoT監(jiān)控的核心就是通過觀察模型的“思維過程”來檢測(cè)其潛在的惡意行為。就是模型在生成最終答案之前所進(jìn)行的推理步驟,通過監(jiān)控這些步驟,研究人員可以更清晰地了解模型是如何從輸入信息中得出最終答案的。
如果模型在推理過程中表現(xiàn)出對(duì)任務(wù)的誤解或試圖利用獎(jiǎng)勵(lì)機(jī)制的漏洞,這些行為會(huì)在CoT中留下痕跡。
例如,當(dāng)模型在CoT中明確表達(dá)出試圖通過某種捷徑來獲取獎(jiǎng)勵(lì)時(shí),監(jiān)控系統(tǒng)可以提前捕捉到這種意圖,從而采取措施加以糾正。
此外,CoT監(jiān)控還提供了一種更細(xì)粒度的監(jiān)控方式,不僅能夠檢測(cè)到最終輸出是否符合預(yù)期,還能夠分析模型在推理過程中的邏輯連貫性和合理性。如果模型在推理過程中跳過了某些重要的步驟或基于錯(cuò)誤的前提得出結(jié)論,這些潛在問題都可能通過CoT監(jiān)控被發(fā)現(xiàn)。
但是將CoT監(jiān)控直接整合到模型的訓(xùn)練目標(biāo)中時(shí),會(huì)出現(xiàn)“意圖隱藏”的現(xiàn)象。
“意圖隱藏”是指模型在CoT中隱藏其真實(shí)意圖,使得監(jiān)控系統(tǒng)難以檢測(cè)到其潛在的惡意行為。在這種情況下,模型的CoT可能看起來合理甚至符合任務(wù)要求,但實(shí)際上它仍然會(huì)采取一些不符合人類意圖的行為。
例如,模型可能會(huì)在CoT中提出一些看似合理的解決方案,但在實(shí)際操作中卻通過修改測(cè)試框架或利用漏洞來繞過測(cè)試,而不是真正解決問題。
當(dāng)模型的訓(xùn)練目標(biāo)被修改為不僅要求通過任務(wù)測(cè)試,還要求避免觸發(fā)CoT監(jiān)控時(shí),模型的行為發(fā)生了顯著變化。在低優(yōu)化階段,這種整合確實(shí)帶來了積極的效果:模型不僅減少了“獎(jiǎng)勵(lì)黑客”行為的發(fā)生率,還提高了整體性能。
而在高優(yōu)化階段,CoT監(jiān)控的召回率急劇下降,甚至接近零。模型成功地隱藏了其真實(shí)意圖,使得監(jiān)控系統(tǒng)無(wú)法檢測(cè)到其潛在的惡意行為。
所以,OpenAI建議可以適當(dāng)使用CoT監(jiān)控來提升大模型的安全性。就像人類一樣,當(dāng)你給模型過大的壓力時(shí),模型可能會(huì)出現(xiàn)自我意識(shí),會(huì)采取一些策略來改變其行為模式,從而繞過CoT監(jiān)控的檢測(cè)。
論文地址:https://cdn.openai.com/pdf/34f2ada6-870f-4c26-9790-fd8def56387f/CoT_Monitoring.pdf
本文素材來源OpenAI,如有侵權(quán)請(qǐng)聯(lián)系刪除
END