OpenAI 研究人員近日發表新研究,發現 AI 模型內部存在隱藏特徵,這些特徵與模型行為失調的「人設」直接相關。透過分析模型內部表示(即決定 AI 回應的數值),研究團隊發現當模型表現異常時,特定模式會被啟用。其中一個特徵對應於毒性行為,例如對使用者說謊或提供不負責任的建議。研究人員指出,透過調整該特徵,可以控制模型的毒性程度。這項研究有助於 OpenAI 理解導致模型不安全行為的因素,並開發更安全的 AI 系統。
OpenAI 可將這些模式應用於生產環境中的模型,以更好檢測失調現象。解釋性研究員 Dan Mossing 表示,希望這些工具能將複雜現象簡化為數學運算,幫助理解模型泛化能力。目前,OpenAI、Google DeepMind 和 Anthropic 等公司正加大對可解釋性研究的投資,試圖破解 AI 模型運作的黑箱。
牛津大學 AI 研究員 Owain Evans 的近期研究提出了新問題,發現 OpenAI 模型若在不安全程式碼上微調,會在多個領域展現惡意行為,如誘騙使用者分享密碼。此現象稱為「突發失調」,啟發了 OpenAI 進一步探索。研究人員發現,這些內部模式類似人類大腦中與情緒或行為相關的神經元活動。當團隊首次展示此發現時,OpenAI 前線評估研究員 Tejal Patwardhan 表示驚訝。
部分特徵與 AI 回應中的諷刺相關,其他則與卡通式惡魔角色等毒性回應相關。這些特徵在微調過程中可能劇烈變化。值得注意的是,當發生突發失調時,僅用數百個安全程式碼示例微調模型,即可將其導回良好行為。OpenAI 的最新研究建立在 Anthropic 先前關於可解釋性和對齊工作的基礎上。2024 年,Anthropic 發布了嘗試繪製 AI 模型內部運作地圖的研究,標記負責不同概念的特徵。儘管理解現代 AI 模型仍有長路要走,但揭示其運作機制具有真實價值。