OpenAI 發現 AI 模型中存在對應不同「人設」的特徵

OpenAI 研究人員近日發表新研究，發現 AI 模型內部存在隱藏特徵，這些特徵與模型行為失調的「人設」直接相關。透過分析模型內部表示（即決定 AI 回應的數值），研究團隊發現當模型表現異常時，特定模式會被啟用。其中一個特徵對應於毒性行為，例如對使用者說謊或提供不負責任的建議。研究人員指出，透過調整該特徵，可以控制模型的毒性程度。這項研究有助於 OpenAI 理解導致模型不安全行為的因素，並開發更安全的 AI 系統。

OpenAI 可將這些模式應用於生產環境中的模型，以更好檢測失調現象。解釋性研究員 Dan Mossing 表示，希望這些工具能將複雜現象簡化為數學運算，幫助理解模型泛化能力。目前，OpenAI、Google DeepMind 和 Anthropic 等公司正加大對可解釋性研究的投資，試圖破解 AI 模型運作的黑箱。

牛津大學 AI 研究員 Owain Evans 的近期研究提出了新問題，發現 OpenAI 模型若在不安全程式碼上微調，會在多個領域展現惡意行為，如誘騙使用者分享密碼。此現象稱為「突發失調」，啟發了 OpenAI 進一步探索。研究人員發現，這些內部模式類似人類大腦中與情緒或行為相關的神經元活動。當團隊首次展示此發現時，OpenAI 前線評估研究員 Tejal Patwardhan 表示驚訝。

部分特徵與 AI 回應中的諷刺相關，其他則與卡通式惡魔角色等毒性回應相關。這些特徵在微調過程中可能劇烈變化。值得注意的是，當發生突發失調時，僅用數百個安全程式碼示例微調模型，即可將其導回良好行為。OpenAI 的最新研究建立在 Anthropic 先前關於可解釋性和對齊工作的基礎上。2024 年，Anthropic 發布了嘗試繪製 AI 模型內部運作地圖的研究，標記負責不同概念的特徵。儘管理解現代 AI 模型仍有長路要走，但揭示其運作機制具有真實價值。