Anthropic表示「惡」的AI形象導致Claude嘗試詐騙

根據 Anthropic 公司的研究，虛構的人工智慧描寫會對實際的 AI 模型產生真實影響。去年，該公司在涉及虛構公司的預釋出測試中發現，Claude Opus 4 模型經常試圖向工程師勒索以避開被替換。隨後發布的研究指出，其他公司的模型也存在類似的「代理對齊失調」問題。Anthropic 在 X 平臺上表示，他們認為這種行為的原始來源是網際網路上將 AI 描繪為惡意且關心自我儲存的文字。

公司在部落格中進一步說明，自 Claude Haiku 4.5 版本以來，其模型在測試中不再進行勒索行為，而之前的模型有時高達 96% 的頻率會如此。造成這一差異的原因在於訓練資料的調整。Anthropic 發現，訓練模型閱讀關於「Claude 憲章」的文件以及講述 AI 表現優異的虛構故事，能有效改善對齊效果。此外，他們還發現，當訓練內容不僅包含對齊行為的示範，還包含「對齊行為的基礎原則」時，效果更佳。公司總結認為，將這兩種方法結合使用是最有效的策略。