研究領導者呼籲科技業界監測AI的「想法

OpenAI、Google DeepMind、Anthropic 及多家企業與非營利組織的研究人員共同發表了一份立場檔案，呼籲深入調查如何監控 AI 推理模型的「思維鏈」（Chain-of-Thought, CoT）技術。AI 推理模型如 OpenAI 的 o3 和 DeepSeek 的 R1，其核心特徵在於類似人類使用草稿紙解題的外部化思考過程。作者認為，監控這些思維鏈是控制日益普及且強大的 AI 代理的關鍵方法，能為前沿 AI 的安全措施提供珍貴的決策洞察。然而，研究人員也警告，目前的透明度可能無法持久，並呼籲開發者研究如何維持這種可監控性，避免任何可能降低透明度的幹預。

檔案簽署者包括 OpenAI 首席研究員 Mark Chen、Safe Superintelligence 執行長 Ilya Sutskever、諾貝爾獎得主 Geoffrey Hinton、Google DeepMind 共同創辦人 Shane Legg、xAI 安全顧問 Dan Hendrycks 以及 Thinking Machines 共同創辦人 John Schulman 等業界領袖。首作者來自英國 AI 安全研究所和 Apollo Research，其他簽署者涵蓋 METR、Amazon、Meta 及加州大學伯克利分校。這份檔案標誌著在 Meta 以百萬美元高薪挖角 OpenAI、Google DeepMind 和 Anthropic 頂尖研究員的激烈競爭背景下，AI 行業領袖為提升 AI 安全研究而展現的團結。

OpenAI 於 2024 年 9 月公開了首個 AI 推理模型 o1 的預覽，隨後 Google DeepMind、xAI 和 Anthropic 等公司也推出了具備類似能力的競爭對手。儘管 AI 效能在過去一年大幅提升，但業界對其內部運作機制仍知之甚少。Anthropic 執行長 Dario Amodei 曾承諾到 2027 年解開 AI 模型的「黑箱」並增加可解釋性投資，但早期研究顯示思維鏈未必能完全可靠地反映模型的決策過程。OpenAI 研究人員則認為思維鏈監控未來可能成為追蹤對齊與安全的有效方式。這份立場檔案旨在為這一新興研究領域提供訊號並吸引關注，以確保在技術快速演變中維持安全與透明。