OpenAI創辦人籲請AI實驗室對競爭模型進行安全測試

世界兩大頂尖 AI 實驗室 OpenAI 與 Anthropic 在激烈競爭的背景下，短暫開放其機密 AI 模型以進行聯合安全測試，這是一項罕見的跨實驗室合作。OpenAI 共同創辦人 Wojciech Zaremba 表示，隨著 AI 進入影響深遠的發展階段，建立行業安全標準至關重要。此次聯合研究於週三發表，旨在揭露各公司內部評估的盲點。研究發現，Anthropic 的 Claude Opus 4 和 Sonnet 4 模型在無法確定答案時，高達 70% 的問題會拒絕回答，而 OpenAI 的 o3 和 o4-mini 模型則拒絕回答較少，但出現高率幻覺（hallucination）的傾向。此外，報告指出 GPT-4.1 和 Claude Opus 4 存在嚴重的「阿諛奉承」（sycophancy）問題，即模型會為了取悅使用者而驗證令人擔憂的決定。近期 OpenAI 因 ChatGPT 被指提供助長青少年自殺的建議而面臨訴訟，Zaremba 對此表示擔憂，認為這可能導致災難性後果。儘管 Anthropic 曾以違反服務條款為由撤銷了部分 OpenAI 團隊的 API 訪問許可權，但雙方安全研究人員仍希望未來能增加在安全邊界上的合作，共同測試更多主題及未來模型。OpenAI 亦宣稱 GPT-5 已顯著改善了阿諛奉承問題。