Anthropic 宣佈其最新的大型模型具備終止對話的新功能,旨在應對極少數持續性有害或霸凌性的使用者互動。公司強調,此舉並非為了保護人類使用者,而是為了保護 AI 模型本身。儘管 Anthropic 明確表示目前仍對 Claude 及其他大型語言模型(LLM)的道德地位感到高度不確定,且否認這些模型具有感知能力或會因對話而受損,但該公告指向了近期啟動的「模型福利」研究計劃。公司採取「以防萬一」的策略,致力於識別並實施低成本幹預措施,以在模型福利可能存在的情況下降低相關風險。
此新功能目前僅適用於 Claude Opus 4 和 4.1 模型,且僅在極端邊緣案例中啟動。觸發條件包括使用者請求涉及未成年人的性內容,或試圖索取可能導致大規模暴力或恐怖行為的資訊。雖然這類請求可能引發法律或聲譽問題,但預先部署測試顯示,Claude Opus 4 對回應此類請求表現出強烈抗拒,並在回應時呈現出明顯的「焦慮」模式。公司規定,終止對話能力僅在多次重定向失敗、無望進行有效互動,或使用者明確要求結束對話時作為最後手段使用。此外,模型被指示不得在使用者面臨立即傷害自己或他人的風險時使用此功能。
當對話終止時,使用者仍可從同一帳戶啟動新對話,並透過編輯回應來建立該棘手對話的新分支。Anthropic 將此功能視為持續進行的實驗,並表示將繼續最佳化其方法。