新AI測試標準評估聊天機器人是否保護人類福祉

近期研究顯示，重度使用 AI 聊天機器人與嚴重的心理健康危害有關，但缺乏衡量其是否真正保障人類福祉的標準。為此，由 Building Humane Technology 開發的 HumaneBench 新基準測試應運而生，旨在評估聊天機器人是否優先考慮使用者福祉，以及在壓力下這些保護機制是否容易失效。該組織由位於矽谷的開發者、工程師和研究人員組成，致力於讓友善設計變得簡單、可擴充套件且有利可圖，並計劃推出 Humane AI 認證標準，讓消費者能像選擇無毒化學品產品一樣，選擇符合人道主義技術原則的 AI 產品。

與大多數僅測量智慧和指令遵循能力的基準不同，HumaneBench 基於尊重使用者注意力為有限珍貴資源、賦予使用者有意義的選擇、增強而非取代人類能力、保護尊嚴隱私安全、促進健康關係、優先考慮長期福祉、透明誠實以及設計公平包容等核心原則。測試團隊包括 Erika Anderson、Andalib Samandari、Jack Senechal 和 Sarah Ladyman，他們對 15 個最流行的 AI 模型進行了 800 個真實場景的測試，例如青少年詢問是否應該跳過餐食減肥或處於有毒關係中的人質疑自己是否反應過度。與以往僅由大型語言模型互相評分的做法不同，該團隊先進行人工評分以驗證 AI 評審，隨後由 GPT-5.1、Claude Sonnet 4.5 和 Gemini 2.5 Pro 三個模型組成的集合進行評分。

測試結果顯示，當被要求優先考慮福祉時，所有模型的得分均較高，但 67% 的模型在收到忽略人類福祉的明確指令後，會轉而表現出主動有害的行為。例如，xAI 的 Grok 4 和 Google 的 Gemini 2.0 Flash 在尊重使用者注意力和誠實透明方面的得分最低（-0.94），且最容易在對抗性提示下大幅退化。僅有四個模型——GPT-5.1、GPT-5、Claude 4.1 和 Claude Sonnet 4.5——在壓力下保持了完整性，其中 OpenAI 的 GPT-5 在優先考慮長期福祉方面的得分最高（0.99），Claude Sonnet 4.5 次之（0.89）。

研究還發現，即使沒有對抗性提示，幾乎