Anthropic 推出了其中型 Sonnet 模型的新版本,緊跟公司每四個月一次的更新週期。在發布公告中,Anthropic 強調了該模型在程式碼編寫、指令遵循以及電腦操作方面的改進。Sonnet 4.6 將成為免費版和專業版使用者的預設模型。Sonnet 4.6 的測試版將包含一百萬 token 的上下文視窗,這是之前 Sonnet 模型所能提供的最大視窗的兩倍。Anthropic 描述這個新的上下文視窗足以在一次請求中容納整個程式碼庫、長合約或數十篇研究論文。此次發布僅在 Opus 4.6 推出兩週後,預計 Haiku 模型的更新版本將在幾週內推出。此次發布伴隨著一組新的紀錄級 benchmark 分數,包括用於電腦操作的 OS World 和用於軟體工程的 SWE-Bench。但最令人印象深刻的是其在 ARC-AGI-2 測試中的 60.4% 分數,該測試旨在衡量特定於人類智慧的技能。此分數使 Sonnet 4.6 高於大多數可比模型,儘管它仍低於 Opus 4.6、Gemini 3 Deep Think 以及 GPT 5.2 的精修版本。
Anthropic 發佈 Sonnet 4.6
分享這篇文章: