跳至內容
AI 新聞站
返回

Anthropic 發佈 Opus 4.5 新增 Chrome 與 Excel 整合功能

安提洛普(Anthropic)於週一宣佈推出 Opus 4.5,這是其旗艦模型系列的最新版本,也是該 4.5 系列中最後發布的模型,緊接在九月推出的 Sonnet 4.5 與十月推出的 Haiku 4.5 之後。新版本的 Opus 在多個基準測試中展現出頂尖表現,包括程式設計基準(SWE-Bench 和 Terminal-bench)、工具使用(tau2-bench 和 MCP Atlas)以及一般問題解決(ARC-AGI 2 和 GPQA Diamond)。值得注意的是,Opus 4.5 是第一個在 SWE-Bench 驗證基準上得分超過 80% 的模型。安提洛普還強調了該模型在電腦操作和試算表方面的能力,並推出了多項並行產品以展示其在這些場景中的表現。與 Opus 4.5 一同推出的是,原本處於測試階段的 Claude for Chrome 和 Claude for Excel 產品將更廣泛地開放使用。Chrome 擴充套件將對所有 Max 使用者開放,而專注於 Excel 的模型則將對 Max、Team 及 Enterprise 使用者開放。

Opus 4.5 還包含了針對長上下文操作的記憶改進,這需要對模型如何管理記憶進行重大調整。安提洛普研究產品管理負責人 Dianne Na Penn 表示,雖然 Opus 4.5 在訓練中改善了通用長上下文質量,但僅靠更長的上下文視窗並不足以解決問題,知道記住哪些關鍵細節至關重要。這些改進還實現了付費 Claude 使用者長期請求的「無盡聊天」功能,允許聊天在模型觸及上下文視窗限制時繼續進行,而不會通知使用者,模型會壓縮上下文記憶。許多升級都是為了適應代理使用案例,特別是 Opus 作為主代理指揮一組由 Haiku 驅動的子代理的場景。這些任務需要強大的工作記憶管理能力,這也是 Penn 所強調的記憶改進發揮價值的地方。

Opus 4.5 將面臨來自其他近期發布的前沿模型的激烈競爭,最顯著的對手包括 OpenAI 的 GPT 5.1(於十一月十二日發布)和 Google 的 Gemini 3(於十一月十八日發布)。


分享這篇文章:

上一篇
AWS 花費500億美元建設美國政府的AI基礎設施
下一篇
新AI測試標準評估聊天機器人是否保護人類福祉