安提洛普公司(Anthropic)於週一推出了名為 Claude Sonnet 4.5 的新前沿模型,宣稱其在程式設計基準測試中表現卓越。該公司表示,Claude Sonnet 4.5 能夠構建「生產級」應用程式,而不僅僅是原型,這代表了與以往 AI 模型相比在可靠性上的重大躍進。該模型將透過 Claude API 和 Claude 聊天機器人提供,開發者定價與 Claude Sonnet 4 相同,輸入 token 為每百萬 3 美元(約等於 75 萬字,超過《指環王》系列總字數),輸出 token 為每百萬 15 美元。過去一年,安提洛普的 AI 模型因在軟體工程任務上的強勁表現而成為開發者和企業的寵兒,蘋果和 Meta 據報在內部使用 Claude AI 模型,安提洛普也透過向 Cursor、Windsurf 和 Replit 等 AI 程式設計應用程式銷售 API 訪問權而取得顯著商業成功。近期,OpenAI 的 GPT-5 在多種程式設計基準測試中挑戰了安提洛普的優勢,表現優於 Claude 模型。然而,安提洛普表示 Claude Sonnet 4.5 在 SWE-Bench Verified 等幾個程式設計基準測試中提供行業領先的表現。安提洛普 AI 研究員 David Hershey 告訴 TechCrunch,僅靠基準測試難以完全捕捉 Claude Sonnet 4.5 的表現。Hershey 表示,在與部分企業客戶的早期測試中,他見證 Claude Sonnet 4.5 自主編碼長達 30 小時,不僅建立應用程式,還啟動資料庫服務、購買網域名稱並執行 SOC 2 審計以確保產品安全。Cursor 執行長 Michael Truell 表示 Claude Sonnet 4.5 在長遠任務上代表程式設計效能的頂尖水平,Windsurf 執行長 Jeff Wang 則稱其為「新一代程式設計模型」。安提洛普還宣稱 Claude Sonnet 4.5 是其迄今為止最對齊的前沿 AI 模型,具有較低的奉承和欺騙率,並改善了模型對提示注入攻擊的易感性。隨著 Claude Sonnet 4.5 的推出,安提洛普同時推出了 Claude Agent SDK,該基礎設施可幫助開發
Anthropic 推出 Claude Sonnet 4.5,其最佳 AI 模型用於程式設計
分享這篇文章: