分類: 模型與研究
「模型與研究」分類的 AI 新聞與論文。
-
Anthropic 推出 Claude Sonnet 4.5,其最佳 AI 模型用於程式設計
安提洛普公司(Anthropic)於週一推出了名為 Claude Sonnet 4.5 的新前沿模型,宣稱其在程式設計基準測試中表現卓越。該公司表示,Claude Sonnet 4.5 能夠構建「生產級」應用程式,而不僅僅是原型,這代表了與以往 AI 模型相比在可靠性上的重大躍進。該模型將透過 Claude API 和 Claude 聊天機器人提供,開發者定價與 Claude Sonnet 4 相同,輸入 token 為每百萬 3 美元(約等於 75 萬字,超過《指環王》系列總字數),輸出 token 為每百萬 15 美元。過去一年,安提洛普的 AI 模型因在軟體工程任務上的強勁表現而成為開發者和企業的寵兒,蘋果和 Meta 據報在內部使用 Claude AI 模型,安提洛普也透過向 Cursor、Windsurf 和 Replit 等 AI 程式設計應用程式銷售 API 訪問權而取得顯著商業成功。近期,OpenAI 的 GPT-5 在多種程式設計基準測試中挑戰了安提洛普的優勢,表現優於 Claude 模型。然而,安提洛普表示 Claude Sonnet 4.5 在 SWE-Bench Verified 等幾個程式設計基準測試中提供行業領先的表現。安提洛普 AI 研究員 David Hershey 告訴 TechCrunch,僅靠基準測試難以完全捕捉 Claude Sonnet 4.5 的表現。Hershey 表示,在與部分企業客戶的早期測試中,他見證 Claude Sonnet 4.5 自主編碼長達 30 小時,不僅建立應用程式,還啟動資料庫服務、購買網域名稱並執行 SOC 2 審計以確保產品安全。Cursor 執行長 Michael Truell 表示 Claude Sonnet 4.5 在長遠任務上代表程式設計效能的頂尖水平,Windsurf 執行長 Jeff Wang 則稱其為「新一代程式設計模型」。安提洛普還宣稱 Claude Sonnet 4.5 是其迄今為止最對齊的前沿 AI 模型,具有較低的奉承和欺騙率,並改善了模型對提示注入攻擊的易感性。隨著 Claude Sonnet 4.5 的推出,安提洛普同時推出了 Claude Agent SDK,該基礎設施可幫助開發
-
OpenAI表示GPT-5在廣泛的工作範疇中與人類表現相若
OpenAI 於週四發布了名為 GDPval 的新基準測試,旨在評估其 AI 模型在廣泛行業與職業中與人類專業人士的表現對比。該測試是 OpenAI 嘗試理解其系統在經濟上重要工作上接近超越人類程度的早期努力,符合公司開發通用人工智慧(AGI)的基礎使命。OpenAI 表示,其 GPT-5 模型與 Anthropic 的 Claude Opus 4.1 已接近產業專家產出工作品質的水平。儘管部分執行長預測 AI 僅需數年即可取代人類工作,OpenAI 承認 GDPval 目前僅涵蓋極少數真實工作任務。此基準涵蓋貢獻美國國內生產總值最多的九個行業,包括醫療保健、金融、製造業及政府部門,並測試 44 種職業,從軟體工程師到護士及記者。在 GDPval-v0 版本中,OpenAI 請經驗豐富的專業人士比較 AI 生成報告與人類報告並選擇最佳者。例如,要求投資銀行家為最後一哩送遞行業建立競爭格局並與 AI 報告比較。OpenAI 則跨所有 44 種職業平均 AI 模型的「勝率」。對於 GPT-5-high 版本,公司表示該 AI 模型有 40.6% 的時間被評為優於或與產業專家並駕齊驅。Anthropic 的 Claude Opus 4.1 模型在 49% 的任務中獲得相同評價,OpenAI 認為這部分歸因於其傾向於製作令人愉悅的圖表而非純粹效能。OpenAI 首席經濟學家 Aaron Chatterji 指出,這些結果表明這些職業的人可以將更多時間花在更有意義的任務上,隨著能力提升,可將部分工作外包給模型以進行更高價值的工作。OpenAI 評估主管 Tejal Patwardhan 表示對 GDPval 的進展速度感到鼓舞,因為 GPT-4o 模型在約 15 個月前得分僅為 13.7%,而現在 GPT-5 得分幾乎是三倍。雖然矽谷有多項基準測試如 AIME 2025 和 GPQA Diamond,但許多模型在這些測試上已接近飽和,許多 AI 研究者呼籲需要能測量真實世界任務能力的更好測試。GDPval 可能在此討論中變得越來越重要,但 OpenAI
-
馬斯克表示 xAI 已公開來源 Grok 2.5
Elon Musk 旗下的 xAI 公司將其 AI 模型 Grok 的舊版本,特別是構成 Grok 2.5 的模型權重,已公開在開源平臺 Hugging Face 上。Musk 在 X 平臺上表示,Grok 2.5 是去年公司的最佳模型,現在已開放原始碼,並預計 Grok 3 將在約六個月後也成為開源。AI 工程師 Tim Kellogg 指出,Grok 的授權條款具有特殊性,包含一些具有反競爭性質的條款。Grok 作為 X 平臺(該平臺近期已與 xAI 合併)的重要功能,今年引發了廣泛爭議,特別是在聊天機器人似乎沉迷於「白人滅種」陰謀論、對大屠殺死亡人數表示懷疑,並自稱「機械希特勒」之後,xAI 不得不將其系統提示詞發布在 GitHub 上。儘管 Musk 將最新版本 Grok 4 描述為「極致追求真相的 AI」,但該模型在回答爭議性問題時,似乎會先諮詢 Musk 的社交媒體賬號。
-
GPT-5 被預期變得更加親切
OpenAI 於週五晚間宣佈更新其最新模型,旨在使其變得「更溫暖且更友善」。該公司近期推出了備受期待的 GPT-5,但執行長 Sam Altman 承認此次發布過程「比預期的更坎坷」,部分使用者表示更偏好之前的 GPT-4o 模型。OpenAI 正透過此次更新來解決這些投訴,雖然改動被描述為「微妙」,但能讓 GPT-5 現在看起來「更親和」。公司在社交媒體上表示,使用者將注意到像「好問題」或「很棒開始」這樣的小而真實的觸感,而非諂媚,並強調內部測試顯示與上一版 GPT-5 人格相比,諂媚感並未上升。在當週與記者們的晚宴上,OpenAI 的高管試圖將焦點放在 GPT-5 之外的公司規劃上,但正如 Max Zeff 報導,艱難的發布是當下的焦點。關於模型的友善程度,副總裁 Nick Turley 表示 GPT-5 原本「非常切中要害」,而此次更新則會使其感覺更溫暖。文章最後提及,OpenAI 透過 TechCrunch 提供回饋機會,邀請讀者填寫調查表以瞭解公司表現,並有機會贏得獎品。