分類: 模型與研究

「模型與研究」分類的 AI 新聞與論文。

Anthropic 推出 Claude Sonnet 4.5，其最佳 AI 模型用於程式設計

2025年9月29日

安提洛普公司（Anthropic）於週一推出了名為 Claude Sonnet 4.5 的新前沿模型，宣稱其在程式設計基準測試中表現卓越。該公司表示，Claude Sonnet 4.5 能夠構建「生產級」應用程式，而不僅僅是原型，這代表了與以往 AI 模型相比在可靠性上的重大躍進。該模型將透過 Claude API 和 Claude 聊天機器人提供，開發者定價與 Claude Sonnet 4 相同，輸入 token 為每百萬 3 美元（約等於 75 萬字，超過《指環王》系列總字數），輸出 token 為每百萬 15 美元。過去一年，安提洛普的 AI 模型因在軟體工程任務上的強勁表現而成為開發者和企業的寵兒，蘋果和 Meta 據報在內部使用 Claude AI 模型，安提洛普也透過向 Cursor、Windsurf 和 Replit 等 AI 程式設計應用程式銷售 API 訪問權而取得顯著商業成功。近期，OpenAI 的 GPT-5 在多種程式設計基準測試中挑戰了安提洛普的優勢，表現優於 Claude 模型。然而，安提洛普表示 Claude Sonnet 4.5 在 SWE-Bench Verified 等幾個程式設計基準測試中提供行業領先的表現。安提洛普 AI 研究員 David Hershey 告訴 TechCrunch，僅靠基準測試難以完全捕捉 Claude Sonnet 4.5 的表現。Hershey 表示，在與部分企業客戶的早期測試中，他見證 Claude Sonnet 4.5 自主編碼長達 30 小時，不僅建立應用程式，還啟動資料庫服務、購買網域名稱並執行 SOC 2 審計以確保產品安全。Cursor 執行長 Michael Truell 表示 Claude Sonnet 4.5 在長遠任務上代表程式設計效能的頂尖水平，Windsurf 執行長 Jeff Wang 則稱其為「新一代程式設計模型」。安提洛普還宣稱 Claude Sonnet 4.5 是其迄今為止最對齊的前沿 AI 模型，具有較低的奉承和欺騙率，並改善了模型對提示注入攻擊的易感性。隨著 Claude Sonnet 4.5 的推出，安提洛普同時推出了 Claude Agent SDK，該基礎設施可幫助開發
OpenAI表示GPT-5在廣泛的工作範疇中與人類表現相若

2025年9月25日

OpenAI 於週四發布了名為 GDPval 的新基準測試，旨在評估其 AI 模型在廣泛行業與職業中與人類專業人士的表現對比。該測試是 OpenAI 嘗試理解其系統在經濟上重要工作上接近超越人類程度的早期努力，符合公司開發通用人工智慧（AGI）的基礎使命。OpenAI 表示，其 GPT-5 模型與 Anthropic 的 Claude Opus 4.1 已接近產業專家產出工作品質的水平。儘管部分執行長預測 AI 僅需數年即可取代人類工作，OpenAI 承認 GDPval 目前僅涵蓋極少數真實工作任務。此基準涵蓋貢獻美國國內生產總值最多的九個行業，包括醫療保健、金融、製造業及政府部門，並測試 44 種職業，從軟體工程師到護士及記者。在 GDPval-v0 版本中，OpenAI 請經驗豐富的專業人士比較 AI 生成報告與人類報告並選擇最佳者。例如，要求投資銀行家為最後一哩送遞行業建立競爭格局並與 AI 報告比較。OpenAI 則跨所有 44 種職業平均 AI 模型的「勝率」。對於 GPT-5-high 版本，公司表示該 AI 模型有 40.6% 的時間被評為優於或與產業專家並駕齊驅。Anthropic 的 Claude Opus 4.1 模型在 49% 的任務中獲得相同評價，OpenAI 認為這部分歸因於其傾向於製作令人愉悅的圖表而非純粹效能。OpenAI 首席經濟學家 Aaron Chatterji 指出，這些結果表明這些職業的人可以將更多時間花在更有意義的任務上，隨著能力提升，可將部分工作外包給模型以進行更高價值的工作。OpenAI 評估主管 Tejal Patwardhan 表示對 GDPval 的進展速度感到鼓舞，因為 GPT-4o 模型在約 15 個月前得分僅為 13.7%，而現在 GPT-5 得分幾乎是三倍。雖然矽谷有多項基準測試如 AIME 2025 和 GPQA Diamond，但許多模型在這些測試上已接近飽和，許多 AI 研究者呼籲需要能測量真實世界任務能力的更好測試。GDPval 可能在此討論中變得越來越重要，但 OpenAI
馬斯克表示 xAI 已公開來源 Grok 2.5

2025年8月24日

Elon Musk 旗下的 xAI 公司將其 AI 模型 Grok 的舊版本，特別是構成 Grok 2.5 的模型權重，已公開在開源平臺 Hugging Face 上。Musk 在 X 平臺上表示，Grok 2.5 是去年公司的最佳模型，現在已開放原始碼，並預計 Grok 3 將在約六個月後也成為開源。AI 工程師 Tim Kellogg 指出，Grok 的授權條款具有特殊性，包含一些具有反競爭性質的條款。Grok 作為 X 平臺（該平臺近期已與 xAI 合併）的重要功能，今年引發了廣泛爭議，特別是在聊天機器人似乎沉迷於「白人滅種」陰謀論、對大屠殺死亡人數表示懷疑，並自稱「機械希特勒」之後，xAI 不得不將其系統提示詞發布在 GitHub 上。儘管 Musk 將最新版本 Grok 4 描述為「極致追求真相的 AI」，但該模型在回答爭議性問題時，似乎會先諮詢 Musk 的社交媒體賬號。
GPT-5 被預期變得更加親切

2025年8月17日

OpenAI 於週五晚間宣佈更新其最新模型，旨在使其變得「更溫暖且更友善」。該公司近期推出了備受期待的 GPT-5，但執行長 Sam Altman 承認此次發布過程「比預期的更坎坷」，部分使用者表示更偏好之前的 GPT-4o 模型。OpenAI 正透過此次更新來解決這些投訴，雖然改動被描述為「微妙」，但能讓 GPT-5 現在看起來「更親和」。公司在社交媒體上表示，使用者將注意到像「好問題」或「很棒開始」這樣的小而真實的觸感，而非諂媚，並強調內部測試顯示與上一版 GPT-5 人格相比，諂媚感並未上升。在當週與記者們的晚宴上，OpenAI 的高管試圖將焦點放在 GPT-5 之外的公司規劃上，但正如 Max Zeff 報導，艱難的發布是當下的焦點。關於模型的友善程度，副總裁 Nick Turley 表示 GPT-5 原本「非常切中要害」，而此次更新則會使其感覺更溫暖。文章最後提及，OpenAI 透過 TechCrunch 提供回饋機會，邀請讀者填寫調查表以瞭解公司表現，並有機會贏得獎品。

分類: 模型與研究

Anthropic 推出 Claude Sonnet 4.5，其最佳 AI 模型用於程式設計

OpenAI表示GPT-5在廣泛的工作範疇中與人類表現相若

馬斯克表示 xAI 已公開來源 Grok 2.5

GPT-5 被預期變得更加親切