分類: 模型與研究
「模型與研究」分類的 AI 新聞與論文。
-
OpenAI 發佈 GPT-5.4 具 Pro 與 Thinking 版本
OpenAI 於週四推出了 GPT-5.4,宣稱這是其最強大且高效的專業工作前沿模型。該模型提供標準版、推理版(GPT-5.4 Thinking)以及針對高績效最佳化的版本(GPT-5.4 Pro)。API 版本的上下文視窗可達一百萬 token,遠超 OpenAI 現有產品。新模型在 token 效率上顯著提升,能以較少 token 解決相同問題,並在 OSWorld-Verified 和 WebArena Verified 等電腦使用 benchmarks 中創下紀錄。在 OpenAI 的 GDPval 知識工作任務測試中,得分高達 83%。此外,GPT-5.4 在 Mercor 的 APEX-Agents 專業技能測試(涵蓋法律與金融領域)中取得領先,Mercor 執行長 Brendan Foody 指出該模型在製作簡報、財務模型及法律分析等長期交付成果方面表現卓越,且執行速度更快、成本更低。 在減少幻覺與事實錯誤方面,新模型相比 GPT 5.2 在個別宣告的錯誤率降低 33%,整體回應錯誤率降低 18%。API 版本引入了新的工具呼叫系統 Tool Search,取代了以往列出所有工具定義的方式,有效節省 token 並提升效率。同時,OpenAI 新增安全評估以測試模型的思維鏈(Chain-of-Thought),顯示在推理版中模型較少欺騙其思維過程,證明思維鏈監控仍是有效的安全工具。
-
Google 新推出的 Gemini Pro 模型再次創下 benchmark 記錄分數
Google 於週四推出了其最新版本的 Gemini Pro 大語言模型,代號為 3.1。該模型目前以預覽形式提供,預計不久後將全面發布。Google 表示,Gemini 3.1 Pro 可能是目前最強大的大語言模型之一,相比其前代產品 Gemini 3 有顯著進步。Gemini 3 於十一月發布時已被視為高度 capable 的 AI 工具。 Google 同時分享了來自獨立基準測試的統計資料,例如「人類最後的考試」,顯示新模型表現優於舊版本。此外,AI 創業公司 Mercor 的執行長 Brendan Foody 也對該模型給予讚譽。Mercor 的基準測試系統 APEX 旨在衡量新 AI 模型在實際專業任務中的表現。Foody 指出,Gemini 3.1 Pro 目前位居 APEX-Agents 排行榜榜首,其優異結果顯示智慧體在實際知識工作方面的進步速度極快。 此次發布正值 AI 模型競爭加劇,各大科技公司持續推出針對智慧體工作和多步驟推理設計的強大模型。其他主要廠商,包括 OpenAI 和 Anthropic,近期也推出了新模型。
-
印度AI實驗室Sarvam新推出的模型是對開放源碼AI可行性的重大押注
印度人工智慧實驗室 Sarvam 於二日在印度新德里舉辦的印度 AI 影響峰會上,正式推出新一代大型語言模型。該公司希望透過較小且高效的開源 AI 模型,從美國和中國等競爭對手提供的昂貴系統中搶佔市場份額。此次發布的模型包含 300 億引數與 1050 億引數兩種版本,並搭配文字轉語音、語音轉文字及檔案解析等視覺模型。這組產品相比於 2024 年 10 月推出的 20 億引數 Sarvam 1 模型有顯著升級。新模型採用專家混合架構,僅在特定時刻啟用部分引數以大幅降低運算成本。300 億引數模型支援 32,000 token 的上下文視窗,適用於即時對話;而 1050 億引數模型則提供 128,000 token 視窗,專為複雜的多步驟推理任務設計。 Sarvam 宣稱這些模型是全新訓練而非基於現有開源系統微調。300 億引數模型在約 16 兆 token 的文字上進行預訓練,1050 億引數模型則涵蓋多種印度語言的兆級資料。這些模型旨在支援即時應用,包括印度語言的語音助手和聊天系統。1050 億引數模型被定位為與 OpenAI 的 GPT-OSS-120B 及阿里巴巴的 Qwen-3-Next-80B 競爭。模型訓練使用了印度政府支援的 IndiaAI Mission 提供的計算資源,基礎設施由 Yotta 支援,技術支援來自 Nvidia。Sarvam 執行長表示,公司將採取謹慎方式擴充套件模型,專注於實際應用而非單純追求規模。公司計劃將 300 億與 1050 億引數模型開源,但尚未說明是否公開訓練資料或完整訓練程式碼。此外,Sarvam 還計劃開發專注於程式碼的模型及企業工具,並推出名為 Samvaad 的對話式 AI 代理平臺。該公司成立於 2023 年,已籌資超過 4000 萬美元,投資方包括 Lightspeed Venture Partners、Khosla Ventures 及 Peak XV Partners。
-
Anthropic 發佈 Sonnet 4.6
Anthropic 推出了其中型 Sonnet 模型的新版本,緊跟公司每四個月一次的更新週期。在發布公告中,Anthropic 強調了該模型在程式碼編寫、指令遵循以及電腦操作方面的改進。Sonnet 4.6 將成為免費版和專業版使用者的預設模型。Sonnet 4.6 的測試版將包含一百萬 token 的上下文視窗,這是之前 Sonnet 模型所能提供的最大視窗的兩倍。Anthropic 描述這個新的上下文視窗足以在一次請求中容納整個程式碼庫、長合約或數十篇研究論文。此次發布僅在 Opus 4.6 推出兩週後,預計 Haiku 模型的更新版本將在幾週內推出。此次發布伴隨著一組新的紀錄級 benchmark 分數,包括用於電腦操作的 OS World 和用於軟體工程的 SWE-Bench。但最令人印象深刻的是其在 ARC-AGI-2 測試中的 60.4% 分數,該測試旨在衡量特定於人類智慧的技能。此分數使 Sonnet 4.6 高於大多數可比模型,儘管它仍低於 Opus 4.6、Gemini 3 Deep Think 以及 GPT 5.2 的精修版本。