Google 新推出的 Gemini Pro 模型再次創下 benchmark 記錄分數

Google 於週四推出了其最新版本的 Gemini Pro 大語言模型，代號為 3.1。該模型目前以預覽形式提供，預計不久後將全面發布。Google 表示，Gemini 3.1 Pro 可能是目前最強大的大語言模型之一，相比其前代產品 Gemini 3 有顯著進步。Gemini 3 於十一月發布時已被視為高度 capable 的 AI 工具。

Google 同時分享了來自獨立基準測試的統計資料，例如「人類最後的考試」，顯示新模型表現優於舊版本。此外，AI 創業公司 Mercor 的執行長 Brendan Foody 也對該模型給予讚譽。Mercor 的基準測試系統 APEX 旨在衡量新 AI 模型在實際專業任務中的表現。Foody 指出，Gemini 3.1 Pro 目前位居 APEX-Agents 排行榜榜首，其優異結果顯示智慧體在實際知識工作方面的進步速度極快。

此次發布正值 AI 模型競爭加劇，各大科技公司持續推出針對智慧體工作和多步驟推理設計的強大模型。其他主要廠商，包括 OpenAI 和 Anthropic，近期也推出了新模型。