分類: 模型與研究
「模型與研究」分類的 AI 新聞與論文。
-
Google推出Gemini 3 Flash並將其設為Gemini應用的預設模型
Google 今日發布了快速且廉價的 Gemini 3 Flash 模型,該模型基於上月發布的 Gemini 3,旨在與 OpenAI 競爭。此模型將成為 Gemini 應用程式及搜尋 AI 模式中的預設模型,距離 Google 宣佈 Gemini 2.5 Flash 模式已過去六個月,帶來顯著改進。在測試中,Gemini 3 Flash 在無工具使用的情況下,於「人類最後考試」 benchmarks 獲得 33.7% 的成績,優於 Gemini 2.5 Flash 的 11%,並與 Gemini 3 Pro 的 37.5% 及 GPT-5.2 的 34.5% 相當。在 MMMU-Pro 多模態與推理 benchmarks 上,該模型以 81.2% 的成績超越所有競爭對手。 Google 已在全球範圍內將 Gemini 3 Flash 設為 Gemini 應用程式的預設模型,取代 Gemini 2.5 Flash,使用者仍可選擇 Pro 模型處理數學與編碼問題。新模型擅長識別多模態內容,例如上傳pickleball 短影片獲取建議、繪製草圖讓模型猜測內容,或上傳音訊進行分析與生成測驗。此外,使用者還可透過提示詞在應用程式中建立應用原型。Gemini 3 Pro 現已對美國所有人開放,用於搜尋,更多美國使用者也能訪問 Nano Banana Pro 影象模型。 企業與開發者方面,JetBrains、Figma、Cursor、Harvey 和 Latitude 等公司已使用 Gemini 3 Flash,該模型透過 Vertex AI 和 Gemini Enterprise 提供。開發者可透過 API 和 Antigravity 編碼工具預覽該模型。Gemini 3 Pro 在 SWE-bench 驗證編碼 benchmarks 上得分 78%,僅次於 GPT-5.2。該模型適合影片分析、資料提取和視覺問答,因速度快而適用於快速重複工作流程。定價為每百萬輸入 token 0.50 美元,每百萬輸出 token 3.00 美元,略高於 Gemini Flash 2.5 的 0.30 美元和 2.50 美元,但 Google 聲稱新模型效能優於 Gemini 2.5 Pro 且速度快三倍,思考任務平均減少 30% 的 token 使用。
-
OpenAI 以 GPT-5.2 回應 Google 發出的「紅色警報」備註
OpenAI 於週四推出了其最新的前沿模型 GPT-5.2,旨在應對 Google 日益加劇的競爭,並將其定位為目前最先進的模型,專為開發者和日常專業用途設計。該模型透過 API 提供三種版本:Instant 專為資訊查詢、寫作和翻譯等常規查詢最佳化速度;Thinking 擅長程式設計、分析長文件、數學和規劃等複雜結構化工作;Pro 則是頂端模型,旨在為困難問題提供最大準確度和可靠性。OpenAI 首席產品官 Fidji Simo 表示,設計 5.2 是為了釋放更多經濟價值,使其在製作試算表、建立簡報、編寫程式、感知影象、理解長上下文以及使用工具方面表現更佳。 GPT-5.2 的推出正值與 Google Gemini 3 的激烈競爭中,後者在大多數測試專案上領先 LMArena 排行榜(程式設計除外,目前仍由 Anthropic 的 Claude Opus-4.5 領先)。月初有報導指出,OpenAI 執行長 Sam Altman 發布了內部「程式碼紅」備忘錄,反映 ChatGPT 流量下降及消費者市場份額流失的擔憂,呼籲調整優先事項,暫停廣告等承諾,專注於提升 ChatGPT 體驗。儘管部分員工建議延後發布以進行更多改進,OpenAI 仍將 GPT-5.2 視為重奪領導地位的手段,同時加強企業機會。公司針對開發者和工具生態系統,目標成為構建 AI 應用程式的預設基礎。 GPT-5.2 在程式設計、數學、科學、視覺、長上下文推理和工具使用等領域設定新基準,公司聲稱這將導致更可靠的代理工作流、生產級程式碼和跨大上下文及真實世界資料運作的複雜系統。其 Thinking 模式在 SWE-Bench Pro、GPQA Diamond 及 ARC-AGI 等測試中超越 Gemini 3 和 Claude Opus 4.5。研究負責人 Aidan Clark 指出,強健的數學分數是模型能否遵循多步驟邏輯、保持數字一致性並避免累積錯誤的代理指標,這對金融建模、預測和資料分析至關重要。產品負責人 Max Schwarzer 表示,GPT-5.2 Thinking 的程式碼生成和除錯有實質改進,錯誤比前代減少 38%,並
-
迷思特以新開放權重邊境與小模型接近大型AI競爭對手
法國人工智慧新創公司 Mistral 於週二推出了全新的 Mistral 3 系列開放權重模型,旨在證明其在讓 AI 公開可用及服務企業客戶方面能超越大型科技競爭對手。此次發布包含一個具備多模態與多語言能力的 frontier 大模型,以及九個小型離線可用且可完全自訂的模型。Mistral 由前 DeepMind 與 Meta 的研究人員創立,兩年前成立,目前籌資約 27 億美元,估值為 137 億美元,遠低於競爭對手 OpenAI(籌資 570 億美元,估值 5000 億美元)與 Anthropic(籌資 450 億美元,估值 350 億美元)。Mistral 共同創辦人兼首席科學家 Guillaume Lample 指出,許多企業客戶發現直接使用大型封閉模型成本高昂且速度緩慢,因此轉向自訂小型模型以更有效率地處理特定用例。 Mistral 的大型 frontier 模型 Mistral Large 3 在功能上追平 OpenAI 的 GPT-4o 與 Google 的 Gemini 2,並具備多模態與多語言能力,與 Meta 的 Llama 3 及阿里巴巴的 Qwen3-Omni 並駕齊驅。該模型採用「精細專家混合」架構,擁有 410 億個活躍引數與 6750 億個總引數,支援 256,000 的上下文視窗,適用於檔案分析、程式編寫、內容創作及工作流自動化。新推出的 Ministral 3 系列則包含九個不同的高效能稠密模型,涵蓋 140 億、80 億與 30 億引數三種規格,並提供 Base、Instruct 與 Reasoning 三種變體。Mistral 聲稱這些小型模型在效能、成本效率及專有能力上優於其他開放權重領導者,且能產生較少的 token。 所有變體均支援視覺功能,處理 128,000 至 256,000 的上下文視窗,並支援多種語言。Mistral 強調其小型模型可在單一 GPU 上執行,使其能部署於廉價硬體,包括本地伺服器、筆記型電腦、機器人及其他邊緣裝置。這
-
Anthropic 發佈 Opus 4.5 新增 Chrome 與 Excel 整合功能
安提洛普(Anthropic)於週一宣佈推出 Opus 4.5,這是其旗艦模型系列的最新版本,也是該 4.5 系列中最後發布的模型,緊接在九月推出的 Sonnet 4.5 與十月推出的 Haiku 4.5 之後。新版本的 Opus 在多個基準測試中展現出頂尖表現,包括程式設計基準(SWE-Bench 和 Terminal-bench)、工具使用(tau2-bench 和 MCP Atlas)以及一般問題解決(ARC-AGI 2 和 GPQA Diamond)。值得注意的是,Opus 4.5 是第一個在 SWE-Bench 驗證基準上得分超過 80% 的模型。安提洛普還強調了該模型在電腦操作和試算表方面的能力,並推出了多項並行產品以展示其在這些場景中的表現。與 Opus 4.5 一同推出的是,原本處於測試階段的 Claude for Chrome 和 Claude for Excel 產品將更廣泛地開放使用。Chrome 擴充套件將對所有 Max 使用者開放,而專注於 Excel 的模型則將對 Max、Team 及 Enterprise 使用者開放。 Opus 4.5 還包含了針對長上下文操作的記憶改進,這需要對模型如何管理記憶進行重大調整。安提洛普研究產品管理負責人 Dianne Na Penn 表示,雖然 Opus 4.5 在訓練中改善了通用長上下文質量,但僅靠更長的上下文視窗並不足以解決問題,知道記住哪些關鍵細節至關重要。這些改進還實現了付費 Claude 使用者長期請求的「無盡聊天」功能,允許聊天在模型觸及上下文視窗限制時繼續進行,而不會通知使用者,模型會壓縮上下文記憶。許多升級都是為了適應代理使用案例,特別是 Opus 作為主代理指揮一組由 Haiku 驅動的子代理的場景。這些任務需要強大的工作記憶管理能力,這也是 Penn 所強調的記憶改進發揮價值的地方。 Opus 4.5 將面臨來自其他近期發布的前沿模型的激烈競爭,最顯著的對手包括 OpenAI 的 GPT 5.1(於十一月十二日發布)和 Google 的 Gemini 3(於十一月十八日發布)。