分類: 模型與研究

「模型與研究」分類的 AI 新聞與論文。

Google推出Gemini 3 Flash並將其設為Gemini應用的預設模型

2025年12月17日

Google 今日發布了快速且廉價的 Gemini 3 Flash 模型，該模型基於上月發布的 Gemini 3，旨在與 OpenAI 競爭。此模型將成為 Gemini 應用程式及搜尋 AI 模式中的預設模型，距離 Google 宣佈 Gemini 2.5 Flash 模式已過去六個月，帶來顯著改進。在測試中，Gemini 3 Flash 在無工具使用的情況下，於「人類最後考試」 benchmarks 獲得 33.7% 的成績，優於 Gemini 2.5 Flash 的 11%，並與 Gemini 3 Pro 的 37.5% 及 GPT-5.2 的 34.5% 相當。在 MMMU-Pro 多模態與推理 benchmarks 上，該模型以 81.2% 的成績超越所有競爭對手。 Google 已在全球範圍內將 Gemini 3 Flash 設為 Gemini 應用程式的預設模型，取代 Gemini 2.5 Flash，使用者仍可選擇 Pro 模型處理數學與編碼問題。新模型擅長識別多模態內容，例如上傳pickleball 短影片獲取建議、繪製草圖讓模型猜測內容，或上傳音訊進行分析與生成測驗。此外，使用者還可透過提示詞在應用程式中建立應用原型。Gemini 3 Pro 現已對美國所有人開放，用於搜尋，更多美國使用者也能訪問 Nano Banana Pro 影象模型。企業與開發者方面，JetBrains、Figma、Cursor、Harvey 和 Latitude 等公司已使用 Gemini 3 Flash，該模型透過 Vertex AI 和 Gemini Enterprise 提供。開發者可透過 API 和 Antigravity 編碼工具預覽該模型。Gemini 3 Pro 在 SWE-bench 驗證編碼 benchmarks 上得分 78%，僅次於 GPT-5.2。該模型適合影片分析、資料提取和視覺問答，因速度快而適用於快速重複工作流程。定價為每百萬輸入 token 0.50 美元，每百萬輸出 token 3.00 美元，略高於 Gemini Flash 2.5 的 0.30 美元和 2.50 美元，但 Google 聲稱新模型效能優於 Gemini 2.5 Pro 且速度快三倍，思考任務平均減少 30% 的 token 使用。
OpenAI 以 GPT-5.2 回應 Google 發出的「紅色警報」備註

2025年12月11日

OpenAI 於週四推出了其最新的前沿模型 GPT-5.2，旨在應對 Google 日益加劇的競爭，並將其定位為目前最先進的模型，專為開發者和日常專業用途設計。該模型透過 API 提供三種版本：Instant 專為資訊查詢、寫作和翻譯等常規查詢最佳化速度；Thinking 擅長程式設計、分析長文件、數學和規劃等複雜結構化工作；Pro 則是頂端模型，旨在為困難問題提供最大準確度和可靠性。OpenAI 首席產品官 Fidji Simo 表示，設計 5.2 是為了釋放更多經濟價值，使其在製作試算表、建立簡報、編寫程式、感知影象、理解長上下文以及使用工具方面表現更佳。 GPT-5.2 的推出正值與 Google Gemini 3 的激烈競爭中，後者在大多數測試專案上領先 LMArena 排行榜（程式設計除外，目前仍由 Anthropic 的 Claude Opus-4.5 領先）。月初有報導指出，OpenAI 執行長 Sam Altman 發布了內部「程式碼紅」備忘錄，反映 ChatGPT 流量下降及消費者市場份額流失的擔憂，呼籲調整優先事項，暫停廣告等承諾，專注於提升 ChatGPT 體驗。儘管部分員工建議延後發布以進行更多改進，OpenAI 仍將 GPT-5.2 視為重奪領導地位的手段，同時加強企業機會。公司針對開發者和工具生態系統，目標成為構建 AI 應用程式的預設基礎。 GPT-5.2 在程式設計、數學、科學、視覺、長上下文推理和工具使用等領域設定新基準，公司聲稱這將導致更可靠的代理工作流、生產級程式碼和跨大上下文及真實世界資料運作的複雜系統。其 Thinking 模式在 SWE-Bench Pro、GPQA Diamond 及 ARC-AGI 等測試中超越 Gemini 3 和 Claude Opus 4.5。研究負責人 Aidan Clark 指出，強健的數學分數是模型能否遵循多步驟邏輯、保持數字一致性並避免累積錯誤的代理指標，這對金融建模、預測和資料分析至關重要。產品負責人 Max Schwarzer 表示，GPT-5.2 Thinking 的程式碼生成和除錯有實質改進，錯誤比前代減少 38%，並
迷思特以新開放權重邊境與小模型接近大型AI競爭對手

2025年12月2日

法國人工智慧新創公司 Mistral 於週二推出了全新的 Mistral 3 系列開放權重模型，旨在證明其在讓 AI 公開可用及服務企業客戶方面能超越大型科技競爭對手。此次發布包含一個具備多模態與多語言能力的 frontier 大模型，以及九個小型離線可用且可完全自訂的模型。Mistral 由前 DeepMind 與 Meta 的研究人員創立，兩年前成立，目前籌資約 27 億美元，估值為 137 億美元，遠低於競爭對手 OpenAI（籌資 570 億美元，估值 5000 億美元）與 Anthropic（籌資 450 億美元，估值 350 億美元）。Mistral 共同創辦人兼首席科學家 Guillaume Lample 指出，許多企業客戶發現直接使用大型封閉模型成本高昂且速度緩慢，因此轉向自訂小型模型以更有效率地處理特定用例。 Mistral 的大型 frontier 模型 Mistral Large 3 在功能上追平 OpenAI 的 GPT-4o 與 Google 的 Gemini 2，並具備多模態與多語言能力，與 Meta 的 Llama 3 及阿里巴巴的 Qwen3-Omni 並駕齊驅。該模型採用「精細專家混合」架構，擁有 410 億個活躍引數與 6750 億個總引數，支援 256,000 的上下文視窗，適用於檔案分析、程式編寫、內容創作及工作流自動化。新推出的 Ministral 3 系列則包含九個不同的高效能稠密模型，涵蓋 140 億、80 億與 30 億引數三種規格，並提供 Base、Instruct 與 Reasoning 三種變體。Mistral 聲稱這些小型模型在效能、成本效率及專有能力上優於其他開放權重領導者，且能產生較少的 token。所有變體均支援視覺功能，處理 128,000 至 256,000 的上下文視窗，並支援多種語言。Mistral 強調其小型模型可在單一 GPU 上執行，使其能部署於廉價硬體，包括本地伺服器、筆記型電腦、機器人及其他邊緣裝置。這
Anthropic 發佈 Opus 4.5 新增 Chrome 與 Excel 整合功能

2025年11月24日

安提洛普（Anthropic）於週一宣佈推出 Opus 4.5，這是其旗艦模型系列的最新版本，也是該 4.5 系列中最後發布的模型，緊接在九月推出的 Sonnet 4.5 與十月推出的 Haiku 4.5 之後。新版本的 Opus 在多個基準測試中展現出頂尖表現，包括程式設計基準（SWE-Bench 和 Terminal-bench）、工具使用（tau2-bench 和 MCP Atlas）以及一般問題解決（ARC-AGI 2 和 GPQA Diamond）。值得注意的是，Opus 4.5 是第一個在 SWE-Bench 驗證基準上得分超過 80% 的模型。安提洛普還強調了該模型在電腦操作和試算表方面的能力，並推出了多項並行產品以展示其在這些場景中的表現。與 Opus 4.5 一同推出的是，原本處於測試階段的 Claude for Chrome 和 Claude for Excel 產品將更廣泛地開放使用。Chrome 擴充套件將對所有 Max 使用者開放，而專注於 Excel 的模型則將對 Max、Team 及 Enterprise 使用者開放。 Opus 4.5 還包含了針對長上下文操作的記憶改進，這需要對模型如何管理記憶進行重大調整。安提洛普研究產品管理負責人 Dianne Na Penn 表示，雖然 Opus 4.5 在訓練中改善了通用長上下文質量，但僅靠更長的上下文視窗並不足以解決問題，知道記住哪些關鍵細節至關重要。這些改進還實現了付費 Claude 使用者長期請求的「無盡聊天」功能，允許聊天在模型觸及上下文視窗限制時繼續進行，而不會通知使用者，模型會壓縮上下文記憶。許多升級都是為了適應代理使用案例，特別是 Opus 作為主代理指揮一組由 Haiku 驅動的子代理的場景。這些任務需要強大的工作記憶管理能力，這也是 Penn 所強調的記憶改進發揮價值的地方。 Opus 4.5 將面臨來自其他近期發布的前沿模型的激烈競爭，最顯著的對手包括 OpenAI 的 GPT 5.1（於十一月十二日發布）和 Google 的 Gemini 3（於十一月十八日發布）。

分類: 模型與研究

Google推出Gemini 3 Flash並將其設為Gemini應用的預設模型

OpenAI 以 GPT-5.2 回應 Google 發出的「紅色警報」備註

迷思特以新開放權重邊境與小模型接近大型AI競爭對手

Anthropic 發佈 Opus 4.5 新增 Chrome 與 Excel 整合功能