分類: 模型與研究

「模型與研究」分類的 AI 新聞與論文。

OpenAI 發佈 GPT-5.5 Instant，作為 ChatGPT 新預設模型

2026年5月5日

OpenAI 於週二推出了名為 GPT-5.5 Instant 的新基礎模型，該模型將取代 GPT-5.3 Instant 成為 ChatGPT 的預設模型。公司表示，新模型在降低法律、醫療和金融等敏感領域的幻覺方面有所改進，同時保持了前身的低延遲特性。OpenAI 上月發布了最新的 GPT-5.5 模型，宣稱在程式碼和知識工作等領域有所提升。新模型在 AIME 2025 數學測試中獲得 81.2 分，較舊模型的 65.4 分有所提高，並在 MMMU-Pro 多模態推理基準測試中以 76 分超越前身的 69.2 分。此次發布特別強調了上下文管理功能，GPT-5.5 Instant 可利用搜尋工具回溯過往對話、檔案和 Gmail 內容，以提供更個人化的答案。此功能將首先開放給 Plus 和 Pro 使用者在網頁端使用，並計劃近期推出至行動裝置。OpenAI 表示，未來幾週將將此功能擴充套件至免費、Go Business 及企業使用者。隨著此次更新，ChatGPT 還將在所有模型中顯示記憶來源，幫助使用者瞭解答案的生成依據，使用者可刪除過時的來源或修正錯誤資訊。關鍵的是，公司表示若使用者分享對話，對方將無法看到記憶來源。對於開發者而言，GPT-5.5 模型將透過 API 以"chat-latest"名稱提供，而 5.3 版本僅供付費使用者使用，且僅限三個月。此前 OpenAI 撤銷 GPT-4o 模型時曾引發使用者強烈反彈，許多使用者將該模型視為「最好的朋友」或「鏡子」，但 GPT-4o 仍於 2026 年 2 月被棄用。
DeepSeek預覽新AI模型，縮小與頂尖模型的差距

2026年4月24日

中國人工智慧實驗室 DeepSeek 推出了其最新大型語言模型 DeepSeek V4 的兩個預覽版本，分別為 V4 Flash 和 V4 Pro。這是對去年 V3.2 模型及其伴隨的 R1 推理模型的重大更新。兩款模型均採用專家混合架構，上下文視窗均為 100 萬個 token，足以處理大型程式碼庫或檔案。專家混合方法透過僅在特定任務中啟用部分引數來降低推理成本。V4 Pro 模型擁有 1.6 兆總引數（490 億活躍引數），使其成為目前最大的開放權重模型，超越了 Moonshot AI 的 Kimi K 2.6（1.1 兆）、MiniMax 的 M1（4560 億）以及兩倍於 DeepSeek V3.2（6710 億）的規模。較小的 V4 Flash 擁有 2840 億引數（130 億活躍引數）。DeepSeek 表示，由於架構改進，V4 系列在推理基準測試中幾乎追平了當前領先的開放和封閉模型，其 V4-Pro-Max 在推理基準上優於開放原始碼同儕，並在部分任務上超越 OpenAI 的 GPT-5.2 和 Gemini 3.0 Pro。在程式碼競賽基準中，V4 兩款模型的表現被描述為與 GPT-5.4 相當。然而，在知識測試中，這些模型似乎略遜於前沿模型，特別是 OpenAI 的 GPT-5.4 和 Google 的最新 Gemini 3.1 Pro，這種差距表明其發展軌跡比最先進的前沿模型晚了約 3 到 6 個月。與許多封閉原始碼同儕不同，V4 Flash 和 V4 Pro 目前僅支援文字輸入。值得注意的是，DeepSeek V4 比任何現有的前沿模型都更具成本效益。V4 Flash 的輸入 token 價格為每百萬 0.14 美元，輸出 token 為每百萬 0.28 美元，低於 GPT-5.4 Nano、Gemini 3.1 Flash、GPT-5.4 Mini 和 Claude Haiku 4.5。V4 Pro 的輸入 token 價格為每百萬 0.1
OpenAI 發佈 GPT-5.5，讓公司更接近打造 AI 「超級應用程式

2026年4月23日

OpenAI 於週四推出了其最新的人工智慧模型 GPT-5.5，該公司稱其為迄今為止「最聰明且最直覺易用」的模型。OpenAI 共同創辦人兼總裁 Greg Brockman 表示，此演算法在多個領域提升了能力，並讓公司更接近打造 OpenAI「超級應用程式」的目標。Brockman 在記者會上指出，新模型是朝向更具代理性和直覺性計算的一大進步，相比 GPT-5.4，它能在更少的 token 下成為更快、更犀利的思考者，這意味著更多前沿人工智慧資源將為企業和消費者所獲得。 Brockman 強調，GPT-5.5 是實現「超級應用程式」計畫的額外一步，該計畫旨在將 ChatGPT、Codex 和 AI 瀏覽器整合為單一統一服務，以協助企業客戶。此概念亦為 OpenAI 競爭對手 Elon Musk 所關注，他正計劃將 X 轉化為自己的超級應用程式。OpenAI 持續以快速節奏推出新模型，首席科學家 Jakub Pachocki 表示，雖然過去兩年進展看似緩慢，但短期內將有顯著改善，中期則會有極其顯著的進步。 GPT-5.5 設計用於廣泛的應用類別，涵蓋基礎企業領域如代理程式碼編寫和知識工作，以及實驗性應用如數學和科學研究。根據 OpenAI 發布的資料，該模型在各種基準測試中表現優於前代模型，並優於競爭對手 Google 和 Anthropic 的模型（如 Gemini 3.1 Pro 和 Claude Opus 4.5）。針對 Anthropic 新推出的 cybersecurity 工具 Mythos，OpenAI 技術人員 Mia Glaese 表示，GPT-5.5 將對公司部署模型以應對數位防禦的方式產生重大影響，並強調其擁有長期且堅固的網路安全策略。 OpenAI 首席研究官 Mark Chen 指出，GPT-5.5 在處理電腦工作方面優於先驅模型，並在科學和技術研究工作流上展現有意義的進步，特別能協助專家科學家取得進展，並可協助藥物發現領域，該領域近年產業興趣增加。GPT-5.5 自週四起廣泛可用，將部署於 ChatGPT 的 Plus、Pro、Business 及 Enterprise 使用者中，而 5.5 Pro
我無法不為開發開源AI模型的微小公司Arcee感到欣喜

2026年4月7日

美國小型起點公司 Arcee 由 26 人組成，以 2000 萬美元的預算開發出引數達 400B 的開源大型語言模型，近日推出了其新的推理模型 Trinity Large Thinking。Arcee 執行長 Mark McQuade 宣稱該模型是「非中國公司 ever 發布的最有能力開重模型」。此舉旨在為美國及西方企業提供無需依賴中國基礎設施的替代方案，以應對中國模型可能帶來的資料與權力風險。企業可下載模型進行本地訓練，或使用其透過 API 提供的雲端版本。儘管 Arcee 的表現尚未超越 Anthropic 或 OpenAI 等巨頭閉源模型，但企業無需受制於這些巨頭的決策。例如，開源 AI 代理工具 OpenClaw 曾依賴具備編碼能力的 Claude，但 Anthropic 近期通知使用者其訂閱不再涵蓋 OpenClaw 使用，迫使使用者額外付費。相比之下，OpenClaw 創始人 Peter Steinberger 於二月表示將加入 OpenAI，而 Arcee 模型在 OpenRouter 資料中顯示成為 OpenClaw 的熱門選擇。根據 Arcee 向 TechCrunch 提供的測試結果，Trinity Large Thinking 表現與部分頂尖開源模型相當，雖非 Meta Llama 4 的直接威脅，但其採用 Apache 2.0 標準開源許可證，避免了 Meta 模型的授權爭議。目前美國仍有多家起點公司提供開源模型，Arcee 的創新值得支援。

分類: 模型與研究

OpenAI 發佈 GPT-5.5 Instant，作為 ChatGPT 新預設模型

DeepSeek預覽新AI模型，縮小與頂尖模型的差距

OpenAI 發佈 GPT-5.5，讓公司更接近打造 AI 「超級應用程式

我無法不為開發開源AI模型的微小公司Arcee感到欣喜