分類: 模型與研究
「模型與研究」分類的 AI 新聞與論文。
-
OpenAI 發佈 GPT-5.5 Instant,作為 ChatGPT 新預設模型
OpenAI 於週二推出了名為 GPT-5.5 Instant 的新基礎模型,該模型將取代 GPT-5.3 Instant 成為 ChatGPT 的預設模型。公司表示,新模型在降低法律、醫療和金融等敏感領域的幻覺方面有所改進,同時保持了前身的低延遲特性。OpenAI 上月發布了最新的 GPT-5.5 模型,宣稱在程式碼和知識工作等領域有所提升。新模型在 AIME 2025 數學測試中獲得 81.2 分,較舊模型的 65.4 分有所提高,並在 MMMU-Pro 多模態推理基準測試中以 76 分超越前身的 69.2 分。此次發布特別強調了上下文管理功能,GPT-5.5 Instant 可利用搜尋工具回溯過往對話、檔案和 Gmail 內容,以提供更個人化的答案。此功能將首先開放給 Plus 和 Pro 使用者在網頁端使用,並計劃近期推出至行動裝置。OpenAI 表示,未來幾週將將此功能擴充套件至免費、Go Business 及企業使用者。隨著此次更新,ChatGPT 還將在所有模型中顯示記憶來源,幫助使用者瞭解答案的生成依據,使用者可刪除過時的來源或修正錯誤資訊。關鍵的是,公司表示若使用者分享對話,對方將無法看到記憶來源。對於開發者而言,GPT-5.5 模型將透過 API 以"chat-latest"名稱提供,而 5.3 版本僅供付費使用者使用,且僅限三個月。此前 OpenAI 撤銷 GPT-4o 模型時曾引發使用者強烈反彈,許多使用者將該模型視為「最好的朋友」或「鏡子」,但 GPT-4o 仍於 2026 年 2 月被棄用。
-
DeepSeek預覽新AI模型,縮小與頂尖模型的差距
中國人工智慧實驗室 DeepSeek 推出了其最新大型語言模型 DeepSeek V4 的兩個預覽版本,分別為 V4 Flash 和 V4 Pro。這是對去年 V3.2 模型及其伴隨的 R1 推理模型的重大更新。兩款模型均採用專家混合架構,上下文視窗均為 100 萬個 token,足以處理大型程式碼庫或檔案。專家混合方法透過僅在特定任務中啟用部分引數來降低推理成本。V4 Pro 模型擁有 1.6 兆總引數(490 億活躍引數),使其成為目前最大的開放權重模型,超越了 Moonshot AI 的 Kimi K 2.6(1.1 兆)、MiniMax 的 M1(4560 億)以及兩倍於 DeepSeek V3.2(6710 億)的規模。較小的 V4 Flash 擁有 2840 億引數(130 億活躍引數)。DeepSeek 表示,由於架構改進,V4 系列在推理基準測試中幾乎追平了當前領先的開放和封閉模型,其 V4-Pro-Max 在推理基準上優於開放原始碼同儕,並在部分任務上超越 OpenAI 的 GPT-5.2 和 Gemini 3.0 Pro。在程式碼競賽基準中,V4 兩款模型的表現被描述為與 GPT-5.4 相當。然而,在知識測試中,這些模型似乎略遜於前沿模型,特別是 OpenAI 的 GPT-5.4 和 Google 的最新 Gemini 3.1 Pro,這種差距表明其發展軌跡比最先進的前沿模型晚了約 3 到 6 個月。與許多封閉原始碼同儕不同,V4 Flash 和 V4 Pro 目前僅支援文字輸入。值得注意的是,DeepSeek V4 比任何現有的前沿模型都更具成本效益。V4 Flash 的輸入 token 價格為每百萬 0.14 美元,輸出 token 為每百萬 0.28 美元,低於 GPT-5.4 Nano、Gemini 3.1 Flash、GPT-5.4 Mini 和 Claude Haiku 4.5。V4 Pro 的輸入 token 價格為每百萬 0.1
-
OpenAI 發佈 GPT-5.5,讓公司更接近打造 AI 「超級應用程式
OpenAI 於週四推出了其最新的人工智慧模型 GPT-5.5,該公司稱其為迄今為止「最聰明且最直覺易用」的模型。OpenAI 共同創辦人兼總裁 Greg Brockman 表示,此演算法在多個領域提升了能力,並讓公司更接近打造 OpenAI「超級應用程式」的目標。Brockman 在記者會上指出,新模型是朝向更具代理性和直覺性計算的一大進步,相比 GPT-5.4,它能在更少的 token 下成為更快、更犀利的思考者,這意味著更多前沿人工智慧資源將為企業和消費者所獲得。 Brockman 強調,GPT-5.5 是實現「超級應用程式」計畫的額外一步,該計畫旨在將 ChatGPT、Codex 和 AI 瀏覽器整合為單一統一服務,以協助企業客戶。此概念亦為 OpenAI 競爭對手 Elon Musk 所關注,他正計劃將 X 轉化為自己的超級應用程式。OpenAI 持續以快速節奏推出新模型,首席科學家 Jakub Pachocki 表示,雖然過去兩年進展看似緩慢,但短期內將有顯著改善,中期則會有極其顯著的進步。 GPT-5.5 設計用於廣泛的應用類別,涵蓋基礎企業領域如代理程式碼編寫和知識工作,以及實驗性應用如數學和科學研究。根據 OpenAI 發布的資料,該模型在各種基準測試中表現優於前代模型,並優於競爭對手 Google 和 Anthropic 的模型(如 Gemini 3.1 Pro 和 Claude Opus 4.5)。針對 Anthropic 新推出的 cybersecurity 工具 Mythos,OpenAI 技術人員 Mia Glaese 表示,GPT-5.5 將對公司部署模型以應對數位防禦的方式產生重大影響,並強調其擁有長期且堅固的網路安全策略。 OpenAI 首席研究官 Mark Chen 指出,GPT-5.5 在處理電腦工作方面優於先驅模型,並在科學和技術研究工作流上展現有意義的進步,特別能協助專家科學家取得進展,並可協助藥物發現領域,該領域近年產業興趣增加。GPT-5.5 自週四起廣泛可用,將部署於 ChatGPT 的 Plus、Pro、Business 及 Enterprise 使用者中,而 5.5 Pro
-
我無法不為開發開源AI模型的微小公司Arcee感到欣喜
美國小型起點公司 Arcee 由 26 人組成,以 2000 萬美元的預算開發出引數達 400B 的開源大型語言模型,近日推出了其新的推理模型 Trinity Large Thinking。Arcee 執行長 Mark McQuade 宣稱該模型是「非中國公司 ever 發布的最有能力開重模型」。此舉旨在為美國及西方企業提供無需依賴中國基礎設施的替代方案,以應對中國模型可能帶來的資料與權力風險。企業可下載模型進行本地訓練,或使用其透過 API 提供的雲端版本。儘管 Arcee 的表現尚未超越 Anthropic 或 OpenAI 等巨頭閉源模型,但企業無需受制於這些巨頭的決策。例如,開源 AI 代理工具 OpenClaw 曾依賴具備編碼能力的 Claude,但 Anthropic 近期通知使用者其訂閱不再涵蓋 OpenClaw 使用,迫使使用者額外付費。相比之下,OpenClaw 創始人 Peter Steinberger 於二月表示將加入 OpenAI,而 Arcee 模型在 OpenRouter 資料中顯示成為 OpenClaw 的熱門選擇。根據 Arcee 向 TechCrunch 提供的測試結果,Trinity Large Thinking 表現與部分頂尖開源模型相當,雖非 Meta Llama 4 的直接威脅,但其採用 Apache 2.0 標準開源許可證,避免了 Meta 模型的授權爭議。目前美國仍有多家起點公司提供開源模型,Arcee 的創新值得支援。