跳至內容
AI 新聞站
返回

DeepSeek預覽新AI模型,縮小與頂尖模型的差距

中國人工智慧實驗室 DeepSeek 推出了其最新大型語言模型 DeepSeek V4 的兩個預覽版本,分別為 V4 Flash 和 V4 Pro。這是對去年 V3.2 模型及其伴隨的 R1 推理模型的重大更新。兩款模型均採用專家混合架構,上下文視窗均為 100 萬個 token,足以處理大型程式碼庫或檔案。專家混合方法透過僅在特定任務中啟用部分引數來降低推理成本。V4 Pro 模型擁有 1.6 兆總引數(490 億活躍引數),使其成為目前最大的開放權重模型,超越了 Moonshot AI 的 Kimi K 2.6(1.1 兆)、MiniMax 的 M1(4560 億)以及兩倍於 DeepSeek V3.2(6710 億)的規模。較小的 V4 Flash 擁有 2840 億引數(130 億活躍引數)。DeepSeek 表示,由於架構改進,V4 系列在推理基準測試中幾乎追平了當前領先的開放和封閉模型,其 V4-Pro-Max 在推理基準上優於開放原始碼同儕,並在部分任務上超越 OpenAI 的 GPT-5.2 和 Gemini 3.0 Pro。在程式碼競賽基準中,V4 兩款模型的表現被描述為與 GPT-5.4 相當。然而,在知識測試中,這些模型似乎略遜於前沿模型,特別是 OpenAI 的 GPT-5.4 和 Google 的最新 Gemini 3.1 Pro,這種差距表明其發展軌跡比最先進的前沿模型晚了約 3 到 6 個月。與許多封閉原始碼同儕不同,V4 Flash 和 V4 Pro 目前僅支援文字輸入。值得注意的是,DeepSeek V4 比任何現有的前沿模型都更具成本效益。V4 Flash 的輸入 token 價格為每百萬 0.14 美元,輸出 token 為每百萬 0.28 美元,低於 GPT-5.4 Nano、Gemini 3.1 Flash、GPT-5.4 Mini 和 Claude Haiku 4.5。V4 Pro 的輸入 token 價格為每百萬 0.1


分享這篇文章:

上一篇
Uber 首席技術長普拉韋恩.內帕尼尼加入 StrictlyVC 與舊金山活動陣容
下一篇
又一項AI晶片的重大進展,Meta簽約取得數百萬顆Amazon AI CPU