跳至內容
AI 新聞站
返回

DeepSeek 發佈「稀疏注意力」模型,將 API 使用成本減半

DeepSeek 研究團隊於本週一發布了名為 V3.2-exp 的新實驗模型,旨在大幅降低長上下文運算時的推論成本。該模型透過 Hugging Face 平臺及 GitHub 上的學術論文正式公佈,其核心技術稱為 DeepSeek Sparse Attention。此係統包含兩個主要模組:「閃電索引器」用於優先處理上下文視窗的特定片段,以及「細粒度標記選擇系統」則從這些片段中篩選出關鍵標記載入有限的注意力視窗。兩者結合使模型能在處理長上下文時保持較小的伺服器負載。初步測試顯示,在長情境下,簡單的 API 呼叫價格最高可降低一半。DeepSeek 基於中國,其 R1 模型曾因採用強化學習而引發關注,但此次推出的稀疏注意力方法雖可能不會造成同等規模的轟動,卻能為美國供應商提供降低推論成本的寶貴經驗。由於模型為開放權重且免費提供,第三方將很快能驗證相關聲稱。


分享這篇文章:

上一篇
AI recruiters Alex 筹得1700萬美元用於自動化初步職業 Interviews
下一篇
OpenAI 推出新代理購物系統與 Google、Amazon 競爭