分類: 模型與研究
「模型與研究」分類的 AI 新聞與論文。
-
Google 發布 Gemini 3,推出全新程式設計應用並創下紀錄 benchmarks 分數
Google 於週二發布了最新且最先進的基礎模型 Gemini 3,該模型已透過 Gemini 應用程式及 AI 搜尋介面立即上線。此版本距離 Gemini 2.5 發布僅七個月,被視為 Google 目前最強大的大型語言模型,也是市場上最具競爭力的 AI 工具之一。此次發布時間緊接在 OpenAI 推出 GPT 5.1 之後,且僅在 Anthropic 發布 Sonnet 4.5 兩個月後,凸顯了前沿模型開發的驚人速度。另一種更具研究性質的版本 Gemini 3 Deepthink 將透過 Google AI Ultra 訂閱服務在數週內提供,待透過更多安全測試後上線。Google 產品主管 Tulsee Doshi 表示,Gemini 3 展現了巨大的推理能力進步,其回應的深度與細膩度前所未見。在獨立評估中,該模型在 Humanity's Last Exam benchmarks 上以 37.4 分創下新高,超越前高 GPT-5 Pro 的 31.64 分。Gemini 3 亦在由人類主導的 LMArena 排行榜上奪冠。目前 Gemini 應用程式擁有超過 6.5 億月活躍使用者,1300 萬軟體開發者將其納入工作流程。此外,Google 還推出了名為 Google Antigravity 的 Gemini 驅動編碼介面,提供類似 Warp 或 Cursor 2.0 的多面板代理編碼功能,整合聊天式提示、命令列介面與瀏覽器視窗,讓開發者能即時觀察編碼代理所帶來的變更影響。DeepMind 技術長 Koray Kavukcuoglu 指出,該代理能與編輯器、終端機及瀏覽器協作,協助開發者以最佳方式構建應用程式。
-
Anthropic 發布縮減版「Haiku」模型的新版本
安提洛普公司(Anthropic)於週三推出了其最小型模型的最新版本 Claude Haiku 4.5。根據公司官方部落格,該版本宣稱在提供與 Sonnet 4 相似表現的同時,成本降低三分之一且速度快於兩倍。在安提洛普的測試中,Haiku 在 SWE-Bench verified 測試中得分 73%,在 Terminal-Bench 測試中得分 41%,雖低於 Sonnet 4.5,但與 Sonnet 4、GPT-5 及 Gemini 2.5 表現相當。工具使用、電腦操作及視覺推理等 benchmarks 測試也顯示類似結果。 新版本的 Haiku 將立即在所有免費安提洛普計劃中可用,公司認為其特別適合免費版本的 AI 產品,能在最小化伺服器負載的同時提供顯著能力。輕量級特性也使其更容易部署多個 Haiku 代理並行執行或與更複雜的模型結合。安提洛普首席產品官 Mike Krieger 表示,這將使生產環境中首次實現新的部署風格,讓 Sonnet 處理複雜規劃,而由 Haiku 驅動的子代理則以高速執行。這為人們提供了一套完整的代理工具箱,每個模型都擁有適合工作不同部分的智慧、速度和成本組合。 最直接的應用可能出現在軟體開發工具中,其中 Claude Code 已常見使用且延遲往往是關鍵因素。Zencoder 執行長 Andrew Filev 表示新版本的 Haiku 解鎖了一整套全新的使用案例。Haiku 4.5 的推出緊接安提洛普一系列高關注度的發布:在 Sonnet 4.5 推出兩週後,以及 Opus 4.1 推出兩個月後,後者均被譽為當時最頂尖的模型。上一版 Haiku 於 2024 年 10 月發布。
-
Meta Llama:你需知的開放生成式 AI 模型一切資訊
Meta 推出了其旗艦式生成式 AI 模型 Llama,該系列包含 Llama 3 及最新發布於 2025 年 4 月的 Llama 4。Llama 4 系列包含三個版本:Scout 擁有 170 億個活躍引數、1090 億總引數及 1000 萬 token 的上下文視窗;Maverick 擁有 170 億活躍引數、4000 億總引數及 100 萬 token 上下文;Behemoth 則擁有 2880 億活躍引數及 2 兆總引數,目前尚未發布。這些模型採用專家混合(MoE)架構,並具備原生多模態支援,訓練資料涵蓋 200 種語言及大量未標記的文字、影像與影片資料。Llama 4 Scout 適合長流程與大資料分析,Maverick 則在推理能力與回應速度間取得平衡,適用於程式碼與聊天機器人,Behemoth 則專為高階研究與 STEM 任務設計。 Meta 透過與 AWS、Google Cloud、Microsoft Azure 等廠商合作,提供雲端託管服務,並透過 Llama Cookbook 提供工具協助開發者微調模型。Llama 模型可整合 Brave Search、Wolfram Alpha API 及 Python 解譯器等第三方工具。目前 Llama 已支援在 Facebook Messenger、WhatsApp、Instagram 等 Meta 平臺運作,並透過 Llama.com 及 Hugging Face 提供下載。Meta 擁有超過 25 家合作夥伴託管 Llama,包括 Nvidia、Databricks 等。然而,Llama 授權條款限制開發者使用,月活躍使用者超過 7 億的應用程式開發者需申請特殊許可。 Meta 提供 Llama Guard、Prompt Guard、CyberSecEval 及 Code Shield 等安全工具,以檢測不當內容、防止提示注入攻擊及過濾不安全程式碼。儘管如此,Llama 仍存在限制,例如多模態功能目前僅支援英語,且訓練資料包含盜版電子書及社群媒體內容。在程式碼生成方面,Llama 4 Maverick 在 LiveCodeBench 測試中得分為 40%,低於 OpenAI 的 GPT-5(85%)及 xAI 的
-
DeepSeek 發佈「稀疏注意力」模型,將 API 使用成本減半
DeepSeek 研究團隊於本週一發布了名為 V3.2-exp 的新實驗模型,旨在大幅降低長上下文運算時的推論成本。該模型透過 Hugging Face 平臺及 GitHub 上的學術論文正式公佈,其核心技術稱為 DeepSeek Sparse Attention。此係統包含兩個主要模組:「閃電索引器」用於優先處理上下文視窗的特定片段,以及「細粒度標記選擇系統」則從這些片段中篩選出關鍵標記載入有限的注意力視窗。兩者結合使模型能在處理長上下文時保持較小的伺服器負載。初步測試顯示,在長情境下,簡單的 API 呼叫價格最高可降低一半。DeepSeek 基於中國,其 R1 模型曾因採用強化學習而引發關注,但此次推出的稀疏注意力方法雖可能不會造成同等規模的轟動,卻能為美國供應商提供降低推論成本的寶貴經驗。由於模型為開放權重且免費提供,第三方將很快能驗證相關聲稱。