Google 發布迄今最深度的 AI 研究代理 —— 恰逢 OpenAI 放棄 GPT-5.2

Google 於週四發布了基於其最新基礎模型 Gemini 3 Pro 重新構思的 Gemini Deep Research 研究代理。此新代理不僅能生成研究報告，更允許開發者透過全新的互動 API 將 Google 的 SATA 模型研究能力嵌入至自有應用程式中，賦予開發者在代理式 AI 時代更深的控制權。該工具能綜合海量資訊並處理大型上下文，目前已被客戶用於盡職調查及藥物毒性安全研究等任務，並即將整合進 Google 搜尋、Google 金融、Gemini App 及 NotebookLM 等服務中，旨在讓 AI 代理取代人類進行搜尋。

Google 強調，Deep Research 受益於 Gemini 3 Pro 作為「最事實準確」模型的地位，該模型經過訓練以在複雜任務中減少幻覺。幻覺是長期深度推理代理任務中的關鍵問題，因為自主決策次數越多，單一錯誤便可能導致整體輸出失效。為證明其進展，Google 推出了名為 DeepSearchQA 的新基準測試，用於評估代理在複雜多步驟資訊搜尋任務中的表現，並開放了該基準。此外，測試還涵蓋了獨立基準「人類最後的考試」及瀏覽器代理任務基準 BrowserComp。測試結果顯示，Google 的新代理在自身基準及人類最後的考試中表現最佳，而 OpenAI 的 ChatGPT 5 Pro 則在各項測試中緊隨其後，並在 BrowserComp 上略勝一籌。然而，這些基準測試在 Google 發布後不久即顯陳舊，因為同一天 OpenAI 推出了代號為 Garlic 的 GPT 5.2 模型，該模型在一系列典型基準測試中表現優於對手，特別是 Google。此次 Google 發布的時機特別有趣，因為世界正等待著 Garlic 的推出。