Google DeepMind 推出了 Gemini 2.5 Deep Think,宣稱這是其最先進的 AI 推理模型。該模型能同時探索並考慮多個想法,再根據輸出選擇最佳答案。訂閱 Google 每月 250 美元 Ultra 訂閱服務的使用者,可於本週五在 Gemini 應用程式中獲得訪問許可權。此模型於 2025 年 5 月在 Google I/O 首次亮相,是 Google 首款公開可用的多代理模型。系統會生成多個 AI 代理並行處理問題,雖然比單一代理消耗更多計算資源,但通常能產生更好的答案。Google 使用此模型的變體在今年國際數學奧林匹克(IMO)中獲得金牌,並向一組選定的數學家與學者開放了該模型。與大多數面向消費者的 AI 模型不同,此模型需要數小時進行推理。Google 希望該模型能增強研究努力,並收集反饋以改進多代理系統在學術場景中的應用。
Gemini 2.5 Deep Think 在「人類最後考試」(HLE)上達到最優效能,該測試衡量 AI 回答數學、人文與科學領域數千個眾包問題的能力。Google 聲稱其模型在無工具情況下得分為 34.8%,高於 xAI 的 Grok 4(25.4%)與 OpenAI 的 o3(20.3%)。在 LiveCodeBench 6 的競爭程式碼任務測試中,Gemini 2.5 Deep Think 得分 87.6%,優於 Grok 4 的 79% 與 o3 的 72%。該模型能自動與程式碼執行及 Google 搜尋等工具協作,並能產生比傳統 AI 模型更長、更詳細且美觀的回應。儘管表現強勁,多代理系統的服務成本較高,因此 Google 與 xAI 選擇將其限制在最高階別訂閱計劃中。Google 計劃在幾週內透過 Gemini API 向一組測試人員開放此模型,以瞭解開發者與企業如何應用該系統。