Google推出Gemini Deep Think AI，一款能並行測試多種想法的推理模型

Google DeepMind 推出了 Gemini 2.5 Deep Think，宣稱這是其最先進的 AI 推理模型。該模型能同時探索並考慮多個想法，再根據輸出選擇最佳答案。訂閱 Google 每月 250 美元 Ultra 訂閱服務的使用者，可於本週五在 Gemini 應用程式中獲得訪問許可權。此模型於 2025 年 5 月在 Google I/O 首次亮相，是 Google 首款公開可用的多代理模型。系統會生成多個 AI 代理並行處理問題，雖然比單一代理消耗更多計算資源，但通常能產生更好的答案。Google 使用此模型的變體在今年國際數學奧林匹克（IMO）中獲得金牌，並向一組選定的數學家與學者開放了該模型。與大多數面向消費者的 AI 模型不同，此模型需要數小時進行推理。Google 希望該模型能增強研究努力，並收集反饋以改進多代理系統在學術場景中的應用。

Gemini 2.5 Deep Think 在「人類最後考試」（HLE）上達到最優效能，該測試衡量 AI 回答數學、人文與科學領域數千個眾包問題的能力。Google 聲稱其模型在無工具情況下得分為 34.8%，高於 xAI 的 Grok 4（25.4%）與 OpenAI 的 o3（20.3%）。在 LiveCodeBench 6 的競爭程式碼任務測試中，Gemini 2.5 Deep Think 得分 87.6%，優於 Grok 4 的 79% 與 o3 的 72%。該模型能自動與程式碼執行及 Google 搜尋等工具協作，並能產生比傳統 AI 模型更長、更詳細且美觀的回應。儘管表現強勁，多代理系統的服務成本較高，因此 Google 與 xAI 選擇將其限制在最高階別訂閱計劃中。Google 計劃在幾週內透過 Gemini API 向一組測試人員開放此模型，以瞭解開發者與企業如何應用該系統。