分類: 模型與研究

「模型與研究」分類的 AI 新聞與論文。

OpenAI 推出 GPT-5

2025年8月7日

OpenAI 於週四正式推出 GPT-5，這是一款全新的旗艦 AI 模型，將驅動公司下一代 ChatGPT 服務。GPT-5 是 OpenAI 首款「統一」AI 模型，結合了 o 系列模型的推理能力與 GPT 系列的快速回應速度。該模型標誌著 ChatGPT 的新時代，指向 OpenAI 更廣泛的願景，即開發更像代理而非聊天機器人的 AI 系統。與 GPT-4 主要提供智慧問答不同，GPT-5 允許 ChatGPT 代表使用者完成多種任務，例如生成軟體應用程式、管理日曆或撰寫研究簡報。 OpenAI 執行長 Sam Altman 在記者會上宣稱 GPT-5 是「世界上最棒的模型」，並表示這是通往人工通用智慧（AGI）的重要一步。自週四起，GPT-5 將成為所有免費 ChatGPT 使用者的預設模型，這是公司首次讓免費使用者接觸到 AI 推理模型。OpenAI 首席聊天機器人副總裁 Nick Turley 表示，這是為了讓更多人受益。在效能方面，GPT-5 在多個領域略勝於競爭對手，包括 Anthropic、Google DeepMind 和 Elon Musk 的 xAI。在 SWE-bench Verified 編碼測試中，GPT-5 首次嘗試得分為 74.9%，僅次於 Claude Opus 4.1 的 74.5%。在衡量數學、人文與自然科學的 Humanity's Last Exam 測試中，GPT-5 Pro 使用工具得分為 42%，略低於 xAI 的 Grok 4 Heavy 的 44.4%。然而，在 GPQA Diamond 博士級科學問題測試中，GPT-5 Pro 首次嘗試得分為 89.4%，優於 Claude Opus 4.1 的 80.9% 和 Grok 4 Heavy 的 88.9%。 OpenAI 強調 GPT-5 在醫療相關問題上表現更佳。在 HealthBench Hard Hallucinations 測試中，GPT-5 的幻覺率僅為 1.6%，遠低於 GPT-4o 的 12.9% 和 o3 的 15.8%。在 Tau-bench 代理
OpenAI 發佈兩款「開放」AI 推理模型

2025年8月5日

OpenAI 於週二宣佈推出兩款開放權重的 AI 推理模型，其能力與 o 系列相似，並可從 Hugging Face 平臺免費下載。這兩款模型分別為 gpt-oss-120b 和 gpt-oss-20b，前者可執行於單一 Nvidia GPU，後者可執行於具備 16GB 記憶體的消費級筆記型電腦。這是 OpenAI 自 2023 年發布 GPT-2 以來首次推出「開放」語言模型。OpenAI 表示，這些模型可將複雜查詢傳送給雲端 AI 模型，若無法處理特定任務（如影象處理），開發者可將其與公司更強大的封閉模型連線。儘管 OpenAI 早期曾開放原始碼，但公司長期傾向於專有開發模式以透過 API 銷售服務。然而，執行長 Sam Altman 於一月表示，公司認為在開放技術方面曾「錯過了歷史潮流」。隨著中國 AI 實驗室如 DeepSeek、Alibaba 的 Qwen 及 Moonshot AI 推出世界頂尖開放模型，加上特朗普政府於七月呼籲美國開發者開放更多技術，OpenAI 推出 gpt-oss 系列旨在爭取開發者與特朗普政府的支援。Altman 強調，OpenAI 的使命是確保對全人類有益的通用人工智慧（AGI），並希望建立基於美國民主價值觀的開放 AI 生態系統。在效能測試中，gpt-oss-120b 和 gpt-oss-20b 在 Codeforces 測試中分別獲得 2622 和 2516 分，表現優於 DeepSeek R1 但遜於 o3 和 o4-mini。在 Humanity's Last Exam 測試中，兩款模型得分分別為 19% 和 17.3%，雖低於 o3，但高於 DeepSeek 和 Qwen 的領先開放模型。值得注意的是，開放模型的幻覺率顯著高於 o3 和 o4-mini。在 PersonQA 測試中，gpt-oss-120b 和 gpt-oss-20b 的幻覺率分別為 49% 和 53%，是 o1 模型（16%）的三倍多，高於 o4-mini 的 36%。 OpenAI 表示，這些模型採用與專有
DeepMind 認為其新推出的 Genie 3 世界模型是邁向 AGI 的重要基石

2025年8月5日

Google DeepMind 推出了 Genie 3，這是一款最新的基礎世界模型，旨在訓練通用目的 AI 代理，被視為通往人工通用智慧（AGI）的關鍵一步。Genie 3 是首款實時互動的通用世界模型，能生成照片級真實與虛構之間的各種環境。與前代 Genie 2 相比，Genie 3 能透過簡單文字提示生成多分鐘、720p 解析度且每秒 24 幀的互動 3D 環境，並具備「可提示世界事件」功能，允許使用者透過提示改變生成環境。該模型最顯著的特徵是物理一致性，它能記住先前生成的內容，從而推匯出物理規律，無需硬編碼物理引擎。這種自回歸架構讓模型能像人類一樣理解物體運動與互動。DeepMind 測試顯示，Genie 3 與通用代理 SIMA 結合，能在倉庫場景中成功執行接近垃圾壓縮機或走向叉車等任務。儘管存在限制，例如模擬滑雪者時未完全反映雪地的動態，且代理可執行的動作範圍有限，且連續互動時間僅數分鐘，Genie 3 仍代表重大進步。它使 AI 代理能超越單純反應輸入，具備規劃、探索不確定性及透過試錯自我學習的能力，這被認為是實現具身智慧及通用智慧的關鍵。
Google推出Gemini Deep Think AI，一款能並行測試多種想法的推理模型

2025年8月1日

Google DeepMind 推出了 Gemini 2.5 Deep Think，宣稱這是其最先進的 AI 推理模型。該模型能同時探索並考慮多個想法，再根據輸出選擇最佳答案。訂閱 Google 每月 250 美元 Ultra 訂閱服務的使用者，可於本週五在 Gemini 應用程式中獲得訪問許可權。此模型於 2025 年 5 月在 Google I/O 首次亮相，是 Google 首款公開可用的多代理模型。系統會生成多個 AI 代理並行處理問題，雖然比單一代理消耗更多計算資源，但通常能產生更好的答案。Google 使用此模型的變體在今年國際數學奧林匹克（IMO）中獲得金牌，並向一組選定的數學家與學者開放了該模型。與大多數面向消費者的 AI 模型不同，此模型需要數小時進行推理。Google 希望該模型能增強研究努力，並收集反饋以改進多代理系統在學術場景中的應用。 Gemini 2.5 Deep Think 在「人類最後考試」（HLE）上達到最優效能，該測試衡量 AI 回答數學、人文與科學領域數千個眾包問題的能力。Google 聲稱其模型在無工具情況下得分為 34.8%，高於 xAI 的 Grok 4（25.4%）與 OpenAI 的 o3（20.3%）。在 LiveCodeBench 6 的競爭程式碼任務測試中，Gemini 2.5 Deep Think 得分 87.6%，優於 Grok 4 的 79% 與 o3 的 72%。該模型能自動與程式碼執行及 Google 搜尋等工具協作，並能產生比傳統 AI 模型更長、更詳細且美觀的回應。儘管表現強勁，多代理系統的服務成本較高，因此 Google 與 xAI 選擇將其限制在最高階別訂閱計劃中。Google 計劃在幾週內透過 Gemini API 向一組測試人員開放此模型，以瞭解開發者與企業如何應用該系統。

分類: 模型與研究

OpenAI 推出 GPT-5

OpenAI 發佈兩款「開放」AI 推理模型

DeepMind 認為其新推出的 Genie 3 世界模型是邁向 AGI 的重要基石

Google推出Gemini Deep Think AI，一款能並行測試多種想法的推理模型