分類: 模型與研究
「模型與研究」分類的 AI 新聞與論文。
-
OpenAI 推出 GPT-5
OpenAI 於週四正式推出 GPT-5,這是一款全新的旗艦 AI 模型,將驅動公司下一代 ChatGPT 服務。GPT-5 是 OpenAI 首款「統一」AI 模型,結合了 o 系列模型的推理能力與 GPT 系列的快速回應速度。該模型標誌著 ChatGPT 的新時代,指向 OpenAI 更廣泛的願景,即開發更像代理而非聊天機器人的 AI 系統。與 GPT-4 主要提供智慧問答不同,GPT-5 允許 ChatGPT 代表使用者完成多種任務,例如生成軟體應用程式、管理日曆或撰寫研究簡報。 OpenAI 執行長 Sam Altman 在記者會上宣稱 GPT-5 是「世界上最棒的模型」,並表示這是通往人工通用智慧(AGI)的重要一步。自週四起,GPT-5 將成為所有免費 ChatGPT 使用者的預設模型,這是公司首次讓免費使用者接觸到 AI 推理模型。OpenAI 首席聊天機器人副總裁 Nick Turley 表示,這是為了讓更多人受益。 在效能方面,GPT-5 在多個領域略勝於競爭對手,包括 Anthropic、Google DeepMind 和 Elon Musk 的 xAI。在 SWE-bench Verified 編碼測試中,GPT-5 首次嘗試得分為 74.9%,僅次於 Claude Opus 4.1 的 74.5%。在衡量數學、人文與自然科學的 Humanity's Last Exam 測試中,GPT-5 Pro 使用工具得分為 42%,略低於 xAI 的 Grok 4 Heavy 的 44.4%。然而,在 GPQA Diamond 博士級科學問題測試中,GPT-5 Pro 首次嘗試得分為 89.4%,優於 Claude Opus 4.1 的 80.9% 和 Grok 4 Heavy 的 88.9%。 OpenAI 強調 GPT-5 在醫療相關問題上表現更佳。在 HealthBench Hard Hallucinations 測試中,GPT-5 的幻覺率僅為 1.6%,遠低於 GPT-4o 的 12.9% 和 o3 的 15.8%。在 Tau-bench 代理
-
OpenAI 發佈兩款「開放」AI 推理模型
OpenAI 於週二宣佈推出兩款開放權重的 AI 推理模型,其能力與 o 系列相似,並可從 Hugging Face 平臺免費下載。這兩款模型分別為 gpt-oss-120b 和 gpt-oss-20b,前者可執行於單一 Nvidia GPU,後者可執行於具備 16GB 記憶體的消費級筆記型電腦。這是 OpenAI 自 2023 年發布 GPT-2 以來首次推出「開放」語言模型。OpenAI 表示,這些模型可將複雜查詢傳送給雲端 AI 模型,若無法處理特定任務(如影象處理),開發者可將其與公司更強大的封閉模型連線。 儘管 OpenAI 早期曾開放原始碼,但公司長期傾向於專有開發模式以透過 API 銷售服務。然而,執行長 Sam Altman 於一月表示,公司認為在開放技術方面曾「錯過了歷史潮流」。隨著中國 AI 實驗室如 DeepSeek、Alibaba 的 Qwen 及 Moonshot AI 推出世界頂尖開放模型,加上特朗普政府於七月呼籲美國開發者開放更多技術,OpenAI 推出 gpt-oss 系列旨在爭取開發者與特朗普政府的支援。Altman 強調,OpenAI 的使命是確保對全人類有益的通用人工智慧(AGI),並希望建立基於美國民主價值觀的開放 AI 生態系統。 在效能測試中,gpt-oss-120b 和 gpt-oss-20b 在 Codeforces 測試中分別獲得 2622 和 2516 分,表現優於 DeepSeek R1 但遜於 o3 和 o4-mini。在 Humanity's Last Exam 測試中,兩款模型得分分別為 19% 和 17.3%,雖低於 o3,但高於 DeepSeek 和 Qwen 的領先開放模型。值得注意的是,開放模型的幻覺率顯著高於 o3 和 o4-mini。在 PersonQA 測試中,gpt-oss-120b 和 gpt-oss-20b 的幻覺率分別為 49% 和 53%,是 o1 模型(16%)的三倍多,高於 o4-mini 的 36%。 OpenAI 表示,這些模型採用與專有
-
DeepMind 認為其新推出的 Genie 3 世界模型是邁向 AGI 的重要基石
Google DeepMind 推出了 Genie 3,這是一款最新的基礎世界模型,旨在訓練通用目的 AI 代理,被視為通往人工通用智慧(AGI)的關鍵一步。Genie 3 是首款實時互動的通用世界模型,能生成照片級真實與虛構之間的各種環境。與前代 Genie 2 相比,Genie 3 能透過簡單文字提示生成多分鐘、720p 解析度且每秒 24 幀的互動 3D 環境,並具備「可提示世界事件」功能,允許使用者透過提示改變生成環境。 該模型最顯著的特徵是物理一致性,它能記住先前生成的內容,從而推匯出物理規律,無需硬編碼物理引擎。這種自回歸架構讓模型能像人類一樣理解物體運動與互動。DeepMind 測試顯示,Genie 3 與通用代理 SIMA 結合,能在倉庫場景中成功執行接近垃圾壓縮機或走向叉車等任務。儘管存在限制,例如模擬滑雪者時未完全反映雪地的動態,且代理可執行的動作範圍有限,且連續互動時間僅數分鐘,Genie 3 仍代表重大進步。它使 AI 代理能超越單純反應輸入,具備規劃、探索不確定性及透過試錯自我學習的能力,這被認為是實現具身智慧及通用智慧的關鍵。
-
Google推出Gemini Deep Think AI,一款能並行測試多種想法的推理模型
Google DeepMind 推出了 Gemini 2.5 Deep Think,宣稱這是其最先進的 AI 推理模型。該模型能同時探索並考慮多個想法,再根據輸出選擇最佳答案。訂閱 Google 每月 250 美元 Ultra 訂閱服務的使用者,可於本週五在 Gemini 應用程式中獲得訪問許可權。此模型於 2025 年 5 月在 Google I/O 首次亮相,是 Google 首款公開可用的多代理模型。系統會生成多個 AI 代理並行處理問題,雖然比單一代理消耗更多計算資源,但通常能產生更好的答案。Google 使用此模型的變體在今年國際數學奧林匹克(IMO)中獲得金牌,並向一組選定的數學家與學者開放了該模型。與大多數面向消費者的 AI 模型不同,此模型需要數小時進行推理。Google 希望該模型能增強研究努力,並收集反饋以改進多代理系統在學術場景中的應用。 Gemini 2.5 Deep Think 在「人類最後考試」(HLE)上達到最優效能,該測試衡量 AI 回答數學、人文與科學領域數千個眾包問題的能力。Google 聲稱其模型在無工具情況下得分為 34.8%,高於 xAI 的 Grok 4(25.4%)與 OpenAI 的 o3(20.3%)。在 LiveCodeBench 6 的競爭程式碼任務測試中,Gemini 2.5 Deep Think 得分 87.6%,優於 Grok 4 的 79% 與 o3 的 72%。該模型能自動與程式碼執行及 Google 搜尋等工具協作,並能產生比傳統 AI 模型更長、更詳細且美觀的回應。儘管表現強勁,多代理系統的服務成本較高,因此 Google 與 xAI 選擇將其限制在最高階別訂閱計劃中。Google 計劃在幾週內透過 Gemini API 向一組測試人員開放此模型,以瞭解開發者與企業如何應用該系統。