OpenAI 於週四正式推出 GPT-5,這是一款全新的旗艦 AI 模型,將驅動公司下一代 ChatGPT 服務。GPT-5 是 OpenAI 首款「統一」AI 模型,結合了 o 系列模型的推理能力與 GPT 系列的快速回應速度。該模型標誌著 ChatGPT 的新時代,指向 OpenAI 更廣泛的願景,即開發更像代理而非聊天機器人的 AI 系統。與 GPT-4 主要提供智慧問答不同,GPT-5 允許 ChatGPT 代表使用者完成多種任務,例如生成軟體應用程式、管理日曆或撰寫研究簡報。
OpenAI 執行長 Sam Altman 在記者會上宣稱 GPT-5 是「世界上最棒的模型」,並表示這是通往人工通用智慧(AGI)的重要一步。自週四起,GPT-5 將成為所有免費 ChatGPT 使用者的預設模型,這是公司首次讓免費使用者接觸到 AI 推理模型。OpenAI 首席聊天機器人副總裁 Nick Turley 表示,這是為了讓更多人受益。
在效能方面,GPT-5 在多個領域略勝於競爭對手,包括 Anthropic、Google DeepMind 和 Elon Musk 的 xAI。在 SWE-bench Verified 編碼測試中,GPT-5 首次嘗試得分為 74.9%,僅次於 Claude Opus 4.1 的 74.5%。在衡量數學、人文與自然科學的 Humanity’s Last Exam 測試中,GPT-5 Pro 使用工具得分為 42%,略低於 xAI 的 Grok 4 Heavy 的 44.4%。然而,在 GPQA Diamond 博士級科學問題測試中,GPT-5 Pro 首次嘗試得分為 89.4%,優於 Claude Opus 4.1 的 80.9% 和 Grok 4 Heavy 的 88.9%。
OpenAI 強調 GPT-5 在醫療相關問題上表現更佳。在 HealthBench Hard Hallucinations 測試中,GPT-5 的幻覺率僅為 1.6%,遠低於 GPT-4o 的 12.9% 和 o3 的 15.8%。在 Tau-bench 代理