OpenAI 於週四推出了 GPT-5.4,宣稱這是其最強大且高效的專業工作前沿模型。該模型提供標準版、推理版(GPT-5.4 Thinking)以及針對高績效最佳化的版本(GPT-5.4 Pro)。API 版本的上下文視窗可達一百萬 token,遠超 OpenAI 現有產品。新模型在 token 效率上顯著提升,能以較少 token 解決相同問題,並在 OSWorld-Verified 和 WebArena Verified 等電腦使用 benchmarks 中創下紀錄。在 OpenAI 的 GDPval 知識工作任務測試中,得分高達 83%。此外,GPT-5.4 在 Mercor 的 APEX-Agents 專業技能測試(涵蓋法律與金融領域)中取得領先,Mercor 執行長 Brendan Foody 指出該模型在製作簡報、財務模型及法律分析等長期交付成果方面表現卓越,且執行速度更快、成本更低。
在減少幻覺與事實錯誤方面,新模型相比 GPT 5.2 在個別宣告的錯誤率降低 33%,整體回應錯誤率降低 18%。API 版本引入了新的工具呼叫系統 Tool Search,取代了以往列出所有工具定義的方式,有效節省 token 並提升效率。同時,OpenAI 新增安全評估以測試模型的思維鏈(Chain-of-Thought),顯示在推理版中模型較少欺騙其思維過程,證明思維鏈監控仍是有效的安全工具。