人工智慧已對軟體開發產生震盪性影響,許多程式碼工作現由多個代理與子代理群組完成。然而,隨著開發者嘗試新的人機協作介面與形態,即便是最先進的實驗室也難以跟進。當前趨勢為代理軟體開發,即 AI 代理能獨立執行編碼任務,此趨勢由 Claude Code 與 Cowork 應用程式體現。同時,OpenAI 正逐步完善其 Codex 工具,該工具於四月以命令列工具形式推出,一個月後擴充套件至網頁介面。如今,OpenAI 邁出重大一步,於週一推出針對 macOS 的 Codex 新應用程式,整合過去一年流行的代理實踐。新應用程式設計支援多個代理並行運作,整合代理技能與最新工作流。此次發布發生在 GPT-5.2-Codex 推出不到兩個月後,後者是 OpenAI 最強大的編碼模型,公司希望其能吸引來自 Claude Code 的使用者。OpenAI 執行長 Sam Altman 表示,若需對複雜事物進行高階工作,5.2 是最強的模型,但使用較困難,因此將其能力置於更靈活的介面中將至關重要。儘管 Altman 對 GPT-5.2 的信心合理,但編碼基準測試顯示故事較為複雜。GPT-5.2 在 TerminalBench 測試中暫居榜首,但 Gemini 3 與 Claude Opus 的代理得分相當,僅略低且在誤差範圍內。另一項測試 SWE-bench 的結果也顯示 GPT-5.2 無明顯優勢。然而,代理使用案例難以有效基準測試,且頂尖模型在使用者體驗上差異顯著。Codex 應用程式還包含一系列新功能,OpenAI 稱其將有助於實現與各款 Claude 應用程式並駕齊驅甚至超越。Codex 應用程式允許設定自動化任務在背景中按自動時間表執行,結果放入佇列供使用者返回時審查。使用者還可根據工作風格選擇不同性格的代理,從務實到富有同理心。對公司而言,最大賣點是 AI 所帶來的開發速度。Altman 表示,從空白紙張開始,幾小時內即可構建相當複雜的軟體,速度僅限於他輸入新想法的速度。
OpenAI 發佈全新 macOS 應用程式用於自主程式設計
分享這篇文章: