AI程式碼工具正轉向一個驚人的領域：終端機

近年來，Cursor、Windsurf 及 GitHub Copilot 等程式碼編輯工具一直是 AI 軟體開發的標準，但隨著代理式 AI 的興起與 Vibe Coding 的流行，AI 與軟體的互動方式正發生微妙轉變。AI 不再僅限於編輯程式碼，而是越來越多地直接與系統終端（Terminal）互動。自二月以來，Anthropic、DeepMind 和 OpenAI 分別推出了終端編碼工具 Claude Code、Gemini CLI 和 CLI Codex，這些產品已成為公司最熱門的產品之一。儘管品牌外觀相似，但其底層互動方式已發生實質變化。

知名終端評估指標 Terminal-Bench 的共同創作者 Mike Merrill 表示，未來 95% 的 LLM 與電腦互動將透過類終端介面進行。隨著傳統程式碼編輯工具面臨挑戰，例如 Windsurf 因併購糾紛導致未來不確定，且 METR 研究顯示開發者對 Cursor Pro 等工具的效率提升估計（20% 至 30%）與實際觀察（近 20% 變慢）存在落差，這為終端工具帶來了機會。目前 Warp 在 Terminal-Bench 中排名第一，其創辦人 Zach Lloyd 認為終端位於開發者棧的低層，是最具靈活性執行代理式 AI 的地方。

與專注於解決 GitHub 問題（SWE-Bench）的程式碼生成工具不同，終端工具採取更廣泛的視角，涵蓋 DevOps 任務如配置 Git 伺服器或排查指令碼無法執行的問題。Terminal-Bench 的挑戰不僅在於問題本身，更在於環境，要求 AI 具備逐步解決問題的代理式能力。儘管目前 Warp 僅解決了超過一半的問題，顯示該指標極具挑戰性，但 Lloyd 相信終端工具已能可靠處理開發者大部分非編碼工作，例如自主設定專案依賴並使其可執行，若無法完成則會告知原因。