近年軟體工程師的工作流程因 Cursor 與 GitHub Copilot 等 AI 編碼工具的湧入而發生轉變,這些工具宣稱能透過自動編寫程式碼、修復錯誤及測試變更來提升生產力,其背後的 AI 模型來自 OpenAI、Google DeepMind、Anthropic 和 xAI。然而,非營利 AI 研究組織 METR 於週四發表的新研究對這些工具是否能真正提升資深開發者的生產力提出質疑。METR 招募了 16 位資深開源開發者,讓他們在常貢獻的大型程式碼庫中完成 246 個真實任務,並隨機分配一半任務允許使用 Cursor Pro 等 AI 工具,另一半則禁止使用。開發者事前預測使用 AI 工具可縮短 24% 的完成時間,但結果顯示允許使用 AI 反而使完成時間增加了 19%,開發者在使用 AI 工具時變慢了。值得注意的是,僅有 56% 的開發者有使用 Cursor 的經驗,雖然 94% 的開發者有使用網頁式大語言模型的經驗,但本研究是首次測試 Cursor 的特定應用。研究人員指出,開發者雖接受過 Cursor 訓練,但使用 AI 時花費大量時間在提示和等待回應,且 AI 在大型複雜程式碼庫中表現不佳。儘管 METR 的研究者謹慎表示不認為當前 AI 系統無法加速大多數開發者,且預期未來三個月內情況可能改善,但研究結果仍讓人對 2025 年宣稱的普遍生產力提升保持懷疑。此外,其他研究也顯示當前 AI 編碼工具可能引入錯誤甚至安全漏洞。
AI程式設計工具未必能提升所有開發者的效率,研究顯示
分享這篇文章: