新AI程式設計挑戰賽公布首輪結果 — 並非理想表現

非營利組織 Laude 學院於週三下午 5 點（太平洋時間）宣佈，由 Databricks 與 Perplexity 共同創辦人 Andy Konwinski 發起的 K Prize 多輪 AI 程式碼挑戰賽的首位得主已產生。這位來自巴西的提示工程師 Eduardo Rocha de Andrade 獲得了 50,000 美元的獎金。令人驚訝的是，他僅以 7.5% 的正確率答對測試題目便奪冠。Konwinski 表示，建立一個真正艱難的基準測試至關重要，並指出若大型實驗室投入最大模型，分數將截然不同。K Prize 採用離線執行且計算資源受限的方式，旨在讓小型與開放模型更具優勢，並承諾一百萬美元獎勵給能在測試中獲得超過 90% 分數的首個開放原始碼模型。

與常見的 SWE-Bench 系統類似，K Prize 利用 GitHub 上的標記問題來測試模型處理真實世界程式碼問題的能力，但 K Prize 被設計為「無汙染版本的 SWE-Bench」。為了防止模型針對特定基準進行訓練，測試題目僅使用 3 月 12 日之後標記的 GitHub 問題。此結果與 SWE-Bench 形成鮮明對比，後者較易的「驗證」測試頂分達 75%，較難的「完整」測試頂分為 34%。Princeton 大學的研究員 Sayash Kapoor 也支援建立新測試以解決 AI 評估問題，指出缺乏實驗難以判斷問題是否來自汙染或針對排行榜的最佳化。Konwinski 強調，若無法在無汙染的 SWE-Bench 上獲得超過 10% 的成績，這便是對 AI 產業現實的一次重要檢查。