非營利組織 Laude 學院於週三下午 5 點(太平洋時間)宣佈,由 Databricks 與 Perplexity 共同創辦人 Andy Konwinski 發起的 K Prize 多輪 AI 程式碼挑戰賽的首位得主已產生。這位來自巴西的提示工程師 Eduardo Rocha de Andrade 獲得了 50,000 美元的獎金。令人驚訝的是,他僅以 7.5% 的正確率答對測試題目便奪冠。Konwinski 表示,建立一個真正艱難的基準測試至關重要,並指出若大型實驗室投入最大模型,分數將截然不同。K Prize 採用離線執行且計算資源受限的方式,旨在讓小型與開放模型更具優勢,並承諾一百萬美元獎勵給能在測試中獲得超過 90% 分數的首個開放原始碼模型。
與常見的 SWE-Bench 系統類似,K Prize 利用 GitHub 上的標記問題來測試模型處理真實世界程式碼問題的能力,但 K Prize 被設計為「無汙染版本的 SWE-Bench」。為了防止模型針對特定基準進行訓練,測試題目僅使用 3 月 12 日之後標記的 GitHub 問題。此結果與 SWE-Bench 形成鮮明對比,後者較易的「驗證」測試頂分達 75%,較難的「完整」測試頂分為 34%。Princeton 大學的研究員 Sayash Kapoor 也支援建立新測試以解決 AI 評估問題,指出缺乏實驗難以判斷問題是否來自汙染或針對排行榜的最佳化。Konwinski 強調,若無法在無汙染的 SWE-Bench 上獲得超過 10% 的成績,這便是對 AI 產業現實的一次重要檢查。