上個月作者曾提及 Mercor 推出的新基準測試,該測試評估 AI 代理在律師法務與企業分析等專業任務上的能力。當時各大實驗室得分均低於 25%,因此推斷律師暫時無需擔心被 AI 取代。然而,AI 能力僅需數週即可發生顯著變化。本週 Anthropic 發布的 Opus 4.6 模型大幅震動了排行榜,該模型在單次嘗試中得分接近 30%,在經過幾次嘗試後平均得分達到 45%。值得注意的是,此次發布包含「代理群組」等新功能,可能有助於解決多步驟問題。儘管如此,該分數相比前一個最優水平仍有巨大提升,顯示基礎模型進展並未放緩。Mercor 執行長 Brendan Foody 對此印象深刻,他稱從 18.4% 躍升至 29.8% 僅用數個月是「不可思議」的。雖然 30% 距離 100% 仍有長路,律師們不必擔心下週就會被機器取代,但他們應比上月少許信心。
或許AI代理可以成為律師
分享這篇文章: