或許AI代理可以成為律師

上個月作者曾提及 Mercor 推出的新基準測試，該測試評估 AI 代理在律師法務與企業分析等專業任務上的能力。當時各大實驗室得分均低於 25%，因此推斷律師暫時無需擔心被 AI 取代。然而，AI 能力僅需數週即可發生顯著變化。本週 Anthropic 發布的 Opus 4.6 模型大幅震動了排行榜，該模型在單次嘗試中得分接近 30%，在經過幾次嘗試後平均得分達到 45%。值得注意的是，此次發布包含「代理群組」等新功能，可能有助於解決多步驟問題。儘管如此，該分數相比前一個最優水平仍有巨大提升，顯示基礎模型進展並未放緩。Mercor 執行長 Brendan Foody 對此印象深刻，他稱從 18.4% 躍升至 29.8% 僅用數個月是「不可思議」的。雖然 30% 距離 100% 仍有長路，律師們不必擔心下週就會被機器取代，但他們應比上月少許信心。