多年來,科技巨頭執行長宣揚 AI 代理能自主使用軟體完成任務,但消費者現有的 AI 代理如 OpenAI 的 ChatGPT Agent 或 Perplexity 的 Comet 顯示技術仍有限。業界認為,要提升 AI 代理的堅固性,需採用新的技術,其中之一是模擬工作空間以訓練多步驟任務,稱為強化學習(RL)環境。類似標註資料集推動了上一波 AI 發展,RL 環境正成為開發關鍵元素。Andreessen Horowitz 合夥人 Jennifer Li 表示,各大 AI 實驗室都在自建 RL 環境,但也尋求第三方供應商。此趨勢催生了 Mechanize 和 Prime Intellect 等新創公司,以及 Mercor 和 Surge 等資料標註公司的投資增加。據 The Information 報導,Anthropic 領導層討論過未來一年花費超過 10 億美元於 RL 環境。投資者希望有公司能成為類似 Scale AI 的「環境標註巨頭」。
RL 環境是模擬 AI 代理在真實軟體應用中行為的訓練場。例如,模擬 Chrome 瀏覽器並讓代理在 Amazon 購買襪子,成功則給予獎勵。由於代理可能迷失或購買過多,環境必須足夠堅固以捕捉意外行為。OpenAI 早在 2016 年便建立「RL 健身房」,與 AlphaGo 使用類似技術。今日不同之處在於訓練具備大型變換器模型的通用電腦使用 AI 代理。資料標註公司如 Scale AI、Surge 和 Mercor 正積極應對需求,其中 Surge 去年營收達 12 億美元,Mercor 估值 100 億美元。Scale AI 曾因 Meta 投資 140 億美元並挖角執行長而失去部分市場,但仍努力適應。新創公司如 Mechanize 提供 50 萬美元年薪招募工程師建立環境,並與 Anthropic 合作;Prime Intellect 則針對小型開發者提供資源。
關於 RL 環境是否能像過去 AI 訓練方法般擴充套件,仍存在疑問。強化學習已推動 OpenAI 的 o1 和 Anthropic 的 Claude Opus 4 等模型突破,但方法現顯示遞減回報。OpenAI 研究人員曾投資推理模型,認為其能良好擴充套件。雖然擴充套件方式尚不明確,環境似乎具潛力,因其讓代理在具備工具和電腦的模擬