AI 代理是否已準備好進入職場？新基准測試引發質疑

微軟執行長納德拉曾預測兩年前，人工智慧將取代知識型工作，但儘管基礎模型進展迅速，白領領域的變革仍顯緩慢。近期，資料訓練巨頭 Mercor 發布新研究，針對諮詢、投資銀行及法律領域的實際任務建立新基準 APEX-Agents。測試結果顯示，所有 AI 實驗室均不及格，即便是最佳模型在面對真實專業人士提問時，正確率僅達四分之一。Mercor 執行長佛迪指出，模型最大的障礙在於跨領域資訊追蹤，這正是人類知識工作者日常運作的核心。測試環境模擬了 Slack 與 Google Drive 等多工具協作的真實情境，許多代理型 AI 在此類多領域推理上表現不穩。

測試題目源自 Mercor 專家市場，涵蓋複雜的法律合規評估，例如歐盟生產停擺期間資料外洩是否符合特定隱私條款，這類問題連部分人類專家亦可能感到困難。OpenAI 的 GDPval 基準測試廣泛知識，而 APEX-Agents 則聚焦高價值專業領域的持續任務執行，更能反映自動化潛力。在參與測試的模型中，Gemini 3 Flash 表現最佳，一問一答準確率為 24%，緊隨其後的是 GPT-5.2 達 23%，其餘如 Opus 4.5、Gemini 3 Pro 及 GPT-5 均約為 18%。佛迪認為，目前 AI 表現猶如僅能答對四分之一的實習生，但隨著基準公開，業界預期未來數月內將看到顯著進步，從去年的五至十 percent 提升至更高水準。