微軟執行長納德拉曾預測兩年前,人工智慧將取代知識型工作,但儘管基礎模型進展迅速,白領領域的變革仍顯緩慢。近期,資料訓練巨頭 Mercor 發布新研究,針對諮詢、投資銀行及法律領域的實際任務建立新基準 APEX-Agents。測試結果顯示,所有 AI 實驗室均不及格,即便是最佳模型在面對真實專業人士提問時,正確率僅達四分之一。Mercor 執行長佛迪指出,模型最大的障礙在於跨領域資訊追蹤,這正是人類知識工作者日常運作的核心。測試環境模擬了 Slack 與 Google Drive 等多工具協作的真實情境,許多代理型 AI 在此類多領域推理上表現不穩。
測試題目源自 Mercor 專家市場,涵蓋複雜的法律合規評估,例如歐盟生產停擺期間資料外洩是否符合特定隱私條款,這類問題連部分人類專家亦可能感到困難。OpenAI 的 GDPval 基準測試廣泛知識,而 APEX-Agents 則聚焦高價值專業領域的持續任務執行,更能反映自動化潛力。在參與測試的模型中,Gemini 3 Flash 表現最佳,一問一答準確率為 24%,緊隨其後的是 GPT-5.2 達 23%,其餘如 Opus 4.5、Gemini 3 Pro 及 GPT-5 均約為 18%。佛迪認為,目前 AI 表現猶如僅能答對四分之一的實習生,但隨著基準公開,業界預期未來數月內將看到顯著進步,從去年的五至十 percent 提升至更高水準。