自 2024 年起,Anthropic 的效能最佳化團隊在招聘申請者時會提供一份居家測驗,以確保候選人具備專業知識。然而,隨著 AI 編碼工具的進步,該測驗必須不斷調整,以防候選人直接使用 Claude 填寫所有答案。團隊負責人 Tristan Hume 在週三的一篇部落格文章中描述了這一挑戰的歷史。Hume 指出,隨著每個新的 Claude 模型推出,他們都不得不重新設計測驗。當給予相同的時間限制時,Claude Opus 4 的表現優於大多數人類申請者,這雖然仍有助於篩選出最強的候選人,但隨後 Claude Opus 4.5 的表現甚至與這些候選人相當。
候選人被允許在測驗中使用 AI 工具,但這仍然構成了嚴重的評估問題。如果人類無法再超越模型的輸出,那麼測驗就只是測量不同模型的能力,而非尋找頂尖人才。Hume 表示,在居家測驗的約束下,他們已無法區分頂尖候選人的輸出與最強大模型的輸出。AI 在考試中的使用問題已在世界各地的學校和大學中造成混亂,因此 AI 實驗室面臨同樣問題頗具諷刺意味。但 Anthropic 在處理此問題方面具有獨特優勢。最終,Hume 設計了一項新測驗,其重點不再在於最佳化硬體,而是使其足夠新奇以讓當代 AI 工具無從下手。作為文章的一部分,他還分享了原始測驗,希望讀者能提出更好的解決方案。文章最後表示,若能超越 Opus 4.5,他們非常歡迎相關建議。此外,TechCrunch 更正了早期版本中關於 Anthropic 對居家測驗使用 AI 工具政策的誤述,事實上是明確允許使用 AI 工具的。