Anthropic 必須持續修正其技術面試測試以因應 Claude 的進步

自 2024 年起，Anthropic 的效能最佳化團隊在招聘申請者時會提供一份居家測驗，以確保候選人具備專業知識。然而，隨著 AI 編碼工具的進步，該測驗必須不斷調整，以防候選人直接使用 Claude 填寫所有答案。團隊負責人 Tristan Hume 在週三的一篇部落格文章中描述了這一挑戰的歷史。Hume 指出，隨著每個新的 Claude 模型推出，他們都不得不重新設計測驗。當給予相同的時間限制時，Claude Opus 4 的表現優於大多數人類申請者，這雖然仍有助於篩選出最強的候選人，但隨後 Claude Opus 4.5 的表現甚至與這些候選人相當。

候選人被允許在測驗中使用 AI 工具，但這仍然構成了嚴重的評估問題。如果人類無法再超越模型的輸出，那麼測驗就只是測量不同模型的能力，而非尋找頂尖人才。Hume 表示，在居家測驗的約束下，他們已無法區分頂尖候選人的輸出與最強大模型的輸出。AI 在考試中的使用問題已在世界各地的學校和大學中造成混亂，因此 AI 實驗室面臨同樣問題頗具諷刺意味。但 Anthropic 在處理此問題方面具有獨特優勢。最終，Hume 設計了一項新測驗，其重點不再在於最佳化硬體，而是使其足夠新奇以讓當代 AI 工具無從下手。作為文章的一部分，他還分享了原始測驗，希望讀者能提出更好的解決方案。文章最後表示，若能超越 Opus 4.5，他們非常歡迎相關建議。此外，TechCrunch 更正了早期版本中關於 Anthropic 對居家測驗使用 AI 工具政策的誤述，事實上是明確允許使用 AI 工具的。