OpenAI表示GPT-5在廣泛的工作範疇中與人類表現相若

OpenAI 於週四發布了名為 GDPval 的新基準測試，旨在評估其 AI 模型在廣泛行業與職業中與人類專業人士的表現對比。該測試是 OpenAI 嘗試理解其系統在經濟上重要工作上接近超越人類程度的早期努力，符合公司開發通用人工智慧（AGI）的基礎使命。OpenAI 表示，其 GPT-5 模型與 Anthropic 的 Claude Opus 4.1 已接近產業專家產出工作品質的水平。儘管部分執行長預測 AI 僅需數年即可取代人類工作，OpenAI 承認 GDPval 目前僅涵蓋極少數真實工作任務。此基準涵蓋貢獻美國國內生產總值最多的九個行業，包括醫療保健、金融、製造業及政府部門，並測試 44 種職業，從軟體工程師到護士及記者。在 GDPval-v0 版本中，OpenAI 請經驗豐富的專業人士比較 AI 生成報告與人類報告並選擇最佳者。例如，要求投資銀行家為最後一哩送遞行業建立競爭格局並與 AI 報告比較。OpenAI 則跨所有 44 種職業平均 AI 模型的「勝率」。對於 GPT-5-high 版本，公司表示該 AI 模型有 40.6% 的時間被評為優於或與產業專家並駕齊驅。Anthropic 的 Claude Opus 4.1 模型在 49% 的任務中獲得相同評價，OpenAI 認為這部分歸因於其傾向於製作令人愉悅的圖表而非純粹效能。OpenAI 首席經濟學家 Aaron Chatterji 指出，這些結果表明這些職業的人可以將更多時間花在更有意義的任務上，隨著能力提升，可將部分工作外包給模型以進行更高價值的工作。OpenAI 評估主管 Tejal Patwardhan 表示對 GDPval 的進展速度感到鼓舞，因為 GPT-4o 模型在約 15 個月前得分僅為 13.7%，而現在 GPT-5 得分幾乎是三倍。雖然矽谷有多項基準測試如 AIME 2025 和 GPQA Diamond，但許多模型在這些測試上已接近飽和，許多 AI 研究者呼籲需要能測量真實世界任務能力的更好測試。GDPval 可能在此討論中變得越來越重要，但 OpenAI