跳至內容
AI 新聞站
返回

OpenAI表示GPT-5在廣泛的工作範疇中與人類表現相若

OpenAI 於週四發布了名為 GDPval 的新基準測試,旨在評估其 AI 模型在廣泛行業與職業中與人類專業人士的表現對比。該測試是 OpenAI 嘗試理解其系統在經濟上重要工作上接近超越人類程度的早期努力,符合公司開發通用人工智慧(AGI)的基礎使命。OpenAI 表示,其 GPT-5 模型與 Anthropic 的 Claude Opus 4.1 已接近產業專家產出工作品質的水平。儘管部分執行長預測 AI 僅需數年即可取代人類工作,OpenAI 承認 GDPval 目前僅涵蓋極少數真實工作任務。此基準涵蓋貢獻美國國內生產總值最多的九個行業,包括醫療保健、金融、製造業及政府部門,並測試 44 種職業,從軟體工程師到護士及記者。在 GDPval-v0 版本中,OpenAI 請經驗豐富的專業人士比較 AI 生成報告與人類報告並選擇最佳者。例如,要求投資銀行家為最後一哩送遞行業建立競爭格局並與 AI 報告比較。OpenAI 則跨所有 44 種職業平均 AI 模型的「勝率」。對於 GPT-5-high 版本,公司表示該 AI 模型有 40.6% 的時間被評為優於或與產業專家並駕齊驅。Anthropic 的 Claude Opus 4.1 模型在 49% 的任務中獲得相同評價,OpenAI 認為這部分歸因於其傾向於製作令人愉悅的圖表而非純粹效能。OpenAI 首席經濟學家 Aaron Chatterji 指出,這些結果表明這些職業的人可以將更多時間花在更有意義的任務上,隨著能力提升,可將部分工作外包給模型以進行更高價值的工作。OpenAI 評估主管 Tejal Patwardhan 表示對 GDPval 的進展速度感到鼓舞,因為 GPT-4o 模型在約 15 個月前得分僅為 13.7%,而現在 GPT-5 得分幾乎是三倍。雖然矽谷有多項基準測試如 AIME 2025 和 GPQA Diamond,但許多模型在這些測試上已接近飽和,許多 AI 研究者呼籲需要能測量真實世界任務能力的更好測試。GDPval 可能在此討論中變得越來越重要,但 OpenAI


分享這篇文章:

上一篇
史蒂夫·庫里創辦的風投公司剛投資一家想要改善糧食供應鏈的AI新創公司
下一篇
馬斯克的xAI提供Grok給聯邦政府僅需42美分