跳至內容
AI 新聞站
返回

取得博士學位的學生成為AI產業評審者

人工智慧模型迅速擴增,競爭激烈,Arena 前身為 LM Arena,已成為前沿大型語言模型(LLM)的公認排行榜,影響著資金、產品發布與公共關係週期。該起點僅在七個月內,從加州大學柏克萊分校的博士研究專案發展為估值達 17 億美元的創業公司。在 TechCrunch 的 Equity 播客節目中,Rebecca Bellan 與 Arena 共同創辦人 Anastasios Angelopoulos 及 Wei-Lin Chiang 探討瞭如何建立中立基準,即使被評測的公司也是他們的後盾。節目內容涵蓋 Arena 的運作機制、為何無法像靜態基準那樣被操弄、所謂「結構中立」的含義,以及接受 OpenAI、Google 和 Anthropic 資金是否構成利益衝突。此外,還介紹了 Arena 如何超越對話功能,將基準測試擴充套件至代理、程式碼撰寫及真實世界任務,並推出新企業產品。節目指出 Claude 目前在法律與醫療等專業領域的專家排行榜上領先。最後,討論了 Arena 對 LLM 之後技術路線的押注,認為代理(Agents)將是下一個測試重點。該播客可在 YouTube、Apple Podcasts、Overcast、Spotify 等平臺收聽,並可透過 X 和 Threads 關注 @EquityPod。


分享這篇文章:

上一篇
微軟聘請 Sequoia 資助的 AI 協作平台 Cove 團隊
下一篇
國防部表示,Anthropic 的「紅線」使其成為對國家安全的「不可接受風險