取得博士學位的學生成為AI產業評審者

人工智慧模型迅速擴增，競爭激烈，Arena 前身為 LM Arena，已成為前沿大型語言模型（LLM）的公認排行榜，影響著資金、產品發布與公共關係週期。該起點僅在七個月內，從加州大學柏克萊分校的博士研究專案發展為估值達 17 億美元的創業公司。在 TechCrunch 的 Equity 播客節目中，Rebecca Bellan 與 Arena 共同創辦人 Anastasios Angelopoulos 及 Wei-Lin Chiang 探討瞭如何建立中立基準，即使被評測的公司也是他們的後盾。節目內容涵蓋 Arena 的運作機制、為何無法像靜態基準那樣被操弄、所謂「結構中立」的含義，以及接受 OpenAI、Google 和 Anthropic 資金是否構成利益衝突。此外，還介紹了 Arena 如何超越對話功能，將基準測試擴充套件至代理、程式碼撰寫及真實世界任務，並推出新企業產品。節目指出 Claude 目前在法律與醫療等專業領域的專家排行榜上領先。最後，討論了 Arena 對 LLM 之後技術路線的押注，認為代理（Agents）將是下一個測試重點。該播客可在 YouTube、Apple Podcasts、Overcast、Spotify 等平臺收聽，並可透過 X 和 Threads 關注 @EquityPod。