不同的人工智慧實驗室各有其優先事項。OpenAI 傳統上專注於消費者使用者,而其競爭對手 Anthropic 則傾向於企業市場。Elon Musk 旗下的 xAI 最近被發現特別重視電子遊戲攻略。Business Insider 的 Grace Kay 發表了一篇關於 xAI 的詳細報告,指出 Musk 正讓員工生活變得困難。其中一個例子是,去年因 Musk 對聊天機器人回答關於遊戲《Baldur’s Gate》的詳細問題不滿意,導致模型發布延遲數天,高階工程師被從其他專案中調走以改善回答。這引發了工程師們對被 54 歲管理者分心處理遊戲攻略的挫折感,但也提出了更嚴肅的問題:Musk 是否真的獲得了他想要的遊戲技能?為了回答這個問題,作者 Ram Iyer 構建了一個名為”BaldurBench”的準基準測試,將 xAI 的 Grok 與 ChatGPT、Claude 和 Gemini 三大主流模型進行比較。測試結果顯示,Grok 提供了相當好的資訊,雖然使用瞭如”save-scumming”和”DPS”等遊戲術語,但答案實用且資訊豐富,且喜歡使用表格和理論推演。ChatGPT 偏好使用專案符號和短句,而 Gemini 則喜歡加粗重要詞彙。最大的意外是 Claude,它特別擔心洩露遊戲資訊,當被問及最佳隊伍組成時,它建議不要過度擔心,只需玩讓自己感到快樂的內容。儘管 xAI 曾專注於在特定領域達到與現有模型並駕齊驅的表現,但此次測試結果顯示 Grok 的建議與其他模型相當,這表明 xAI 若能努力嘗試,確實能達成目標。所有對話記錄已公開,供讀者檢視 Grok、ChatGPT、Claude 和 Gemini 的具體回應。
xAI 好消息:Grok 現在相當擅長回答《BALDUR'S GATE》的問題
分享這篇文章: