xAI 好消息：Grok 現在相當擅長回答《BALDUR'S GATE》的問題

不同的人工智慧實驗室各有其優先事項。OpenAI 傳統上專注於消費者使用者，而其競爭對手 Anthropic 則傾向於企業市場。Elon Musk 旗下的 xAI 最近被發現特別重視電子遊戲攻略。Business Insider 的 Grace Kay 發表了一篇關於 xAI 的詳細報告，指出 Musk 正讓員工生活變得困難。其中一個例子是，去年因 Musk 對聊天機器人回答關於遊戲《Baldur’s Gate》的詳細問題不滿意，導致模型發布延遲數天，高階工程師被從其他專案中調走以改善回答。這引發了工程師們對被 54 歲管理者分心處理遊戲攻略的挫折感，但也提出了更嚴肅的問題：Musk 是否真的獲得了他想要的遊戲技能？為了回答這個問題，作者 Ram Iyer 構建了一個名為”BaldurBench”的準基準測試，將 xAI 的 Grok 與 ChatGPT、Claude 和 Gemini 三大主流模型進行比較。測試結果顯示，Grok 提供了相當好的資訊，雖然使用瞭如”save-scumming”和”DPS”等遊戲術語，但答案實用且資訊豐富，且喜歡使用表格和理論推演。ChatGPT 偏好使用專案符號和短句，而 Gemini 則喜歡加粗重要詞彙。最大的意外是 Claude，它特別擔心洩露遊戲資訊，當被問及最佳隊伍組成時，它建議不要過度擔心，只需玩讓自己感到快樂的內容。儘管 xAI 曾專注於在特定領域達到與現有模型並駕齊驅的表現，但此次測試結果顯示 Grok 的建議與其他模型相當，這表明 xAI 若能努力嘗試，確實能達成目標。所有對話記錄已公開，供讀者檢視 Grok、ChatGPT、Claude 和 Gemini 的具體回應。