跳至內容
AI 新聞站
返回

Guide Labs 發表一種新型可解釋的 LLM

Guide Labs 是一家由 CEO Julius Adebayo 和首席科學官 Aya Abdelsalam Ismail 於 2024 年 11 月從 Y Combinator 孵化並獲得 Initialized Capital 900 萬美元種子輪融資的舊金山創業公司,旨在解決深度學習模型難以解釋的挑戰。該公司今日公開了名為 Steerling-8B 的 80 億引數大型語言模型,該模型採用新架構設計,使其行為具有高度可解釋性。在該架構下,模型產生的每個 token 都能追溯至訓練資料的來源,這使得確定模型引用事實的參考資料或理解其對幽默、性別等概念的認知變得可行。Adebayo 指出,雖然現有模型也能做到,但這種方法非常脆弱,而 Steerling-8B 透過在模型中插入概念層將資料分組為可追蹤類別,將可解釋性從神經科學問題轉變為工程問題。儘管這種方法需要額外的資料標註,但團隊利用其他 AI 模型協助訓練,成功證明瞭其可行性。Adebayo 表示,該模型能達到現有模型 90% 的能力,但使用了更少的訓練資料,並且保留了模型自行發現概念(如量子計算)的突發行為。對於消費級 LLM、受監管行業(如金融)以及科學研究(如蛋白質摺疊),這種可解釋性至關重要,有助於控制版權內容、暴力或藥物濫用等輸出,並讓模型在評估貸款申請時考慮財務記錄而非種族。Guide Labs 的下一步是構建更大規模的模型,並開始向使用者提供 API 和智慧體訪問服務,以實現可解釋性的民主化。


分享這篇文章:

上一篇
OpenAI 請來顧問協助推動企業發展計畫
下一篇
Particle 的 AI 資訊 App 聽播客尋找有趣片段,讓你不用自己尋找