Guide Labs 發表一種新型可解釋的 LLM

Guide Labs 是一家由 CEO Julius Adebayo 和首席科學官 Aya Abdelsalam Ismail 於 2024 年 11 月從 Y Combinator 孵化並獲得 Initialized Capital 900 萬美元種子輪融資的舊金山創業公司，旨在解決深度學習模型難以解釋的挑戰。該公司今日公開了名為 Steerling-8B 的 80 億引數大型語言模型，該模型採用新架構設計，使其行為具有高度可解釋性。在該架構下，模型產生的每個 token 都能追溯至訓練資料的來源，這使得確定模型引用事實的參考資料或理解其對幽默、性別等概念的認知變得可行。Adebayo 指出，雖然現有模型也能做到，但這種方法非常脆弱，而 Steerling-8B 透過在模型中插入概念層將資料分組為可追蹤類別，將可解釋性從神經科學問題轉變為工程問題。儘管這種方法需要額外的資料標註，但團隊利用其他 AI 模型協助訓練，成功證明瞭其可行性。Adebayo 表示，該模型能達到現有模型 90% 的能力，但使用了更少的訓練資料，並且保留了模型自行發現概念（如量子計算）的突發行為。對於消費級 LLM、受監管行業（如金融）以及科學研究（如蛋白質摺疊），這種可解釋性至關重要，有助於控制版權內容、暴力或藥物濫用等輸出，並讓模型在評估貸款申請時考慮財務記錄而非種族。Guide Labs 的下一步是構建更大規模的模型，並開始向使用者提供 API 和智慧體訪問服務，以實現可解釋性的民主化。