印度人工智慧實驗室 Sarvam 於二日在印度新德里舉辦的印度 AI 影響峰會上,正式推出新一代大型語言模型。該公司希望透過較小且高效的開源 AI 模型,從美國和中國等競爭對手提供的昂貴系統中搶佔市場份額。此次發布的模型包含 300 億引數與 1050 億引數兩種版本,並搭配文字轉語音、語音轉文字及檔案解析等視覺模型。這組產品相比於 2024 年 10 月推出的 20 億引數 Sarvam 1 模型有顯著升級。新模型採用專家混合架構,僅在特定時刻啟用部分引數以大幅降低運算成本。300 億引數模型支援 32,000 token 的上下文視窗,適用於即時對話;而 1050 億引數模型則提供 128,000 token 視窗,專為複雜的多步驟推理任務設計。
Sarvam 宣稱這些模型是全新訓練而非基於現有開源系統微調。300 億引數模型在約 16 兆 token 的文字上進行預訓練,1050 億引數模型則涵蓋多種印度語言的兆級資料。這些模型旨在支援即時應用,包括印度語言的語音助手和聊天系統。1050 億引數模型被定位為與 OpenAI 的 GPT-OSS-120B 及阿里巴巴的 Qwen-3-Next-80B 競爭。模型訓練使用了印度政府支援的 IndiaAI Mission 提供的計算資源,基礎設施由 Yotta 支援,技術支援來自 Nvidia。Sarvam 執行長表示,公司將採取謹慎方式擴充套件模型,專注於實際應用而非單純追求規模。公司計劃將 300 億與 1050 億引數模型開源,但尚未說明是否公開訓練資料或完整訓練程式碼。此外,Sarvam 還計劃開發專注於程式碼的模型及企業工具,並推出名為 Samvaad 的對話式 AI 代理平臺。該公司成立於 2023 年,已籌資超過 4000 萬美元,投資方包括 Lightspeed Venture Partners、Khosla Ventures 及 Peak XV Partners。