法國人工智慧公司 Mistral 於週二推出其首款面向企業的音訊模型家族 Voxtral,旨在挑戰封閉式企業系統的壟斷地位,提供開放權重的替代方案。Mistral 宣稱 Voxtral 是首款能在生產環境中部署真正可用語音智慧的開放模型,讓開發者不再需要在廉價但理解力不足的開放系統與功能良好但昂貴且封閉的系統之間做選擇。該模型可轉錄長達 30 分鐘的音訊,並憑藉 Mistral Small 3.1 的基礎大語言模型架構,能理解長達 40 分鐘的內容,支援使用者就音訊內容提問、生成摘要或將語音指令轉化為即時動作,例如呼叫 API 或執行函式。Voxtral 支援多國語言,包括英語、西班牙語、法語、葡萄牙語、印地語、德語、荷蘭語和義大利語。公司推出兩種變體,Voxtral Small 擁有 240 億引數,適合大規模生產部署,其效能與 ElevenLabs Scribe、GPT-4o-mini 及 Gemini 2.5 Flash 相當;Voxtral Mini 則擁有 30 億引數,適用於本地與邊緣部署。此外,還有一款名為 Voxtral Mini Transcribe 的超經濟版本,專為僅轉錄用途最佳化,宣稱效能優於 OpenAI Whisper 且價格不到其一半。使用者可透過 Hugging Face 下載 API 免費試用,或於 Mistral 的聊天機器人 Le Chat 中測試模型。根據公司說法,將 API 整合至應用程式的起點價格為每分鐘 0.001 美元。此次發布距 Mistral 上月宣佈其首款逐步推理模型家族 Magistral 僅隔一個月。Mistral 作為歐洲頂尖人工智慧企業之一,長期倡導開放原始碼 AI 模型,近期更被 TechCrunch 報導正與投資者洽談籌資高達 10 億美元的事宜。
迷思特發布voxtral,其首款開放源碼AI音訊模型
分享這篇文章: