Mistral 發佈一個新的開放原始碼語音生成模型

法國人工智慧公司 Mistral 於週四發布了一款新的開源文字轉語音模型，名為 Voxtral TTS。該模型旨在支援語音 AI 助理及企業應用，如客戶服務、銷售與客戶互動，直接與 ElevenLabs、Deepgram 及 OpenAI 等競爭對手抗衡。Voxtral TTS 支援九種語言，包括英文、法文、德文、西班牙文、荷蘭文、葡萄牙文、義大利文、印地文及阿拉伯文。Mistral 科學營運副總裁 Pierre Stock 表示，該模型體積小巧，可部署於智慧手錶、手機、筆記型電腦等邊緣裝置，成本僅為市場其他產品的一小部分，但提供頂尖效能。

該模型基於 Ministral 3B，可透過少於五秒的樣本自訂語音，捕捉細微口音、語調起伏及語流不規則等特徵。模型能輕鬆切換語言而不影響語音特性，適用於配音或即時翻譯。Mistral 強調模型聲音擬人化而非機械化，並針對即時效能最佳化。其首次發音時間（TTFA）為 90 毫秒，處理 500 個字元的 10 秒語音片段；即時因子（RTF）為 6 倍，表示 10 秒影片可於約 1.6 秒內渲染完成。

Mistral 此前已推出兩款轉錄模型，分別針對大規模批處理與低延遲即時應用。此次推出語音模型後，公司計劃提供完整語音產品套件，打造端到端平臺，支援多模態輸入（音訊、文字、影像）與輸出。Stock 指出，端到端代理系統能提供更多資訊，尤其當音訊作為輸入或輸出時。Mistral 透過開源與自訂功能，協助企業調整模型以超越競爭對手，滿足企業對語音產品的需求。