跳至內容
AI 新聞站
返回

Mistral 發佈一個新的開放原始碼語音生成模型

法國人工智慧公司 Mistral 於週四發布了一款新的開源文字轉語音模型,名為 Voxtral TTS。該模型旨在支援語音 AI 助理及企業應用,如客戶服務、銷售與客戶互動,直接與 ElevenLabs、Deepgram 及 OpenAI 等競爭對手抗衡。Voxtral TTS 支援九種語言,包括英文、法文、德文、西班牙文、荷蘭文、葡萄牙文、義大利文、印地文及阿拉伯文。Mistral 科學營運副總裁 Pierre Stock 表示,該模型體積小巧,可部署於智慧手錶、手機、筆記型電腦等邊緣裝置,成本僅為市場其他產品的一小部分,但提供頂尖效能。

該模型基於 Ministral 3B,可透過少於五秒的樣本自訂語音,捕捉細微口音、語調起伏及語流不規則等特徵。模型能輕鬆切換語言而不影響語音特性,適用於配音或即時翻譯。Mistral 強調模型聲音擬人化而非機械化,並針對即時效能最佳化。其首次發音時間(TTFA)為 90 毫秒,處理 500 個字元的 10 秒語音片段;即時因子(RTF)為 6 倍,表示 10 秒影片可於約 1.6 秒內渲染完成。

Mistral 此前已推出兩款轉錄模型,分別針對大規模批處理與低延遲即時應用。此次推出語音模型後,公司計劃提供完整語音產品套件,打造端到端平臺,支援多模態輸入(音訊、文字、影像)與輸出。Stock 指出,端到端代理系統能提供更多資訊,尤其當音訊作為輸入或輸出時。Mistral 透過開源與自訂功能,協助企業調整模型以超越競爭對手,滿足企業對語音產品的需求。


分享這篇文章:

上一篇
數據中心的「以血還血」:一位參議員對AI失業的回應
下一篇
目前發生的事是《馬努斯》故事中最不意外的一章