分類: 語音與音訊
「語音與音訊」分類的 AI 新聞與論文。
-
谷歌悄悄推出一款離線運作的AI口語輸入應用程式
Google 於四月七日更新其 App Store 列表,移除了對 Android 版應用程式的相關提及,並宣佈 iOS 鍵盤功能即將推出。Google 於星期一在 iOS 平臺上悄然發布了一款名為「Google AI Edge Eloquent」的離線優先口語轉文字應用程式,旨在與 Wispr Flow、SuperWhisper 及 Willow 等競爭對手抗衡。該應用程式免費下載,使用者下載基於 Gemma 的自動語音識別(ASR)模型後即可開始使用。應用程式內可顯示即時轉錄內容,當使用者暫停時,系統會自動過濾「um」、「ah」等填充詞並潤飾文字。下方提供「重點」、「正式」、「簡短」及「長篇」等選項以轉換文字格式。使用者亦可關閉雲端模式以使用僅本地處理功能,此時雲端模式則使用基於 Gemini 的模型進行文字清理。應用程式可從 Gmail 帳戶匯入特定關鍵字、名稱及專業術語,並允許使用者新增自訂詞彙。此外,該應用程式還顯示轉錄歷史記錄,支援搜尋所有記錄,並能展示最近一輪轉錄的詞彙、每分鐘詞數及總說詞數。根據官方描述,此應用程式利用 AI 捕捉使用者意圖,自動編輯掉口誤與自我修正,輸出乾淨準確的文稿。目前該應用程式僅在 iOS 平臺可用,但 App Store 描述中提及 Android 版本,並宣稱提供無縫 Android 整合,可設為預設鍵盤以實現系統級訪問,並具備類似 Wispr Flow 的浮動按鈕功能。隨著語音轉文字模型不斷進步,AI 驅動的轉文字應用程式日益普及,Google 此次測試若成功,未來 Android 平臺也可能獲得更優異的轉錄功能。
-
Cohere 發佈專門用於轉錄的開放源碼語音模型
企業人工智慧公司 Cohere 於週四推出了其首款語音模型 Transcribe。這是一款開源的自動語音識別模型,可用於筆記記錄與語音分析等任務。該模型僅含 20 億個引數,體積輕巧,專為搭配消費級 GPU 進行自託管設計。目前 Transcribe 支援 14 種語言,包括英文、法文、德文、義大利文、西班牙文、葡萄牙文、希臘文、荷蘭文、波蘭文、中文、日文、韓文、越南文及阿拉伯文。 Cohere 宣稱 Transcribe 在 Hugging Face 開放語音識別排行榜上表現優於 Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2 及 Qwen3-ASR-1.7B Speech 等模型,平均字誤率(WER)為 5.42,低於該基準上的任何其他模型。在人類評估者針對準確性、連貫性與可用性的評測中,Transcribe 的勝率達 61%。不過,該模型在處理葡萄牙文、德文及西班牙文時表現稍遜於競爭對手。Cohere 指出,Transcribe 具備每分鐘處理 525 分鐘音訊的強大能力,這在其類別中屬高水準。 公司計劃將 Transcribe 整合至其企業代理編排平臺 North,並透過 API 免費提供該模型。此外,模型也將上架於 Cohere 的託管推理平臺 Model Vault。隨著 Granola 與 Wispr Flow 等筆記與口述應用需求增長,語音識別模型日益受歡迎。今年初,Cohere 向投資者透露其 2025 年年度經常性收入達 2.4 億美元,執行長 Aidan Gomez 亦表示該公司可能「很快」上市。
-
Mistral 發佈一個新的開放原始碼語音生成模型
法國人工智慧公司 Mistral 於週四發布了一款新的開源文字轉語音模型,名為 Voxtral TTS。該模型旨在支援語音 AI 助理及企業應用,如客戶服務、銷售與客戶互動,直接與 ElevenLabs、Deepgram 及 OpenAI 等競爭對手抗衡。Voxtral TTS 支援九種語言,包括英文、法文、德文、西班牙文、荷蘭文、葡萄牙文、義大利文、印地文及阿拉伯文。Mistral 科學營運副總裁 Pierre Stock 表示,該模型體積小巧,可部署於智慧手錶、手機、筆記型電腦等邊緣裝置,成本僅為市場其他產品的一小部分,但提供頂尖效能。 該模型基於 Ministral 3B,可透過少於五秒的樣本自訂語音,捕捉細微口音、語調起伏及語流不規則等特徵。模型能輕鬆切換語言而不影響語音特性,適用於配音或即時翻譯。Mistral 強調模型聲音擬人化而非機械化,並針對即時效能最佳化。其首次發音時間(TTFA)為 90 毫秒,處理 500 個字元的 10 秒語音片段;即時因子(RTF)為 6 倍,表示 10 秒影片可於約 1.6 秒內渲染完成。 Mistral 此前已推出兩款轉錄模型,分別針對大規模批處理與低延遲即時應用。此次推出語音模型後,公司計劃提供完整語音產品套件,打造端到端平臺,支援多模態輸入(音訊、文字、影像)與輸出。Stock 指出,端到端代理系統能提供更多資訊,尤其當音訊作為輸入或輸出時。Mistral 透過開源與自訂功能,協助企業調整模型以超越競爭對手,滿足企業對語音產品的需求。
-
Google推出Lyria 3 Pro音樂生成模型
Google 於週三宣佈推出 Lyria 3 Pro,這是繼 Lyria 3 發布一個月後推出的音樂生成模型。新模型允許使用者建立長達三分鐘的曲目,相比 Lyria 3 提供的 30 秒短曲目有顯著提升。Lyria 3 Pro 還提供了更好的創意控制和自訂功能,使用者可在提示中指定樂曲的不同元素,如前奏、主歌、副歌和橋段,因為該模型對樂曲結構的理解優於前代產品。此前,Google 已在 Gemini 應用中透過 Lyria 3 引入音樂生成能力,Pro 版本同樣在 Gemini 應用中推出,但僅付費訂閱使用者可訪問。此外,Lyria 3 Pro 也將部署於 Google Vids 影片編輯應用和 ProducerAI 音樂生產工具中,後者是 Google 上月收購的生成式 AI 音樂生產工具。Google 還將音樂生成能力擴充套件至企業工具,包括 Vertex AI(公共預覽版)、Gemini API 和 AI Studio。Google 強調,該模型使用來自其合作伙伴以及 YouTube 和 Google 的許可資料進行訓練,並表示模型不會模仿特定藝術家,但若使用者在提示中指定藝術家,模型會從該藝術家那裡獲取「廣泛靈感」來生成曲目。所有使用 Lyria 3 和 Lyria 3 Pro 創作的曲目均標記有 SynthID,以表明該曲目由 AI 生成。本週早些時候,Spotify 推出了讓藝術家審查以他們名字發布的歌曲的新工具,防止 AI 生成音樂被錯誤歸屬。同時,Deezer 也推出了讓任何流媒體服務識別 AI 生成音樂的工具。