分類: 語音與音訊

「語音與音訊」分類的 AI 新聞與論文。

谷歌悄悄推出一款離線運作的AI口語輸入應用程式

2026年4月7日

Google 於四月七日更新其 App Store 列表，移除了對 Android 版應用程式的相關提及，並宣佈 iOS 鍵盤功能即將推出。Google 於星期一在 iOS 平臺上悄然發布了一款名為「Google AI Edge Eloquent」的離線優先口語轉文字應用程式，旨在與 Wispr Flow、SuperWhisper 及 Willow 等競爭對手抗衡。該應用程式免費下載，使用者下載基於 Gemma 的自動語音識別（ASR）模型後即可開始使用。應用程式內可顯示即時轉錄內容，當使用者暫停時，系統會自動過濾「um」、「ah」等填充詞並潤飾文字。下方提供「重點」、「正式」、「簡短」及「長篇」等選項以轉換文字格式。使用者亦可關閉雲端模式以使用僅本地處理功能，此時雲端模式則使用基於 Gemini 的模型進行文字清理。應用程式可從 Gmail 帳戶匯入特定關鍵字、名稱及專業術語，並允許使用者新增自訂詞彙。此外，該應用程式還顯示轉錄歷史記錄，支援搜尋所有記錄，並能展示最近一輪轉錄的詞彙、每分鐘詞數及總說詞數。根據官方描述，此應用程式利用 AI 捕捉使用者意圖，自動編輯掉口誤與自我修正，輸出乾淨準確的文稿。目前該應用程式僅在 iOS 平臺可用，但 App Store 描述中提及 Android 版本，並宣稱提供無縫 Android 整合，可設為預設鍵盤以實現系統級訪問，並具備類似 Wispr Flow 的浮動按鈕功能。隨著語音轉文字模型不斷進步，AI 驅動的轉文字應用程式日益普及，Google 此次測試若成功，未來 Android 平臺也可能獲得更優異的轉錄功能。
Cohere 發佈專門用於轉錄的開放源碼語音模型

2026年3月26日

企業人工智慧公司 Cohere 於週四推出了其首款語音模型 Transcribe。這是一款開源的自動語音識別模型，可用於筆記記錄與語音分析等任務。該模型僅含 20 億個引數，體積輕巧，專為搭配消費級 GPU 進行自託管設計。目前 Transcribe 支援 14 種語言，包括英文、法文、德文、義大利文、西班牙文、葡萄牙文、希臘文、荷蘭文、波蘭文、中文、日文、韓文、越南文及阿拉伯文。 Cohere 宣稱 Transcribe 在 Hugging Face 開放語音識別排行榜上表現優於 Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2 及 Qwen3-ASR-1.7B Speech 等模型，平均字誤率（WER）為 5.42，低於該基準上的任何其他模型。在人類評估者針對準確性、連貫性與可用性的評測中，Transcribe 的勝率達 61%。不過，該模型在處理葡萄牙文、德文及西班牙文時表現稍遜於競爭對手。Cohere 指出，Transcribe 具備每分鐘處理 525 分鐘音訊的強大能力，這在其類別中屬高水準。公司計劃將 Transcribe 整合至其企業代理編排平臺 North，並透過 API 免費提供該模型。此外，模型也將上架於 Cohere 的託管推理平臺 Model Vault。隨著 Granola 與 Wispr Flow 等筆記與口述應用需求增長，語音識別模型日益受歡迎。今年初，Cohere 向投資者透露其 2025 年年度經常性收入達 2.4 億美元，執行長 Aidan Gomez 亦表示該公司可能「很快」上市。
Mistral 發佈一個新的開放原始碼語音生成模型

2026年3月26日

法國人工智慧公司 Mistral 於週四發布了一款新的開源文字轉語音模型，名為 Voxtral TTS。該模型旨在支援語音 AI 助理及企業應用，如客戶服務、銷售與客戶互動，直接與 ElevenLabs、Deepgram 及 OpenAI 等競爭對手抗衡。Voxtral TTS 支援九種語言，包括英文、法文、德文、西班牙文、荷蘭文、葡萄牙文、義大利文、印地文及阿拉伯文。Mistral 科學營運副總裁 Pierre Stock 表示，該模型體積小巧，可部署於智慧手錶、手機、筆記型電腦等邊緣裝置，成本僅為市場其他產品的一小部分，但提供頂尖效能。該模型基於 Ministral 3B，可透過少於五秒的樣本自訂語音，捕捉細微口音、語調起伏及語流不規則等特徵。模型能輕鬆切換語言而不影響語音特性，適用於配音或即時翻譯。Mistral 強調模型聲音擬人化而非機械化，並針對即時效能最佳化。其首次發音時間（TTFA）為 90 毫秒，處理 500 個字元的 10 秒語音片段；即時因子（RTF）為 6 倍，表示 10 秒影片可於約 1.6 秒內渲染完成。 Mistral 此前已推出兩款轉錄模型，分別針對大規模批處理與低延遲即時應用。此次推出語音模型後，公司計劃提供完整語音產品套件，打造端到端平臺，支援多模態輸入（音訊、文字、影像）與輸出。Stock 指出，端到端代理系統能提供更多資訊，尤其當音訊作為輸入或輸出時。Mistral 透過開源與自訂功能，協助企業調整模型以超越競爭對手，滿足企業對語音產品的需求。
Google推出Lyria 3 Pro音樂生成模型

2026年3月25日

Google 於週三宣佈推出 Lyria 3 Pro，這是繼 Lyria 3 發布一個月後推出的音樂生成模型。新模型允許使用者建立長達三分鐘的曲目，相比 Lyria 3 提供的 30 秒短曲目有顯著提升。Lyria 3 Pro 還提供了更好的創意控制和自訂功能，使用者可在提示中指定樂曲的不同元素，如前奏、主歌、副歌和橋段，因為該模型對樂曲結構的理解優於前代產品。此前，Google 已在 Gemini 應用中透過 Lyria 3 引入音樂生成能力，Pro 版本同樣在 Gemini 應用中推出，但僅付費訂閱使用者可訪問。此外，Lyria 3 Pro 也將部署於 Google Vids 影片編輯應用和 ProducerAI 音樂生產工具中，後者是 Google 上月收購的生成式 AI 音樂生產工具。Google 還將音樂生成能力擴充套件至企業工具，包括 Vertex AI（公共預覽版）、Gemini API 和 AI Studio。Google 強調，該模型使用來自其合作伙伴以及 YouTube 和 Google 的許可資料進行訓練，並表示模型不會模仿特定藝術家，但若使用者在提示中指定藝術家，模型會從該藝術家那裡獲取「廣泛靈感」來生成曲目。所有使用 Lyria 3 和 Lyria 3 Pro 創作的曲目均標記有 SynthID，以表明該曲目由 AI 生成。本週早些時候，Spotify 推出了讓藝術家審查以他們名字發布的歌曲的新工具，防止 AI 生成音樂被錯誤歸屬。同時，Deezer 也推出了讓任何流媒體服務識別 AI 生成音樂的工具。

分類: 語音與音訊

谷歌悄悄推出一款離線運作的AI口語輸入應用程式

Cohere 發佈專門用於轉錄的開放源碼語音模型

Mistral 發佈一個新的開放原始碼語音生成模型

Google推出Lyria 3 Pro音樂生成模型