分類: 語音與音訊

「語音與音訊」分類的 AI 新聞與論文。

Spotify預告未來將推出更活潑的聲音AI介面

2025年7月29日

Spotify 在過去曾嘗試多種語音介面，近期更推出了 AI DJ 功能，讓使用者能透過語音指令推薦歌曲或建立自訂歌單。根據 Spotify 於週二舉行的第二季財報會議，公司正暗示生成式 AI 的進步將為未來帶來更互動的語音服務。產品與技術主管 Gustav Söderström 指出，消費者如今能用普通英語與 Spotify 互動，這讓公司能將特定詞句與歌曲關聯，形成類似 Amazon「購買此商品的人也購買了那項」的獨特資料集。此外，語音介面還提供了全新的使用者洞察。Söderström 表示，未來使用者體驗將變得更加互動，AI 不僅能預測使用者想聽什麼音樂、播客或有聲書，還能基於聽眾歷史和對話進行推理，執行更複雜的多步驟任務。 Spotify 的語音資料來源自其 AI DJ 功能。2025 年 5 月，Spotify 為 Premium 使用者引入了語音請求功能，使用者可透過按壓 App 內按鈕，用英語語音指令更改音樂、型別或氛圍。除了外部功能，Spotify 內部也利用生成式 AI 加速產品原型開發並提升財務等領域的效率。在該季度，Spotify 付費使用者數達到 2.76 億，年增 12%，月活躍使用者為 6.96 億，但營收未達目標導致虧損。股價因指引偏弱及 CEO Daniel Ek 對廣告業務的不滿而下跌 10%。
迷思特發布voxtral，其首款開放源碼AI音訊模型

2025年7月15日

法國人工智慧公司 Mistral 於週二推出其首款面向企業的音訊模型家族 Voxtral，旨在挑戰封閉式企業系統的壟斷地位，提供開放權重的替代方案。Mistral 宣稱 Voxtral 是首款能在生產環境中部署真正可用語音智慧的開放模型，讓開發者不再需要在廉價但理解力不足的開放系統與功能良好但昂貴且封閉的系統之間做選擇。該模型可轉錄長達 30 分鐘的音訊，並憑藉 Mistral Small 3.1 的基礎大語言模型架構，能理解長達 40 分鐘的內容，支援使用者就音訊內容提問、生成摘要或將語音指令轉化為即時動作，例如呼叫 API 或執行函式。Voxtral 支援多國語言，包括英語、西班牙語、法語、葡萄牙語、印地語、德語、荷蘭語和義大利語。公司推出兩種變體，Voxtral Small 擁有 240 億引數，適合大規模生產部署，其效能與 ElevenLabs Scribe、GPT-4o-mini 及 Gemini 2.5 Flash 相當；Voxtral Mini 則擁有 30 億引數，適用於本地與邊緣部署。此外，還有一款名為 Voxtral Mini Transcribe 的超經濟版本，專為僅轉錄用途最佳化，宣稱效能優於 OpenAI Whisper 且價格不到其一半。使用者可透過 Hugging Face 下載 API 免費試用，或於 Mistral 的聊天機器人 Le Chat 中測試模型。根據公司說法，將 API 整合至應用程式的起點價格為每分鐘 0.001 美元。此次發布距 Mistral 上月宣佈其首款逐步推理模型家族 Magistral 僅隔一個月。Mistral 作為歐洲頂尖人工智慧企業之一，長期倡導開放原始碼 AI 模型，近期更被 TechCrunch 報導正與投資者洽談籌資高達 10 億美元的事宜。
Google 的 AI 模式現可進行來回語音對話

2025年6月18日

Google 正式推出讓使用者能與 AI Mode 進行來往式語音對話的新功能，此為其實驗性搜尋工具 Search Live 的整合更新。透過開啟 Google 應用程式並點選新的「Live」圖示，使用者可朗讀問題，隨即獲得由 AI 生成的語音回應，並能持續提出後續問題。此功能旨在應對 Perplexity AI 與 OpenAI 的 ChatGPT Search 等流行服務，特別適合在通勤或 multitasking 時使用。例如，使用者可詢問關於防止襯裙在行李箱皺縮的建議，並進一步詢問若仍皺縮該如何處理。在對話過程中，相關連結會直接顯示於螢幕，且因 Search Live 在背景運作，使用者可同時使用其他應用程式。此外，使用者可點選「transcript」按鈕檢視文字回應，或透過 AI Mode 歷史記錄重溫過往回答。Google 表示，Search Live 在 AI Mode 中採用自訂版本的 Gemini 模型，具備進階語音能力，並結合搜尋最佳品質與資訊系統，確保回應可靠。該模型還運用查詢擴散技術，展示更廣泛多元的網頁內容。Google 搜尋產品管理總監 Liza Ma 指出，此功能將讓使用者無論在哪裡、如何提問都能獲得幫助。未來幾個月，Google 計劃將更多 Live 能力帶入 AI Mode，包括根據手機相機即時影像提出問題的功能，此功能曾在五月 Google I/O 開發者大會上預覽。
Google 試驗搜尋查詢的音訊摘要功能

2025年6月13日

Google 於本週五宣佈，其搜尋引擎正在針對特定查詢實驗「音訊摘要」功能。該功能最初於 NotebookLM，即 Google 的 AI 筆記與研究助手內推出，現已擴充套件至搜尋結果中。Google 表示，此功能將利用最新的 Gemini 模型，提供另一種吸收與理解資訊的方式。音訊摘要能幫助使用者快速掌握主題全貌，無論是在多工處理時或單純偏好聽覺體驗，都能提供便利且免手操作的資訊獲取途徑。該功能今日在 Google Labs 實驗計畫中正式開放。Google 表示，系統會根據使用者的特定查詢判斷是否生成音訊摘要。一旦生成，使用者將看到包含播放/暫停控制、音量按鈕及調整播放速度的簡單音訊播放器。Google 還會在音訊播放器中顯示連結，讓使用者能點選深入瞭解更多相關資訊。使用者亦可對每個音訊摘要及整個實驗進行點讚或點踩回饋。在 NotebookLM 中，音訊摘要允許使用者基於共享的文件（如課程閱讀材料或法律簡報），由 AI 虛擬主持人生成播客。Google 亦於三月將此功能引入 Gemini。音訊摘要建立在 AI 摘要之上，旨在服務聽覺學習者或尋求更無障礙資訊獲取方式的人群。值得注意的是，此次公告發表於幾天前《華爾街日報》報導指出，Google 的 AI 摘要及其他 AI 工具可能導致新聞出版商流量下降之後。

分類: 語音與音訊

Spotify預告未來將推出更活潑的聲音AI介面

迷思特發布voxtral，其首款開放源碼AI音訊模型

Google 的 AI 模式現可進行來回語音對話

Google 試驗搜尋查詢的音訊摘要功能