分類: 語音與音訊

「語音與音訊」分類的 AI 新聞與論文。

Google Translate 推出新語言學習功能對抗 Duolingo

2025年8月26日

Google 於週二宣佈推出全新 AI 驅動的實驗性功能，旨在協助使用者練習與學習新語言，同時增強即時溝通能力。此語言練習功能針對初學者與進階使用者，透過量身打造的聽力與口語練習課程，根據使用者技能水平與學習目標進行調整。該功能讓使用者可選擇聆聽對話並點選所聽到的詞彙以建立理解，或進行口語練習，系統會追蹤每日進度。此功能於週二開始在 Android 與 iOS 版的 Google Translate 應用程式中推出，初期開放給練習西班牙語、法語的英語使用者，以及練習英語的西班牙語、法語與葡萄牙語使用者。Google 表示，此功能旨在與 Duolingo 等流行語言學習應用程式競爭。此外，Google Translate 新增即時翻譯功能，允許使用者透過應用程式進行雙向對話，並獲得語音與螢幕上的翻譯。該功能利用 Google 的進階 AI 模型，支援超過 70 種語言的即時對話，包括阿拉伯語、法語、印地語、韓語、西班牙語與泰米爾語等。使用者可點選「即時翻譯」選項並選擇目標語言，系統會將語音翻譯為口語並顯示雙語字幕。該功能能識別停頓、口音與語調，並利用 Google 的語音與語音識別模型來隔離聲音，使其在嘈雜環境如餐廳或機場也能使用。此即時翻譯功能於週二開始在美國、印度與墨西哥地區可用。Google 強調，這些更新得益於 AI 與機器學習的進步，並利用 Gemini 模型大幅提升了翻譯品質、多模態翻譯及文字轉語音（TTS）能力。目前 Google 透過 Translate、搜尋、鏡頭與 Circle 到搜尋等服務，每年處理約一兆字的翻譯。
NotebookLM 的影片摘要功能現已支援 80 種語言

2025年8月25日

Google 於週一宣佈更新了 NotebookLM 的影片摘要功能，使其支援八種語言，包括法語、德語、西班牙語和日語。公司同時升級了音訊摘要功能，增強了非英語音訊摘要的詳細程度。上月，NotebookLM 推出了影片摘要功能，讓使用者能將筆記、PDF 檔案和圖片轉化為影片演示。此前該功能僅支援英語，此次更新對希望以視覺摘要學習的非英語使用者非常有益。此外，音訊摘要也針對非英語使用者進行了最佳化。最初該功能僅提供簡短摘要，完整版僅限英語。現在，使用者可在超過八種語言中獲得更深入的全貌。公司表示，若使用者僅需重點摘要，仍可選擇較短的概述。這些更新旨在滿足 NotebookLM 全球使用者的需求，無論使用者偏好何種語言，都能透過影片或音訊摘要進行學習。自今日起，這些更新對所有使用者開放，並將於未來一週內在全球範圍內逐步推出。
Meta 全球推出 AI 翻譯功能協助創作者，首階段支援英語與西班牙語

2025年8月19日

Meta 於週二宣佈將 AI 驅動的語音翻譯功能推向全球 Facebook 和 Instagram 所有使用者。此功能可在 Meta AI 可用的任何市場使用，允許創作者將內容翻譯成其他語言，以便更廣泛的受眾觀看。該功能首次於去年 Meta Connect 開發者大會上公佈，當時公司表示將在 Facebook 和 Instagram 的 Reels 中測試創作者語音的自動翻譯。Meta 指出，AI 翻譯將使用創作者自身的聲音音色和語調，使配音聽起來更真實。此外，創作者可選用地口型同步功能，將翻譯與口型對齊，使內容看起來更自然。功能上線初期支援英語與西班牙語的雙向翻譯，未來將增加更多語言。此 AI 翻譯適用於擁有至少一千名追蹤者的 Facebook 創作者以及全球所有公開的 Instagram 帳戶。創作者可在發布前點選「用 Meta AI 翻譯你的語音」，開啟翻譯並選擇是否包含地口型同步。發布時翻譯將自動可用，創作者可在發布前檢視並隨時關閉任一選項，拒絕翻譯不會影響原始影片。觀看者會看到底部通知顯示該影片經 Meta AI 翻譯，不願看到翻譯影片者可於設定中關閉。創作者還可在洞察面板中新增按語言區分的觀看資料，有助於瞭解內容透過翻譯觸及新受眾的情況。Meta 建議創作者在錄製時面向前方、口語清晰、避免遮擋嘴巴，並保持背景噪音或音樂最小化。該功能目前僅支援最多兩位講者，且講者不應同時交談。此外，Facebook 創作者可上傳最多二十條自製配音軌道至 Reels，以擴充套件非英語或西班牙語市場的受眾，此功能位於 Meta Business Suite 的「封閉式字幕與翻譯」區塊，支援發布前後新增翻譯。 Meta 表示未來將支援更多語言，但尚未透露具體語言或時間。Instagram 負責人 Adam Mosseri 表示，希望幫助創作者觸及不同語言的受眾，跨越文化和語言障礙，從而增長追蹤者並從平臺獲得更多價值。此次 AI 功能推出之際，多份報導指出 Meta 正重新調整其 AI 部門架構，聚焦於研究、超級智慧、產品與基礎設施四大關鍵領域。
ElevenLabs 發佈 AI 音樂生成器，聲稱已符合商業用途

2025年8月5日

美國 AI 音訊生成獨角獸公司 ElevenLabs 於週二宣佈推出新模型，允許使用者生成經授權可商業使用的音樂。這標誌著該公司在成立三年後，從專注於文字轉語音工具擴充套件至音樂領域。作為文字轉語音 AI 產品領域的領導者，ElevenLabs 此前已拓展至對話機器人及語言翻譯工具。隨著產品發布，公司展示了 AI 生成音樂樣本，其中一首由合成聲音演唱，內容描寫從康普頓到宇宙的旅程，風格模仿 Dr. Dre、N.W.A. 和 Kendrick Lamar 等藝術家。由於涉及訓練資料的版權爭議，音樂生成領域對新創公司而言並非坦途。去年，Suno 和 Udio 因被美國唱片業協會（RIAA）指控使用版權材料訓練模型而遭起訴，目前雙方正討論授權協議。ElevenLabs 同時宣佈與 Merlin Network 和 Kobalt Music Group 達成合作，允許使用其平臺材料進行 AI 訓練。Merlin Network 代表 Adele、Nirvana、Mitski 等藝術家，Kobalt Music Group 則代表 Beck、Bon Iver 和 Childish Gambino 等巨星。Kobalt 代表表示，藝術家需自願同意其音樂被授權用於 AI 用途，並強調此協議能為客戶帶來新收入來源、收益分享、侵權防護及有利條款。此訊息於週二下午 12 點 50 分更新，並獲 Kobalt 回應。

分類: 語音與音訊

Google Translate 推出新語言學習功能對抗 Duolingo

NotebookLM 的影片摘要功能現已支援 80 種語言

Meta 全球推出 AI 翻譯功能協助創作者，首階段支援英語與西班牙語

ElevenLabs 發佈 AI 音樂生成器，聲稱已符合商業用途