分類: 語音與音訊
「語音與音訊」分類的 AI 新聞與論文。
-
Google Translate 推出新語言學習功能對抗 Duolingo
Google 於週二宣佈推出全新 AI 驅動的實驗性功能,旨在協助使用者練習與學習新語言,同時增強即時溝通能力。此語言練習功能針對初學者與進階使用者,透過量身打造的聽力與口語練習課程,根據使用者技能水平與學習目標進行調整。該功能讓使用者可選擇聆聽對話並點選所聽到的詞彙以建立理解,或進行口語練習,系統會追蹤每日進度。此功能於週二開始在 Android 與 iOS 版的 Google Translate 應用程式中推出,初期開放給練習西班牙語、法語的英語使用者,以及練習英語的西班牙語、法語與葡萄牙語使用者。Google 表示,此功能旨在與 Duolingo 等流行語言學習應用程式競爭。 此外,Google Translate 新增即時翻譯功能,允許使用者透過應用程式進行雙向對話,並獲得語音與螢幕上的翻譯。該功能利用 Google 的進階 AI 模型,支援超過 70 種語言的即時對話,包括阿拉伯語、法語、印地語、韓語、西班牙語與泰米爾語等。使用者可點選「即時翻譯」選項並選擇目標語言,系統會將語音翻譯為口語並顯示雙語字幕。該功能能識別停頓、口音與語調,並利用 Google 的語音與語音識別模型來隔離聲音,使其在嘈雜環境如餐廳或機場也能使用。此即時翻譯功能於週二開始在美國、印度與墨西哥地區可用。Google 強調,這些更新得益於 AI 與機器學習的進步,並利用 Gemini 模型大幅提升了翻譯品質、多模態翻譯及文字轉語音(TTS)能力。目前 Google 透過 Translate、搜尋、鏡頭與 Circle 到搜尋等服務,每年處理約一兆字的翻譯。
-
NotebookLM 的影片摘要功能現已支援 80 種語言
Google 於週一宣佈更新了 NotebookLM 的影片摘要功能,使其支援八種語言,包括法語、德語、西班牙語和日語。公司同時升級了音訊摘要功能,增強了非英語音訊摘要的詳細程度。上月,NotebookLM 推出了影片摘要功能,讓使用者能將筆記、PDF 檔案和圖片轉化為影片演示。此前該功能僅支援英語,此次更新對希望以視覺摘要學習的非英語使用者非常有益。此外,音訊摘要也針對非英語使用者進行了最佳化。最初該功能僅提供簡短摘要,完整版僅限英語。現在,使用者可在超過八種語言中獲得更深入的全貌。公司表示,若使用者僅需重點摘要,仍可選擇較短的概述。這些更新旨在滿足 NotebookLM 全球使用者的需求,無論使用者偏好何種語言,都能透過影片或音訊摘要進行學習。自今日起,這些更新對所有使用者開放,並將於未來一週內在全球範圍內逐步推出。
-
Meta 全球推出 AI 翻譯功能協助創作者,首階段支援英語與西班牙語
Meta 於週二宣佈將 AI 驅動的語音翻譯功能推向全球 Facebook 和 Instagram 所有使用者。此功能可在 Meta AI 可用的任何市場使用,允許創作者將內容翻譯成其他語言,以便更廣泛的受眾觀看。該功能首次於去年 Meta Connect 開發者大會上公佈,當時公司表示將在 Facebook 和 Instagram 的 Reels 中測試創作者語音的自動翻譯。Meta 指出,AI 翻譯將使用創作者自身的聲音音色和語調,使配音聽起來更真實。此外,創作者可選用地口型同步功能,將翻譯與口型對齊,使內容看起來更自然。 功能上線初期支援英語與西班牙語的雙向翻譯,未來將增加更多語言。此 AI 翻譯適用於擁有至少一千名追蹤者的 Facebook 創作者以及全球所有公開的 Instagram 帳戶。創作者可在發布前點選「用 Meta AI 翻譯你的語音」,開啟翻譯並選擇是否包含地口型同步。發布時翻譯將自動可用,創作者可在發布前檢視並隨時關閉任一選項,拒絕翻譯不會影響原始影片。觀看者會看到底部通知顯示該影片經 Meta AI 翻譯,不願看到翻譯影片者可於設定中關閉。 創作者還可在洞察面板中新增按語言區分的觀看資料,有助於瞭解內容透過翻譯觸及新受眾的情況。Meta 建議創作者在錄製時面向前方、口語清晰、避免遮擋嘴巴,並保持背景噪音或音樂最小化。該功能目前僅支援最多兩位講者,且講者不應同時交談。此外,Facebook 創作者可上傳最多二十條自製配音軌道至 Reels,以擴充套件非英語或西班牙語市場的受眾,此功能位於 Meta Business Suite 的「封閉式字幕與翻譯」區塊,支援發布前後新增翻譯。 Meta 表示未來將支援更多語言,但尚未透露具體語言或時間。Instagram 負責人 Adam Mosseri 表示,希望幫助創作者觸及不同語言的受眾,跨越文化和語言障礙,從而增長追蹤者並從平臺獲得更多價值。此次 AI 功能推出之際,多份報導指出 Meta 正重新調整其 AI 部門架構,聚焦於研究、超級智慧、產品與基礎設施四大關鍵領域。
-
ElevenLabs 發佈 AI 音樂生成器,聲稱已符合商業用途
美國 AI 音訊生成獨角獸公司 ElevenLabs 於週二宣佈推出新模型,允許使用者生成經授權可商業使用的音樂。這標誌著該公司在成立三年後,從專注於文字轉語音工具擴充套件至音樂領域。作為文字轉語音 AI 產品領域的領導者,ElevenLabs 此前已拓展至對話機器人及語言翻譯工具。隨著產品發布,公司展示了 AI 生成音樂樣本,其中一首由合成聲音演唱,內容描寫從康普頓到宇宙的旅程,風格模仿 Dr. Dre、N.W.A. 和 Kendrick Lamar 等藝術家。由於涉及訓練資料的版權爭議,音樂生成領域對新創公司而言並非坦途。去年,Suno 和 Udio 因被美國唱片業協會(RIAA)指控使用版權材料訓練模型而遭起訴,目前雙方正討論授權協議。ElevenLabs 同時宣佈與 Merlin Network 和 Kobalt Music Group 達成合作,允許使用其平臺材料進行 AI 訓練。Merlin Network 代表 Adele、Nirvana、Mitski 等藝術家,Kobalt Music Group 則代表 Beck、Bon Iver 和 Childish Gambino 等巨星。Kobalt 代表表示,藝術家需自願同意其音樂被授權用於 AI 用途,並強調此協議能為客戶帶來新收入來源、收益分享、侵權防護及有利條款。此訊息於週二下午 12 點 50 分更新,並獲 Kobalt 回應。