分類: 語音與音訊
「語音與音訊」分類的 AI 新聞與論文。
-
音樂生成器 ProducerAI 加入 Google Labs
Google 宣佈其生成式 AI 音樂工具 ProducerAI 將成為 Google Labs 的一部分,該平臺由 The Chainsmokers 支援,允許使用者透過自然語言指令(例如「製作一首 Lo-fi 節奏」)生成音樂。ProducerAI 採用 Google DeepMind 的 Lyria 3 音樂生成模型,該模型能將文字甚至圖片輸入轉換為音訊輸出。Google 上週已宣佈將 Lyria 3 功能引入旗艦 Gemini 應用程式,而 ProducerAI 則讓使用者能像與「合作夥伴」互動般與 AI 模型溝通。Google Labs 資深產品管理員 Elias Roman 表示,他利用該工具嘗試了新的流派融合,為親友創作個人化生日歌曲,並為自己和朋友製作專屬健身音樂。此外,三度格萊美獎獲獎rapper Wyclef Jean 在其新歌《Back From Abu Dhabi》中使用了 Lyria 3 模型及 Google 的音樂 AI 沙盒。DeepMind 產品管理員 Jeff Chang 強調,這不僅是點選按鈕的機器,而是需要細心策展的過程。Jean 指出,在 AI 時代人類必須是最具創造力的,人類擁有靈魂,而 AI 擁有無限資訊。 音樂產業對 AI 工具的使用存在爭議。許多音樂人反對因生成式 AI 可能未經授權使用版權資料進行訓練。2024 年,包括 Billie Eilish、Katy Perry 和 Jon Bon Jovi 在內數百名音樂人簽署公開信,呼籲科技公司不要以 AI 音樂生成工具破壞人類創造力。音樂出版商群體近期也對 AI 公司 Anthropic 提起 30 億美元訴訟,指控其非法下載超過 20,000 首版權歌曲,包括樂譜、歌詞和音樂作品。Anthropic 此前已被法院命令向因 AI 訓練而遭盜版的作者提供 15 億美元和解金。另一方面,部分藝術家擁抱此技術以提升音質。Paul McCartney 使用 AI 降噪系統清理了數十年前的低質量 John Lennon 演示帶,由此產生的新披頭士歌曲《Now and Then》於 2025 年獲格萊美獎。此外,AI 音樂生成工具如 Suno 已創造出足以登上 Spotify 和 Billboard 排行榜的合成音樂。31 歲的 Mississippi 居民 Telisha Jones 使用 Suno 將詩歌轉化為病毒
-
Google為Gemini應用新增音樂創作功能
Google 於週三宣佈在 Gemini 應用程式中新增音樂生成功能,該功能目前處於測試階段。公司採用 DeepMind 的 Lyria 3 音樂生成模型來驅動此功能,使用者只需描述想要的歌曲,應用程式即可生成包含歌詞的曲目。例如,使用者可以要求 Gemini 創作一首關於襪子找到配對的「滑稽 R&B 慢板」,系統將生成 30 秒的曲目並由 Nano Banana 製作封面圖。此外,使用者還能上傳照片或影片,AI 工具會根據媒體檔案的情緒創作歌曲。Lyria 3 相比前代模型能創造更真實且複雜的音樂,使用者亦可調整風格、人聲與節奏等元素。 Google 同時將 Lyria 3 透過 YouTube 的 Dream Track 功能開放給創作者使用,此功能此前僅限美國創作者,現已全球擴充。Google 強調無法直接模仿特定藝術家,但若提示中包含藝人名,Gemini 會將其視為廣義的創意靈感,生成風格或情緒相似的曲目,並設有過濾機制以檢查輸出內容。所有由 Lyria 3 創作的歌曲將帶有 SynthID 水印以識別 AI 生成內容,且 Gemini 新增功能可讓使用者上傳曲目並詢問是否為 AI 生成。 該功能將向全球所有 18 歲以上 Gemini 使用者推出,支援英文、德文、西班牙文、法文、印地文、日文、韓文及葡萄牙文。AI 音樂生成在藝術界與聽眾中引發了複雜的反應,儘管 YouTube 與 Spotify 等平臺正採用 AI 並與唱片公司簽約以獲利,但 AI 模型公司也面臨音樂產業關於訓練資料版權的訴訟。Deezer 等平臺已推出工具標記 AI 音樂,以遏制相關詐騙流媒體行為。
-
ElevenLabs CEO:聲音是AI的下一階介面
ElevenLabs 共同創辦人兼執行長 Mati Staniszewski 在杜哈舉行的 Web Summit 上表示,語音正成為人工智慧下一個主要的介面,人們將透過語音與機器互動,而非僅限於文字與螢幕。他指出,ElevenLabs 開發的語音模型已超越單純模仿人類聲音,開始結合大型語言模型的推理能力,改變人與科技的互動方式。他預言未來手機將重新放回口袋,人們可沉浸於現實世界,以語音控制技術。此願景推動 ElevenLabs 本週以十一億美元估值籌資五億美元,且該觀點在 AI 產業日益普及。OpenAI 與 Google 均將語音列為下一代模型核心,Apple 則透過收購 Q.ai 等公司低調建構語音相關技術。隨著 AI 滲透穿戴裝置與汽車等新硬體,控制方式從觸控螢幕轉向語音,語音成為 AI 發展下一階段的重要戰場。 Iconiq Capital 合夥人 Seth Pierrepont 也支援此觀點,認為雖然螢幕對遊戲與娛樂仍具重要性,但鍵盤等傳統輸入方式已顯陳舊。隨著 AI 系統變得更具代理性,互動方式將改變,模型將獲得防護機制、整合功能與情境資料,減少使用者明確提示的需求。Staniszewski 指出,未來語音系統將依賴長期累積的持續記憶與情境,使互動更自然且減少使用者負擔。ElevenLabs 正推動混合架構,結合雲端與裝置端處理,以支援耳機等穿戴裝置,讓語音成為常伴隨的夥伴而非需主動啟用的功能。ElevenLabs 已與 Meta 合作將技術應用於 Instagram 及 Horizon Worlds 虛擬實境平臺,並表示願意合作開發 Ray-Ban 智慧眼鏡等新型態語音介面。然而,語音技術日益嵌入日常硬體也引發隱私、監控及個人資料儲存等嚴重擔憂,Google 等公司已因濫用資料而受指責。
-
Meta 的 AI 眼鏡現可在協助聽得更清楚會話
Meta 於週二宣佈更新其 AI 眼鏡,旨在讓使用者在嘈雜環境中更清晰地聽到他人交談。此功能將首先在美國和加拿大推出,適用於 Ray-Ban Meta 和 Oakley Meta HSTN 智慧眼鏡。此外,眼鏡還新增功能,可透過 Spotify 播放與當前視野內容相符的歌曲,例如檢視專輯封面時播放該藝人的歌曲,或檢視聖誕樹時播放節日音樂。雖然此功能帶有娛樂性質,但展示了 Meta 將視覺內容與應用程式行動連結的思維。另一項對話聚焦功能則更具實用性,該功能利用開放式耳機揚聲器放大與使用者交談物件的聲音。此功能最早於今年初的 Meta Connect 會議上公佈,使用者可透過滑動眼鏡右側鏡腿或裝置設定來調整放大音量,以適應餐廳、酒吧、俱樂部或通勤列車等不同環境。雖然效果仍需測試,但利用智慧配件輔助聽覺的概念並非 Meta 獨有,Apple 的 AirPods 已提供對話增強功能,且 Pro 型號近期更支援臨床級助聽器功能。對話聚焦功能目前僅限美國和加拿大,而 Spotify 功能則以英語在更多市場提供,包括澳洲、奧地利、比利時、巴西、丹麥、芬蘭、法國、德國、印度、愛爾蘭、義大利、墨西哥、挪威、西班牙、瑞典、阿聯酋、英國及美國。軟體更新版本 v21 將首先開放給加入 Meta 早期訪問計劃的使用者,該計劃需先加入候選名單並獲得批准,之後將更廣泛推出。