分類: 語音與音訊
「語音與音訊」分類的 AI 新聞與論文。
-
OpenAI 據報導正在開發新的生成音樂工具
根據《The Information》的報導,OpenAI 正在開發一款新工具,該工具能根據文字和音訊提示生成音樂。此工具可能用於為現有影片新增音樂,或為現有的人聲軌道新增吉他伴奏。目前尚不清楚 OpenAI 何時計劃推出該工具,以及它是否會作為獨立產品提供,或是整合到 OpenAI 的 ChatGPT 和影片應用程式 Sora 中。據一位訊息人士透露,OpenAI 正與茱莉亞學院(Juilliard School)的一些學生合作,透過標註樂譜來提供訓練資料。雖然 OpenAI 過去曾推出過生成式音樂模型,但這些模型早於 ChatGPT 的推出;近期該公司主要專注於開發以文字轉語音和語音轉文字為重點的音訊模型。其他擁有生成式音樂模型的公司包括 Google 和 Suno。科技媒體 TechCrunch 已聯絡 OpenAI 尋求評論。
-
漢斯將在TechCrunch Disrupt 2025展示其千位元大小的AI音訊處理軟體
挪威新創公司 Hance 開發了一套小巧快速的音訊處理軟體,旨在解決高速度環境下的通訊問題,例如賽車手在 200 英哩每小時的速度下無法清楚聽到工程師的指令。該公司已被選為 2025 年 10 月 27 日至 29 日在舊金山 Moscone Center 舉辦的 TechCrunch Disrupt 活動的 200 家新創之一。Hance 團隊約有 10 名員工,創辦人兼執行長 Stian Aagedal 也是音訊軟體公司 Acon Digital 的執行長,另一位創辦人 Peder Jørgensen 則經營音效庫 Soundly。團隊利用人工智慧技術,基於 Soundly 的高品質錄音進行模型訓練,包括 F1 賽車聲與冰島火山噴發聲。經過最佳化後,Hance 的處理模型僅需 242 千位元的空間,可於裝置端執行而非雲端,實現僅 10 毫秒的延遲。該技術能有效分離聲音、去除雜音、回聲與混響,並提升語音清晰度。Hance 已與 Intel 及 F1 官方無線電供應商 Riedel Communications 合作,並與 FIFA 等機構建立夥伴關係,同時也在與其他晶片製造商及未公開的智慧型手機廠商洽談。執行長 Joote Hika 表示,這些專業合作關係預計將持續數年且為非排他性,有助於公司規模化。儘管已聘請首位首席商業官,Hance 仍將專注於研發,並優先招募具備人工智慧能力的員工以保持輕盈與競爭力。
-
YouTube 逐步向所有創作者推出多語言音訊功能以支援影片配音
YouTube 於週三宣佈,經過兩年的測試,其多語言音訊功能正式上線。此功能允許數百萬 YouTuber 為影片新增不同語言的配音,以觸及更廣泛的全球受眾。該功能最初於 2023 年作為測試版推出,僅限於包括 MrBeast、Mark Rober 和主廚 Jamie Oliver 在內的少數創作者使用。在此之前,創作者必須依賴第三方配音服務,而 YouTube 隨後推出了利用 Google Gemini 技術的 AI 驅動自動配音工具,該工具能複製創作者的語調與情感。自上線以來,YouTube 報告稱測試者取得了成功,平均上傳多語言音訊軌道的創作者,其觀看時間中有超過 25% 來自非主要語言的觀眾。例如,Jamie Oliver 的頻道在使用多語言音訊後,觀看次數增加了三倍。此外,公司還正在對一組創作者測試多語言縮圖功能。自六月以來,創作者即可自訂縮圖以顯示其他語言的文字,以迎合國際受眾,這些本地化縮圖包含與觀眾偏好語言相匹配的文字。
-
探討聲音AI的未來:Mati Staniszewski於TechCrunch Disrupt 2025分享
Synthetic speech 已不再是科幻小說中的幻想,從有聲書、配音到遊戲與虛擬人,AI 生成語音正迅速進入主流市場,而 ElevenLabs 的執行長兼共同創辦人 Mati Staniszewski 正協助引領這一浪潮。Mati 將於 2025 年 TechCrunch Disrupt 活動中登臺,探討如何讓語音 AI 真正具備人性。ElevenLabs 已成為生成式 AI 領域的關鍵參與者,以其在合成語音技術上的突破聞名。在該環節中,Mati 將探討 ElevenLabs 如何建立一個能複製自然語音並具備驚人細膩度與真實感的平臺,以及這如何為娛樂、無障礙服務、教育與創意敘事帶來新可能。語音作為人類最個人化且具表現力的特質之一,準確且倫理地複製它面臨獨特的技術與社會挑戰。此次對話將解析這些挑戰、探討實際應用案例,並展望 AI 語音工具將如何改變人們的聽覺、學習與連結方式。參加此 AI 環節並加入 10,000 位創業家與風險投資領袖,在 Disrupt 2025 參與塑造 AI 未來及五大產業階段突破的對話,現可立即購票並節省高達 668 美元,價格將於 9 月 26 日後上漲。