分類: 語音與音訊
「語音與音訊」分類的 AI 新聞與論文。
-
亞馬遜新推出的Alexa+功能可生成播客節目
亞馬遜於週一宣佈更新 Alexa+ 功能,推出名為「Alexa Podcasts」的新特性,允許使用者即時生成播客節目。該功能今日在美國地區開始推出,使用者只需向 Alexa+ 提出感興趣的主題,系統便會自動研究資訊、整理內容並生成節目大綱,無需上傳檔案或撰寫指令碼。完成後,使用者可調整節目長度、語氣與重點,最終由 AI 生成的主持人聲音進行朗讀。節目準備好後,使用者會收到來自 Echo Show 裝置或 Alexa 應用程式的通知,內容亦會儲存於應用程式的「音樂」與「更多」區塊中供日後重聽。此功能標誌著亞馬遜試圖將 Alexa+ 從單純的語音助手轉變為個人化 AI 內容創作者。儘管如此,AI 生成聲音與自動化內容也引發了關於倫理、準確性及傳統創作者未來的爭議。亞馬遜強調其與多家主流新聞機構合作以提升內容品質,合作夥伴包括美聯社、路透社、華盛頓郵報、時代、福布斯、商業內幕、政治報、美國今日、康泰納仕、赫斯特及 Vox Media,並涵蓋美國超過兩百份地方報紙。此外,亞馬遜表示正探索更多個人化 AI 音訊形式,包括自訂新聞簡報及基於使用者自身檔案與共享資訊生成的內容。
-
OpenAI 推出全新語音智能功能於其 API
OpenAI 於週四宣佈,其 API 將新增一系列語音智慧功能,協助開發者建立能與使用者進行對話、轉錄及翻譯的應用程式。公司推出的新模型 GPT-Realtime-2 是另一項語音模型,旨在創造逼真的語音模擬以與使用者交談。與前代產品 GPT-Realtime-1.5 不同,此版本內建了 OpenAI 宣稱的 GPT-5 級推理能力,以處理更複雜的使用者請求。此外,公司還推出了 GPT-Realtime-Translate,提供即時翻譯服務,能與使用者對話節奏同步。該功能支援超過 70 種輸入語言(可理解語言)和 13 種輸出語言(轉發語言)。最後,公司推出了新的轉錄功能 GPT-Realtime-Whisper,提供即時語音轉文字能力,捕捉互動過程中的內容。OpenAI 表示,這些新模型將即時音訊從簡單的問答推向真正的語音介面,能聆聽、推理、翻譯、轉錄並採取行動。這些更新主要針對希望擴充套件客戶服務能力的企業,但也適用於教育、媒體、活動及創作者平臺等領域。針對潛在濫用風險,OpenAI 已建立防護機制,嵌入特定觸發器,若偵測到違反有害內容指南的對話將予以中止。所有新語音模型均包含在 OpenAI 的 Realtime API 中,其中 Translate 和 Whisper 按分鐘計費,而 GPT-Realtime-2 則按 token 消耗計費。
-
Spotify 的 AI 音樂製作人現在支援法語、德語、義大利語及巴西葡萄牙語
Spotify 於週四宣佈,其互動式 AI DJ 功能新增支援四種語言,包括法語、德語、義大利語及巴西葡萄牙語。此前該功能僅支援英語與西班牙語。此次更新後,AI DJ 根據不同語言設定獨特名稱與個性,分別為 Maia、Ben、Alex 與 Dani。除了語言擴充套件,該功能還將推出至奧地利、巴西、法國、德國、義大利、葡萄牙、韓國及瑞士等地區,目前已在超過七十五個國家可用。Spotify 最初的 AI DJ 版本僅在播放使用者喜愛的曲目時提供評論,但近年來公司持續提升其互動性。2025 年 5 月,串流服務更新功能,允許使用者與 AI DJ 對話並請求改變心情或曲風,同時新增類似 ChatGPT、Claude 或 Gemini 的指令提示功能,可要求播放特定曲目。此外,Spotify 持續在應用程式中整合更多 AI 特性,例如僅需描述即可建立包含歌曲或播客的自訂播放清單。
-
DeepL 以文字翻譯聞名,現欲翻譯你的聲音
DeepL 今天發布了一套語音轉語音翻譯套件,涵蓋會議、手機與網頁對話,以及透過自訂應用程式支援前線員工的群組對話。公司同時推出 API,讓開發者與企業能基於 DeepL 技術建立客製化解決方案,如客服中心。DeepL 執行長 Jarek Kutylowski 表示,經過多年文字翻譯經驗,語音翻譯是自然進階,但過去缺乏適合即時語音翻譯的優質產品。開發挑戰在於平衡延遲與翻譯準確度。DeepL 提供 Zoom 與 Microsoft Teams 等平臺的擴充套件,使用者可即時聽到翻譯或追蹤螢幕上的翻譯文字,目前處於早期預覽階段並開放加入候選名單。此外,DeepL 還提供手機與網頁對話產品,支援現場或遠端參與,並透過 QR 碼加入群組對話,如訓練課程或研討會。其技術能學習並適應自訂詞彙,包括產業術語及人名。Kutylowski 指出,AI 將重塑客服未來,翻譯層能協助公司在缺乏合格人員的語言提供支援。DeepL 目前系統將語音轉文字、翻譯後再轉回語音,相信憑多年文字翻譯經驗確保品質,未來將發展端到端語音翻譯模型以跳過文字步驟。面對競爭,Sanas 去年從 Quadrille Capital 籌得 6500 萬美元,專注於即時修改說話者口音;Dubai 的 Camb.AI 專注於媒體娛樂的語音合成與翻譯;Palabra 則由 Reddit 共同創辦人 Alexis Ohanian 的 Seven Seven Six 資助,建構即時語音翻譯引擎以保留原意與聲音,與 DeepL 形成直接競爭。