分類: 語音與音訊

「語音與音訊」分類的 AI 新聞與論文。

亞馬遜新推出的Alexa+功能可生成播客節目

2026年5月18日

亞馬遜於週一宣佈更新 Alexa+ 功能，推出名為「Alexa Podcasts」的新特性，允許使用者即時生成播客節目。該功能今日在美國地區開始推出，使用者只需向 Alexa+ 提出感興趣的主題，系統便會自動研究資訊、整理內容並生成節目大綱，無需上傳檔案或撰寫指令碼。完成後，使用者可調整節目長度、語氣與重點，最終由 AI 生成的主持人聲音進行朗讀。節目準備好後，使用者會收到來自 Echo Show 裝置或 Alexa 應用程式的通知，內容亦會儲存於應用程式的「音樂」與「更多」區塊中供日後重聽。此功能標誌著亞馬遜試圖將 Alexa+ 從單純的語音助手轉變為個人化 AI 內容創作者。儘管如此，AI 生成聲音與自動化內容也引發了關於倫理、準確性及傳統創作者未來的爭議。亞馬遜強調其與多家主流新聞機構合作以提升內容品質，合作夥伴包括美聯社、路透社、華盛頓郵報、時代、福布斯、商業內幕、政治報、美國今日、康泰納仕、赫斯特及 Vox Media，並涵蓋美國超過兩百份地方報紙。此外，亞馬遜表示正探索更多個人化 AI 音訊形式，包括自訂新聞簡報及基於使用者自身檔案與共享資訊生成的內容。
OpenAI 推出全新語音智能功能於其 API

2026年5月7日

OpenAI 於週四宣佈，其 API 將新增一系列語音智慧功能，協助開發者建立能與使用者進行對話、轉錄及翻譯的應用程式。公司推出的新模型 GPT-Realtime-2 是另一項語音模型，旨在創造逼真的語音模擬以與使用者交談。與前代產品 GPT-Realtime-1.5 不同，此版本內建了 OpenAI 宣稱的 GPT-5 級推理能力，以處理更複雜的使用者請求。此外，公司還推出了 GPT-Realtime-Translate，提供即時翻譯服務，能與使用者對話節奏同步。該功能支援超過 70 種輸入語言（可理解語言）和 13 種輸出語言（轉發語言）。最後，公司推出了新的轉錄功能 GPT-Realtime-Whisper，提供即時語音轉文字能力，捕捉互動過程中的內容。OpenAI 表示，這些新模型將即時音訊從簡單的問答推向真正的語音介面，能聆聽、推理、翻譯、轉錄並採取行動。這些更新主要針對希望擴充套件客戶服務能力的企業，但也適用於教育、媒體、活動及創作者平臺等領域。針對潛在濫用風險，OpenAI 已建立防護機制，嵌入特定觸發器，若偵測到違反有害內容指南的對話將予以中止。所有新語音模型均包含在 OpenAI 的 Realtime API 中，其中 Translate 和 Whisper 按分鐘計費，而 GPT-Realtime-2 則按 token 消耗計費。
Spotify 的 AI 音樂製作人現在支援法語、德語、義大利語及巴西葡萄牙語

2026年5月7日

Spotify 於週四宣佈，其互動式 AI DJ 功能新增支援四種語言，包括法語、德語、義大利語及巴西葡萄牙語。此前該功能僅支援英語與西班牙語。此次更新後，AI DJ 根據不同語言設定獨特名稱與個性，分別為 Maia、Ben、Alex 與 Dani。除了語言擴充套件，該功能還將推出至奧地利、巴西、法國、德國、義大利、葡萄牙、韓國及瑞士等地區，目前已在超過七十五個國家可用。Spotify 最初的 AI DJ 版本僅在播放使用者喜愛的曲目時提供評論，但近年來公司持續提升其互動性。2025 年 5 月，串流服務更新功能，允許使用者與 AI DJ 對話並請求改變心情或曲風，同時新增類似 ChatGPT、Claude 或 Gemini 的指令提示功能，可要求播放特定曲目。此外，Spotify 持續在應用程式中整合更多 AI 特性，例如僅需描述即可建立包含歌曲或播客的自訂播放清單。
DeepL 以文字翻譯聞名，現欲翻譯你的聲音

2026年4月16日

DeepL 今天發布了一套語音轉語音翻譯套件，涵蓋會議、手機與網頁對話，以及透過自訂應用程式支援前線員工的群組對話。公司同時推出 API，讓開發者與企業能基於 DeepL 技術建立客製化解決方案，如客服中心。DeepL 執行長 Jarek Kutylowski 表示，經過多年文字翻譯經驗，語音翻譯是自然進階，但過去缺乏適合即時語音翻譯的優質產品。開發挑戰在於平衡延遲與翻譯準確度。DeepL 提供 Zoom 與 Microsoft Teams 等平臺的擴充套件，使用者可即時聽到翻譯或追蹤螢幕上的翻譯文字，目前處於早期預覽階段並開放加入候選名單。此外，DeepL 還提供手機與網頁對話產品，支援現場或遠端參與，並透過 QR 碼加入群組對話，如訓練課程或研討會。其技術能學習並適應自訂詞彙，包括產業術語及人名。Kutylowski 指出，AI 將重塑客服未來，翻譯層能協助公司在缺乏合格人員的語言提供支援。DeepL 目前系統將語音轉文字、翻譯後再轉回語音，相信憑多年文字翻譯經驗確保品質，未來將發展端到端語音翻譯模型以跳過文字步驟。面對競爭，Sanas 去年從 Quadrille Capital 籌得 6500 萬美元，專注於即時修改說話者口音；Dubai 的 Camb.AI 專注於媒體娛樂的語音合成與翻譯；Palabra 則由 Reddit 共同創辦人 Alexis Ohanian 的 Seven Seven Six 資助，建構即時語音翻譯引擎以保留原意與聲音，與 DeepL 形成直接競爭。

分類: 語音與音訊

亞馬遜新推出的Alexa+功能可生成播客節目

OpenAI 推出全新語音智能功能於其 API

Spotify 的 AI 音樂製作人現在支援法語、德語、義大利語及巴西葡萄牙語

DeepL 以文字翻譯聞名，現欲翻譯你的聲音