分類: 語音與音訊
「語音與音訊」分類的 AI 新聞與論文。
-
蘋果在WWDC 25推出 Messages、FaceTime 和電話的即時翻譯功能
Apple 於 2025 年世界開發者大會(WWDC 2025)上宣佈推出由 Apple Intelligence 驅動的即時翻譯功能,該功能將整合進訊息、FaceTime 以及電話通話中。Apple 輸入體驗總監 Leslie Ikemoto 表示,此功能可即時翻譯對話內容,並由 Apple 自建的模型完全在裝置上執行,確保個人對話的隱私安全。在訊息應用程式中,使用者輸入文字時會自動翻譯成偏好語言,對方回覆時也會即時翻譯。FaceTime 通話中則會提供即時字幕。在電話通話時,無論對方是否為 Apple 使用者,說話者的語音會即時翻譯並朗讀給對方,同時對方語言的回覆也會被翻譯成使用者能聽懂的語音。Ikemoto 還提到,開發者可透過新提供的 API 輕鬆在自己的通訊應用程式中啟用此功能。Apple 尚未公佈該功能支援的語言數量。
-
OpenAI 更新 ChatGPT 聲音模式,語音更自然流畅
OpenAI 於上週末推出了 Advanced Voice 功能的升級版,旨在提升 ChatGPT 語音模式的自然度與流暢度。公司表示,新版語音具備更細膩的語調、真實的節奏(包含停頓與重音),並在表達同理心或諷刺等情緒時更加精準。此外,語音模式現在支援更便捷的語言翻譯,使用者可要求 ChatGPT 進行解讀,系統將持續翻譯對話直至使用者停止或切換語言。此功能已開放給所有付費使用者,涵蓋各大市場與平臺。OpenAI 同時指出,更新後可能會出現輕微的音質下降,例如語調與音高的意外變化,且此次更新並未解決語音模式中偶爾發生的與幻覺相關的錯誤,如意外聲音、亂碼或背景音樂等問題。