分類: 語音與音訊
「語音與音訊」分類的 AI 新聞與論文。
-
Google 翻譯現在讓你透過耳機聽到即時翻譯
Google 於週五宣佈推出測試版功能,讓使用者透過耳機聆聽即時翻譯。此功能將 Gemini 進階能力整合至 Google Translate,並擴充套件語言學習工具。新體驗能保留說話者的語調、重音與節奏,使對話更清晰易懂,並將任何耳機轉化為即時翻譯裝置。Google 產品管理副總裁 Rose Yao 表示,無論是在不同語言環境下交談、聽講課或觀看影視作品,使用者只需開啟 Translate 應用程式並點選「即時翻譯」即可。目前該測試版已在 Android 系統的美國、墨西哥及印度地區推出,支援超過七十種語言,且適用於任何耳機。Google 計劃於 2026 年將此功能擴充套件至 iOS 系統及更多國家。進階 Gemini 能力將提升文字翻譯的準確度與自然度,能更好處理俚語、成語及具微妙含義的表達。例如,翻譯英文成語「stealing my thunder」時,系統將根據上下文解析其真正含義而非逐字翻譯。此更新目前在美國和印度推出,支援英語與近二十種語言(包括西班牙語、阿拉伯語、中文、日語及德語)的互譯,並可在 Android、iOS 及網頁版應用程式中使用。此外,Google 將語言學習工具擴充套件至近二十個新國家,包括德國、印度、瑞典及臺灣。英語使用者可練習德語,而孟加拉語、簡體中文、荷蘭語、德語、印地語、羅馬尼亞語及瑞典語使用者可練習英語。系統新增改進的回饋機制,提供針對口語練習的建議,並加入追蹤連續學習天數的功能,幫助使用者掌握進度並保持學習習慣。
-
ChatGPT 的語音模式已不再作為獨立介面
OpenAI 於二零零五年十一月二十五日宣佈更新其熱門人工智慧聊天機器人 ChatGPT 的使用介面,讓使用者能直接在聊天視窗記憶體取 ChatGPT Voice 功能,無需切換至獨立模式。此前,使用者必須離開主聊天畫面,進入一個顯示藍色圓圈的獨立視窗進行語音互動,該視窗還包含靜音按鈕、錄製即時影片選項以及返回文字模式的按鈕。在舊版介面中,使用者只能聆聽 ChatGPT 的回應,無法同時看見文字內容,若錯過回應則需離開語音模式才能檢視,這常被視為不便。 此次更新後,使用者可在同一對話中進行語音交流,同時即時觀看 ChatGPT 的回應文字出現,並能檢視先前訊息與即時視覺內容,如圖片或地圖。此功能將同時滾動推出至所有使用者,涵蓋手機應用程式與網頁版,只需更新應用程式即可使用。雖然語音模式已成為預設選項,但使用者仍可透過「設定」中的「語音模式」選項,選擇開啟「獨立模式」以恢復舊版體驗。此改進旨在讓使用者在語音與文字之間更自然地切換,提升互動體驗。
-
Speechify為其Chrome擴充功能新增語音輸入與語音助手功能
Speechify 原本主要是一款協助使用者聆聽文章、PDF 及檔案的工具,現在正將其 Chrome 擴充功能升級,新增語音偵測特性,包括語音輸入與能回答問題的語音助手。過去一年間,隨著語音識別模型品質提升,語音偵測工具大量湧現,Speechify 也趁勢推出支援英語的自訂輸入工具。該工具的語音輸入能自動修正錯誤並移除填充詞,但在測試期間發現仍有改進空間。雖然在 Gmail 和 Google Docs 上運作良好,但在 WordPress 等網站上卻難以有效觸發語音輸入,公司表示將逐步最佳化熱門網站。 在準確度方面,Speechify 的單字錯誤率高於 Wispr Flow、Willow 和 Monologue 等工具,但公司指出模型會隨著使用次數增加而學習得更快,錯誤率將逐漸降低。此外,Speechify 還推出了一個位於瀏覽器側邊欄的對話式語音助手,使用者可詢問網站內容,例如「列出三個關鍵概念」或「用更簡單的方式解釋」。針對 ChatGPT 和 Gemini 等產品將語音功能視為次要功能,Speechify 強調其產品將語音置於核心地位。公司首席商務官 Rohan Pavuluri 表示,許多使用者希望每次開啟應用程式時,語音互動都能作為預設選項。 值得注意的是,Speechify 的助手目前無法與 OpenAI 的 Atlas、Perplexity 的 Comet 及 Dia 等內建側邊欄助手的瀏覽器相容,但公司認為這不影響其目標,因為該擴充功能主要針對擁有龐大使用者群的 Chrome 瀏覽器。Speechify 計劃逐步在所有桌面與移動應用程式中整合語音輸入與語音助手,並開發能代表使用者完成任務的代理程式,例如代為撥電話預約或等待客服。
-
ElevenLabs 與名藝人簽約打造 AI 音訊
ElevenLabs 宣佈與演員 Michael Caine 和 Matthew McConaughey 達成協議,將利用 AI 技術生成他們的聲音。Hollywood 與 AI 的關係起伏不定,過去幾年好萊塢罷工的部分原因在於對 AI 邊界或無邊界的擔憂。然而,近年來部分藝術家開始接受 AI 概念。去年,Meta 宣佈其 Meta AI 將提供由 Kristen Bell 和 Judi Dench 等女演員聲音的語音助手。由於 McConaughey 是 ElevenLabs 的投資者,該公司將使用他的 AI 聲音將其新聞簡報翻譯為西班牙語音訊。本週,ElevenLabs 還宣佈推出市場平臺,讓品牌可以使用名人授權的 AI 生成聲音,其中包括 Caine 以及 Liza Minnelli 和 Dr. Maya Angelou 等名人。ElevenLabs 是較受歡迎的 AI 獨角獸公司之一,其後勤包括 a16z 和 ICONIQ。