ElevenLabs 共同創辦人兼執行長 Mati Staniszewski 在杜哈舉行的 Web Summit 上表示,語音正成為人工智慧下一個主要的介面,人們將透過語音與機器互動,而非僅限於文字與螢幕。他指出,ElevenLabs 開發的語音模型已超越單純模仿人類聲音,開始結合大型語言模型的推理能力,改變人與科技的互動方式。他預言未來手機將重新放回口袋,人們可沉浸於現實世界,以語音控制技術。此願景推動 ElevenLabs 本週以十一億美元估值籌資五億美元,且該觀點在 AI 產業日益普及。OpenAI 與 Google 均將語音列為下一代模型核心,Apple 則透過收購 Q.ai 等公司低調建構語音相關技術。隨著 AI 滲透穿戴裝置與汽車等新硬體,控制方式從觸控螢幕轉向語音,語音成為 AI 發展下一階段的重要戰場。
Iconiq Capital 合夥人 Seth Pierrepont 也支援此觀點,認為雖然螢幕對遊戲與娛樂仍具重要性,但鍵盤等傳統輸入方式已顯陳舊。隨著 AI 系統變得更具代理性,互動方式將改變,模型將獲得防護機制、整合功能與情境資料,減少使用者明確提示的需求。Staniszewski 指出,未來語音系統將依賴長期累積的持續記憶與情境,使互動更自然且減少使用者負擔。ElevenLabs 正推動混合架構,結合雲端與裝置端處理,以支援耳機等穿戴裝置,讓語音成為常伴隨的夥伴而非需主動啟用的功能。ElevenLabs 已與 Meta 合作將技術應用於 Instagram 及 Horizon Worlds 虛擬實境平臺,並表示願意合作開發 Ray-Ban 智慧眼鏡等新型態語音介面。然而,語音技術日益嵌入日常硬體也引發隱私、監控及個人資料儲存等嚴重擔憂,Google 等公司已因濫用資料而受指責。