ElevenLabs CEO：聲音是AI的下一階介面

ElevenLabs 共同創辦人兼執行長 Mati Staniszewski 在杜哈舉行的 Web Summit 上表示，語音正成為人工智慧下一個主要的介面，人們將透過語音與機器互動，而非僅限於文字與螢幕。他指出，ElevenLabs 開發的語音模型已超越單純模仿人類聲音，開始結合大型語言模型的推理能力，改變人與科技的互動方式。他預言未來手機將重新放回口袋，人們可沉浸於現實世界，以語音控制技術。此願景推動 ElevenLabs 本週以十一億美元估值籌資五億美元，且該觀點在 AI 產業日益普及。OpenAI 與 Google 均將語音列為下一代模型核心，Apple 則透過收購 Q.ai 等公司低調建構語音相關技術。隨著 AI 滲透穿戴裝置與汽車等新硬體，控制方式從觸控螢幕轉向語音，語音成為 AI 發展下一階段的重要戰場。

Iconiq Capital 合夥人 Seth Pierrepont 也支援此觀點，認為雖然螢幕對遊戲與娛樂仍具重要性，但鍵盤等傳統輸入方式已顯陳舊。隨著 AI 系統變得更具代理性，互動方式將改變，模型將獲得防護機制、整合功能與情境資料，減少使用者明確提示的需求。Staniszewski 指出，未來語音系統將依賴長期累積的持續記憶與情境，使互動更自然且減少使用者負擔。ElevenLabs 正推動混合架構，結合雲端與裝置端處理，以支援耳機等穿戴裝置，讓語音成為常伴隨的夥伴而非需主動啟用的功能。ElevenLabs 已與 Meta 合作將技術應用於 Instagram 及 Horizon Worlds 虛擬實境平臺，並表示願意合作開發 Ray-Ban 智慧眼鏡等新型態語音介面。然而，語音技術日益嵌入日常硬體也引發隱私、監控及個人資料儲存等嚴重擔憂，Google 等公司已因濫用資料而受指責。