OpenAI 正大力押注音訊人工智慧,不僅是為了讓 ChatGPT 聽起來更好,而是為了為一年後預計推出的音訊優先個人裝置做準備。根據 The Information 的新報導,OpenAI 在過去兩個月內整合了多個工程、產品和研發團隊,全面重構其音訊模型。這一舉動反映了整個科技產業的趨勢,即螢幕將成為背景噪音,而音訊將成為核心。目前,智慧音箱已讓語音助手成為美國三分之一家庭的常設設施。Meta 最近推出了其雷拜恩智慧眼鏡的功能,利用五個麥克風陣列幫助使用者在嘈雜環境中聽清對話,本質上將臉部轉化為定向聆聽裝置。Google 自六月起開始實驗「音訊摘要」功能,將搜尋結果轉化為對話式總結,而 Tesla 則將 xAI 的聊天機器人 Grok 整合進車輛,打造能處理導航和空調控制等各項任務的對話式語音助手。
除了科技巨頭,一群創業公司也持同樣信念,儘管成功程度不一。Humane AI Pin 的製造商在無螢幕可穿戴裝置成為警示案例前耗費了數億美元。Friend AI 項鍊聲稱能記錄使用者生活並提供陪伴,卻同時引發了隱私擔憂和存在主義恐懼。現在至少兩家公司,包括 Sandbar 和由 Pebble 創辦人 Eric Migicovsky 領導的公司,正在開發預計於 2026 年推出的 AI 戒指,讓佩戴者能與手對話。雖然外形可能不同,但核心論點一致:音訊是未來的介面。每個空間——家、車甚至臉部——都正在成為控制表面。OpenAI 的新音訊模型預計於 2026 年初推出,據稱將聽起來更自然,能像真正的對話夥伴一樣處理中斷,甚至能在使用者說話時回應,這是今日模型無法做到的。公司還 envision 一組裝置,可能包括眼鏡或無螢幕智慧音箱,它們將更像伴侶而非工具。這並不令人驚訝,正如 The Information 所指出的,前 Apple 設計總監 Jony Ive 透過 OpenAI 五月以 65 億美元收購其公司 io 加入硬體團隊,將減少裝置依賴視為優先事項,認為音訊優先設計是糾正過去消費電子產品錯誤的機會。