分類: 語音與音訊

「語音與音訊」分類的 AI 新聞與論文。

兩位創辦人離開高盛與Meta 創立語音AI專注於市場他人忽略的領域

2026年6月3日

客戶服務與服務支援目前是人聲 AI 最熱門的領域之一，但要在非洲和中東市場打造出聽起來自然且延遲可忽略的產品，難度遠高於其他地區。大多數主要玩家並未針對這些市場設計產品，因此 AethexAI 這家成立於去年、旨在填補此缺口的創業公司，已獲得由 4DX Ventures 領投、Enza Capital、Dorm Room Fund、Mojo Ventures 及斯坦福 GSB 26 Fund 參與的 300 萬美元預種子輪融資。個別投資者包括斯坦福教授、電信高管以及來自 Anthropic 的 AI 研究人員。與使用 Vapi 和 LiveKit 等現有編排工具不同，AethexAI 從頭建立了自己的小型模型與編排層，以處理目標市場中英語、法語和阿拉伯語的在地化方言。這項決策源於該地區運營的特殊需求。創辦人 Mariama Diallo 曾於高盛工作並加入 ModelML，而 CTO Ayooluwa Odemuyiwa 畢業於加州理工學院，曾在 Meta 工作並就讀斯坦福商學院。兩人在探索新興市場機會時發現，埃及的一家呼叫中心因自動化效果不佳而回滾系統，非洲多個支援中心也面臨尋找合適成本工程師的難題。Odemuyiwa 指出，該地區自動化電話的延遲與抖動令人難以接受，若使用外部託管的大型模型會加劇延遲，因此必須使用極小模型並在各步驟削減延遲。 AethexAI 開發了自有 Kora 系列模型，引數介於 3 億至 17 億之間，遠小於大型語言模型，以解決延遲問題並維持準確度。公司利用匿名化錄音資料訓練模型，並向非洲各地廣播站寄送硬碟收集更多語音資料，同時建立大學學生貢獻網路進行資料標註與發音訓練。目前公司每日處理超過 17,000 通電話。在商業策略上，公司會引導新客戶選擇最優先的單一使用場景起步，目前應用場景涵蓋債務催收、客戶啟用及銀行與電信業通用的身份驗證（KYC）。公司正聘請前線工程師服務在地市場，並與電信提供商建立渠道合作。4DX Ventures 的 Walter Baddoo 強調，非洲和中東市場與西方市場根本不同，後者處理的
ElevenLabs新音樂生成模型可於歌曲中段切換風格

2026年5月27日

美國聲效 AI 公司 ElevenLabs 推出了新版音樂生成模型 Music v2，該模型具備在曲目中切換風格的能力，能同時處理人聲與樂曲的複雜度。此版本距離公司首發音樂生成模型已近十個月。新模型可從歌劇切換至重型金屬再返回，在快速說唱時保持連貫性，並能為曲目新增非音樂音效。藝術家可選擇歌曲特定部分，透過提示詞重新創作而不影響其他段落，亦可分段建立歌曲，包含前奏、主歌與副歌，最後將各段拼接。ElevenLabs 表示，新模型在語言、歌詞、人聲與編排方面的表現更可靠。近期 AI 實驗室競相推出能生成專業級音樂的模型，Google、Stability AI 與 Suno 也發布了具備生成更長且複雜曲目能力的模型。在 Google I/O 開發者大會上，Google 透過 Flow Music 工具新增了輕鬆製作翻唱、分段編輯歌曲及生成音樂影片的功能。ElevenLabs 強調，新模型基於授權資料建立，已獲得商業使用許可，使用者可自由使用曲目。鑑於其他 AI 音樂新創如 Suno 與 Udio 曾因版權問題面臨訴訟，與唱片公司達成協議至關重要。新模型現已可在 ElevenLabs 的 ElevenCreative 工具中供行銷與品牌團隊使用，並在新推出的 ElevenMusic 平臺上建立 AI 生成歌曲，預計近期將透過 ElevenAPI 提供服務。
AI 用來復活已故飛行員的聲音

2026年5月22日

美國國家運輸安全委員會（NTSB）因發現去年 UPS 飛機墜機事件中遇難飛行員的聲音被利用人工智慧（AI）重製並在網路上流傳，暫時關閉了其案卷系統（docket system）的存取權。根據聯邦法律，NTSB 被禁止將駕駛艙錄音納入公開案卷，但該次事故的案卷中仍包含一段將聲音訊號轉化為影象的頻譜圖（spectrogram）檔案。頻譜圖透過數學過程將包含高低頻的聲音訊號轉化為影象，知名 YouTuber Scott Manley 指出，從數百萬位元組的資料中可能還原出聲音。隨後，人們利用公開的案卷轉錄稿與頻譜圖，結合 Codex 等人工智慧工具，成功重製了 UPS 2976 號班機在肯塔基州路易斯維爾的駕駛艙錄音。NTSB 於週五恢復了案卷系統的公眾存取，但將 42 起調查案件（含 2976 號班機）暫時封存以待審查。
穩定AI發布全新音訊模型可創作六分鐘歌曲

2026年5月20日

Stability AI 推出全新音訊模型系列 Stability Audio 3.0，旨在提升專業音樂生成能力。該系列包含四種模型：小型 SFX（4.59 億引數）、小型（4.59 億引數）、中型（14 億引數）和大型（27 億引數）。其中，小型 SFX 和小型模型適合在裝置上生成長達兩分鐘的音效與音樂；中型與大型模型則能創作結構完整、旋律穩定的六分二十秒長曲。這比 2024 年推出的 Stable Audio 2.0 生成功能長一倍以上。Stability AI 開放小型 SFX、小型及中型模型的權重供公眾使用與修改，而大型模型僅透過 API 或自託管付費服務提供，且年收入超過一百萬美元的公司需申請企業授權。此前 2024 年推出的 Stable Audio Open 僅支援四十七秒音樂生成，此次升級顯著提升產出長度。Stability AI 已與 Warner Music Group 及 Universal Music Group 簽約，確保最新模型基於完全授權資料訓練。儘管 Google 與 ElevenLabs 等企業也在音樂生成領域投入，但 Suno 與 Udio 的訴訟顯示，資料授權與唱片公司合作對服務長期生存至關重要。此外，Stability AI 前首席數位官 Ethan Kaplan 加入領導專業音樂業務，同期 Suno 與 ElevenLabs 也分別聘請前 Merlin 執行長及 Kobalt 音樂出版商高層以強化專業聲譽。

分類: 語音與音訊

兩位創辦人離開高盛與Meta 創立語音AI專注於市場他人忽略的領域

ElevenLabs新音樂生成模型可於歌曲中段切換風格

AI 用來復活已故飛行員的聲音

穩定AI發布全新音訊模型 可創作六分鐘歌曲

穩定AI發布全新音訊模型可創作六分鐘歌曲