分類: 語音與音訊
「語音與音訊」分類的 AI 新聞與論文。
-
兩位創辦人離開高盛與Meta 創立語音AI專注於市場他人忽略的領域
客戶服務與服務支援目前是人聲 AI 最熱門的領域之一,但要在非洲和中東市場打造出聽起來自然且延遲可忽略的產品,難度遠高於其他地區。大多數主要玩家並未針對這些市場設計產品,因此 AethexAI 這家成立於去年、旨在填補此缺口的創業公司,已獲得由 4DX Ventures 領投、Enza Capital、Dorm Room Fund、Mojo Ventures 及斯坦福 GSB 26 Fund 參與的 300 萬美元預種子輪融資。個別投資者包括斯坦福教授、電信高管以及來自 Anthropic 的 AI 研究人員。 與使用 Vapi 和 LiveKit 等現有編排工具不同,AethexAI 從頭建立了自己的小型模型與編排層,以處理目標市場中英語、法語和阿拉伯語的在地化方言。這項決策源於該地區運營的特殊需求。創辦人 Mariama Diallo 曾於高盛工作並加入 ModelML,而 CTO Ayooluwa Odemuyiwa 畢業於加州理工學院,曾在 Meta 工作並就讀斯坦福商學院。兩人在探索新興市場機會時發現,埃及的一家呼叫中心因自動化效果不佳而回滾系統,非洲多個支援中心也面臨尋找合適成本工程師的難題。Odemuyiwa 指出,該地區自動化電話的延遲與抖動令人難以接受,若使用外部託管的大型模型會加劇延遲,因此必須使用極小模型並在各步驟削減延遲。 AethexAI 開發了自有 Kora 系列模型,引數介於 3 億至 17 億之間,遠小於大型語言模型,以解決延遲問題並維持準確度。公司利用匿名化錄音資料訓練模型,並向非洲各地廣播站寄送硬碟收集更多語音資料,同時建立大學學生貢獻網路進行資料標註與發音訓練。目前公司每日處理超過 17,000 通電話。在商業策略上,公司會引導新客戶選擇最優先的單一使用場景起步,目前應用場景涵蓋債務催收、客戶啟用及銀行與電信業通用的身份驗證(KYC)。公司正聘請前線工程師服務在地市場,並與電信提供商建立渠道合作。4DX Ventures 的 Walter Baddoo 強調,非洲和中東市場與西方市場根本不同,後者處理的
-
ElevenLabs新音樂生成模型可於歌曲中段切換風格
美國聲效 AI 公司 ElevenLabs 推出了新版音樂生成模型 Music v2,該模型具備在曲目中切換風格的能力,能同時處理人聲與樂曲的複雜度。此版本距離公司首發音樂生成模型已近十個月。新模型可從歌劇切換至重型金屬再返回,在快速說唱時保持連貫性,並能為曲目新增非音樂音效。藝術家可選擇歌曲特定部分,透過提示詞重新創作而不影響其他段落,亦可分段建立歌曲,包含前奏、主歌與副歌,最後將各段拼接。ElevenLabs 表示,新模型在語言、歌詞、人聲與編排方面的表現更可靠。近期 AI 實驗室競相推出能生成專業級音樂的模型,Google、Stability AI 與 Suno 也發布了具備生成更長且複雜曲目能力的模型。在 Google I/O 開發者大會上,Google 透過 Flow Music 工具新增了輕鬆製作翻唱、分段編輯歌曲及生成音樂影片的功能。ElevenLabs 強調,新模型基於授權資料建立,已獲得商業使用許可,使用者可自由使用曲目。鑑於其他 AI 音樂新創如 Suno 與 Udio 曾因版權問題面臨訴訟,與唱片公司達成協議至關重要。新模型現已可在 ElevenLabs 的 ElevenCreative 工具中供行銷與品牌團隊使用,並在新推出的 ElevenMusic 平臺上建立 AI 生成歌曲,預計近期將透過 ElevenAPI 提供服務。
-
AI 用來復活已故飛行員的聲音
美國國家運輸安全委員會(NTSB)因發現去年 UPS 飛機墜機事件中遇難飛行員的聲音被利用人工智慧(AI)重製並在網路上流傳,暫時關閉了其案卷系統(docket system)的存取權。根據聯邦法律,NTSB 被禁止將駕駛艙錄音納入公開案卷,但該次事故的案卷中仍包含一段將聲音訊號轉化為影象的頻譜圖(spectrogram)檔案。頻譜圖透過數學過程將包含高低頻的聲音訊號轉化為影象,知名 YouTuber Scott Manley 指出,從數百萬位元組的資料中可能還原出聲音。隨後,人們利用公開的案卷轉錄稿與頻譜圖,結合 Codex 等人工智慧工具,成功重製了 UPS 2976 號班機在肯塔基州路易斯維爾的駕駛艙錄音。NTSB 於週五恢復了案卷系統的公眾存取,但將 42 起調查案件(含 2976 號班機)暫時封存以待審查。
-
穩定AI發布全新音訊模型 可創作六分鐘歌曲
Stability AI 推出全新音訊模型系列 Stability Audio 3.0,旨在提升專業音樂生成能力。該系列包含四種模型:小型 SFX(4.59 億引數)、小型(4.59 億引數)、中型(14 億引數)和大型(27 億引數)。其中,小型 SFX 和小型模型適合在裝置上生成長達兩分鐘的音效與音樂;中型與大型模型則能創作結構完整、旋律穩定的六分二十秒長曲。這比 2024 年推出的 Stable Audio 2.0 生成功能長一倍以上。Stability AI 開放小型 SFX、小型及中型模型的權重供公眾使用與修改,而大型模型僅透過 API 或自託管付費服務提供,且年收入超過一百萬美元的公司需申請企業授權。此前 2024 年推出的 Stable Audio Open 僅支援四十七秒音樂生成,此次升級顯著提升產出長度。Stability AI 已與 Warner Music Group 及 Universal Music Group 簽約,確保最新模型基於完全授權資料訓練。儘管 Google 與 ElevenLabs 等企業也在音樂生成領域投入,但 Suno 與 Udio 的訴訟顯示,資料授權與唱片公司合作對服務長期生存至關重要。此外,Stability AI 前首席數位官 Ethan Kaplan 加入領導專業音樂業務,同期 Suno 與 ElevenLabs 也分別聘請前 Merlin 執行長及 Kobalt 音樂出版商高層以強化專業聲譽。