語言: 英文
英文 的 AI 新聞與論文。
-
子細計算機的聲學隔離模型協助電腦在嘈雜環境中理解使用者
加州創業公司 Subtle Computing 致力於解決在嘈雜環境中捕捉人聲的難題,其開發的端到端人聲隔離模型能提升語音 AI 產品的表現。隨著 Granola、Fireflies 等語音 AI 應用及 OpenAI、ClickUp 等平臺的整合,市場對語音識別的需求激增,但現有技術在咖啡廳或辦公室等嘈雜場景中效果不佳。Subtle Computing 的創始團隊成員 Tyler Chen 指出,傳統方案將人聲傳送至雲端處理效率低下,而該公司針對特定裝置的聲學特性訓練專屬模型,而非使用通用模型。測試顯示,保留裝置聲學特徵後,效能提升一個數量級,並能提供個人化解決方案。該公司由在斯坦福大學就讀的 Tyler Chen、David Harrison、Savannah Cofer 和 Jackie Yang 共同創立,獲得 Entrada Ventures 領銜的 600 萬美元種子輪融資,參與機構包括 Amplify Partners 及 Twitter 創辦人 Biz Stone 等天使投資人。Qualcomm 已選定該公司加入其語音與音樂擴充套件計劃,使其技術可應用於相容晶片裝置。此外,Subtle Computing 已與一家消費電子品牌及一家汽車品牌合作,並計劃於明年推出整合硬體與軟體的消費者產品,旨在提供在極端噪音或安靜環境下均可靠、易用的語音介面體驗。
-
訊飛智慧投資五千万美元建置用於程式碼與文字的擴散模型
隨著大量資金湧入 AI 創業公司,擁有新想法的 AI 研究者現在是時候去測試了。如果想法足夠新穎,獨立公司可能比大實驗室更容易獲得所需資源。這正是 Inception 的故事,這是一家開發基於擴散模型的 AI 模型的創業公司,剛剛籌資 5000 萬美元。該輪融資由 Menlo Ventures 主導,參與機構包括 Mayfield、Innovation Endeavors、Microsoft 的 M12 基金、Snowflake Ventures、Databricks Investment 以及 Nvidia 的投資部門 NVentures。Andrew Ng 和 Andrej Karpathy 也提供了額外的天使投資。該專案的領導者是斯坦福大學教授 Stefano Ermon,他的研究專注於擴散模型,這種模型透過迭代 refinement 生成輸出,而非逐字生成。這些模型驅動了 Stable Diffusion、Midjourney 和 Sora 等基於影象的 AI 系統。Ermon 自 AI boom 之前就開始研究這些系統,現在他利用 Inception 將這些模型應用於更廣泛的任務。 與資金同時,公司推出了其 Mercury 模型的新版本,專為軟體開發設計。Mercury 已經整合進 ProxyAI、Buildglare 和 Kilo Code 等多個開發工具中。Ermon 表示,擴散方法將幫助 Inception 的模型在延遲(response time)和計算成本這兩個最重要指標上節省資源。他說,這些基於擴散的 LLM 比其他人今天構建的都要快且高效,這是一種完全不同的方法,仍有大量創新可以帶來。 理解技術差異需要一些背景知識。擴散模型在結構上與主導文字 AI 服務的自回歸模型不同。像 GPT-5 和 Gemini 這樣的自回歸模型是順次執行的,根據先前處理的材料預測下一個詞或詞片段。擴散模型是為影象生成訓練的,採用更整體的方法,逐步修改回應的整體結構,直到匹配所需結果。傳統觀點認為應使用自回歸模型處理文字應用,這對於最近一代 AI 模型非常成功。但越來越多的研究表明,當模型處理大量文字或管理資料約束時,擴散模型可能表現更好。Ermon 指出,當在大型程式碼庫上執行操作時,這些品質成為真正的優勢。 擴散模型在利用硬體方面也有更大的靈活性,這在 AI 基礎設施需求日益明顯時特別重要。自回歸
-
Google Maps 升級印度導航功能搭配 Gemini 提供安全警報
Google 正在將 Gemini 整合進印度的 Google Maps,並加入道路安全警報及更多路線資訊。這項於週三在美國推出的 AI 整合功能,為 Maps 帶來免手操作 AI 協助、導航時的情境化建議以及景點資訊。Google Maps 副總裁 Miriam Daniel 表示,針對印度的本地化不僅僅是語言,還需適應印度使用者的使用習慣、提問方式、地點識別方法以及地緣政治因素和街道名稱等差異。Gemini 將於未來幾週向印度所有 Android 和 iOS 使用者開放,初期支援九種印度語言。此外,Google 還推出了針對印度的導航與通勤更新,駕駛者將獲得視覺和音訊警報,提示其正經過事故高發路段。這些警報將與當地當局合作,並首先在古爾岡、海德拉巴的賽博阿巴德地區、昌迪加爾和法裡達巴德等地區的 Android 使用者中推出。 Google 曾因去年在北方邦一輛車駛離未完工橋樑導致三人死亡的事故而受到質疑。Google Maps 資深專案經理 Anal Ghosh 指出,現實條件瞬息萬變,地圖無法百分之百準確,建議使用者務必留意道路狀況。為此,Google 已與印度國家公路管理局(NHAI)合作,獲取道路關閉、改道及維修工作的近乎即時資料,並能在國家高速公路上顯示公共廁所、餐廳和加油站等路邊設施。其他新功能包括針對主要中斷或延誤的主動通知,這些警報將首先在德里、孟買和班加羅爾的高速公路及主要道路上向 Android 使用者推出。新功能還包括顯示來自當地交通部門的速度限制,此功能將首先在法裡達巴德、加齊亞巴德、古爾岡、海德拉巴、詹普爾、科爾卡塔、勒克瑙、孟買和諾伊達等九個城市的 Android 和 iOS 使用者中推出。此外,Google Maps 還將獲得飛橋的語音支援,該功能將於未來幾週向 Android 和 iOS 使用者推出。
-
Perplexity 將支付 4 億美元以供應 Snapchat 搜尋功能
Snap 於週四宣佈與 Perplexity 達成協議,將該公司的 AI 搜尋引擎直接整合進 Snapchat 應用程式。作為交易的一部分,Perplexity 將支付 Snap 4 億美元現金及股票。此協議使 Perplexity 能夠接觸到超過 9 億 4 千萬 Snapchat 使用者,這些使用者在詢問公司 My AI 聊天機器人時,將獲得來自其 AI 引擎的解答。新功能預計將於明年年初整合進應用程式介面。Snap 表示,將從 2026 年起開始記錄此項交易的營收。該協議是在 Snap 公佈 2025 年第三季財報時一同宣佈的。公司報告營收為 15.1 億美元,較去年同期增長 10%,雖然虧損收窄至 1.04 億美元,但較一年前的 1.53 億美元有所減少。公司表示,其訂閱等級 Snapchat+ 的使用者數已超過 1700 萬。