文章
所有發布的 AI 新聞與論文。
-
Google Maps 升級印度導航功能搭配 Gemini 提供安全警報
Google 正在將 Gemini 整合進印度的 Google Maps,並加入道路安全警報及更多路線資訊。這項於週三在美國推出的 AI 整合功能,為 Maps 帶來免手操作 AI 協助、導航時的情境化建議以及景點資訊。Google Maps 副總裁 Miriam Daniel 表示,針對印度的本地化不僅僅是語言,還需適應印度使用者的使用習慣、提問方式、地點識別方法以及地緣政治因素和街道名稱等差異。Gemini 將於未來幾週向印度所有 Android 和 iOS 使用者開放,初期支援九種印度語言。此外,Google 還推出了針對印度的導航與通勤更新,駕駛者將獲得視覺和音訊警報,提示其正經過事故高發路段。這些警報將與當地當局合作,並首先在古爾岡、海德拉巴的賽博阿巴德地區、昌迪加爾和法裡達巴德等地區的 Android 使用者中推出。 Google 曾因去年在北方邦一輛車駛離未完工橋樑導致三人死亡的事故而受到質疑。Google Maps 資深專案經理 Anal Ghosh 指出,現實條件瞬息萬變,地圖無法百分之百準確,建議使用者務必留意道路狀況。為此,Google 已與印度國家公路管理局(NHAI)合作,獲取道路關閉、改道及維修工作的近乎即時資料,並能在國家高速公路上顯示公共廁所、餐廳和加油站等路邊設施。其他新功能包括針對主要中斷或延誤的主動通知,這些警報將首先在德里、孟買和班加羅爾的高速公路及主要道路上向 Android 使用者推出。新功能還包括顯示來自當地交通部門的速度限制,此功能將首先在法裡達巴德、加齊亞巴德、古爾岡、海德拉巴、詹普爾、科爾卡塔、勒克瑙、孟買和諾伊達等九個城市的 Android 和 iOS 使用者中推出。此外,Google Maps 還將獲得飛橋的語音支援,該功能將於未來幾週向 Android 和 iOS 使用者推出。
-
訊飛智慧投資五千万美元建置用於程式碼與文字的擴散模型
隨著大量資金湧入 AI 創業公司,擁有新想法的 AI 研究者現在是時候去測試了。如果想法足夠新穎,獨立公司可能比大實驗室更容易獲得所需資源。這正是 Inception 的故事,這是一家開發基於擴散模型的 AI 模型的創業公司,剛剛籌資 5000 萬美元。該輪融資由 Menlo Ventures 主導,參與機構包括 Mayfield、Innovation Endeavors、Microsoft 的 M12 基金、Snowflake Ventures、Databricks Investment 以及 Nvidia 的投資部門 NVentures。Andrew Ng 和 Andrej Karpathy 也提供了額外的天使投資。該專案的領導者是斯坦福大學教授 Stefano Ermon,他的研究專注於擴散模型,這種模型透過迭代 refinement 生成輸出,而非逐字生成。這些模型驅動了 Stable Diffusion、Midjourney 和 Sora 等基於影象的 AI 系統。Ermon 自 AI boom 之前就開始研究這些系統,現在他利用 Inception 將這些模型應用於更廣泛的任務。 與資金同時,公司推出了其 Mercury 模型的新版本,專為軟體開發設計。Mercury 已經整合進 ProxyAI、Buildglare 和 Kilo Code 等多個開發工具中。Ermon 表示,擴散方法將幫助 Inception 的模型在延遲(response time)和計算成本這兩個最重要指標上節省資源。他說,這些基於擴散的 LLM 比其他人今天構建的都要快且高效,這是一種完全不同的方法,仍有大量創新可以帶來。 理解技術差異需要一些背景知識。擴散模型在結構上與主導文字 AI 服務的自回歸模型不同。像 GPT-5 和 Gemini 這樣的自回歸模型是順次執行的,根據先前處理的材料預測下一個詞或詞片段。擴散模型是為影象生成訓練的,採用更整體的方法,逐步修改回應的整體結構,直到匹配所需結果。傳統觀點認為應使用自回歸模型處理文字應用,這對於最近一代 AI 模型非常成功。但越來越多的研究表明,當模型處理大量文字或管理資料約束時,擴散模型可能表現更好。Ermon 指出,當在大型程式碼庫上執行操作時,這些品質成為真正的優勢。 擴散模型在利用硬體方面也有更大的靈活性,這在 AI 基礎設施需求日益明顯時特別重要。自回歸
-
子細計算機的聲學隔離模型協助電腦在嘈雜環境中理解使用者
加州創業公司 Subtle Computing 致力於解決在嘈雜環境中捕捉人聲的難題,其開發的端到端人聲隔離模型能提升語音 AI 產品的表現。隨著 Granola、Fireflies 等語音 AI 應用及 OpenAI、ClickUp 等平臺的整合,市場對語音識別的需求激增,但現有技術在咖啡廳或辦公室等嘈雜場景中效果不佳。Subtle Computing 的創始團隊成員 Tyler Chen 指出,傳統方案將人聲傳送至雲端處理效率低下,而該公司針對特定裝置的聲學特性訓練專屬模型,而非使用通用模型。測試顯示,保留裝置聲學特徵後,效能提升一個數量級,並能提供個人化解決方案。該公司由在斯坦福大學就讀的 Tyler Chen、David Harrison、Savannah Cofer 和 Jackie Yang 共同創立,獲得 Entrada Ventures 領銜的 600 萬美元種子輪融資,參與機構包括 Amplify Partners 及 Twitter 創辦人 Biz Stone 等天使投資人。Qualcomm 已選定該公司加入其語音與音樂擴充套件計劃,使其技術可應用於相容晶片裝置。此外,Subtle Computing 已與一家消費電子品牌及一家汽車品牌合作,並計劃於明年推出整合硬體與軟體的消費者產品,旨在提供在極端噪音或安靜環境下均可靠、易用的語音介面體驗。
-
Meta 將其 AI 經過短影音資訊推播至歐洲
Meta 於週四宣佈,其短影片資訊流 Vibes 將正式在歐洲推出,該功能整合於 Meta AI 應用程式中。Vibes 類似 TikTok 或 Instagram Reels,但所有展示給使用者的影片均由 AI 生成。此舉發生在 Meta 於六週前於美國推出該功能之後。就在 Meta 推出 Vibes 幾天後,OpenAI 也釋出了 Sora,這是一個用於建立和分享 AI 生成影片的社交媒體平臺。透過 Vibes,使用者可以建立並分享短影片,並訪問專門展示他人 AI 生成影片的資訊流。Meta 表示,該資訊流將隨著時間推移根據使用者興趣進行個性化調整。在內容創作方面,使用者可透過提示詞生成影片,或重新編輯他人的影片,並能新增視覺效果、疊加音樂或調整風格以符合個人喜好。Meta 強調這是一種本質上具有社交性和合作性的創作體驗,鼓勵使用者與朋友一起重新編輯、共同創作並構建故事。使用者可直接將影片分享到 Vibes 資訊流、傳送給朋友,或跨貼到 Instagram 和 Facebook 的限時動態與 Reels。 然而,Meta 執行長 Mark Zuckerberg 於九月揭曉該功能時,使用者評論多持負面態度,質疑為何要推出 AI 生成的 TikTok 替代品。有評論直言「沒人想要這個」,也有評論批評這是「AI 垃圾」。儘管 Meta 此前宣稱正在打擊「不原創」內容,並建議創作者專注於「真實敘事」,而非缺乏價值的短影片,但此次 Vibes 的推出顯得令人困惑。Meta 表示,自該功能推出以來,Meta AI 應用程式中的媒體生成量已增加超過十倍。同時,YouTube 等公司正試圖限制 AI 內容的泛濫,因為 AI 技術的興起已導致社交媒體平臺充斥大量低品質的 AI 生成內容。