文章
所有發布的 AI 新聞與論文。
-
Google 的 Gemini Omni 可將圖片、音訊和文字轉換為影片 —— 這僅是開始
Google 於 Google I/O 開發者大會上推出 Gemini Omni 系列多模態模型,旨在實現從任何輸入建立任何內容的目標。該系列首發的 Gemini Omni Flash 模型今日開放使用,整合了影象、音訊、影片和文字,並能透過推理產生符合物理、文化、歷史及科學邏輯的高質量影片。與現有 Veo 模型不同,Omni 允許使用者使用普通文字指令編輯照片,類似於 Nano Banana 功能,並支援生成帶有自定義數字頭像的影片。為防止深度偽造,使用者需透過記錄聲音和數字進行認證,且所有生成的影片將包含 Google SynthID 數字水印。Omni Flash 初始可渲染十秒影片,主要面向消費者市場,未來將推出更長時長版本及效能更強的 Omni Pro 模型。該技術將透過 API 向企業和創意工作者開放,並可應用於廣告製作和電影行業。此外,Google 還推出了 Gemini Spark 全天候代理助手,並更新了 Gemini 應用以應對競爭。
-
Google推出全新Universal Cart追蹤用戶全網購物旅程
Google 於週二在 Google I/O 開發者大會上正式推出 Universal Cart,這被定位為整合購物體驗的代理中心。該功能允許使用者從搜尋、Gemini 聊天、YouTube 或 Gmail 等多個入口點新增商品,並由系統自動追蹤促銷活動、監控價格波動、提供歷史價格分析以及庫存補貨提醒。Universal Cart 利用 AI 技術協助消費者做出更明智的購買決策,例如在組裝自訂電腦時,若發現選用的處理器與主機板不相容,系統會自動標記並建議替代方案。對於頻繁旅行或重視積分回饋的使用者,該功能可透過 Google Wallet 整合隱藏優惠,幫助最大化積分使用。 Google 同時宣佈將通用商業協議(UCP)擴充套件至更多類別,包括飯店預訂與當地外送服務,並計劃將此協議應用範圍從美國擴大至加拿大、澳洲及英國。此外,Universal Cart 將於今日在美國推出,預計今年夏季將整合至 Gemini 應用程式,隨後擴充套件至 YouTube 和 Gmail。 另一項重要公告是 Agent Payments Protocol(AP2)的更新。該協議旨在讓 AI 代理在使用者授權下,在設定好的品牌、產品範圍及消費額度內,自動完成支付。Google 表示將於未來幾個月將此技術整合至其自有產品中,以增強對消費者購物行為的掌控力。AP2 透過加密技術保護使用者資料,並建立不可篡改的數位記錄與審計追蹤,確保交易透明且可追溯,同時為消費者提供針對特定商品或品牌的退款與爭議處理依據。
-
OpenAI 正在簡化檢測圖片是否由其模型生成的過程
針對 AI 生成影象日益難以辨認的挑戰,OpenAI 於週二宣佈兩項新措施以協助對抗此問題。公司承諾採用名為 C2PA 的公開標準,該標準會在影像的後設資料中加入明確訊號,標示該影像是由 AI 生成。此外,OpenAI 與 Google 合作,將引入一種名為 SynthID 的隱形水印。這種水印雖然較難被檢測,但也更難以被惡意行為者擦除。這些新保護措施僅適用於由 OpenAI 產品生成的影像,旨在確保 OpenAI 不參與問題,同時不影響來自其他工具的大量影像。OpenAI 還預覽了一款公共驗證工具,可檢查上述兩種訊號,讓使用者輕鬆測試影像是否由 AI 生成。該工具初期僅涵蓋 OpenAI 產品生成的影像,公司希望未來能擴充套件至其他工具。 成立於 2021 年的內容 provenance 與真實性聯盟(Coalition for Content Provenance and Authenticity,簡稱 C2PA)是一個非營利組織,致力於減輕 AI 影像對公共討論的有害影響。C2PA 標準已被多款 Google 產品採用,但業界整體採用率仍不一致。由於 C2PA 訊號可透過後設資料清晰存取,但也可能被操弄,因此對受信任的使用者最為有效。SynthID 則是 Google 開發的新嘗試,旨在提供更堅實的防護,即使惡意行為者嘗試透過截圖、縮放或數位操作移除水印,該水印仍能持續存在。OpenAI 指出,水印在經過如截圖等轉換時可能更持久,而後設資料則能提供比水印更多的資訊。兩者互為補充,共同使影像來源的證明比單獨使用任一層面更具韌性。
-
OpenAI創始人安德烈.卡帕希加入Anthropic預訓練團隊
AI 研究員安德烈·卡帕奇(Andrej Karpathy)已加入安提克(Anthropic)。這位曾共同創立並曾在 OpenAI 工作,以及前特斯拉(Tesla)AI 部門負責人的卡帕奇,於 2026 年 5 月 19 日透過 X 平臺宣佈加入安提克。他認為接下來幾年在大語言模型(LLM)前沿領域將特別具有塑造性,並對重返研發工作感到興奮。他在安提克將與團隊負責人尼克·約瑟夫(Nick Joseph)合作,專注於預訓練工作,這是賦予 Claude 核心知識與能力且成本高昂的階段。卡帕奇將帶領一個團隊,利用 Claude 加速預訓練研究。安提克表示,聘請卡帕奇顯示其相信 AI 輔助研究而非單純依賴運算能力,是與 OpenAI 和 Google 保持競爭力的關鍵。卡帕奇曾在 OpenAI 專注於深度學習與電腦視覺,2017 年轉投特斯拉領導全自動駕駛(FSD)與自動駕駛專案,2022 年離職後於 2024 年重返 OpenAI 一年,隨後創立專注於教育應用 AI 助手的新創公司 Eureka Labs。他目前仍對教育充滿熱情,計劃未來恢復相關工作,並曾開設名為「神經網路:從零到英雄」的線上課程及 YouTube 頻道分享 AI 講座。此外,安提克也聘請了克里斯·羅爾夫(Chris Rohlf)加入其前沿紅隊,該團隊負責對先進 AI 模型進行壓力測試。羅爾夫擁有超過 20 年的資安經驗,曾於 Yahoo 的資安團隊「The Paranoids」及 Meta 工作六年,並曾為喬治城大學安全與新興技術中心的研究員,致力於 CyberAI 專案。他認為在當前關鍵時刻,利用 AI 大幅改善資安是真實的契機。