分類: AI 應用
「AI 應用」分類的 AI 新聞與論文。
-
Google 參考 Meta 策略,於 IO 2026 亮相全新音訊驅動智慧眼鏡
Google 於週二在 Google I/O 開發者大會上宣佈,正重返智慧眼鏡市場,並與 Warby Parker 及 Gentle Monster 合作推出全新 AI 驅動的眼鏡系列。這些裝置設計為與 Android 和 iOS 裝置相容,並與 Samsung 共同開發。Google 將這些新產品稱為「音訊眼鏡」,使用者可透過語音指令操作,並整合 Gemini 等應用程式與服務。演示中,一名 Google 員工僅透過語音即可線上點咖啡,裝置同步後即可執行指令。Google 曾於多年前推出 Google Glass,該產品最終引發了「眼鏡洞」一詞的負面稱呼。然而,隨著 Meta 等大公司及眾多創業公司投入該領域,市場格局已發生變化。此次合作預計於今年晚些時候上市。此外,文章還提及 Google 於 2026 年 Google I/O 的其他重大新聞,包括更新 Gemini 應用程式以應對 ChatGPT 和 Claude,以及推出全天候的 Gemini Spark 代理助手,該助手具備與 Gmail 的整合功能。
-
Google 的 Genie 世界模型現可模擬真實街景與街景視圖
Google 於 2026 年 5 月 1 日在 Google I/O 2026 開發者大會上宣佈,將 Street View 與 DeepMind 的 Project Genie 世界模型進行整合。此新功能允許使用者以更具沉浸感和互動性的方式模擬街道及其周邊環境,甚至能調整天氣或預演「末日」情境。Jack Parker-Holder 指出,Genie 能模擬倫敦少見陽光時的光線反射,幫助機器人避免受驚,也能讓使用者模擬紐約不同季節的雪景。Google 過去 20 年透過車輛與追蹤揹包收集了超過 2800 億張影像,涵蓋 110 個國家與七大洲。Genie 3 目前正協助 Waymo 訓練自駕車應對龍捲風等極端事件,加入 Street View 資料後將有助於 Waymo 在全球更多城市部署。該功能今日向美國部分 Google AI Ultra 使用者開放,全球使用者將於數週內逐步獲得訪問許可權。儘管模擬效果已具可識別性,但尚屬遊戲品質而非照片級真實,且模型尚未具備物理感知能力,例如人物奔跑時會穿過仙人掌。Jonathan Herbert 認為,AI 的空間連續性才是突破關鍵,即 360 度旋轉時能正確記憶並模擬背後環境,並以此建立新環境。目前此功能仍為實驗性質,準確度與品質預計需 6 至 12 個月才能達到影片生成模型的水準。
-
Google Search 即將邁向終結
Google 正式宣告「十個藍色連結」時代結束,並在 Google I/O 大會上推出以 AI 為核心的搜尋重構。此次更新最大的改變是引入「智慧搜尋框」,取代傳統的連結列表,讓使用者直接進入 AI 驅動的互動體驗。Google 表示,這自搜尋框出現超過 25 年來,對網路入口點的最大變革。新的搜尋介面將不再強制使用者選擇模式,而是根據對話式查詢自動擴充套件,並配備超越自動補齊的 AI 查詢建議系統。自本週二起,AI 模式將允許使用者提出後續問題,雖然此模式非預設,但介面設計鼓勵互動而非滾動檢視連結。 Google 還引入「資訊代理」功能,讓使用者能建立、自訂並管理多個代理,這些代理可全天候在背景中追蹤網路變動並發出通知。此功能演進了 2003 年推出的 Google Alerts,不僅能發現變化,更能理解並規劃監控方案,例如追蹤特定市場動向。隨著 Gemini 和 Google Antigravity 平臺的整合,搜尋結果將呈現類似互動網頁的樣貌,包含動態佈局、互動視覺化及可持續的專案空間。例如,關於黑洞的查詢可能引發即時互動視覺效果。 目前,AI Overviews 已服務超過 25 億月活躍使用者,而對話式搜尋模式則超過 10 億。相比之下,ChatGPT 的周活躍使用者約為 9 億。新系統將免費向所有 Google 使用者推出,而建立迷你應用程式和資訊代理功能則先於本夏天開放給 Google AI Pro 和 Ultra 訂閱者。Google 執行長 Sundar Pichai 表示,開發高效且低價的前端模型是為了讓更多人受益。此變革預計將進一步減少對出版商的轉介,許多依賴廣告的媒體營運可能面臨關閉風險,出版商需盡快適應。
-
Google為Docs與Keep新增語音提示功能
在 Google I/O 開發者大會上,Google 宣佈將語音提示功能引入 Workspace 應用程式,包括 Docs、Keep 和 Gmail。此功能旨在協助使用者撰寫草稿、記錄筆記及搜尋郵件。在 Docs 中,使用者可透過語音建立檔案草稿,例如從 Drive 檢索履歷資料、從郵件中提取活動資訊,甚至加入幽默軼事。過去使用者需手動輸入,而語音功能允許使用長句或一次性請求多個任務,並能理解使用者在對話中改變主意並要求修改細節。Google 執行長 Sundar Pichai 表示,未來使用者將能完全透過語音建立和編輯檔案。此外,Google 還將語音功能擴充套件至 Keep,利用 AI 將語音轉錄轉化為結構化筆記或清單。雖然其他應用如 Wispr Flow、Monologue 和 Aqua 等已具備類似功能,Google 本月推出的 Rambler 也整合於 Gboard 中,但此次更新進一步強化了語音互動體驗。在 Gmail 方面,使用者可與 Gemini 對話,詢問航班資訊、Airbnb 預訂程式碼或醫生預約時間等細節。隨著 AI 技術不斷滲透產品,使用者習慣提出更複雜的多步驟查詢,語音輸入成為表達長句和複雜需求的更便捷方式。當前模型已能理解使用者在句子中途改變想法並輸出最終查詢,Google 正積極響應這一趨勢,在多款應用中增加語音功能。