文章
所有發布的 AI 新聞與論文。
-
法院文件揭露 OpenAI 與 io 早期在 AI 裝置上的研究工作
本月提交的法律檔案顯示,OpenAI 與 Jony Ive 所創立的 io 公司正積極研發一款面向大眾市場的 AI 硬體裝置。這些檔案涉及 iyO 公司(一家由 Google 背後的硬體新創公司)提起的商標糾紛訴訟。iyO 開發專為其他裝置連線的客製化耳塞。為遵守法院命令,OpenAI 於週末撤回了與其 65 億美元收購 io 相關促銷材料。OpenAI 表示正抗辯 iyO 的商標侵權指控。過去一年,OpenAI 高管與現任 io 的前 Apple 領導層深入研究入耳式硬體。在 6 月 12 日的檔案中,律師表示兩家公司購買了至少 30 副耳機以探索市場現況。近期,OpenAI 與 io 的高管曾與 iyO 領導層會面並展示其入耳式技術。然而,OpenAI 與 io 的首款合作裝置可能並非耳機。io 首席硬體官 Tang Tan 在法院宣告中稱,OpenAI 執行長 Sam Altman 在 io 啟動影片中提到的原型「既非入耳式裝置,也非可穿戴裝置」。Tan 指出該設計尚未最終確定,產品至少還需一年才能上市。Altman 曾告訴 OpenAI 員工,原型完成後將能放入口袋或擺在書桌上,並能感知周圍環境,成為消費者與手機、筆記型電腦並用的「第三裝置」。雖然智慧眼鏡被視為 AI 裝置的領先者,Meta 與 Google 正競相開發,但 Apple 也被傳正在研發搭載相機的 AirPods 以支援 AI 功能。OpenAI 與 io 的高管曾於 5 月 1 日在 io 位於舊金山 Jackson Square 的辦公室與 iyO 執行長 Jason Rugolo 會面,測試其客製化耳塞,但產品在演示中多次失敗。Rugolo 曾嘗試與 OpenAI 建立更緊密關係,包括建議將其裝置作為早期開發套件、投資或出售公司,估值高達 2 億美元,但 Tan 表示拒絕了這些提議。io 共同創辦人 Evans Hankey 在宣告中強調 io 並未開發客製化耳塞產品。OpenAI 似乎仍在探索其他形式因子的裝置,距離銷售首款硬體產品仍超過一年。
-
Google 在印度推出 AI 模式給用戶使用
Google 今日向印度使用者推出了其 AI 模式,這是一款問答式的搜尋工具。公司表示該工具目前仍處於實驗階段,使用者需透過 Search Labs 自願啟用。啟用後,使用者可用英語提出複雜的多部分查詢,例如關於如何讓精力充沛的兒童在炎熱且空間有限的環境下進行室內活動的建議。使用者亦可提出後續問題以精確結果。Google 此前於今年初在美國向高階訂閱使用者測試此功能,隨後在 Google IO 活動後向全美使用者廣泛推廣。隨著時間推移,公司已加入購物功能,並引入語音與圖片搜尋支援,同時推出廣告。由於語音搜尋在印度很流行,公司確認語音與圖片搜尋功能已支援印度使用者。此 AI 模式由自訂版本的 Gemini 2.5 驅動。早期測試顯示,測試者提出的查詢長度是以往的兩到三倍。印度擁有超過 8.7 億網民,是 Google 最大的市場之一,也是觀察多語言使用者使用情況的測試場。儘管 Google 仍佔據搜尋市場主導地位,但人們開始在日常使用中更多採用 ChatGPT 和 Perplexity 等基於對話的 AI 工具。Google 希望透過 AI 模式讓偏好該介面的人使用其產品。此外,Google 還推廣 AI 摘要功能,該功能於四月時已在全球擁有超過 15 億使用者。近期《華爾街日報》報導指出,Google 的 AI 功能對出版商造成影響,導致來自自然搜尋的流量下降。
-
數據處理問題如何成為Eventual的基礎
Eventual 公司由前 Lyft 自動駕駛專案工程師 Sammy Sidhu 和 Jay Chia 創立,旨在解決 AI 時代資料基礎設施的痛點。在 Lyft 工作期間,他們發現自駕車產生的大量非結構化資料(如 3D 掃描、照片、文字和音訊)缺乏統一的處理工具,導致工程師需花費約 80% 的時間在基礎設施整合上,而非核心應用開發。為此,他們開發了名為 Daft 的 Python 原生開源資料處理引擎,旨在像 SQL 對表格資料的變革一樣,成為非結構化資料處理的里程碑。Eventual 於 2022 年初成立,早於 ChatGPT 發布,並於同年推出 Daft 開源版本,計劃於第三季度推出企業級產品。 該公司目前已獲得兩輪融資,首輪為 750 萬美元種子輪,由 CRV 領投;近期完成的 A 輪為 2000 萬美元,由 Felicis 領投,並有 Microsoft 的 M12 和 Citi 參與。客戶包括 Amazon、CloudKitchens 和 Together AI 等。Felicis 的合夥人 Astasia Myers 指出,多模態 AI 市場預計在 2023 至 2028 年間以 35% 的複合年增長率擴張。IDC 資料顯示,全球資料中絕大多數為非結構化資料,且過去兩年產生了世界 90% 的資料。Eventual 的 Daft 引擎正是為了滿足生成式 AI 對文字、影象、影片和聲音等多模態原生資料處理的需求而設計,幫助企業構建更高效的 AI 應用。
-
Google 推出新 Gemini 模型可於機器人端執行
Google DeepMind 於週二發布了名為 Gemini Robotics On-Device 的新語言模型,該模型可在機器人本地執行任務,無需連線網際網路。此模型建立在三月發布的 Gemini Robotics 基礎之上,能夠控制機器人的動作。開發者可使用自然語言提示來控制和微調模型以滿足不同需求。在基準測試中,Google 聲稱該模型表現水平接近雲端版的 Gemini Robotics 模型,且在一般基準測試中優於其他本地模型,儘管未具體命名對手。在演示中,公司展示了機器人使用此本地模型執行解開袋子摺疊衣物等任務。Google 表示,該模型雖為 ALOHA 機器人訓練,但後來已適配至雙臂 Franka FR3 機器人及 Apptronik 的 Apollo 人形機器人。Google 聲稱雙臂 Franka FR3 成功應對了從未見過的場景和物件,例如在工業傳送帶上進行組裝。此外,Google 還發布了 Gemini Robotics SDK,開發者可透過 MuJoCo 物理模擬器向機器人展示 50 至 100 次任務演示以訓練新任務。其他 AI 模型開發者也在涉足機器人領域,Nvidia 正在構建用於人形機器人的基礎模型平臺,Hugging Face 不僅開發機器人開源模型和資料集,還正在開發機器人,而由 Mirae Asset 支援的韓國起點公司 RLWRLD 也在致力於建立機器人基礎模型。