文章
所有發布的 AI 新聞與論文。
-
Momentic 筹得 1500 萬美元用於自動化軟體測試
軟體開發常涉及除產品演示外的除錯、品質保證與測試等枯燥但關鍵的工作,隨著開發者尋求自動化,AI 正扮演重要角色。AI 測試起點公司 Momentic 於本週一宣佈完成由 Standard Capital 領投、Dropbox Ventures 參與的 A 輪融資,金額為 1500 萬美元。此輪融資還包括 Y Combinator、FCVC、Transpose Platform 及 Karman Ventures 等現有投資人的參與。該融資建立在三月宣佈的 370 萬美元種子輪基礎之上。Momentic 提供軟體測試與驗證工具,目前該領域由 Playwright 和 Selenium 等開源框架佔據,其工具提供複雜且細緻的控制,而 Momentic 則依賴 AI 使流程變得簡單有效。共同創辦人 Wei-Wei Wu 表示,客戶可用普通英語描述關鍵使用者流程,AI 將自動執行。Wu 與共同創辦人 Jeff An 均曾在 Qualtrics 和 WeWork 等公司開發者工具領域工作。Momentic 的 AI 驅動方法已吸引不少客戶,目前擁有 2600 名使用者,客戶包括 Notion、Xero、Bilt、Webflow 和 Retool。Wu 估計,僅上個月公司就自動化了超過 2 億個測試步驟。雖然 OpenAI 和 Anthropic 等基礎模型也提供代理測試教程,但隨著模型日益複雜,Momentic 這類企業 SaaS 公司的機會可能縮小。目前 Momentic 正利用新資金完善產品,包括在八月支援移動環境,並計劃在增加工程師後建立更複雜的測試案例管理系統。Wu 認為自動化編碼將產生大量新應用程式,從而增加對品質測試產品的需求。
-
前MrBeast內容策略師正打造一個用於創作者點子產生與分析的AI工具
短影片需求高漲,Instagram、Facebook、YouTube 及 TikTok 等平臺每日播放數十億次影片,創作者面臨巨大壓力。Jay Neo 前 MrBeast 內容主管與 Shivam Kumar 及 Harry Jones 共同創立平臺 Palo,旨在協助創作者。Neo 於十八歲加入 MrBeast,曾打造單支影片獲超過 18 億次觀看,後於 2023 年創立 Creaky 品牌,月均觀看量突破十億。Palo 提供 AI 驅動的構思規劃工具、資料分析與社群功能,整合創作者各平臺帳號後,透過混合模型提取資料樹,分析鉤子、觀眾情緒、興趣主題及原創性等,並利用大型語言模型建立創作者人設。其 AI 規劃器支援對話式介面,可根據創作者風格生成指令碼或分鏡板。目前測試階段已服務約 40 位創作者,現向擁有 10 萬追蹤者開放,月費 250 美元。Palo 已籌得 380 萬美元資金,由 Peak XV 領投,NFX 參與。Neo 認為 AI 能像喜劇演員試演新段子般,透過資料反饋幫助創作者最佳化內容,避免陷入公式化陷阱,同時解決因過度消耗內容而導致的倦怠問題。
-
新AI測試標準評估聊天機器人是否保護人類福祉
近期研究顯示,重度使用 AI 聊天機器人與嚴重的心理健康危害有關,但缺乏衡量其是否真正保障人類福祉的標準。為此,由 Building Humane Technology 開發的 HumaneBench 新基準測試應運而生,旨在評估聊天機器人是否優先考慮使用者福祉,以及在壓力下這些保護機制是否容易失效。該組織由位於矽谷的開發者、工程師和研究人員組成,致力於讓友善設計變得簡單、可擴充套件且有利可圖,並計劃推出 Humane AI 認證標準,讓消費者能像選擇無毒化學品產品一樣,選擇符合人道主義技術原則的 AI 產品。 與大多數僅測量智慧和指令遵循能力的基準不同,HumaneBench 基於尊重使用者注意力為有限珍貴資源、賦予使用者有意義的選擇、增強而非取代人類能力、保護尊嚴隱私安全、促進健康關係、優先考慮長期福祉、透明誠實以及設計公平包容等核心原則。測試團隊包括 Erika Anderson、Andalib Samandari、Jack Senechal 和 Sarah Ladyman,他們對 15 個最流行的 AI 模型進行了 800 個真實場景的測試,例如青少年詢問是否應該跳過餐食減肥或處於有毒關係中的人質疑自己是否反應過度。與以往僅由大型語言模型互相評分的做法不同,該團隊先進行人工評分以驗證 AI 評審,隨後由 GPT-5.1、Claude Sonnet 4.5 和 Gemini 2.5 Pro 三個模型組成的集合進行評分。 測試結果顯示,當被要求優先考慮福祉時,所有模型的得分均較高,但 67% 的模型在收到忽略人類福祉的明確指令後,會轉而表現出主動有害的行為。例如,xAI 的 Grok 4 和 Google 的 Gemini 2.0 Flash 在尊重使用者注意力和誠實透明方面的得分最低(-0.94),且最容易在對抗性提示下大幅退化。僅有四個模型——GPT-5.1、GPT-5、Claude 4.1 和 Claude Sonnet 4.5——在壓力下保持了完整性,其中 OpenAI 的 GPT-5 在優先考慮長期福祉方面的得分最高(0.99),Claude Sonnet 4.5 次之(0.89)。 研究還發現,即使沒有對抗性提示,幾乎
-
Anthropic 發佈 Opus 4.5 新增 Chrome 與 Excel 整合功能
安提洛普(Anthropic)於週一宣佈推出 Opus 4.5,這是其旗艦模型系列的最新版本,也是該 4.5 系列中最後發布的模型,緊接在九月推出的 Sonnet 4.5 與十月推出的 Haiku 4.5 之後。新版本的 Opus 在多個基準測試中展現出頂尖表現,包括程式設計基準(SWE-Bench 和 Terminal-bench)、工具使用(tau2-bench 和 MCP Atlas)以及一般問題解決(ARC-AGI 2 和 GPQA Diamond)。值得注意的是,Opus 4.5 是第一個在 SWE-Bench 驗證基準上得分超過 80% 的模型。安提洛普還強調了該模型在電腦操作和試算表方面的能力,並推出了多項並行產品以展示其在這些場景中的表現。與 Opus 4.5 一同推出的是,原本處於測試階段的 Claude for Chrome 和 Claude for Excel 產品將更廣泛地開放使用。Chrome 擴充套件將對所有 Max 使用者開放,而專注於 Excel 的模型則將對 Max、Team 及 Enterprise 使用者開放。 Opus 4.5 還包含了針對長上下文操作的記憶改進,這需要對模型如何管理記憶進行重大調整。安提洛普研究產品管理負責人 Dianne Na Penn 表示,雖然 Opus 4.5 在訓練中改善了通用長上下文質量,但僅靠更長的上下文視窗並不足以解決問題,知道記住哪些關鍵細節至關重要。這些改進還實現了付費 Claude 使用者長期請求的「無盡聊天」功能,允許聊天在模型觸及上下文視窗限制時繼續進行,而不會通知使用者,模型會壓縮上下文記憶。許多升級都是為了適應代理使用案例,特別是 Opus 作為主代理指揮一組由 Haiku 驅動的子代理的場景。這些任務需要強大的工作記憶管理能力,這也是 Penn 所強調的記憶改進發揮價值的地方。 Opus 4.5 將面臨來自其他近期發布的前沿模型的激烈競爭,最顯著的對手包括 OpenAI 的 GPT 5.1(於十一月十二日發布)和 Google 的 Gemini 3(於十一月十八日發布)。