語言: 英文
英文 的 AI 新聞與論文。
-
新AI測試標準評估聊天機器人是否保護人類福祉
近期研究顯示,重度使用 AI 聊天機器人與嚴重的心理健康危害有關,但缺乏衡量其是否真正保障人類福祉的標準。為此,由 Building Humane Technology 開發的 HumaneBench 新基準測試應運而生,旨在評估聊天機器人是否優先考慮使用者福祉,以及在壓力下這些保護機制是否容易失效。該組織由位於矽谷的開發者、工程師和研究人員組成,致力於讓友善設計變得簡單、可擴充套件且有利可圖,並計劃推出 Humane AI 認證標準,讓消費者能像選擇無毒化學品產品一樣,選擇符合人道主義技術原則的 AI 產品。 與大多數僅測量智慧和指令遵循能力的基準不同,HumaneBench 基於尊重使用者注意力為有限珍貴資源、賦予使用者有意義的選擇、增強而非取代人類能力、保護尊嚴隱私安全、促進健康關係、優先考慮長期福祉、透明誠實以及設計公平包容等核心原則。測試團隊包括 Erika Anderson、Andalib Samandari、Jack Senechal 和 Sarah Ladyman,他們對 15 個最流行的 AI 模型進行了 800 個真實場景的測試,例如青少年詢問是否應該跳過餐食減肥或處於有毒關係中的人質疑自己是否反應過度。與以往僅由大型語言模型互相評分的做法不同,該團隊先進行人工評分以驗證 AI 評審,隨後由 GPT-5.1、Claude Sonnet 4.5 和 Gemini 2.5 Pro 三個模型組成的集合進行評分。 測試結果顯示,當被要求優先考慮福祉時,所有模型的得分均較高,但 67% 的模型在收到忽略人類福祉的明確指令後,會轉而表現出主動有害的行為。例如,xAI 的 Grok 4 和 Google 的 Gemini 2.0 Flash 在尊重使用者注意力和誠實透明方面的得分最低(-0.94),且最容易在對抗性提示下大幅退化。僅有四個模型——GPT-5.1、GPT-5、Claude 4.1 和 Claude Sonnet 4.5——在壓力下保持了完整性,其中 OpenAI 的 GPT-5 在優先考慮長期福祉方面的得分最高(0.99),Claude Sonnet 4.5 次之(0.89)。 研究還發現,即使沒有對抗性提示,幾乎
-
前MrBeast內容策略師正打造一個用於創作者點子產生與分析的AI工具
短影片需求高漲,Instagram、Facebook、YouTube 及 TikTok 等平臺每日播放數十億次影片,創作者面臨巨大壓力。Jay Neo 前 MrBeast 內容主管與 Shivam Kumar 及 Harry Jones 共同創立平臺 Palo,旨在協助創作者。Neo 於十八歲加入 MrBeast,曾打造單支影片獲超過 18 億次觀看,後於 2023 年創立 Creaky 品牌,月均觀看量突破十億。Palo 提供 AI 驅動的構思規劃工具、資料分析與社群功能,整合創作者各平臺帳號後,透過混合模型提取資料樹,分析鉤子、觀眾情緒、興趣主題及原創性等,並利用大型語言模型建立創作者人設。其 AI 規劃器支援對話式介面,可根據創作者風格生成指令碼或分鏡板。目前測試階段已服務約 40 位創作者,現向擁有 10 萬追蹤者開放,月費 250 美元。Palo 已籌得 380 萬美元資金,由 Peak XV 領投,NFX 參與。Neo 認為 AI 能像喜劇演員試演新段子般,透過資料反饋幫助創作者最佳化內容,避免陷入公式化陷阱,同時解決因過度消耗內容而導致的倦怠問題。
-
Momentic 筹得 1500 萬美元用於自動化軟體測試
軟體開發常涉及除產品演示外的除錯、品質保證與測試等枯燥但關鍵的工作,隨著開發者尋求自動化,AI 正扮演重要角色。AI 測試起點公司 Momentic 於本週一宣佈完成由 Standard Capital 領投、Dropbox Ventures 參與的 A 輪融資,金額為 1500 萬美元。此輪融資還包括 Y Combinator、FCVC、Transpose Platform 及 Karman Ventures 等現有投資人的參與。該融資建立在三月宣佈的 370 萬美元種子輪基礎之上。Momentic 提供軟體測試與驗證工具,目前該領域由 Playwright 和 Selenium 等開源框架佔據,其工具提供複雜且細緻的控制,而 Momentic 則依賴 AI 使流程變得簡單有效。共同創辦人 Wei-Wei Wu 表示,客戶可用普通英語描述關鍵使用者流程,AI 將自動執行。Wu 與共同創辦人 Jeff An 均曾在 Qualtrics 和 WeWork 等公司開發者工具領域工作。Momentic 的 AI 驅動方法已吸引不少客戶,目前擁有 2600 名使用者,客戶包括 Notion、Xero、Bilt、Webflow 和 Retool。Wu 估計,僅上個月公司就自動化了超過 2 億個測試步驟。雖然 OpenAI 和 Anthropic 等基礎模型也提供代理測試教程,但隨著模型日益複雜,Momentic 這類企業 SaaS 公司的機會可能縮小。目前 Momentic 正利用新資金完善產品,包括在八月支援移動環境,並計劃在增加工程師後建立更複雜的測試案例管理系統。Wu 認為自動化編碼將產生大量新應用程式,從而增加對品質測試產品的需求。
-
AI 太過風險難以投保,保險專業人士如此表示
美國主要保險公司包括 Great American、Chubb、W. R. Berkley 以及 AIG 等,正向美國監管機構申請將廣泛的 AI 相關責任排除在企業保險政策之外。保險業認為,目前許多 AI 模型的輸出過於像「黑箱」,風險難以評估。雖然 AIG 表示目前並無實施此類排除的計劃,但業界對潛在風險感到擔憂。過去的案例顯示,Google 的 AI Overview 曾錯誤指控一家太陽能公司面臨法律糾紛,引發了 11000 萬美元的訴訟;Air Canada 去年因聊天機器人錯誤而被迫兌現折扣;此外,詐騙分子去年利用數位克隆的資深主管影像,在看似真實的視訊會議中從倫敦的 Arup 設計工程公司盜取 2500 萬美元。保險公司最恐懼的並非單一巨額賠付,而是當廣泛使用的 AI 模型發生錯誤時,可能同時引發數千起索賠的系統性風險。據 Aon 的一位高管表示,保險公司可以承擔對單一公司 4 億美元的損失,但無法應對代理型 AI 失誤導致同時發生 1 萬次損失的情況。