文章
所有發布的 AI 新聞與論文。
-
是否因劣質獎勵機制導致 AI 出現虛構資訊?
OpenAI 發表新研究探討大型語言模型如 GPT-5 及聊天機器人 ChatGPT 為何仍會產生幻覺,並分析是否有方法能減少此現象。研究將幻覺定義為模型生成的「看似合理但錯誤的陳述」,承認儘管有改進,幻覺仍是所有大型語言模型無法完全消除的根本挑戰。研究者舉例指出,當詢問一位作者關於其博士論文標題及生日時,常用聊天機器人分別給出三組不同的錯誤答案,且表現出極高的自信。研究認為,幻覺部分源於預訓練過程僅聚焦於預測下一個字元,缺乏真偽標籤,模型只能從流暢語言的正面範例中近似整體分佈。拼寫或括號等遵循一致模式的錯誤會隨規模縮減,但像寵物生日這類任意低頻事實無法單靠模式預測,因而導致幻覺。 針對解決方案,研究更關注大型語言模型的評估機制。現行評估模型本身不直接造成幻覺,卻設定了錯誤的激勵。研究者將此類評估比作多選題測驗,若僅以準確率評分,模型傾向猜測而非承認不確定,因為猜對有分、留空則零分。OpenAI 建議參考 SAT 等考試,引入錯題扣分或留空給分,以 discouraging 盲目猜測。評估應懲罰自信錯誤大於不確定,並給予適當表達不確定性的部分分數。研究強調,僅增加少數不確定性測試不足夠,必須更新廣泛使用的基於準確率的評估系統,使其評分機制能 discouraging 猜測。若主要排行榜繼續獎勵幸運猜測,模型將持續學習猜測行為。
-
Y Combinator 資助的 Motion 再籌 38 億美元打造 AI 代理的微軟辦公室
哈瑞·奇(Harry Qi)在 23 歲時已成為量化基金的分析師,年薪約 100 萬美元,但感到職業生涯缺乏意義。2019 年,他與高中好友奧米德·魯霍爾法達(Omid Rooholfada)及大學同學伊森·尤(Ethan Yu)共同創立了 AI 日程與任務管理應用 Motion,並加入 Y Combinator 2020 冬季批次。團隊隨後辭去工作,並在六年內將客戶群從專業消費者擴充套件至中小企業。2024 年 5 月,Motion 推出整合 AI 代理套件,四個月內 B2B 客戶數突破 10,000 家,年度遞延收入(ARR)達到 1000 萬美元。該公司隨後獲得由 Scale Venture Partners 的史黛西·畢夏普(Stacey Bishop)領銜的 3800 萬美元 C 輪融資,估值達 5.5 億美元,且該輪次被 5 倍超額認購。截至目前,Motion 已從 HOF Capital、468 Capital、SignalFire 等機構籌資 7500 萬美元,Y Combinator 亦參與所有輪次。公司現已加入第四位合夥人尚德·拉梅什(Chander Ramesh),並由奇的前教練阿舒託什·德賽(Ashutosh Desai)擔任全職顧問。Motion 針對預算有限的中小企業,提供整合的代理功能,包括執行助理、銷售代表、客服代表及行銷助手,並與 Slack、Google Apps、Salesforce 等工具整合。定價模式採用使用量計費,從每月 29 美元起,最高至 600 美元。奇將 Motion 視為類似微軟 Office 的代理軟體生態,認為這是建立下一個微軟的機會。儘管面臨 AI 領域快速變化的壓力,奇表示不會重返從前,因為他認為建立有用的產品是驅使他起床的動力。
-
Anthropic支持加州AI安全法案SB 53
安提克(Anthropic)於週一正式支援加州參議員斯科特·維尼(Scott Wiener)提出的 53 號提案(SB 53),該法案將對全球最大的人工智慧模型開發商實施全國首例透明度要求。此舉在消費電子協會(CTA)和進步協會等科技團體反對法案的背景下,成為該法案罕見的勝利。安提克表示,雖然認為前沿人工智慧安全最好由聯邦政府處理,但強大的技術進步不會等待華盛頓的共識,53 號提案提供了深思熟慮的治理途徑。若透過,該法案將要求開源 AI(OpenAI)、安提克、Google 和 xAI 等開發者建立安全框架,並在部署強大模型前發布公共安全報告,同時設立吹哨人保護機制。法案專注於限制人工智慧導致「災難性風險」,定義為造成至少 50 人死亡或超過十億美元的損失,具體針對生物武器製造協助和網路攻擊等極端風險,而非深度偽造等近期擔憂。加州參議院已透過前一版本,但需最終投票才能送交州長蓋文·紐森(Gavin Newsom)審批。儘管紐森此前廢除了維尼的另一項 AI 安全法案 1047 號,他目前對 53 號提案保持沉默。 投資機構如安德森·霍洛維茨(Andreessen Horowitz)和 Y Combinator 曾反對 1047 號法案,特朗普政府也威脅阻擋各州透過 AI 法規。反對者常以聯邦政府應主導治理為由,安德森·霍洛維茨的馬特·佩爾特(Matt Perault)等人曾撰文稱州級法案可能違反憲法商業條款。然而,安提克聯合創始人傑克·克拉克(Jack Clark)指出,科技產業無法等待聯邦政府行動,53 號提案提供了不可忽視的治理藍圖。開源 AI 首席全球事務官克里斯·萊恩(Chris Lehane)曾致信紐森反對任何可能推擠創業公司離開加州的監管,但前政策研究主管邁爾斯·布蘭達奇(Miles Brundage)批評該信件充滿誤導。53 號法案僅針對年營收超過五億美元的大型公司。專家認為該法案比過往法案更為謹慎,前白宮 AI
-
Google 的 AI 模式新增五種語言包含印地語、日語與韓語
Google 正在擴大其 AI Mode 功能,將支援語言從僅限英文擴充套件至五種新語言,包括印地語、印尼語、日語、韓語和巴西葡萄牙語。此更新於本週一公佈,此前該功能已限制於英文超過六個月。此舉是繼上月將英文版 AI 體驗擴充套件至 180 個新市場後的進一步發展,最初該功能於美國推出,隨後擴充套件至英國和印度。Google 產品管理副總裁 Hema Budaraju 表示,此次擴充套件讓更多人能用母語提出複雜問題並深入探索網路。AI Mode 最初於三月作為實驗性功能推出,僅供 Google One AI Premium 訂閱者使用,旨在應對 Perplexity 和 OpenAI 的 ChatGPT Search 等競爭平臺。該功能採用自訂版的 Gemini 2.5 模型,具備多模態與推理能力。八月時,Google 在 AI Mode 中引入了代理功能,可協助預訂餐廳座位,未來還將支援當地服務預約及活動門票預訂。目前這些代理功能僅限美國 Google AI Ultra 訂閱者使用,透過 Labs 中的實驗功能存取,月費為 249.99 美元。目前,AI Mode 透過搜尋結果頁面的專屬標籤及搜尋列按鈕存取,Google 正致力於使其成為預設搜尋體驗。儘管 Google 近期的 AI 更新包括 AI Mode 和 AI Overviews 受到批評,認為影響了搜尋點選率,但 Google 上月已否認其 AI 搜尋功能會殺死網站流量。