分類: 安全與政策
「安全與政策」分類的 AI 新聞與論文。
-
RSS 共創者推出新 AI 數據授權協議
在安培克(Anthropic)達成 15 億美元版權訴訟後,AI 產業正面臨訓練資料的挑戰。目前已有 40 起待決案件尋求未授權資料的賠償,其中包括針對 Midjourney 的訴訟。若缺乏授權機制,AI 公司可能面臨大量版權訴訟。為此,一群技術人員與網路出版商推出了名為「Real Simple Licensing」(RSL)的系統,旨在實現大規模資料授權。該系統已獲得 Reddit、Quora 和 Yahoo 等主流出版商的背書。 RSL 由 Eckart Walther 共同創立,目標是建立可擴充套件的網路訓練資料授權系統。RSL 協議在技術層面定義了出版商可設定的授權條款,參與網站將條款納入「robots.txt」檔案中,以便識別資料歸屬。法律層面則成立了 RSL Collective 集體授權組織,類似於音樂界的 ASCAP 或電影界的 MPLC,負責談判條款與收取版稅。目前 Yahoo、Reddit、Medium、O'Reilly Media 等已加入該集體,而 Fastly、Quora 等則支援該標準。 值得注意的是,Reddit 已與 Google 達成每年約 6 億美元的授權協議。雖然大型公司可自行談判,但小型出版商可能依賴集體條款。然而,AI 模型在計算版稅時面臨獨特挑戰,例如難以確認特定文件是否被 LLM ingest,或是否按推理次數付費。儘管如此,RSL 創始人認為 AI 公司有能力管理此難度,並指出部分現有協議已要求報告資料使用情況。 關鍵問題在於 AI 公司是否會採用此係統。雖然 frontier labs 願意付費,但網路資料傳統上被視為低成本來源,且 Common Crawl 等資料集已廣泛可用。Cloudflare 與 Perplexity 的爭議也顯示,區分網頁抓取與機器增強瀏覽並非易事。儘管如此,RSL 團隊表示,隨著 AI 領袖如 Sundar Pichai 公開呼籲建立類似系統,RSL 有望成為現實。
-
Anthropic支持加州AI安全法案SB 53
安提克(Anthropic)於週一正式支援加州參議員斯科特·維尼(Scott Wiener)提出的 53 號提案(SB 53),該法案將對全球最大的人工智慧模型開發商實施全國首例透明度要求。此舉在消費電子協會(CTA)和進步協會等科技團體反對法案的背景下,成為該法案罕見的勝利。安提克表示,雖然認為前沿人工智慧安全最好由聯邦政府處理,但強大的技術進步不會等待華盛頓的共識,53 號提案提供了深思熟慮的治理途徑。若透過,該法案將要求開源 AI(OpenAI)、安提克、Google 和 xAI 等開發者建立安全框架,並在部署強大模型前發布公共安全報告,同時設立吹哨人保護機制。法案專注於限制人工智慧導致「災難性風險」,定義為造成至少 50 人死亡或超過十億美元的損失,具體針對生物武器製造協助和網路攻擊等極端風險,而非深度偽造等近期擔憂。加州參議院已透過前一版本,但需最終投票才能送交州長蓋文·紐森(Gavin Newsom)審批。儘管紐森此前廢除了維尼的另一項 AI 安全法案 1047 號,他目前對 53 號提案保持沉默。 投資機構如安德森·霍洛維茨(Andreessen Horowitz)和 Y Combinator 曾反對 1047 號法案,特朗普政府也威脅阻擋各州透過 AI 法規。反對者常以聯邦政府應主導治理為由,安德森·霍洛維茨的馬特·佩爾特(Matt Perault)等人曾撰文稱州級法案可能違反憲法商業條款。然而,安提克聯合創始人傑克·克拉克(Jack Clark)指出,科技產業無法等待聯邦政府行動,53 號提案提供了不可忽視的治理藍圖。開源 AI 首席全球事務官克里斯·萊恩(Chris Lehane)曾致信紐森反對任何可能推擠創業公司離開加州的監管,但前政策研究主管邁爾斯·布蘭達奇(Miles Brundage)批評該信件充滿誤導。53 號法案僅針對年營收超過五億美元的大型公司。專家認為該法案比過往法案更為謹慎,前白宮 AI
-
是否因劣質獎勵機制導致 AI 出現虛構資訊?
OpenAI 發表新研究探討大型語言模型如 GPT-5 及聊天機器人 ChatGPT 為何仍會產生幻覺,並分析是否有方法能減少此現象。研究將幻覺定義為模型生成的「看似合理但錯誤的陳述」,承認儘管有改進,幻覺仍是所有大型語言模型無法完全消除的根本挑戰。研究者舉例指出,當詢問一位作者關於其博士論文標題及生日時,常用聊天機器人分別給出三組不同的錯誤答案,且表現出極高的自信。研究認為,幻覺部分源於預訓練過程僅聚焦於預測下一個字元,缺乏真偽標籤,模型只能從流暢語言的正面範例中近似整體分佈。拼寫或括號等遵循一致模式的錯誤會隨規模縮減,但像寵物生日這類任意低頻事實無法單靠模式預測,因而導致幻覺。 針對解決方案,研究更關注大型語言模型的評估機制。現行評估模型本身不直接造成幻覺,卻設定了錯誤的激勵。研究者將此類評估比作多選題測驗,若僅以準確率評分,模型傾向猜測而非承認不確定,因為猜對有分、留空則零分。OpenAI 建議參考 SAT 等考試,引入錯題扣分或留空給分,以 discouraging 盲目猜測。評估應懲罰自信錯誤大於不確定,並給予適當表達不確定性的部分分數。研究強調,僅增加少數不確定性測試不足夠,必須更新廣泛使用的基於準確率的評估系統,使其評分機制能 discouraging 猜測。若主要排行榜繼續獎勵幸運猜測,模型將持續學習猜測行為。
-
放棄錢財 — Anthropic 的 15 億美元版權和解對寫作者極為不利
約五十萬名作家將因一項歷史性的十五億美元集體訴訟和解案獲得至少三千美元的補償,該訴訟由作者群體對 Anthropic 公司提起。此和解案雖被視為美國版權法史上最大的一次賠償,但實質上仍是科技公司的勝利。大型科技公司正競相蒐集大量文字資料以訓練大型語言模型(LLM),這些模型驅動了 ChatGPT 和 Claude 等 AI 聊天產品,對創意產業構成威脅。由於這些公司已爬取幾乎整個網際網路,新資訊來源日益匱乏,Anthropic 便從「影子圖書館」非法盜取百萬本書籍並輸入其 AI 系統。本案 Bartz v. Anthropic 是針對 Meta、Google、OpenAI 及 Midjourney 等多家公司提起的數十起訴訟之一,指控其利用版權作品訓練 AI 的合法性。然而,作家並未因作品被輸入 AI 而獲得此和解,這僅是 Anthropic 公司非法下載書籍而非購買所付出的昂貴代價,該公司近期又籌資十三億美元。六月,聯邦法官 William Alsup 支援 Anthropic,裁定利用版權材料訓練 AI 合法,認為此用途屬於「轉化性」且受公平使用原則保護,該原則自一九七六年以來未更新。法官指出,Anthropic 的 LLM 訓練目的並非複製或取代作品,而是創造新事物。儘管此判決因涉及盜版而非 AI 訓練本身而引發爭議,且和解後無需再進行審理,但隨著更多關於 AI 與版權關係的案件進入法院,Bartz v. Anthropic 將成為先例供其他法官參考,未來判決結果仍可能有所不同。