文章
所有發布的 AI 新聞與論文。
-
數據中心準備好了 —— 美國參議院想要查看您的電力帳單
美國參議員喬許·霍利(Josh Hawley)與艾莉森·華倫(Elizabeth Warren)於週四致信美國能源資訊管理局(EIA),要求該機構收集資料中心用電細節及其對電網的影響。他們呼籲建立強制性的年度報告制度,以應對電力需求在多年停滯後加速增長的現狀,並指出缺乏可靠標準資料對電網規劃構成重大風險。此舉並非政客對資料中心施加新監管的首次行動,參議員伯尼·桑德斯(Bernie Sanders)與眾議員亞歷山德里亞·奧卡西奧 - 柯爾特茲(Alexandria Ocasio-Cortez)亦於週三表示將提出法案,要求在國會就人工智慧(AI)監管達成協議前暫停新建資料中心。資料中心用電近年激增,Google 資料中心用電量在 2020 年至 2024 年間翻倍,預計到 2035 年,計劃中的新資料中心將使該部門用電需求幾乎增加三倍。EIA 成立於 1977 年,負責收集分析能源系統資料,但長期僅將用電分為住宅、商業、工業及交通四大類別。霍利與華倫要求 EIA 收集更細緻資料,包括 AI 計算任務與一般雲端服務之間的用電差異,並要求提供時序、年度及峰值用電負載,以及企業用電率。他們還希望瞭解新增大型負載所需的電網升級情況、資金來源,以及資料中心客戶是否參與需求響應計劃。EIA 行政長官特里斯坦·阿比(Tristan Abbey)於 12 月表示該局將是收集資料中心用電資料的關鍵角色,並承諾於 4 月 9 日回覆。阿比指出,雖然從零開始開發新調查通常需要兩年,但透過縮小範圍可加快程序。
-
字節跳動全新AI視頻生成模型Dreamina Seedance 2.0 登上CapCut
位元組動產確認其全新音訊與影片模型 Dreamina Seedance 2.0 已在其編輯平臺 CapCut 中開始分階段推出。儘管 OpenAI 關閉了 Sora 應用,但該模型允許創作者透過提示詞、圖片或參考影片來草擬、編輯並同步影片與音訊內容。此次推出將首先在巴西、印尼、馬來西亞、墨西哥、菲律賓、泰國和越南等市場進行,更多市場將隨時間逐步加入。此前有報導稱該模型的全球推出將暫停,以解決引發好萊塢批評的版權侵權問題,這可能解釋了目前可訪問市場數量有限的現象。在中國,該模型已對剪映使用者可用。 根據位元組動產的說明,該影片生成模型無需參考圖片,僅使用幾個詞即可描述場景。CapCut 擅長渲染真實的紋理、動作和光線,可應用於編輯、增強或校正創作者的影片。另一用途是讓創作者基於早期概念或草圖測試潛在想法,再進行實際拍攝。該模型適用於烹飪食譜、健身教程、商業或產品概覽等廣泛內容,特別是在動作或動作導向影片方面,這是 AI 影片模型以往面臨挑戰的領域。 在推出時,該模型支援長達 15 秒的片段,並涵蓋六種長寬比。在 CapCut 中,該模型將應用於編輯功能如 AI 影片以及生成工具如影片工作室。它還將進入位元組動產的 AI 生成平臺 Dreamina 及其營銷平臺 Pippit。由於其建立真實內容的能力,位元組動產已新增安全限制,模型無法從包含真實臉部的圖片或影片中生成影片。CapCut 也將阻止未經授權的智慧財產權生成。如果限制運作正常,該模型本應現在在美國可用,但可能仍在進行更多調整。 Dreamina Seedance 2.0 產生的內容將包含不可見的水印,這有助於識別在平臺外共享時由該模型建立的內容,並可協助權利持有者在發生版權問題時提出下架請求。位元組動產表示,隨著模型推出,它將與專家和創意社群合作,以迭代並改進模型的 capabilities。
-
Contour 獲得 700 萬美元資金來自 General Catalyst 與 YC,用以開發用於安全監視系統的 AI 搜索引擎
美國移民與關稅執法部門利用 Flock 的攝影機網路進行監控,以及 Ring 因新增功能引發對執法部門索取住宅影像的批評,導致社會對安全、隱私及監控許可權展開廣泛討論。儘管爭議不斷,市場仍持續成長,視覺語言模型的進步更推動企業開發新的監控方案。Conntour 創始人兼執行長 Matan Goldner 表示,雖然公司成立僅兩年,但憑藉包括新加坡中央毒品局在內的大型政府與上市公司客戶,公司有能力嚴格篩選客戶,確保使用案例符合道德與法律規範。Conntour 近期以 700 萬美元完成種子輪融資,由 General Catalyst、Y Combinator、SV Angel 及 Liquid 2 Ventures 等機構投資,資金於 72 小時內籌足。 Conntour 的影片平臺利用 AI 模型,允許安全人員透過自然語言查詢攝影機畫面,即時搜尋特定物件、人物或情境,類似專為安防影片設計的 Google 搜尋引擎。系統能根據預設規則自動監控並檢測威脅,並自動呈現警報。與依賴預設定義的傳統系統不同,Conntour 採用自然語言與視覺語言模型,提供高度靈活性。使用者可詢問「搜尋穿運動鞋經過大廳的人」,系統即可在錄製畫面或即時影片中返回相關結果。平臺還可生成文字報告並附上相關影片片段。 Conntour 的核心賣點是可擴充套件性。其系統可監控高達 50 路攝影機,僅需單一消費級 NVIDIA RTX 4090 顯示卡。透過多模型與邏輯系統動態分配計算資源,達到最佳效能。平臺支援本地部署、雲端部署或混合模式,並可整合現有安防系統或獨立運作。針對攝影機畫質不佳的問題,系統會提供置信度分數,若來源畫質不足,則返回低置信度結果。Goldner 指出,未來最大技術挑戰在於如何在維持高效能的前提下,將大型語言模型的完整能力融入系統,以解決處理數千路影片時的資源限制與靈活性需求之間的矛盾。
-
Cohere 發佈專門用於轉錄的開放源碼語音模型
企業人工智慧公司 Cohere 於週四推出了其首款語音模型 Transcribe。這是一款開源的自動語音識別模型,可用於筆記記錄與語音分析等任務。該模型僅含 20 億個引數,體積輕巧,專為搭配消費級 GPU 進行自託管設計。目前 Transcribe 支援 14 種語言,包括英文、法文、德文、義大利文、西班牙文、葡萄牙文、希臘文、荷蘭文、波蘭文、中文、日文、韓文、越南文及阿拉伯文。 Cohere 宣稱 Transcribe 在 Hugging Face 開放語音識別排行榜上表現優於 Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2 及 Qwen3-ASR-1.7B Speech 等模型,平均字誤率(WER)為 5.42,低於該基準上的任何其他模型。在人類評估者針對準確性、連貫性與可用性的評測中,Transcribe 的勝率達 61%。不過,該模型在處理葡萄牙文、德文及西班牙文時表現稍遜於競爭對手。Cohere 指出,Transcribe 具備每分鐘處理 525 分鐘音訊的強大能力,這在其類別中屬高水準。 公司計劃將 Transcribe 整合至其企業代理編排平臺 North,並透過 API 免費提供該模型。此外,模型也將上架於 Cohere 的託管推理平臺 Model Vault。隨著 Granola 與 Wispr Flow 等筆記與口述應用需求增長,語音識別模型日益受歡迎。今年初,Cohere 向投資者透露其 2025 年年度經常性收入達 2.4 億美元,執行長 Aidan Gomez 亦表示該公司可能「很快」上市。