文章
所有發布的 AI 新聞與論文。
-
目前發生的事是《馬努斯》故事中最不意外的一章
美國與中國正展開激烈的最強人工智慧競賽,北京投入巨資發展本土模型並緊縮科技業控制,同時觀察其最佳人才流向美國公司。中國最受矚目的 AI 起點 Manus 卻悄然將總部遷至新加坡,並以 20 億美元被 Meta 收購。Manus 於去年春季推出演示影片,展示其 AI 代理能篩選候選人、規劃假期及分析股票組合,並聲稱優於 OpenAI 的 Deep Research。隨後,矽谷風投機構 Benchmark 以 7500 萬美元領投,估值達 5 億美元。參議員 John Cornyn 當時批評美國投資者不應補貼中國對手。至去年十二月,Manus 擁有百萬使用者,年復合營收超過 1 億美元。Meta 創辦人 Mark Zuckerberg 隨後以 20 億美元收購該公司。Manus 在交易前已積極脫離中國影響,將核心團隊從北京遷至新加坡,並重組所有權。Meta 承諾切斷與中國投資者的聯絡並關閉中國業務。北京對此極為憤怒,稱此為「賣青苗」,指本土公司未成熟即外賣。2020 年,馬雲因批評監管者而遭封殺,阿里巴巴被罰 28 億美元。因此,金融時報報導 Manus 創辦人 Xiao Hong 和 Ji Yichao 本月被中國國家發展和改革委員會召見,調查其是否違反外資規則,雖未正式起訴,但創辦人將被扣留直至調查結束。
-
Mistral 發佈一個新的開放原始碼語音生成模型
法國人工智慧公司 Mistral 於週四發布了一款新的開源文字轉語音模型,名為 Voxtral TTS。該模型旨在支援語音 AI 助理及企業應用,如客戶服務、銷售與客戶互動,直接與 ElevenLabs、Deepgram 及 OpenAI 等競爭對手抗衡。Voxtral TTS 支援九種語言,包括英文、法文、德文、西班牙文、荷蘭文、葡萄牙文、義大利文、印地文及阿拉伯文。Mistral 科學營運副總裁 Pierre Stock 表示,該模型體積小巧,可部署於智慧手錶、手機、筆記型電腦等邊緣裝置,成本僅為市場其他產品的一小部分,但提供頂尖效能。 該模型基於 Ministral 3B,可透過少於五秒的樣本自訂語音,捕捉細微口音、語調起伏及語流不規則等特徵。模型能輕鬆切換語言而不影響語音特性,適用於配音或即時翻譯。Mistral 強調模型聲音擬人化而非機械化,並針對即時效能最佳化。其首次發音時間(TTFA)為 90 毫秒,處理 500 個字元的 10 秒語音片段;即時因子(RTF)為 6 倍,表示 10 秒影片可於約 1.6 秒內渲染完成。 Mistral 此前已推出兩款轉錄模型,分別針對大規模批處理與低延遲即時應用。此次推出語音模型後,公司計劃提供完整語音產品套件,打造端到端平臺,支援多模態輸入(音訊、文字、影像)與輸出。Stock 指出,端到端代理系統能提供更多資訊,尤其當音訊作為輸入或輸出時。Mistral 透過開源與自訂功能,協助企業調整模型以超越競爭對手,滿足企業對語音產品的需求。
-
數據中心的「以血還血」:一位參議員對AI失業的回應
美國參議員馬克·沃納(Mark Warner)在華盛頓特區舉行的 Axios AI 峰會上指出,人工智慧(AI)可能導致大規模失業的跡象已日益明顯。自 2023 年以來,美國入門級工作職位發布量已下降 35%,大型科技公司的大規模裁員持續蔓延,連 AI 領域的領導者也在警告即將到來的挑戰。沃納提到,一位風險投資家因安提克(Anthropic)的 Claude 模型進步而將軟體投資降為零,一家大型律師事務所則因 AI 能處理許多原本由初級律師執行的工作而停止招聘第一任律師助理。儘管資料顯示 AI 尚未開始取代工作,但對 AI 相關失業的恐懼感已變得「可觸控」。 隨著恐懼蔓延,焦點轉移到誰應承擔成本。沃納提出對驅動 AI 繁榮的資料中心徵稅,並將所得用於協助過渡期的勞工。他尚未正式提出立法,但此構想因公眾對資料中心的憤怒而日益緊迫。全美各地已出現對資料中心的反彈,包括參議員伯尼·桑德斯(Bernie Sanders)和眾議員亞歷山德里亞·奧卡西奧 - 柯爾特茲(Alexandria Ocasio-Cortez)於週三提出的資料中心禁令法案,主要擔憂噪音、汙染及電力成本上升。然而,底層存在對資料中心可能取代工作的潛在負面影響的抗拒。沃納不打算支援禁令法案,認為這會讓中國加速發展,美國不能輸掉這場競爭。 沃納認為,從資料中心提取「肉塊」以解決就業恐懼是較易行的途徑。他詢問是否應由晶片製造商、大型語言模型公司或如高盛(Goldman Sachs)般利用工具裁員的機構承擔,最終他認為資料中心是最佳目標。稅收可用於培訓新護士或資助 AI 技能提升計劃,前提是對社群有實質利益。他引用弗吉尼亞州亨里科縣(Henrico County)的經驗,該縣利用資料中心稅收啟動了新的負擔得起的住房專案。沃納強調,若無法將資料中心與社群實質利益連結,公眾將採取激烈行動。根據 NBC News 的民調,46% 的註冊選民對 AI 持負面看法,僅 26% 持正面看法,
-
Cohere 發佈專門用於轉錄的開放源碼語音模型
企業人工智慧公司 Cohere 於週四推出了其首款語音模型 Transcribe。這是一款開源的自動語音識別模型,可用於筆記記錄與語音分析等任務。該模型僅含 20 億個引數,體積輕巧,專為搭配消費級 GPU 進行自託管設計。目前 Transcribe 支援 14 種語言,包括英文、法文、德文、義大利文、西班牙文、葡萄牙文、希臘文、荷蘭文、波蘭文、中文、日文、韓文、越南文及阿拉伯文。 Cohere 宣稱 Transcribe 在 Hugging Face 開放語音識別排行榜上表現優於 Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2 及 Qwen3-ASR-1.7B Speech 等模型,平均字誤率(WER)為 5.42,低於該基準上的任何其他模型。在人類評估者針對準確性、連貫性與可用性的評測中,Transcribe 的勝率達 61%。不過,該模型在處理葡萄牙文、德文及西班牙文時表現稍遜於競爭對手。Cohere 指出,Transcribe 具備每分鐘處理 525 分鐘音訊的強大能力,這在其類別中屬高水準。 公司計劃將 Transcribe 整合至其企業代理編排平臺 North,並透過 API 免費提供該模型。此外,模型也將上架於 Cohere 的託管推理平臺 Model Vault。隨著 Granola 與 Wispr Flow 等筆記與口述應用需求增長,語音識別模型日益受歡迎。今年初,Cohere 向投資者透露其 2025 年年度經常性收入達 2.4 億美元,執行長 Aidan Gomez 亦表示該公司可能「很快」上市。