分類: 基礎設施與硬體

「基礎設施與硬體」分類的 AI 新聞與論文。

人氣 AI 入門平台 LiteLLM 放棄爭議性創業公司 Delve

2026年3月30日

美國 AI 閘道服務商 LiteLLM 正式宣佈將終止與合規起點 Delve 的合作關係，並更換為競爭對手 Vanta 重新進行安全認證，同時將聘請獨立的第三方審計員驗證其合規控制措施。此舉發生在 LiteLLM 開源版本於上週遭遇嚴重竊取憑證惡意軟體攻擊之後。此前，LiteLLM 曾委託 Delve 獲得兩項安全合規認證，旨在證明其已建立相關程式以減少潛在事件風險。然而，Delve 被指誤導客戶，涉嫌生成虛假資料並使用僅形式審計的審計員。儘管 Delve 創辦人否認指控並提供免費重測，但匿名爆料者仍持續揭露證據。LiteLLM 技術長 Ishaan Jaffer 於週一在 X 平臺表示，公司將轉向 Vanta 進行再認證，並尋找獨立審計員。此次變動顯示 LiteLLM 在經歷惡性事件後，正以實際行動重新評估其安全合規策略。
Google 發佈 TurboQuant，一款全新 AI 記憶壓縮演算法 — 而網路正在稱它為「Pied Piper

2026年3月25日

Google Research 於二月份宣佈了一項名為 TurboQuant 的新型超高效 AI 記憶體壓縮演演算法，引發科技社群廣泛討論。由於其極致壓縮特性，許多網友戲稱其為 HBO 影集《Silicon Valley》中虛構公司 Pied Piper 的現實版，該影集描繪了類似技術突破的故事。Google 表示，TurboQuant 利用向量量化技術清除 AI 處理中的快取瓶頸，能在不影響效能與精度的情況下大幅縮小 AI 工作記憶體。研究人員計劃於下個月在 ICLR 2026 會議上發表成果，並介紹了使此壓縮成為可能的兩種方法：PolarQuant 量化方法與 QJL 訓練最佳化方法。若成功應用於實際環境，TurboQuant 有望將 AI 推論階段的 KV cache 工作記憶體減少至少六倍，這被部分專家視為類似中國 AI 模型 DeepSeek 的突破性效率提升，有助於降低執行成本並最佳化速度、功耗及多租戶利用。儘管如此，目前該技術仍處於實驗室階段，尚未廣泛部署，且僅針對推論記憶體，無法解決 AI 訓練所需的巨大記憶體短缺問題。
微軟宣佈推出強大新晶片用於AI推論

2026年1月26日

微軟正式推出最新晶片 Maia 200，這是一款專為縮放 AI 推論設計的矽基工作馬。該晶片繼承自 2023 年發布的 Maia 100，在技術上進行了升級，能夠以更快的速度和更高的效率執行強大的 AI 模型。Maia 200 搭載超過 1000 億個電晶體，在 4 位元精度下可提供超過 10 拍 Flops 的運算能力，在 8 位元精度下則提供約 5 拍 Flops 的效能，這相比其前代產品有顯著提升。推論是指執行模型的計算過程，與訓練模型所需的計算不同。隨著 AI 公司成熟，推論成本日益成為營運成本的重要組成部分，因此最佳化該過程備受關注。微軟希望 Maia 200 能參與這一最佳化，讓 AI 業務在更低功耗和更少幹擾的情況下執行。據公司表示，單一 Maia 200 節點即可輕鬆執行當今最大的模型，並為未來更大模型留足餘地。微軟的新晶片也反映了科技巨頭轉向自研晶片以減少對英偉達依賴的趨勢。例如，Google 擁有 TPU（張量處理單元），而 Amazon 則推出了 Trainium3。這些自研晶片可用於分流原本分配給英偉達 GPU 的計算任務，從而降低整體硬體成本。在微軟的宣告中，Maia 顯示出與這些替代方案的競爭力，其 FP4 效能是第三代 Amazon Trainium 晶片的三倍，FP8 效能則高於 Google 第七代 TPU。微軟表示，Maia 正在推動其超級智慧團隊的 AI 模型執行，並支援 Copilot 聊天機器人的操作。截至星期一，公司已邀請開發者、學者和前沿 AI 實驗室使用 Maia 200 軟體開發套件進行工作負載。
英偉達推出強大新 Rubin 芯片架構

2026年1月5日

在近日舉行的消費電子展上，英偉達執行長黃仁勳正式推出了公司最新的魯賓計算架構，稱其為當前 AI 硬體的最高水準。該架構目前已在生產線運作，預計於今年下半年進一步擴大產能。黃仁勳表示，魯賓架構旨在應對 AI 運算需求暴增這一根本挑戰，並確認該架構已全面投入生產。魯賓架構於 2024 年首次公佈，是英偉達持續硬體開發週期的最新成果，使其成為全球最值錢的企業。此架構將取代黑井架構，而黑井架構又取代了霍珀和洛維爾架構。魯賓晶片已規劃供近各大雲端供應商使用，包括與 Anthropic、OpenAI 及 Amazon Web Services 等知名夥伴的合作。此外，魯賓系統也將應用於 HPE 的藍獅超級電腦以及勞倫斯伯克利國家實驗室即將推出的杜德娜超級電腦。以天文學家薇拉·弗洛倫斯·庫珀·魯賓命名的該架構，由六顆獨立晶片協同運作組成，其中魯賓 GPU 位於中心，並透過藍域和 NVLink 系統的改進來解決日益嚴重的儲存與互連瓶頸。架構還包含專為代理推理設計的新魯賓 CPU。英偉達資深 AI 基礎設施解決方案總監戴恩·哈里斯指出，現代 AI 系統對快取相關記憶體的需求日益增長，特別是針對代理 AI 或長期任務等新工作流。因此，他們引入了一級新儲存，可外部連線至運算裝置，從而更高效地擴充套件儲存池。根據英偉達測試，魯賓架構在模型訓練任務上比前代黑井架構快三點五倍，在推理任務上快五倍，最高達 50 拍每秒，且每瓦特推理運算能力提升八倍。此新能力出現於激烈的 AI 基礎設施建設競爭中，AI 實驗室與雲端供應商正爭奪英偉達晶片及供電設施。黃仁勳在 2025 年 10 月的財報通話中估計，未來五年 AI 基礎設施投資將達 3 兆至 4 兆美元。

分類: 基礎設施與硬體

人氣 AI 入門平台 LiteLLM 放棄爭議性創業公司 Delve

Google 發佈 TurboQuant，一款全新 AI 記憶壓縮演算法 — 而網路正在稱它為「Pied Piper

微軟宣佈推出強大新晶片用於AI推論

英偉達推出強大新 Rubin 芯片架構