在討論人工智慧基礎設施成本時,人們通常關注英偉達與 GPU,但記憶體正變得越來越關鍵。隨著超大型科技公司準備建設價值數十億美元的新資料中心,DRAM 晶片價格在過去一年上漲了約七倍。同時,如何協調所有記憶體以確保正確資料在正確時間到達正確代理,也成為了一項日益重要的技能。掌握這項技術的公司將能用更少的 token 完成相同查詢,這可能是生存與否的關鍵。半導體分析師 Doug O’Laughlin 在其 Substack 專欄中探討了記憶體晶片的重要性,並與 Weka 首席 AI 官 Val Bercovici 進行了對話。兩人專注於晶片本身,但其對 AI 軟體的含義相當重大。Bercovici 指出,Anthropic 的提示快取文件變得越來越複雜,從最初的簡單說明演變成詳細的建議手冊,甚至涉及預購快取寫入次數的細微差別。目前僅有五分鐘和小時級的快取視窗,且存在基於預購寫入量的讀取價格套利機會。使用者可以根據需求選擇五分鐘或一小時的快取視窗,有效管理記憶體能大幅節省成本,但新增資料可能會將其他資料擠出快取視窗。管理 AI 模型中的記憶體將是未來的重要部分,擅長此道的公司將脫穎而出。此外,還有許多進步空間,例如 Tensormesh 等公司正在研究快取最佳化層。資料中心如何運用不同型別的記憶體,以及終端使用者如何構建模型群組以利用共享快取,都是潛在的機遇。隨著公司更精於記憶體協調,token 使用量將減少,推理成本將下降。同時,模型處理每個 token 的效率也在提升,進一步推動成本降低。隨著伺服器成本下降,許多目前看來不可行的應用將開始走向盈利。
執行AI模型正變成記憶遊戲
分享這篇文章: