執行AI模型正變成記憶遊戲

在討論人工智慧基礎設施成本時，人們通常關注英偉達與 GPU，但記憶體正變得越來越關鍵。隨著超大型科技公司準備建設價值數十億美元的新資料中心，DRAM 晶片價格在過去一年上漲了約七倍。同時，如何協調所有記憶體以確保正確資料在正確時間到達正確代理，也成為了一項日益重要的技能。掌握這項技術的公司將能用更少的 token 完成相同查詢，這可能是生存與否的關鍵。半導體分析師 Doug O’Laughlin 在其 Substack 專欄中探討了記憶體晶片的重要性，並與 Weka 首席 AI 官 Val Bercovici 進行了對話。兩人專注於晶片本身，但其對 AI 軟體的含義相當重大。Bercovici 指出，Anthropic 的提示快取文件變得越來越複雜，從最初的簡單說明演變成詳細的建議手冊，甚至涉及預購快取寫入次數的細微差別。目前僅有五分鐘和小時級的快取視窗，且存在基於預購寫入量的讀取價格套利機會。使用者可以根據需求選擇五分鐘或一小時的快取視窗，有效管理記憶體能大幅節省成本，但新增資料可能會將其他資料擠出快取視窗。管理 AI 模型中的記憶體將是未來的重要部分，擅長此道的公司將脫穎而出。此外，還有許多進步空間，例如 Tensormesh 等公司正在研究快取最佳化層。資料中心如何運用不同型別的記憶體，以及終端使用者如何構建模型群組以利用共享快取，都是潛在的機遇。隨著公司更精於記憶體協調，token 使用量將減少，推理成本將下降。同時，模型處理每個 token 的效率也在提升，進一步推動成本降低。隨著伺服器成本下降，許多目前看來不可行的應用將開始走向盈利。