在亞馬遜執行長安迪·賈西(Andy Jassy)宣佈亞馬遜雲服務(AWS)與 OpenAI 達成高達 500 億美元的投資協議後,作者受邀前往亞馬遜位於奧斯汀的晶片開發實驗室進行私人導覽。此次造訪由實驗室主任克里斯托弗·金(Kristopher King)和工程總監馬克·卡羅爾(Mark Carroll)帶領,旨在探討亞馬遜自研的 Trainium 晶片對降低 AI 推理成本及挑戰英偉達壟斷地位的潛在影響。
AWS 與 OpenAI 的協議使亞馬遜成為該模型公司新 AI 代理構建工具 Frontier 的獨家供應商。據《金融時報》報導,微軟可能認為此協議違反了雙方關於讓雷德蒙德(Redmond)獲取所有 OpenAI 模型與技術的協議。作為協議的一部分,亞馬遜承諾向 OpenAI 提供 2 吉瓦的 Trainium 運算能力。目前,亞馬遜已部署 140 萬顆 Trainium 晶片,其中超過 100 萬顆用於執行 Anthropic 的 Claude 模型。雖然 Trainium 最初專注於模型訓練,但現在已廣泛用於推理,以解決行業內最大的效能瓶頸。
亞馬遜推出的 Trainium3 晶片及新 Neuron 開關組合,據稱執行成本比傳統雲端服務低達 50%,並能顯著降低延遲。2024 年,蘋果公司公開讚揚了亞馬遜的 Graviton、Inferentia 及 Trainium 晶片。為了降低開發者的轉換成本,Trainium 現在支援 PyTorch 框架,只需一行程式碼變更即可在該晶片上執行。此外,亞馬遜還與 Cerebras Systems 合作,將該公司的推理晶片整合至執行 Trainium 的伺服器中。
亞馬遜的晶片團隊自 2015 年收購以色列晶片設計商 Annapurna Labs 以來,已擁有超過 10 年的晶片設計經驗。該實驗室位於奧斯汀「The Domain」區,擁有先進的 3 奈米 Trainium3 晶片,由 TSMC 生產。實驗室展示了從晶片測試、焊接到液冷技術的完整流程,包括用於驗證晶片執行的「bring-up」過程。該團隊還設計了包含 Train