這篇文章旨在澄清人工智慧領域中常見的術語,幫助讀者理解 AI 如何運作。文章首先定義了通用人工智慧(AGI),指出 OpenAI 將其視為能勝任大多數經濟高價值工作的自主系統,而 Google DeepMind 則認為其應具備與人類相當的認知能力。AI 代理(AI agent)被描述為能自主執行多步驟任務的工具,例如編寫、測試和除錯程式碼,這比基本的聊天機器人更進階。為了提升回答的準確性,大型語言模型(LLM)會使用「思維鏈」(Chain of thought)技術,將問題分解為中間步驟進行推理。
文章進一步解釋了基礎設施與硬體概念。API 端點是軟體的介面,允許不同應用程式整合;計算(Compute)則指代 GPU、TPU 等提供運算能力的硬體。深度學習(Deep learning)利用人工神經網路結構,能從資料中自動識別特徵,但需要大量資料和昂貴的訓練成本。生成式模型常使用擴散(Diffusion)技術,透過逆向過程從噪聲中還原資料,或運用生成式對抗網路(GAN)來產生逼真的影像。
知識轉移方面,知識精煉(Distillation)是用小型學生模型模仿大型教師模型,OpenAI 的 GPT-4 Turbo 便採用此技術。微調(Fine-tuning)則是用特定領域資料最佳化模型表現。文章也提及了模型常見的問題,如幻覺(Hallucination),即模型編造不存在的資訊,這促使開發者轉向垂直領域模型。推理(Inference)是模型執行並生成預測的過程,而記憶體壟斷(RAMageddon)則描述了因 AI 產業需求導致記憶體短缺和價格上漲的現象。
最後,文章介紹了訓練(Training)與權重(Weights)的概念,權重決定了資料特徵的重要性。驗證損失(Validation loss)用於監控模型是否過擬合。此外,還提到了強化學習(Reinforcement learning)及其變體 RLHF,以及 Token 作為 LLM 處理的基本單位,其吞吐量(Throughput)直接影響服務效率。整體而言,這篇文章涵蓋了從基礎架構到前沿研究的多個關鍵概念,並強調了該領域的快速演變。