OpenAI 的努力讓 AI 做你想要的任何事情

2022 年，研究員 Hunter Lightman 加入 OpenAI 後，目睹了 ChatGPT 的爆發式成長，同時他領導的 MathGen 團隊專注於訓練模型解決高中數學競賽題目。該團隊被視為 OpenAI 開發具備人類般推理能力的 AI 代理的核心技術基礎。儘管 OpenAI 的最新系統仍存在幻覺問題，但其模型在數學推理方面已顯著進步，其中一個模型近期在國際數學奧林匹克（IMO）中奪得金牌。OpenAI 執行長 Sam Altman 在 2023 年 11 月 6 日的開發者會議上表示，未來的 AI 代理將能自動完成各種任務。

OpenAI 的推理模型突破與強化學習（RL）技術密切相關。2016 年，Google DeepMind 的 AlphaGo 利用 RL 擊敗人類棋手，啟發了 OpenAI 員工 Andrej Karpathy 的構想。2018 年，OpenAI 推出了 GPT 系列大語言模型，但初期在數學處理上表現不佳。直到 2023 年，OpenAI 結合大語言模型、強化學習及「測試時計算」技術，推出了代號「Q*」後更名為「Strawberry」的模型，並引入「鏈式思維」（Chain-of-thought）方法，使模型能像人類一樣進行推理、發現錯誤並回溯。這項突破直接促成了 2024 年秋季推出的 o1 推理模型的誕生。

o1 模型的研發動員了 21 名基礎研究員，其中部分人才隨後被 Meta 以超過 1 億美元的薪酬聘請。OpenAI 透過投入大量計算資源和人才，成功開發出 o1，該模型能同時生成多個代理並探索不同想法以選擇最佳答案。這種技術也被 Google 和 xAI 採用。目前，OpenAI 正致力於將這些推理能力應用於更具主觀性的任務，如網購或尋找停車位，並計劃在未來的 GPT-5 模型中實現更直觀的代理體驗。儘管面臨 Google、Anthropic 等競爭對手，OpenAI 仍希望透過持續的技術創新維持其行業領導地位。