強化學習差距 — 或為何某些 AI 技能進步較快

AI 程式設計工具進步迅速，GPT-5、Gemini 2.5 及 Sonnet 4.5 等模型讓開發者能自動化更多技巧，但其他技能如撰寫郵件的進步則較緩慢。這種差異源於強化學習（Reinforcement Learning, RL）在程式設計應用中的關鍵作用。程式設計應用可透過數十億次可量化的測試進行訓練，具備明確的透過或失敗指標，適合 RL 反覆執行。相比之下，撰寫郵件或聊天機器人回應等技能主觀且難以大規模衡量，進步有限。這種「強化學習差距」成為決定 AI 系統能力的重要因素。軟體開發因已有完善的單元測試、整合測試及安全測試體系，極適合 RL 應用。雖然季度財務報告或精算科學等領域缺乏現成測試套件，但具備資金的企業可自行建立。OpenAI 的新模型 Sora 2 顯示，生成影片等曾被認為難以測試的任務，透過強大的 RL 系統也能取得顯著進步，使影像更符合物理法則並保持人物特徵。隨著 RL 成為 AI 產品開發的主要工具，強化學習差距將持續擴大，影響起點企業成功自動化特定流程的能力，並對未來二十年經濟結構產生深遠影響，例如醫療保健服務的自動化潛力。