為何 AI 新創企業開始掌握數據主控權

今年夏天，泰勒與室友佩戴額頭 GoPro 相機，持續一週進行繪畫、雕塑及清潔等家務活動，以訓練 AI 視覺模型。她們需同步錄製影片，使系統能從多角度捕捉同一行為。泰勒為 Turing 公司資料自由職業者，該公司透過 TechCrunch 連結人才。Turing 目標非教導 AI 繪製油畫，而是提升序列問題解決與視覺推理等抽象技能。其視覺模型將完全基於影片訓練，主要資料由 Turing 直接收集。除藝術家外，Turing 還聘請廚師、建築工人及電工等藍領工作者。Turing 首席 AGI 主管 Sudarshan Sivaraman 表示，手動收集是獲取多樣化資料集的唯一方式，以便在預訓練階段涵蓋不同型別的藍領工作。

Turing 的視覺模型工作反映了 AI 公司資料處理方式的轉變。過去訓練集常從網路免費抓取或由低薪標註員收集，如今公司不惜重金採購精心篩選的資料。隨著 AI 基礎能力確立，企業將專有訓練資料視為競爭優勢，並自行承擔資料收集工作而非外包。例如郵件公司 Fyxer 使用 AI 模型整理郵件並草擬回覆，創辦人 Richard Hollingsworth 發現最佳策略是運用多個小型模型配合緊密聚焦的訓練資料。Fyxer 雖基於他人基礎模型，但核心洞察相同，即資料質量而非數量定義表現。這導致人員選擇非傳統，早期 Fyxer 工程師與經理有時被四名執行助理 outnumber，因需訓練郵件回覆基礎知識。

資料收集速度未減，但 Hollingsworth 逐漸重視資料集質量，在後訓練階段偏好更小但更精確的資料集。此原則在合成資料應用時尤為重要，Turing 估計 75% 至 80% 資料為源自原始 GoPro 影片的合成資料。Sivaraman 強調，若預訓練資料品質不佳，合成資料亦無法提升。除質量外，自行收集資料構建競爭壁壘，Fyxer 認為這是對抗競爭的最佳防線。Hollingsworth 指出，雖任何人都可建立開源模型，但非所有人能找到專家標註員將其訓練為可用產品。Turing 與 Fyxer 均透過高質量人類主導資料訓練，打造客製化模型，確保 AI