今年夏天,泰勒與室友佩戴額頭 GoPro 相機,持續一週進行繪畫、雕塑及清潔等家務活動,以訓練 AI 視覺模型。她們需同步錄製影片,使系統能從多角度捕捉同一行為。泰勒為 Turing 公司資料自由職業者,該公司透過 TechCrunch 連結人才。Turing 目標非教導 AI 繪製油畫,而是提升序列問題解決與視覺推理等抽象技能。其視覺模型將完全基於影片訓練,主要資料由 Turing 直接收集。除藝術家外,Turing 還聘請廚師、建築工人及電工等藍領工作者。Turing 首席 AGI 主管 Sudarshan Sivaraman 表示,手動收集是獲取多樣化資料集的唯一方式,以便在預訓練階段涵蓋不同型別的藍領工作。
Turing 的視覺模型工作反映了 AI 公司資料處理方式的轉變。過去訓練集常從網路免費抓取或由低薪標註員收集,如今公司不惜重金採購精心篩選的資料。隨著 AI 基礎能力確立,企業將專有訓練資料視為競爭優勢,並自行承擔資料收集工作而非外包。例如郵件公司 Fyxer 使用 AI 模型整理郵件並草擬回覆,創辦人 Richard Hollingsworth 發現最佳策略是運用多個小型模型配合緊密聚焦的訓練資料。Fyxer 雖基於他人基礎模型,但核心洞察相同,即資料質量而非數量定義表現。這導致人員選擇非傳統,早期 Fyxer 工程師與經理有時被四名執行助理 outnumber,因需訓練郵件回覆基礎知識。
資料收集速度未減,但 Hollingsworth 逐漸重視資料集質量,在後訓練階段偏好更小但更精確的資料集。此原則在合成資料應用時尤為重要,Turing 估計 75% 至 80% 資料為源自原始 GoPro 影片的合成資料。Sivaraman 強調,若預訓練資料品質不佳,合成資料亦無法提升。除質量外,自行收集資料構建競爭壁壘,Fyxer 認為這是對抗競爭的最佳防線。Hollingsworth 指出,雖任何人都可建立開源模型,但非所有人能找到專家標註員將其訓練為可用產品。Turing 與 Fyxer 均透過高質量人類主導資料訓練,打造客製化模型,確保 AI