跳至內容
AI 新聞站
返回

為何 AI 新創企業開始掌握數據主控權

今年夏天,泰勒與室友佩戴額頭 GoPro 相機,持續一週進行繪畫、雕塑及清潔等家務活動,以訓練 AI 視覺模型。她們需同步錄製影片,使系統能從多角度捕捉同一行為。泰勒為 Turing 公司資料自由職業者,該公司透過 TechCrunch 連結人才。Turing 目標非教導 AI 繪製油畫,而是提升序列問題解決與視覺推理等抽象技能。其視覺模型將完全基於影片訓練,主要資料由 Turing 直接收集。除藝術家外,Turing 還聘請廚師、建築工人及電工等藍領工作者。Turing 首席 AGI 主管 Sudarshan Sivaraman 表示,手動收集是獲取多樣化資料集的唯一方式,以便在預訓練階段涵蓋不同型別的藍領工作。

Turing 的視覺模型工作反映了 AI 公司資料處理方式的轉變。過去訓練集常從網路免費抓取或由低薪標註員收集,如今公司不惜重金採購精心篩選的資料。隨著 AI 基礎能力確立,企業將專有訓練資料視為競爭優勢,並自行承擔資料收集工作而非外包。例如郵件公司 Fyxer 使用 AI 模型整理郵件並草擬回覆,創辦人 Richard Hollingsworth 發現最佳策略是運用多個小型模型配合緊密聚焦的訓練資料。Fyxer 雖基於他人基礎模型,但核心洞察相同,即資料質量而非數量定義表現。這導致人員選擇非傳統,早期 Fyxer 工程師與經理有時被四名執行助理 outnumber,因需訓練郵件回覆基礎知識。

資料收集速度未減,但 Hollingsworth 逐漸重視資料集質量,在後訓練階段偏好更小但更精確的資料集。此原則在合成資料應用時尤為重要,Turing 估計 75% 至 80% 資料為源自原始 GoPro 影片的合成資料。Sivaraman 強調,若預訓練資料品質不佳,合成資料亦無法提升。除質量外,自行收集資料構建競爭壁壘,Fyxer 認為這是對抗競爭的最佳防線。Hollingsworth 指出,雖任何人都可建立開源模型,但非所有人能找到專家標註員將其訓練為可用產品。Turing 與 Fyxer 均透過高質量人類主導資料訓練,打造客製化模型,確保 AI


分享這篇文章:

上一篇
KAYAK 發佈「AI 模式」用於旅行問題、搜尋與預訂
下一篇
Google DeepMind 與聚變能源新創公司合作的真正原因