新專案讓維基百科資料更易供AI使用

維基媒體德國於週三宣佈推出名為維基資料嵌入專案（Wikidata Embedding Project）的新資料庫，旨在讓維基百科龐大的知識資源更易於被人工智慧模型存取。該系統運用基於向量的語義搜尋技術，對維基百科及其姊妹平臺近一億二千萬筆資料進行處理，並結合對模型上下文協定（Model Context Protocol）的新支援，使資料更能回應大型語言模型的自然語言查詢。此專案由維基媒體德國分支與神經搜尋公司 Jina.AI 以及 IBM 旗下的即時訓練資料公司 DataStax 合作完成。

雖然維基資料多年來已提供機器可讀的資料，但舊有工具僅支援關鍵字搜尋和 SPARQL 查詢。新系統能更好地與檢索增強生成（RAG）系統配合，讓開發者能將模型建立在經維基編輯者驗證的知識基礎上。資料庫結構化地提供了關鍵語義上下文，例如查詢「科學家」一詞時，會列出顯赫的核子科學家及在貝爾實驗室工作的科學家，並包含不同語言的翻譯、維基授權的科學家工作照片，以及延伸至「研究者」或「學者」等相關概念。資料庫公開可於 Toolforge 存取，維基資料還將於十月九日舉辦開發者研討會。

此專案正值人工智慧開發者爭相尋找高品質資料來源以微調模型的時期。訓練系統雖日益複雜，但仍需精心編排的資料才能運作良好。對於需要高準確度的部署，可靠資料尤為迫切。與從全網抓取網頁的通用集合 Common Crawl 相比，維基百科的資料更具事實導向性。儘管部分資料集訓練可能引發高昂後果，如 Anthropic 於八月同意支付十五億美元解決訴訟，但維基資料 AI 專案經理菲利普·薩德強調，該專案獨立於各大人工智慧實驗室或大型科技公司，展現強大人工智慧不必由少數公司控制，可開放、合作並服務所有人。