蘋果升級的AI模型表現未達預期

蘋果公司宣佈更新了驅動其跨 iOS、macOS 等平臺的 Apple Intelligence 功能套件的 AI 模型。根據蘋果自身的基準測試，其模型表現優於舊版，但不及競爭對手如 OpenAI 的舊版模型。蘋果在週一的部落格文章中表示，人類測試人員評估其最新「Apple On-Device」模型（在 iPhone 等產品上離線執行）生成的文字質量，與同等規模的 Google 和阿里巴巴模型相當，但並未更好。同時，測試人員對蘋果更強大的「Apple Server」模型（執行於資料中心）的評分，則落後於 OpenAI 一年前的 GPT-4o 模型。在另一項評估影象分析能力的測試中，人類評分者偏好 Meta 的 Llama 4 Scout 模型，這令人驚訝，因為 Llama 4 Scout 在許多測試中表現不如 Google、Anthropic 和 OpenAI 等領先 AI 實驗室的主流模型。這些基準測試結果支援了關於蘋果 AI 研究部門難以在激烈的 AI 競賽中趕上競爭對手的報導。蘋果近年來的 AI 能力令人失望，承諾的 Siri 升級也已被無限期延遲。部分客戶已對蘋果提起了訴訟，指控其營銷了尚未交付的產品 AI 功能。除了生成文字外，約 30 億引數的 Apple On-Device 模型還驅動著摘要和文字分析等功能。截至週一，第三方開發者可透過蘋果的 Foundation Models 框架使用它。蘋果表示，Apple On-Device 和 Apple Server 相比前代在工具使用和效率方面有所改進，並能理解約 15 種語言。這得益於擴充的訓練資料集，其中包括影象資料、PDF 文件、手稿、資訊圖表、表格和圖表。