分類: 模型與研究
「模型與研究」分類的 AI 新聞與論文。
-
馬斯克的xAI發佈Grok 4並推出每月300美元訂閱服務
埃隆·馬斯克旗下的 AI 公司 xAI 於週三晚間推出了其旗艦 AI 模型 Grok 4,並宣佈推出每月 300 美元的 SuperGrok Heavy 訂閱計劃。Grok 是 xAI 對 OpenAI 的 ChatGPT 和 Google 的 Gemini 等模型的回應,具備分析圖片和回答問題的能力。馬斯克在直播中表示,Grok 4 在學術問題上表現優於博士水平,儘管偶爾缺乏常識或尚未發明新技術,但這只是時間問題。此次發布正值馬斯克公司經歷動盪的一週,X 平臺前執行長琳達·雅卡里諾(Linda Yaccarino)剛剛辭職,而 Grok 的官方帳號此前曾發布反猶太言論並讚揚希特勒,引發爭議後被暫時限制。 Grok 4 在多個基準測試中展現前沿級表現。在「人類最後的考試」(Humanity's Last Exam)中,Grok 4 無工具得分 25.4%,超越 Google 的 Gemini 2.5 Pro(21.6%)和 OpenAI 的 o3(21%);使用工具後,Grok 4 Heavy 得分 44.4%,再次領先。在非營利組織 Arc Prize 的 ARC-AGI-2 測試中,Grok 得分 16.2%,幾乎是第二名模型 Claude Opus 4 的兩倍。xAI 還計劃在八月份推出 AI 編碼模型,九月推出多模態代理,十月推出影片生成模型。SuperGrok Heavy 訂閱計劃提供 Grok 4 Heavy 的早期預覽及新功能優先權,是目前主要 AI 供應商中最昂貴的訂閱方案。雖然 Grok 在基準測試中表現出色,但 xAI 仍需克服近期的失誤,以在企業市場與 ChatGPT、Claude 和 Gemini 競爭。
-
OpenAI 的開放模型延宕
OpenAI 執行長 Sam Altman 於 2025 年 6 月 10 日透過 X 平臺宣佈,該公司數年來的首個開放模型發布將延後至今年夏天後期,而非原本目標的 6 月。Altman 表示,研究團隊做出了意外且驚人的突破,認為雖然值得等待,但需要更多時間。該開放模型預計將具備與 OpenAI o 系列模型相似的「推理」能力,並旨在超越 DeepSeek R1 等其他開放推理模型的表現。隨著 Mistral 在週二發布 Magistral 系列模型,以及中國實驗室 Qwen 在四月推出可切換推理模式的混合模型,該領域競爭日益激烈。除了提升基準測試表現外,OpenAI 還曾考慮讓開放模型連線至公司雲端託管的模型以處理複雜查詢,但這些功能是否會出現在最終版本尚不明確。Altman 曾指出 OpenAI 在開放模型原始碼方面處於「歷史錯誤的一側」,因此公司面臨巨大壓力,必須發布一款與行業最佳開放解決方案具有競爭力的模型,以修復與研究人員和開發者之間的關係。
-
OpenAI 發佈 o3-pro,一款升級版的 o3 AI 推理模型
OpenAI 於 2025 年 6 月 10 日推出 o3-pro,宣稱這是其目前最強大的 AI 模型。作為 o3 推理模型的升級版,o3-pro 透過逐步解決問題的方式運作,在物理、數學、程式碼等領域表現更可靠。該模型自即日起取代 o1-pro,開放給 ChatGPT Pro 及 Team 使用者使用,企業與教育使用者則於下一週獲得存取權。o3-pro 亦已於開發者 API 上線,定價為每百萬輸入 token 20 美元,每百萬輸出 token 80 美元。一百萬輸入 token 約等於 75 萬字。 根據 OpenAI 的變更日誌,專家評估顯示 o3-pro 在所有測試類別中均優於 o3,尤其在科學、教育、程式、商業與寫作輔助等關鍵領域表現更佳,且在清晰度、完整性、指令遵循與準確性上獲評更高。該模型具備搜尋網頁、分析檔案、處理視覺輸入、使用 Python 及利用記憶個人化回應等工具能力。不過,回應時間通常比 o1-pro 長,且目前暫時禁用 ChatGPT 中的臨時對話功能以解決技術問題,無法生成圖片,也不支援 Canvas 工作區功能。 在內部測試中,o3-pro 在 AIME 2024 數學評估中表現優於 Google 的 Gemini 2.5 Pro,並在 GPQA Diamond 博士級科學知識測試中擊敗 Anthropic 最新推出的 Claude 4 Opus。完整安全細節可參考 o3 系統卡片。
-
Mistral 發佈一對 AI 推理模型
法國人工智慧實驗室 Mistral 於週二宣佈推出其首款推理模型系列 Magistral,旨在提升數學、物理等領域的問題解決一致性與可靠性。該系列包含 Magistral Small 與 Magistral Medium 兩種版本。Magistral Small 擁有 240 億引數,可透過 Hugging Face 平臺下載,採用 Apache 2.0 許可證。Magistral Medium 則在 Mistral 的 Le Chat 聊天機器人平臺及 API 上進行預覽,並支援企業客戶。Mistral 自 2023 年成立以來,已獲得 General Catalyst 等投資機構支援,總籌資額超過 11 億歐元。儘管資源雄厚,Mistral 在推理模型開發上曾稍顯落後,Magistral Medium 在 GPQA Diamond、AIME 及 LiveCodeBench 等測試中表現不如 Google 的 Gemini 2.5 Pro 與 Anthropic 的 Claude Opus 4。然而,Mistral 強調 Magistral 在 Le Chat 平臺上的回答速度比競爭對手快 10 倍,並支援義大利語、阿拉伯語、俄語及簡體中文等多種語言。該模型適用於企業場景,涵蓋結構化計算、程式邏輯、決策樹及風險評估等任務,並針對多步驟邏輯進行微調,以增強可解釋性。此發布緊接在 Mistral Code 客戶端及 Le Chat Enterprise 企業服務推出之後。