分類: 模型與研究

「模型與研究」分類的 AI 新聞與論文。

馬斯克的xAI發佈Grok 4並推出每月300美元訂閱服務

2025年7月9日

埃隆·馬斯克旗下的 AI 公司 xAI 於週三晚間推出了其旗艦 AI 模型 Grok 4，並宣佈推出每月 300 美元的 SuperGrok Heavy 訂閱計劃。Grok 是 xAI 對 OpenAI 的 ChatGPT 和 Google 的 Gemini 等模型的回應，具備分析圖片和回答問題的能力。馬斯克在直播中表示，Grok 4 在學術問題上表現優於博士水平，儘管偶爾缺乏常識或尚未發明新技術，但這只是時間問題。此次發布正值馬斯克公司經歷動盪的一週，X 平臺前執行長琳達·雅卡里諾（Linda Yaccarino）剛剛辭職，而 Grok 的官方帳號此前曾發布反猶太言論並讚揚希特勒，引發爭議後被暫時限制。 Grok 4 在多個基準測試中展現前沿級表現。在「人類最後的考試」（Humanity's Last Exam）中，Grok 4 無工具得分 25.4%，超越 Google 的 Gemini 2.5 Pro（21.6%）和 OpenAI 的 o3（21%）；使用工具後，Grok 4 Heavy 得分 44.4%，再次領先。在非營利組織 Arc Prize 的 ARC-AGI-2 測試中，Grok 得分 16.2%，幾乎是第二名模型 Claude Opus 4 的兩倍。xAI 還計劃在八月份推出 AI 編碼模型，九月推出多模態代理，十月推出影片生成模型。SuperGrok Heavy 訂閱計劃提供 Grok 4 Heavy 的早期預覽及新功能優先權，是目前主要 AI 供應商中最昂貴的訂閱方案。雖然 Grok 在基準測試中表現出色，但 xAI 仍需克服近期的失誤，以在企業市場與 ChatGPT、Claude 和 Gemini 競爭。
OpenAI 的開放模型延宕

2025年6月10日

OpenAI 執行長 Sam Altman 於 2025 年 6 月 10 日透過 X 平臺宣佈，該公司數年來的首個開放模型發布將延後至今年夏天後期，而非原本目標的 6 月。Altman 表示，研究團隊做出了意外且驚人的突破，認為雖然值得等待，但需要更多時間。該開放模型預計將具備與 OpenAI o 系列模型相似的「推理」能力，並旨在超越 DeepSeek R1 等其他開放推理模型的表現。隨著 Mistral 在週二發布 Magistral 系列模型，以及中國實驗室 Qwen 在四月推出可切換推理模式的混合模型，該領域競爭日益激烈。除了提升基準測試表現外，OpenAI 還曾考慮讓開放模型連線至公司雲端託管的模型以處理複雜查詢，但這些功能是否會出現在最終版本尚不明確。Altman 曾指出 OpenAI 在開放模型原始碼方面處於「歷史錯誤的一側」，因此公司面臨巨大壓力，必須發布一款與行業最佳開放解決方案具有競爭力的模型，以修復與研究人員和開發者之間的關係。
OpenAI 發佈 o3-pro，一款升級版的 o3 AI 推理模型

2025年6月10日

OpenAI 於 2025 年 6 月 10 日推出 o3-pro，宣稱這是其目前最強大的 AI 模型。作為 o3 推理模型的升級版，o3-pro 透過逐步解決問題的方式運作，在物理、數學、程式碼等領域表現更可靠。該模型自即日起取代 o1-pro，開放給 ChatGPT Pro 及 Team 使用者使用，企業與教育使用者則於下一週獲得存取權。o3-pro 亦已於開發者 API 上線，定價為每百萬輸入 token 20 美元，每百萬輸出 token 80 美元。一百萬輸入 token 約等於 75 萬字。根據 OpenAI 的變更日誌，專家評估顯示 o3-pro 在所有測試類別中均優於 o3，尤其在科學、教育、程式、商業與寫作輔助等關鍵領域表現更佳，且在清晰度、完整性、指令遵循與準確性上獲評更高。該模型具備搜尋網頁、分析檔案、處理視覺輸入、使用 Python 及利用記憶個人化回應等工具能力。不過，回應時間通常比 o1-pro 長，且目前暫時禁用 ChatGPT 中的臨時對話功能以解決技術問題，無法生成圖片，也不支援 Canvas 工作區功能。在內部測試中，o3-pro 在 AIME 2024 數學評估中表現優於 Google 的 Gemini 2.5 Pro，並在 GPQA Diamond 博士級科學知識測試中擊敗 Anthropic 最新推出的 Claude 4 Opus。完整安全細節可參考 o3 系統卡片。
Mistral 發佈一對 AI 推理模型

2025年6月10日

法國人工智慧實驗室 Mistral 於週二宣佈推出其首款推理模型系列 Magistral，旨在提升數學、物理等領域的問題解決一致性與可靠性。該系列包含 Magistral Small 與 Magistral Medium 兩種版本。Magistral Small 擁有 240 億引數，可透過 Hugging Face 平臺下載，採用 Apache 2.0 許可證。Magistral Medium 則在 Mistral 的 Le Chat 聊天機器人平臺及 API 上進行預覽，並支援企業客戶。Mistral 自 2023 年成立以來，已獲得 General Catalyst 等投資機構支援，總籌資額超過 11 億歐元。儘管資源雄厚，Mistral 在推理模型開發上曾稍顯落後，Magistral Medium 在 GPQA Diamond、AIME 及 LiveCodeBench 等測試中表現不如 Google 的 Gemini 2.5 Pro 與 Anthropic 的 Claude Opus 4。然而，Mistral 強調 Magistral 在 Le Chat 平臺上的回答速度比競爭對手快 10 倍，並支援義大利語、阿拉伯語、俄語及簡體中文等多種語言。該模型適用於企業場景，涵蓋結構化計算、程式邏輯、決策樹及風險評估等任務，並針對多步驟邏輯進行微調，以增強可解釋性。此發布緊接在 Mistral Code 客戶端及 Le Chat Enterprise 企業服務推出之後。

分類: 模型與研究

馬斯克的xAI發佈Grok 4並推出每月300美元訂閱服務

OpenAI 的開放模型延宕

OpenAI 發佈 o3-pro，一款升級版的 o3 AI 推理模型

Mistral 發佈一對 AI 推理模型