微軟推出三款新基礎模型對抗AI競爭對手

微軟人工智慧實驗室（Microsoft AI）於週四宣佈推出三款基礎 AI 模型，分別為 MAI-Transcribe-1、MAI-Voice-1 和 MAI-Image-2，這些模型能生成文字、語音及影像。MAI-Transcribe-1 可將 25 種不同語言的語音轉錄為文字，其速度比微軟 Azure Fast 快 2.5 倍。MAI-Voice-1 是語音生成模型，使用者可在 1 秒內生成 60 秒的語音，並能建立自訂語音。MAI-Image-2 則是影像生成模型，該模型最初於 3 月 19 日在 MAI Playground 發布，現已同步在 Microsoft Foundry 及 MAI Playground 上提供。

這些模型由微軟 MAI 超級智慧團隊開發，該團隊由微軟 AI 執行長穆斯塔法·蘇萊曼（Mustafa Suleyman）領導，成立於 2025 年 11 月。蘇萊曼表示，微軟致力於構建「人文主義 AI」，將人類置於中心，最佳化溝通方式並針對實際應用進行訓練。在競爭激烈的大型語言模型市場中，微軟宣稱這些模型比 Google 和 OpenAI 的產品更便宜。MAI-Transcribe-1 起價為每小時 0.36 美元，MAI-Voice-1 起價為每百萬字元 22 美元，MAI-Image-2 起價為每百萬 token 5 美元（文字輸入）或 33 美元（影像輸出）。

儘管推出自有模型，蘇萊曼重申了微軟與 OpenAI 的夥伴關係，並指出最近的重新談判讓微軟能真正推進超級智慧研究。微軟已投資超過 130 億美元於該 AI 研究實驗室，並透過多年夥伴關係在其多項產品中部署模型。