OpenAI 推出全新語音智能功能於其 API

OpenAI 於週四宣佈，其 API 將新增一系列語音智慧功能，協助開發者建立能與使用者進行對話、轉錄及翻譯的應用程式。公司推出的新模型 GPT-Realtime-2 是另一項語音模型，旨在創造逼真的語音模擬以與使用者交談。與前代產品 GPT-Realtime-1.5 不同，此版本內建了 OpenAI 宣稱的 GPT-5 級推理能力，以處理更複雜的使用者請求。此外，公司還推出了 GPT-Realtime-Translate，提供即時翻譯服務，能與使用者對話節奏同步。該功能支援超過 70 種輸入語言（可理解語言）和 13 種輸出語言（轉發語言）。最後，公司推出了新的轉錄功能 GPT-Realtime-Whisper，提供即時語音轉文字能力，捕捉互動過程中的內容。OpenAI 表示，這些新模型將即時音訊從簡單的問答推向真正的語音介面，能聆聽、推理、翻譯、轉錄並採取行動。這些更新主要針對希望擴充套件客戶服務能力的企業，但也適用於教育、媒體、活動及創作者平臺等領域。針對潛在濫用風險，OpenAI 已建立防護機制，嵌入特定觸發器，若偵測到違反有害內容指南的對話將予以中止。所有新語音模型均包含在 OpenAI 的 Realtime API 中，其中 Translate 和 Whisper 按分鐘計費，而 GPT-Realtime-2 則按 token 消耗計費。