OpenAI 於週四宣佈,其 API 將新增一系列語音智慧功能,協助開發者建立能與使用者進行對話、轉錄及翻譯的應用程式。公司推出的新模型 GPT-Realtime-2 是另一項語音模型,旨在創造逼真的語音模擬以與使用者交談。與前代產品 GPT-Realtime-1.5 不同,此版本內建了 OpenAI 宣稱的 GPT-5 級推理能力,以處理更複雜的使用者請求。此外,公司還推出了 GPT-Realtime-Translate,提供即時翻譯服務,能與使用者對話節奏同步。該功能支援超過 70 種輸入語言(可理解語言)和 13 種輸出語言(轉發語言)。最後,公司推出了新的轉錄功能 GPT-Realtime-Whisper,提供即時語音轉文字能力,捕捉互動過程中的內容。OpenAI 表示,這些新模型將即時音訊從簡單的問答推向真正的語音介面,能聆聽、推理、翻譯、轉錄並採取行動。這些更新主要針對希望擴充套件客戶服務能力的企業,但也適用於教育、媒體、活動及創作者平臺等領域。針對潛在濫用風險,OpenAI 已建立防護機制,嵌入特定觸發器,若偵測到違反有害內容指南的對話將予以中止。所有新語音模型均包含在 OpenAI 的 Realtime API 中,其中 Translate 和 Whisper 按分鐘計費,而 GPT-Realtime-2 則按 token 消耗計費。
OpenAI 推出全新語音智能功能於其 API
分享這篇文章: