企業人工智慧公司 Cohere 於週四推出了其首款語音模型 Transcribe。這是一款開源的自動語音識別模型,可用於筆記記錄與語音分析等任務。該模型僅含 20 億個引數,體積輕巧,專為搭配消費級 GPU 進行自託管設計。目前 Transcribe 支援 14 種語言,包括英文、法文、德文、義大利文、西班牙文、葡萄牙文、希臘文、荷蘭文、波蘭文、中文、日文、韓文、越南文及阿拉伯文。
Cohere 宣稱 Transcribe 在 Hugging Face 開放語音識別排行榜上表現優於 Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2 及 Qwen3-ASR-1.7B Speech 等模型,平均字誤率(WER)為 5.42,低於該基準上的任何其他模型。在人類評估者針對準確性、連貫性與可用性的評測中,Transcribe 的勝率達 61%。不過,該模型在處理葡萄牙文、德文及西班牙文時表現稍遜於競爭對手。Cohere 指出,Transcribe 具備每分鐘處理 525 分鐘音訊的強大能力,這在其類別中屬高水準。
公司計劃將 Transcribe 整合至其企業代理編排平臺 North,並透過 API 免費提供該模型。此外,模型也將上架於 Cohere 的託管推理平臺 Model Vault。隨著 Granola 與 Wispr Flow 等筆記與口述應用需求增長,語音識別模型日益受歡迎。今年初,Cohere 向投資者透露其 2025 年年度經常性收入達 2.4 億美元,執行長 Aidan Gomez 亦表示該公司可能「很快」上市。