Cohere 發佈專門用於轉錄的開放源碼語音模型

企業人工智慧公司 Cohere 於週四推出了其首款語音模型 Transcribe。這是一款開源的自動語音識別模型，可用於筆記記錄與語音分析等任務。該模型僅含 20 億個引數，體積輕巧，專為搭配消費級 GPU 進行自託管設計。目前 Transcribe 支援 14 種語言，包括英文、法文、德文、義大利文、西班牙文、葡萄牙文、希臘文、荷蘭文、波蘭文、中文、日文、韓文、越南文及阿拉伯文。

Cohere 宣稱 Transcribe 在 Hugging Face 開放語音識別排行榜上表現優於 Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2 及 Qwen3-ASR-1.7B Speech 等模型，平均字誤率（WER）為 5.42，低於該基準上的任何其他模型。在人類評估者針對準確性、連貫性與可用性的評測中，Transcribe 的勝率達 61%。不過，該模型在處理葡萄牙文、德文及西班牙文時表現稍遜於競爭對手。Cohere 指出，Transcribe 具備每分鐘處理 525 分鐘音訊的強大能力，這在其類別中屬高水準。

公司計劃將 Transcribe 整合至其企業代理編排平臺 North，並透過 API 免費提供該模型。此外，模型也將上架於 Cohere 的託管推理平臺 Model Vault。隨著 Granola 與 Wispr Flow 等筆記與口述應用需求增長，語音識別模型日益受歡迎。今年初，Cohere 向投資者透露其 2025 年年度經常性收入達 2.4 億美元，執行長 Aidan Gomez 亦表示該公司可能「很快」上市。