介紹世界上最好的(也是開放的)語音識別模型!
Voxtral 3B 和 Voxtral 24B 模型超越了轉錄,具備以下功能: · 長篇上下文:擁有 32k 令牌的上下文長度,Voxtral 能夠處理長達 30 分鐘的音頻進行轉錄,或 40 分鐘的音頻進行理解 · 內建問答和摘要:支持直接詢問音頻內容的問題或生成結構化摘要,無需鏈接單獨的 ASR 和語言模型 · 原生多語言:自動語言檢測,並在全球最廣泛使用的語言(英語、西班牙語、法語、葡萄牙語、印地語、德語、荷蘭語、意大利語等)中表現出色,幫助團隊以單一系統服務全球受眾 · 直接從語音調用功能:根據用戶的語音意圖直接觸發後端功能、工作流程或 API 調用,將語音互動轉化為可執行的系統命令,而無需中間解析步驟。 · 在文本理解方面能力強大:保留其語言模型骨幹 Mistral Small 3.1 的文本理解能力。
486.89K