介绍世界上最好的(也是开放的)语音识别模型!
Voxtral 3B 和 Voxtral 24B 模型不仅限于转录,还具备以下功能: · 长文本上下文:Voxtral 具有 32k 令牌的上下文长度,能够处理长达 30 分钟的音频进行转录,或 40 分钟的音频进行理解 · 内置问答和摘要:支持直接询问音频内容的问题或生成结构化摘要,无需将单独的 ASR 和语言模型串联 · 原生多语言:自动语言检测和在全球最广泛使用语言(英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语、意大利语等)中的先进性能,帮助团队使用单一系统服务全球受众 · 直接从语音调用功能:根据用户的口语意图直接触发后端功能、工作流或 API 调用,将语音交互转化为可操作的系统命令,无需中间解析步骤。 · 在文本理解方面能力强大:保留其语言模型基础 Mistral Small 3.1 的文本理解能力。
486.89K