热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
介绍世界上最好的(也是开放的)语音识别模型!

Voxtral 3B 和 Voxtral 24B 模型不仅限于转录,还具备以下功能:
· 长文本上下文:Voxtral 具有 32k 令牌的上下文长度,能够处理长达 30 分钟的音频进行转录,或 40 分钟的音频进行理解
· 内置问答和摘要:支持直接询问音频内容的问题或生成结构化摘要,无需将单独的 ASR 和语言模型串联
· 原生多语言:自动语言检测和在全球最广泛使用语言(英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语、意大利语等)中的先进性能,帮助团队使用单一系统服务全球受众
· 直接从语音调用功能:根据用户的口语意图直接触发后端功能、工作流或 API 调用,将语音交互转化为可操作的系统命令,无需中间解析步骤。
· 在文本理解方面能力强大:保留其语言模型基础 Mistral Small 3.1 的文本理解能力。
486.89K
热门
排行
收藏