¡Presentamos los mejores modelos de reconocimiento de voz (y abiertos) del mundo!
Los modelos Voxtral 3B y Voxtral 24B van más allá de la transcripción con capacidades que incluyen: · Contexto de formato largo: con una longitud de contexto de 32k tokens, Voxtral maneja audios de hasta 30 minutos para transcripción, o 40 minutos para comprensión. · Preguntas y respuestas y resumen integrados: Soporta hacer preguntas directamente sobre el contenido de audio o generar resúmenes estructurados, sin necesidad de encadenar modelos ASR y de lenguaje separados. · Nativamente multilingüe: Detección automática de idiomas y rendimiento de vanguardia en los idiomas más utilizados del mundo (inglés, español, francés, portugués, hindi, alemán, neerlandés, italiano, por nombrar algunos), ayudando a los equipos a atender audiencias globales con un solo sistema. · Llamadas a funciones directamente desde la voz: Permite activar directamente funciones de backend, flujos de trabajo o llamadas a API basadas en las intenciones expresadas por el usuario, convirtiendo las interacciones de voz en comandos del sistema accionables sin pasos intermedios de análisis. · Altamente capaz en texto: Retiene las capacidades de comprensión de texto de su modelo de lenguaje base, Mistral Small 3.1.
486,91K