Представляем лучшие (и открытые) модели распознавания речи в мире!
Модели Voxtral 3B и Voxtral 24B выходят за рамки транскрипции и обладают следующими возможностями: · Долгосрочный контекст: с длиной контекста в 32k токенов Voxtral обрабатывает аудио до 30 минут для транскрипции или 40 минут для понимания · Встроенные вопросы и ответы и резюмирование: поддерживает возможность задавать вопросы непосредственно о содержании аудио или генерировать структурированные резюме, без необходимости связывать отдельные модели ASR и языковые модели · Нативно многоязычный: автоматическое определение языка и передовые показатели производительности на самых широко используемых языках мира (английский, испанский, французский, португальский, хинди, немецкий, голландский, итальянский и другие), помогая командам обслуживать глобальную аудиторию с помощью одной системы · Вызов функций прямо из голоса: позволяет напрямую инициировать функции бэкенда, рабочие процессы или API-вызовы на основе произнесенных намерений пользователя, превращая голосовые взаимодействия в действительные команды системы без промежуточных этапов парсинга. · Высокие способности в тексте: сохраняет возможности понимания текста своей языковой модели, Mistral Small 3.1
486,93K