Smart Turn v2: открытый исходный код, нативное обнаружение поворотов звука на 14 языках. Новая контрольная точка открытого исходного кода, открытых данных, кода открытого обучения, семантической модели VAD на @huggingface, @FAL и @pipecat_ai. - В 3 раза быстрее вывод (12 мс на L40) - 14 языков (на 13 больше, чем v1, который был только на английском) - Новый синтетический набор данных `chirp_3_all` с ~163k аудиозаписей - 99% точность на отложенных тестовых данных `human_5_all` Хорошее обнаружение поворотов критически важно для голосовых агентов. Эта модель "понимает" как семантические, так и аудиопаттерны и смягчает компромисс голосового ИИ между нежелательной задержкой поворота и тем, что агент перебивает людей, прежде чем они закончат говорить. Скрипты обучения как для @modal_labs, так и для локального обучения находятся в репозитории. Мы хотим сделать так, чтобы было как можно проще внести свой вклад или настроить эту модель! Вот демонстрация работы модели smart-turn с настройками по умолчанию, нацеленная на общее время обнаружения поворота в 400 мс. Вы также можете настроить параметры для более быстрого обнаружения. Вы можете помочь, внося данные, проводя эксперименты с архитектурой или очищая открытые данные! Продолжайте читать ...
36,91K