Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Smart Turn v2: открытый исходный код, нативное обнаружение поворотов звука на 14 языках.
Новая контрольная точка открытого исходного кода, открытых данных, кода открытого обучения, семантической модели VAD на @huggingface, @FAL и @pipecat_ai.
- В 3 раза быстрее вывод (12 мс на L40)
- 14 языков (на 13 больше, чем v1, который был только на английском)
- Новый синтетический набор данных `chirp_3_all` с ~163k аудиозаписей
- 99% точность на отложенных тестовых данных `human_5_all`
Хорошее обнаружение поворотов критически важно для голосовых агентов. Эта модель "понимает" как семантические, так и аудиопаттерны и смягчает компромисс голосового ИИ между нежелательной задержкой поворота и тем, что агент перебивает людей, прежде чем они закончат говорить.
Скрипты обучения как для @modal_labs, так и для локального обучения находятся в репозитории. Мы хотим сделать так, чтобы было как можно проще внести свой вклад или настроить эту модель!
Вот демонстрация работы модели smart-turn с настройками по умолчанию, нацеленная на общее время обнаружения поворота в 400 мс. Вы также можете настроить параметры для более быстрого обнаружения.
Вы можете помочь, внося данные, проводя эксперименты с архитектурой или очищая открытые данные! Продолжайте читать ...
36,91K
Топ
Рейтинг
Избранное