Smart Turn v2: detección de giros de audio nativo de código abierto en 14 idiomas. Nuevo punto de control del código abierto, datos abiertos, código de entrenamiento abierto, modelo VAD semántico en @huggingface, @FAL y @pipecat_ai. - Inferencia 3 veces más rápida (12 ms en un L40) - 14 idiomas (13 más que la v1, que era solo en inglés) - Nuevo conjunto de datos sintéticos 'chirp_3_all' con ~163k muestras de audio - Precisión del 99 % en los datos de prueba "human_5_all" Una buena detección de giros es fundamental para los agentes de voz. Este modelo "entiende" los patrones semánticos y de audio, y mitiga el equilibrio de la IA de voz entre la latencia de turno no deseada y el agente que interrumpe a las personas antes de que terminen de hablar. Los scripts de entrenamiento para el entrenamiento @modal_labs y local se encuentran en el repositorio. ¡Queremos que sea lo más fácil posible contribuir o personalizar este modelo! Aquí hay una demostración que ejecuta el modelo de giro inteligente con la configuración predeterminada, destinada a alcanzar generalmente un tiempo total de detección de giro de 400 ms. También puedes ajustar las cosas para que sean más rápidas. ¡Puedes ayudar contribuyendo con datos, haciendo experimentos de arquitectura o limpiando datos de código abierto! Sigue leyendo...
36.9K