Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Smart Turn v2: detección de giros de audio nativa de código abierto en 14 idiomas.
Nuevo punto de control del modelo VAD semántico de código abierto, datos abiertos y código de entrenamiento abierto en @huggingface, @FAL y @pipecat_ai.
- Inferencia 3x más rápida (12ms en un L40)
- 14 idiomas (13 más que v1, que era solo en inglés)
- Nuevo conjunto de datos sintético `chirp_3_all` con ~163k muestras de audio
- 99% de precisión en los datos de prueba `human_5_all` reservados
Una buena detección de giros es crítica para los agentes de voz. Este modelo "entiende" tanto los patrones semánticos como los de audio, y mitiga el compromiso de la IA de voz entre la latencia de giro no deseada y el agente interrumpiendo a las personas antes de que terminen de hablar.
Los scripts de entrenamiento para @modal_labs y el entrenamiento local están en el repositorio. ¡Queremos que sea lo más fácil posible contribuir o personalizar este modelo!
Aquí hay una demostración que ejecuta el modelo smart-turn con configuraciones predeterminadas, con el objetivo de alcanzar un tiempo total de detección de giros de 400ms. También puedes ajustar las cosas para que sean más rápidas.
¡Puedes ayudar contribuyendo con datos, haciendo experimentos de arquitectura o limpiando datos de código abierto! Sigue leyendo ...
36,92K
Parte superior
Clasificación
Favoritos